Spaces:

AkashKumarave
/

pdf_testing

Sleeping

App Files Files Community

AkashKumarave commited on Dec 27, 2025

Commit

f38e71b

verified ·

1 Parent(s): ccd05a4

Create app.py

Browse files

Files changed (1) hide show

app.py +93 -0

app.py ADDED Viewed

	@@ -0,0 +1,93 @@

+import fitz  # PyMuPDF
+import base64
+from fastapi import FastAPI, File, UploadFile
+from fastapi.middleware.cors import CORSMiddleware
+app = FastAPI()
+# Enable CORS for Figma
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+def rgb_to_figma(color):
+    if not color: return {"r": 0, "g": 0, "b": 0}
+    # PyMuPDF returns (r, g, b) in 0-1 range or 0-255 based on context
+    return {"r": color[0], "g": color[1], "b": color[2]}
+@app.post("/convert")
+async def convert_pdf(file: UploadFile = File(...)):
+    doc = fitz.open(stream=await file.read(), filetype="pdf")
+    pages_data = []
+    for page_index, page in enumerate(doc):
+        viewport = page.rect
+        page_dict = {
+            "width": viewport.width,
+            "height": viewport.height,
+            "text": [],
+            "images": [],
+            "vectors": []
+        }
+        # 1. Extract Styled Text
+        raw_dict = page.get_text("dict")
+        for block in raw_dict["blocks"]:
+            if block["type"] == 0:  # Text block
+                for line in block["lines"]:
+                    for span in line["spans"]:
+                        page_dict["text"].append({
+                            "content": span["text"],
+                            "x": span["bbox"][0],
+                            "y": span["bbox"][1],
+                            "size": span["size"],
+                            "font": span["font"],
+                            "color": rgb_to_figma(fitz.utils.getColor(span["color"]))
+                        })
+        # 2. Extract Vectors (Line Art)
+        drawings = page.get_drawings()
+        for draw in drawings:
+            path_data = ""
+            for item in draw["items"]:
+                if item[0] == "l": # line
+                    path_data += f"M {item[1].x} {item[1].y} L {item[2].x} {item[2].y} "
+                elif item[0] == "c": # curve
+                    path_data += f"M {item[1].x} {item[1].y} C {item[2].x} {item[2].y} {item[3].x} {item[3].y} {item[4].x} {item[4].y} "
+                elif item[0] == "re": # rect
+                    r = item[1]
+                    path_data += f"M {r.x0} {r.y0} L {r.x1} {r.y0} L {r.x1} {r.y1} L {r.x0} {r.y1} Z "
+            if path_data:
+                page_dict["vectors"].append({
+                    "data": path_data.strip(),
+                    "fill": rgb_to_figma(draw.get("fill")),
+                    "stroke": rgb_to_figma(draw.get("color")),
+                    "width": draw.get("width", 1)
+                })
+        # 3. Extract Images
+        for img_index, img in enumerate(page.get_images(full=True)):
+            xref = img[0]
+            base_image = doc.extract_image(xref)
+            # Get the exact location of the image on the page
+            img_rects = page.get_image_rects(xref)
+            for rect in img_rects:
+                page_dict["images"].append({
+                    "bytes": base64.b64encode(base_image["image"]).decode("utf-8"),
+                    "x": rect.x0,
+                    "y": rect.y0,
+                    "width": rect.width,
+                    "height": rect.height
+                })
+        pages_data.append(page_dict)
+    return {"pages": pages_data}
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)