Spaces:

ReneeHWT
/

PDF_OCR_Extract

Sleeping

ReneeHWT commited on Jun 13, 2025

Commit

f69b8ba

verified ·

1 Parent(s): 40ca645

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,11 +16,8 @@ def extract_text(file):
     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     full_text = ""
     for page in doc:
-        # 以 300 dpi 渲染
         pix = page.get_pixmap(dpi=300)
-        img_data = pix.tobytes("png")
-        img = Image.open(io.BytesIO(img_data))
-        # OCR，支援英文與繁體中文
         page_text = pytesseract.image_to_string(img, lang='eng+chi_tra')
         full_text += page_text + "\n\n"
     return full_text

     doc = fitz.open(stream=pdf_bytes, filetype="pdf")
     full_text = ""
     for page in doc:
         pix = page.get_pixmap(dpi=300)
+        img = Image.open(io.BytesIO(pix.tobytes("png")))
         page_text = pytesseract.image_to_string(img, lang='eng+chi_tra')
         full_text += page_text + "\n\n"
     return full_text