Spaces:

kodetr
/

scriptai-backend

Sleeping

App Files Files Community

kodetr commited on about 1 month ago

Commit

519d951

verified ·

1 Parent(s): 40345a5

update

Browse files

Files changed (2) hide show

api_server.py +0 -6
extract_pdf_text.py +22 -4

api_server.py CHANGED Viewed

@@ -61,12 +61,6 @@ async def extract_pdf_text(
 ) -> JSONResponse:
     ensure_authorized(authorization)
-    filename = (file.filename or "uploaded.pdf").lower()
-    content_type = (file.content_type or "").lower()
-    if not filename.endswith(".pdf") and "pdf" not in content_type:
-        raise HTTPException(status_code=422, detail="File harus berformat PDF.")
     max_pages = max(1, min(max_pages, 80))
     suffix = ".pdf"

 ) -> JSONResponse:
     ensure_authorized(authorization)
     max_pages = max(1, min(max_pages, 80))
     suffix = ".pdf"

extract_pdf_text.py CHANGED Viewed

@@ -154,11 +154,11 @@ def ocr_with_paddle(path: str, max_pages: int) -> str:
 def looks_like_text_based(text: str) -> bool:
     text = clean_text(text)
-    if len(text) < 40:
         return False
     alnum_count = sum(1 for c in text if c.isalnum())
-    return alnum_count >= 24
 def run(path: str, max_pages: int, ocr_lang: str) -> dict:
@@ -187,6 +187,11 @@ def run(path: str, max_pages: int, ocr_lang: str) -> dict:
             "mode": "scan-ocr",
             "engine": "tesseract",
             "text": text_ocr_tesseract,
         }
     text_ocr_paddle = ocr_with_paddle(path, max_pages)
@@ -196,15 +201,28 @@ def run(path: str, max_pages: int, ocr_lang: str) -> dict:
             "mode": "scan-ocr",
             "engine": "paddleocr",
             "text": text_ocr_paddle,
         }
     merged = clean_text("\n\n".join([text, text_pdfplumber, text_ocr_tesseract, text_ocr_paddle]))
     return {
-        "success": merged != "",
         "mode": "mixed-fallback" if merged else "none",
         "engine": "combined",
         "text": merged,
-        "error": "Tidak ada teks yang dapat diekstrak dari PDF." if merged == "" else None,
     }

 def looks_like_text_based(text: str) -> bool:
     text = clean_text(text)
+    if len(text) < 10:
         return False
     alnum_count = sum(1 for c in text if c.isalnum())
+    return alnum_count >= 6
 def run(path: str, max_pages: int, ocr_lang: str) -> dict:
             "mode": "scan-ocr",
             "engine": "tesseract",
             "text": text_ocr_tesseract,
+            "debug": {
+                "len_pymupdf": len(clean_text(text)),
+                "len_pdfplumber": len(clean_text(text_pdfplumber)),
+                "len_tesseract": len(clean_text(text_ocr_tesseract)),
+            },
         }
     text_ocr_paddle = ocr_with_paddle(path, max_pages)
             "mode": "scan-ocr",
             "engine": "paddleocr",
             "text": text_ocr_paddle,
+            "debug": {
+                "len_pymupdf": len(clean_text(text)),
+                "len_pdfplumber": len(clean_text(text_pdfplumber)),
+                "len_tesseract": len(clean_text(text_ocr_tesseract)),
+                "len_paddleocr": len(clean_text(text_ocr_paddle)),
+            },
         }
     merged = clean_text("\n\n".join([text, text_pdfplumber, text_ocr_tesseract, text_ocr_paddle]))
     return {
+        "success": len(merged) >= 10,
         "mode": "mixed-fallback" if merged else "none",
         "engine": "combined",
         "text": merged,
+        "error": "Tidak ada teks yang dapat diekstrak dari PDF." if len(merged) < 10 else None,
+        "debug": {
+            "len_pymupdf": len(clean_text(text)),
+            "len_pdfplumber": len(clean_text(text_pdfplumber)),
+            "len_tesseract": len(clean_text(text_ocr_tesseract)),
+            "len_paddleocr": len(clean_text(text_ocr_paddle)),
+            "len_merged": len(merged),
+        },
     }