Spaces:

redhairedshanks1
/

Extract-Text-and-Table

Paused

App Files Files Community

redhairedshanks1 commited on Aug 20, 2025

Commit

cbaab47

verified ·

1 Parent(s): 5d43a8b

Update services/extract_text.py

Browse files

Files changed (1) hide show

services/extract_text.py +34 -15

services/extract_text.py CHANGED Viewed

@@ -175,7 +175,7 @@ from concurrent.futures import ThreadPoolExecutor, as_completed
 # OCR
 from paddleocr import PaddleOCR
-# Optional Mistral OCR
 try:
     from doctr.models import ocr_predictor
     from doctr.io import DocumentFile
@@ -196,9 +196,13 @@ logger = logging.getLogger(__name__)
 # PaddleOCR
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
 def clean_text(text):
     return re.sub(r'\s+', ' ', text).strip()
 def auto_rotate_image(pil_img):
     """Auto-rotate PIL image safely."""
     if pil_img.mode != "RGB":
@@ -216,6 +220,7 @@ def auto_rotate_image(pil_img):
                              borderMode=cv2.BORDER_REPLICATE)
     return Image.fromarray(cv2.cvtColor(rotated, cv2.COLOR_GRAY2RGB))
 def extract_images_with_fitz(pdf_path, start_page=1, end_page=None):
     images = []
     try:
@@ -237,21 +242,21 @@ def extract_images_with_fitz(pdf_path, start_page=1, end_page=None):
     return images
-# -------------------- Parallel Extraction Wrapper --------------------
 def try_pymupdf_text(doc, start, end):
-    """Try extracting text using PyMuPDF native text extraction"""
     result = []
     for i in range(start-1, end):
-        page = doc[i]
-        text = page.get_text()
-        if text.strip():
-            result.append(f"Page {i+1}:\n{clean_text(text)}")
     return "\n\n".join(result)
 def try_paddleocr(images):
-    """Try OCR using PaddleOCR"""
     result = []
     for page_num, img in images:
         img = auto_rotate_image(img)
@@ -259,14 +264,14 @@ def try_paddleocr(images):
         try:
             ocr_result = ocr.ocr(img_np, cls=True)
             ocr_text = "\n".join([line[1][0] for line in ocr_result[0]]) if ocr_result else ""
-            result.append(f"Page {page_num}:\n{clean_text(ocr_text)}")
         except Exception as e:
             logger.warning(f"PaddleOCR failed on page {page_num}: {e}")
     return "\n\n".join(result)
 def try_mistralocr(images):
-    """Try OCR using Mistral/Doctr OCR"""
     if not use_mistral_ocr:
         return ""
     result = []
@@ -274,7 +279,8 @@ def try_mistralocr(images):
         try:
             doc_img = DocumentFile.from_images(img)
             ocr_text = mistral_ocr(doc_img).render()
-            result.append(f"Page {page_num}:\n{clean_text(ocr_text)}")
         except Exception as e:
             logger.warning(f"Mistral OCR failed on page {page_num}: {e}")
     return "\n\n".join(result)
@@ -297,6 +303,7 @@ def extract_text_from_file(file, start_page=None, end_page=None, filename=None):
         end = min(end_page or total_pages, total_pages)
         images = extract_images_with_fitz(file.name, start, end)
         tasks = {}
         with ThreadPoolExecutor() as executor:
             tasks[executor.submit(try_pymupdf_text, doc, start, end)] = "PyMuPDF"
@@ -310,23 +317,34 @@ def extract_text_from_file(file, start_page=None, end_page=None, filename=None):
                 try:
                     text = future.result()
                     results[method] = text
                 except Exception as e:
                     logger.error(f"{method} failed: {e}")
                     results[method] = ""
         doc.close()
-        # Pick the longest text among the methods
-        best_method, best_text = max(results.items(), key=lambda kv: len(kv[1].strip()))
-        logger.info(f"Best extraction chosen: {best_method} (length {len(best_text)})")
-        return best_text or "[No text extracted]"
     elif ext == ".docx":
         from docx import Document
         doc = Document(file.name)
         paras = [p.text for p in doc.paragraphs if p.text.strip()]
         return clean_text("\n".join(paras))
     elif ext == ".csv":
         import pandas as pd
         try:
@@ -335,6 +353,7 @@ def extract_text_from_file(file, start_page=None, end_page=None, filename=None):
             logger.error(f"CSV read error: {e}")
             return "[CSV Read Error]"
     elif ext in [".xls", ".xlsx"]:
         import pandas as pd
         try:

 # OCR
 from paddleocr import PaddleOCR
+# Optional Doctr OCR
 try:
     from doctr.models import ocr_predictor
     from doctr.io import DocumentFile
 # PaddleOCR
 ocr = PaddleOCR(use_angle_cls=True, lang='en')
+# -------------------- Helpers --------------------
 def clean_text(text):
     return re.sub(r'\s+', ' ', text).strip()
 def auto_rotate_image(pil_img):
     """Auto-rotate PIL image safely."""
     if pil_img.mode != "RGB":
                              borderMode=cv2.BORDER_REPLICATE)
     return Image.fromarray(cv2.cvtColor(rotated, cv2.COLOR_GRAY2RGB))
 def extract_images_with_fitz(pdf_path, start_page=1, end_page=None):
     images = []
     try:
     return images
+# -------------------- Extractors --------------------
 def try_pymupdf_text(doc, start, end):
     result = []
     for i in range(start-1, end):
+        try:
+            text = doc[i].get_text("text")
+            if text.strip():
+                result.append(f"Page {i+1}:\n{clean_text(text)}")
+        except Exception as e:
+            logger.warning(f"PyMuPDF failed on page {i+1}: {e}")
     return "\n\n".join(result)
 def try_paddleocr(images):
     result = []
     for page_num, img in images:
         img = auto_rotate_image(img)
         try:
             ocr_result = ocr.ocr(img_np, cls=True)
             ocr_text = "\n".join([line[1][0] for line in ocr_result[0]]) if ocr_result else ""
+            if ocr_text.strip():
+                result.append(f"Page {page_num}:\n{clean_text(ocr_text)}")
         except Exception as e:
             logger.warning(f"PaddleOCR failed on page {page_num}: {e}")
     return "\n\n".join(result)
 def try_mistralocr(images):
     if not use_mistral_ocr:
         return ""
     result = []
         try:
             doc_img = DocumentFile.from_images(img)
             ocr_text = mistral_ocr(doc_img).render()
+            if ocr_text.strip():
+                result.append(f"Page {page_num}:\n{clean_text(ocr_text)}")
         except Exception as e:
             logger.warning(f"Mistral OCR failed on page {page_num}: {e}")
     return "\n\n".join(result)
         end = min(end_page or total_pages, total_pages)
         images = extract_images_with_fitz(file.name, start, end)
+        # Run all methods in parallel
         tasks = {}
         with ThreadPoolExecutor() as executor:
             tasks[executor.submit(try_pymupdf_text, doc, start, end)] = "PyMuPDF"
                 try:
                     text = future.result()
                     results[method] = text
+                    logger.info(f"{method} produced {len(text.split())} words")
                 except Exception as e:
                     logger.error(f"{method} failed: {e}")
                     results[method] = ""
         doc.close()
+        # Selection logic
+        best_method, best_text = max(
+            results.items(),
+            key=lambda kv: len(kv[1].split())  # choose longest by word count
+        )
+        logger.info(f"✅ Best extraction chosen: {best_method} "
+                    f"(words: {len(best_text.split())})")
+        if not best_text.strip():
+            return "[No text extracted]"
+        return best_text
+    # DOCX
     elif ext == ".docx":
         from docx import Document
         doc = Document(file.name)
         paras = [p.text for p in doc.paragraphs if p.text.strip()]
         return clean_text("\n".join(paras))
+    # CSV
     elif ext == ".csv":
         import pandas as pd
         try:
             logger.error(f"CSV read error: {e}")
             return "[CSV Read Error]"
+    # Excel
     elif ext in [".xls", ".xlsx"]:
         import pandas as pd
         try: