Spaces:

prat1003
/

project2

Sleeping

prat1003 commited on Oct 13, 2025

Commit

4b1b7b9

verified ·

1 Parent(s): 2085bbf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ def extract_text_from_pdf(file_path):
     reader_pdf = PdfReader(file_path)
     text = ""
     for page in reader_pdf.pages:
-        t = page.extract_text()
         if t:
             text += t + "\n"
     return text.strip()
@@ -40,9 +40,12 @@ def extract_text_from_scanned_pdf(file_path):
     pages = convert_from_path(file_path, dpi=150)
     text = ""
     for page in pages:
-        img_array = np.array(page)
-        result = reader.readtext(img_array, detail=0)
-        text += " ".join(result) + "\n"
     return text.strip()
 # -----------------------------

     reader_pdf = PdfReader(file_path)
     text = ""
     for page in reader_pdf.pages:
+        t = getattr(page, 'extract_text', lambda: None)()
         if t:
             text += t + "\n"
     return text.strip()
     pages = convert_from_path(file_path, dpi=150)
     text = ""
     for page in pages:
+        try:
+            img_array = np.array(page)
+            result = reader.readtext(img_array, detail=0)
+            text += " ".join(result) + "\n"
+        except Exception as e:
+            print("OCR error on page:", e)
     return text.strip()
 # -----------------------------