Spaces:

chiichann
/

midterm_project_historical_document_deciphering_app

Sleeping

App Files Files Community

chiichann commited on Apr 9, 2025

Commit

854b9f6

verified ·

1 Parent(s): 1046682

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -14

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import streamlit as st
 from PIL import Image
-import pytesseract
 import io
 import fitz  # PyMuPDF
 import cv2
@@ -10,14 +10,15 @@ from transformers import pipeline
 from difflib import SequenceMatcher
 import folium
 from streamlit_folium import st_folium
-import wikipediaapi
-pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'
 # Load summarization and NER pipeline
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 ner_pipeline = pipeline("ner", aggregation_strategy="simple")
 # Streamlit App
 st.set_page_config(page_title="AI Historical Document Decipher", layout="wide")
 st.title("📜 AI-powered Historical Document Deciphering App")
@@ -53,17 +54,22 @@ def enhance_image(image):
     _, binary = cv2.threshold(sharpened, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
     # Optional: Resize (sometimes helps OCR)
-    scale_percent = 150  # percent of original size
     width = int(binary.shape[1] * scale_percent / 100)
     height = int(binary.shape[0] * scale_percent / 100)
     resized = cv2.resize(binary, (width, height), interpolation=cv2.INTER_CUBIC)
     return resized
-# Function to perform OCR
 def perform_ocr(image):
-    custom_oem_psm_config = r'--oem 3 --psm 6 -c preserve_interword_spaces=1'
-    text = pytesseract.image_to_string(image, config=custom_oem_psm_config)
     return text
 # Function to extract named entities
@@ -76,15 +82,18 @@ def extract_entities(text):
     return extracted
 def get_historical_context(entities):
-    wiki_wiki = wikipediaapi.Wikipedia('en')
     context = {}
     for label, values in entities.items():
         for item in values:
-            page = wiki_wiki.page(item)
-            if page.exists():
-                context[item] = page.summary[0:500]  # get first 500 characters
-            else:
                 context[item] = f"No historical info found for '{item}'."
     return context
 # Function to correct OCR errors (suggestions)
@@ -93,7 +102,8 @@ def suggest_corrections(original_text):
     suggestions = {}
     for word in words:
         if len(word) > 4 and not word.isnumeric():
-            close_matches = [w for w in ["document", "historical", "archive", "event", "location"] if SequenceMatcher(None, word.lower(), w).ratio() > 0.75]
             if close_matches:
                 suggestions[word] = close_matches[0]
     return suggestions

 import streamlit as st
 from PIL import Image
+import easyocr
 import io
 import fitz  # PyMuPDF
 import cv2
 from difflib import SequenceMatcher
 import folium
 from streamlit_folium import st_folium
+import wikipedia
 # Load summarization and NER pipeline
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
 ner_pipeline = pipeline("ner", aggregation_strategy="simple")
+# Initialize EasyOCR reader
+reader = easyocr.Reader(['en'], gpu=False)
 # Streamlit App
 st.set_page_config(page_title="AI Historical Document Decipher", layout="wide")
 st.title("📜 AI-powered Historical Document Deciphering App")
     _, binary = cv2.threshold(sharpened, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
     # Optional: Resize (sometimes helps OCR)
+    scale_percent = 150
     width = int(binary.shape[1] * scale_percent / 100)
     height = int(binary.shape[0] * scale_percent / 100)
     resized = cv2.resize(binary, (width, height), interpolation=cv2.INTER_CUBIC)
     return resized
+# Function to perform OCR using EasyOCR
 def perform_ocr(image):
+    if isinstance(image, np.ndarray):
+        img_array = image
+    else:
+        img_array = np.array(image.convert('RGB'))
+    results = reader.readtext(img_array, detail=0)
+    text = '\n'.join(results)
     return text
 # Function to extract named entities
     return extracted
 def get_historical_context(entities):
     context = {}
     for label, values in entities.items():
         for item in values:
+            try:
+                summary = wikipedia.summary(item, sentences=2)
+                context[item] = summary
+            except wikipedia.exceptions.DisambiguationError as e:
+                context[item] = f"Multiple entries found for '{item}': {e.options[:3]}"
+            except wikipedia.exceptions.PageError:
                 context[item] = f"No historical info found for '{item}'."
+            except Exception as e:
+                context[item] = f"Error retrieving info: {e}"
     return context
 # Function to correct OCR errors (suggestions)
     suggestions = {}
     for word in words:
         if len(word) > 4 and not word.isnumeric():
+            close_matches = [w for w in ["document", "historical", "archive", "event", "location"]
+                             if SequenceMatcher(None, word.lower(), w).ratio() > 0.75]
             if close_matches:
                 suggestions[word] = close_matches[0]
     return suggestions