Spaces:

SuriRaja
/

usecase2

Sleeping

SuriRaja commited on Nov 11, 2024

Commit

2e4777d

verified ·

1 Parent(s): 5adc3d1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,12 +2,12 @@ import streamlit as st
 import fitz  # PyMuPDF
 import difflib
 from PIL import Image, ImageChops, ImageDraw
-import pytesseract
 import io
 import re
-# Set up Tesseract path if needed (adjust as per system requirements)
-# pytesseract.pytesseract.tesseract_cmd = '/usr/local/bin/tesseract'
 def load_and_compare_documents(file1, file2):
     file1_content = file1.read()
@@ -141,8 +141,8 @@ def perform_ocr_and_compare(content1, content2):
     images2 = pdf_to_images(content2)
     for (page_num, img1), (_, img2) in zip(images1, images2):
-        text1 = pytesseract.image_to_string(img1)
-        text2 = pytesseract.image_to_string(img2)
         if text1 != text2:
             diff = list(difflib.ndiff(text1, text2))

 import fitz  # PyMuPDF
 import difflib
 from PIL import Image, ImageChops, ImageDraw
+import easyocr
 import io
 import re
+# Initialize the easyocr Reader
+ocr_reader = easyocr.Reader(['en'])
 def load_and_compare_documents(file1, file2):
     file1_content = file1.read()
     images2 = pdf_to_images(content2)
     for (page_num, img1), (_, img2) in zip(images1, images2):
+        text1 = ' '.join([result[1] for result in ocr_reader.readtext(img1)])
+        text2 = ' '.join([result[1] for result in ocr_reader.readtext(img2)])
         if text1 != text2:
             diff = list(difflib.ndiff(text1, text2))