Spaces:

Omnibus
/

pdf-reader

Sleeping

Omnibus commited on Jul 23, 2023

Commit

bdb82f0

1 Parent(s): e8481be

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -77,11 +77,11 @@ def pdf_pil(file_path,page_num):
     return (f"image_{page_num}.png")
-def ocrpdf(file_path,pdf_lang,page_num,sent_wid,):
     img1 = pdf_pil(file_path,page_num)
     lang=[f"{ocr_id[pdf_lang]}"]
     reader = easyocr.Reader(lang)
-    bounds = reader.readtext(img1,width_ths=1)
     this = ""
     for bound in bounds:
@@ -97,7 +97,7 @@ def scrape(instring):
     </div>''')
     return gr.HTML.update(f'''{html_src}''')
-def scrape00(instring, page_num,pdf_lang):
     response = requests.get(instring, stream=True)
     if response.status_code == 200:
@@ -119,7 +119,7 @@ def scrape00(instring, page_num,pdf_lang):
         sum_out = summarizer(text)
     except Exception:
         try:
-            text = ocrpdf("data.pdf",pdf_lang,page_num)
             sum_out = summarizer(text)
         except Exception:
             sum_out = "Error"

     return (f"image_{page_num}.png")
+def ocrpdf(file_path,pdf_lang,page_num,sent_wid,contrast_det):
     img1 = pdf_pil(file_path,page_num)
     lang=[f"{ocr_id[pdf_lang]}"]
     reader = easyocr.Reader(lang)
+    bounds = reader.readtext(img1,width_ths=sent_wid,contrast_ths=contrast_det)
     this = ""
     for bound in bounds:
     </div>''')
     return gr.HTML.update(f'''{html_src}''')
+def scrape00(instring, page_num,pdf_lang,sent_wid,contrast_det):
     response = requests.get(instring, stream=True)
     if response.status_code == 200:
         sum_out = summarizer(text)
     except Exception:
         try:
+            text = ocrpdf("data.pdf",pdf_lang,page_num,sent_wid,contrast_det)
             sum_out = summarizer(text)
         except Exception:
             sum_out = "Error"