Spaces:

tejovanth
/

exampletwo

Sleeping

App Files Files Community

tejovanth commited on Apr 17, 2025

Commit

b26f983

verified ·

1 Parent(s): a725b8a

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -3

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 import fitz
 import torch
 from transformers import pipeline
-import time, logging
 logging.basicConfig(level=logging.ERROR)
 device = -1  # CPU-only
@@ -18,7 +18,14 @@ def summarize_file(file_bytes):
     start = time.time()
     print(f"File type: {type(file_bytes)}")
     try:
-        text = "".join(page.get_text("text", flags=16) for page in fitz.open(stream=file_bytes, filetype="pdf")) if file_bytes[:4].startswith(b'%PDF') else file_bytes.decode("utf-8", errors="ignore")
     except Exception as e:
         return f"❌ Text extraction failed: {str(e)}"
     if not text.strip(): return "❌ No text found"
@@ -28,9 +35,12 @@ def summarize_file(file_bytes):
     if not chunks: return "❌ No chunks to summarize"
     summaries = []
     for i, chunk in enumerate(chunks):
-        if time.time() - start > 15:
             summaries.append("⚠️ Stopped early")
             break
         try:
             summary = summarizer(chunk, max_length=60, min_length=10, do_sample=False)[0]['summary_text']
             summaries.append(f"**Chunk {i+1}**:\n{summary}")

 import fitz
 import torch
 from transformers import pipeline
+import time, logging, re
 logging.basicConfig(level=logging.ERROR)
 device = -1  # CPU-only
     start = time.time()
     print(f"File type: {type(file_bytes)}")
     try:
+        doc = fitz.open(stream=file_bytes, filetype="pdf")
+        text = "".join(page.get_text("text") for page in doc)
+        # Clean OCR noise: replace LaTeX, remove excessive whitespace, non-ASCII
+        text = re.sub(r"\$\s*([^$]+)\s*\$", r"\1", text)  # Strip $...$
+        text = re.sub(r"\\cap", "intersection", text)  # Handle ∩
+        text = re.sub(r"\s+", " ", text).strip()  # Normalize whitespace
+        text = "".join(c for c in text if ord(c) < 128)  # ASCII only
+        print(f"Extracted chars: {len(text)}")
     except Exception as e:
         return f"❌ Text extraction failed: {str(e)}"
     if not text.strip(): return "❌ No text found"
     if not chunks: return "❌ No chunks to summarize"
     summaries = []
     for i, chunk in enumerate(chunks):
+        if time.time() - start > 20:
             summaries.append("⚠️ Stopped early")
             break
+        if sum(1 for c in chunk if not c.isalnum()) / len(chunk) > 0.5:  # Skip equation-heavy chunks
+            summaries.append(f"**Chunk {i+1}**: Skipped (equation-heavy)")
+            continue
         try:
             summary = summarizer(chunk, max_length=60, min_length=10, do_sample=False)[0]['summary_text']
             summaries.append(f"**Chunk {i+1}**:\n{summary}")