Spaces:

tejovanth
/

example_five

Sleeping

App Files Files Community

tejovanth commited on Apr 25, 2025

Commit

40cfd28

verified ·

1 Parent(s): 2e40204

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -17

app.py CHANGED Viewed

@@ -9,7 +9,6 @@ import matplotlib.pyplot as plt
 import io
 from PIL import Image
-# Logging and setup
 logging.basicConfig(level=logging.ERROR)
 device = -1  # CPU-only
 print("⚠️ CPU-only. Expect ~20–30s for 300,000 chars.")
@@ -21,14 +20,13 @@ except Exception as e:
     print(f"❌ Summarizer model loading failed: {str(e)}")
     exit(1)
-# Load question-answering model
 try:
-    qa_pipeline = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad", device=device)
 except Exception as e:
     print(f"❌ QA model loading failed: {str(e)}")
     exit(1)
-# Function: Visualize chunk processing status
 def visualize_chunk_status(chunk_data):
     status_colors = {'summarized': 'green', 'skipped': 'orange', 'error': 'red'}
     labels = [f"C{i['chunk']}" for i in chunk_data]
@@ -47,7 +45,6 @@ def visualize_chunk_status(chunk_data):
     plt.close(fig)
     return Image.open(buf)
-# Function: Summarization
 def summarize_file(file_bytes):
     start = time.time()
     chunk_info = []
@@ -66,7 +63,7 @@ def summarize_file(file_bytes):
         return "❌ No text found", None
     text = text[:300000]
-    chunks = [text[i:i+2000] for i in range(0, len(text), 2000)]
     summaries = []
     for i, chunk in enumerate(chunks):
@@ -78,25 +75,31 @@ def summarize_file(file_bytes):
             break
         if sum(1 for c in chunk if not c.isalnum()) / len(chunk) > 0.5:
-            summaries.append(f"**Chunk {i+1}**: Skipped (equation-heavy)")
             chunk_result['status'] = 'skipped'
         else:
             try:
                 summary = summarizer(chunk, max_length=60, min_length=10, do_sample=False)[0]['summary_text']
-                summaries.append(f"**Chunk {i+1}**:\n{summary}")
                 chunk_result['status'] = 'summarized'
             except Exception as e:
-                summaries.append(f"**Chunk {i+1}**: ❌ Error: {str(e)}")
                 chunk_result['status'] = 'error'
         chunk_result['time'] = time.time() - chunk_start
         chunk_info.append(chunk_result)
-    final_summary = f"**Chars**: {len(text)}\n**Time**: {time.time()-start:.2f}s\n\n" + "\n\n".join(summaries)
     image = visualize_chunk_status(chunk_info)
     return final_summary, image
-# Function: QA from PDF
 def answer_question(file_bytes, question):
     try:
         doc = fitz.open(stream=file_bytes, filetype="pdf")
@@ -116,19 +119,19 @@ def answer_question(file_bytes, question):
     except Exception as e:
         return f"❌ QA failed: {str(e)}"
-# Gradio UI for Summarizer
 summarizer_ui = gr.Interface(
     fn=summarize_file,
     inputs=gr.File(label="📄 Upload PDF", type="binary"),
     outputs=[
-        gr.Textbox(label="📝 Summarized Output"),
         gr.Image(label="📊 Visual Process Flow", type="pil")
     ],
     title="📝 AI-Powered PDF Summarizer",
-    description="Summarizes long PDFs (up to 300,000 characters) and visualizes chunk-level automation status."
 )
-# Gradio UI for Q&A
 qa_ui = gr.Interface(
     fn=answer_question,
     inputs=[
@@ -137,10 +140,10 @@ qa_ui = gr.Interface(
     ],
     outputs=gr.Textbox(label="🔍 Answer"),
     title="📚 PDF Q&A Assistant",
-    description="Ask natural language questions based on the uploaded PDF content."
 )
-# Combine both in tabs
 if __name__ == "__main__":
     try:
         gr.TabbedInterface(

 import io
 from PIL import Image
 logging.basicConfig(level=logging.ERROR)
 device = -1  # CPU-only
 print("⚠️ CPU-only. Expect ~20–30s for 300,000 chars.")
     print(f"❌ Summarizer model loading failed: {str(e)}")
     exit(1)
+# Load better QA model
 try:
+    qa_pipeline = pipeline("question-answering", model="deepset/roberta-base-squad2", device=device)
 except Exception as e:
     print(f"❌ QA model loading failed: {str(e)}")
     exit(1)
 def visualize_chunk_status(chunk_data):
     status_colors = {'summarized': 'green', 'skipped': 'orange', 'error': 'red'}
     labels = [f"C{i['chunk']}" for i in chunk_data]
     plt.close(fig)
     return Image.open(buf)
 def summarize_file(file_bytes):
     start = time.time()
     chunk_info = []
         return "❌ No text found", None
     text = text[:300000]
+    chunks = [text[i:i+2000] for i in range(0, len(text), 2000)][:3]  # Limit to 3 chunks for testing
     summaries = []
     for i, chunk in enumerate(chunks):
             break
         if sum(1 for c in chunk if not c.isalnum()) / len(chunk) > 0.5:
+            summaries.append(f"### Chunk {i+1}: Skipped (equation-heavy)")
             chunk_result['status'] = 'skipped'
         else:
             try:
                 summary = summarizer(chunk, max_length=60, min_length=10, do_sample=False)[0]['summary_text']
+                summaries.append(f"### Chunk {i+1}\n{summary}")
                 chunk_result['status'] = 'summarized'
             except Exception as e:
+                summaries.append(f"### Chunk {i+1}: ❌ Error: {str(e)}")
                 chunk_result['status'] = 'error'
         chunk_result['time'] = time.time() - chunk_start
         chunk_info.append(chunk_result)
+    formatted_chunks = "\n\n---\n\n".join(summaries)
+    final_summary = f"""**Characters Processed**: {len(text)}
+**Total Time**: {time.time()-start:.2f} seconds
+## 🔹 Summary by Chunks
+{formatted_chunks}
+"""
     image = visualize_chunk_status(chunk_info)
     return final_summary, image
 def answer_question(file_bytes, question):
     try:
         doc = fitz.open(stream=file_bytes, filetype="pdf")
     except Exception as e:
         return f"❌ QA failed: {str(e)}"
+# Summarizer UI
 summarizer_ui = gr.Interface(
     fn=summarize_file,
     inputs=gr.File(label="📄 Upload PDF", type="binary"),
     outputs=[
+        gr.Textbox(label="📝 Summarized Output", lines=30, show_copy_button=True),
         gr.Image(label="📊 Visual Process Flow", type="pil")
     ],
     title="📝 AI-Powered PDF Summarizer",
+    description="Summarizes long PDFs and visualizes chunk-level processing (limited to 3 chunks for testing)."
 )
+# Q&A UI
 qa_ui = gr.Interface(
     fn=answer_question,
     inputs=[
     ],
     outputs=gr.Textbox(label="🔍 Answer"),
     title="📚 PDF Q&A Assistant",
+    description="Ask natural language questions from the uploaded PDF."
 )
+# Tabs
 if __name__ == "__main__":
     try:
         gr.TabbedInterface(