Spaces:

ngupta949
/

playground_pdfsum

Sleeping

ngupta949 commited on May 12, 2025

Commit

ffb9e96

verified ·

1 Parent(s): 74c3cb8

Upload 3 files

Files changed (3) hide show

app.py ADDED Viewed

+import gradio as gr
+from summarizer import extract_text_from_pdf, summarize_text
+def summarize_pdf(file):
+    try:
+        text = extract_text_from_pdf(file)
+        summary = summarize_text(text)
+        return summary
+    except Exception as e:
+        return f"Error processing file: {str(e)}"
+iface = gr.Interface(
+    fn=summarize_pdf,
+    inputs=gr.File(label="Upload PDF"),
+    outputs=gr.Textbox(label="Summary"),
+    title="PDF Document Summarizer",
+    description="Upload a PDF file and get a machine-generated summary.",
+)
+if __name__ == "__main__":
+    iface.launch()

requirements.txt ADDED Viewed

+gradio
+transformers
+PyPDF2

summarizer.py ADDED Viewed

+from transformers import pipeline
+import PyPDF2
+# Load summarization model
+summarizer_pipeline = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")
+def extract_text_from_pdf(file):
+    # Check if file is a path (string) or file-like object
+    if isinstance(file, str):
+        with open(file, "rb") as f:
+            reader = PyPDF2.PdfReader(f)
+            text = "".join([page.extract_text() or "" for page in reader.pages])
+    else:
+        reader = PyPDF2.PdfReader(file)
+        text = "".join([page.extract_text() or "" for page in reader.pages])
+    return text.strip()
+def summarize_text(text, max_length=130, min_length=30):
+    if len(text.strip()) == 0:
+        return "No valid text found in the PDF."
+    summary = summarizer_pipeline(text[:3000], max_length=max_length, min_length=min_length, do_sample=False)
+    return summary[0]['summary_text']