Spaces:

the-carnage
/

docurizer

Sleeping

App Files Files Community

the-carnage commited on Jan 30

Commit

5460734

1 Parent(s): 4864977

Add image and PDF summarization support

Browse files

Files changed (2) hide show

app.py +103 -35
packages.txt +1 -1

app.py CHANGED Viewed

@@ -1,10 +1,13 @@
 import streamlit as st
 from transformers import pipeline
-st.set_page_config(page_title="Docurizzer - Document Summarizer", layout="centered")
-st.title("Docurizzer")
-st.markdown("*Paste your own text to summarize*")
 @st.cache_resource
 def load_model():
@@ -12,36 +15,101 @@ def load_model():
 summarizer = load_model()
-st.subheader("Enter Your Text")
-text = st.text_area(
-    "Paste or type your text here:",
-    height=250,
-    placeholder="Enter the text you want to summarize..."
-)
-# Summarize button
-if text.strip():
-    if st.button("Summarize", type="primary"):
-        with st.spinner("Summarizing..."):
-            # Handle text length for T5 model
-            input_text = text[:4000] if len(text) > 4000 else text
-            summary = summarizer(
-                input_text,
-                max_length=150,
-                min_length=40,
-                do_sample=False
-            )[0]["summary_text"]
-        st.subheader("Summary")
-        st.success(summary)
-        # Copy button
-        st.download_button(
-            label="Download Summary",
-            data=summary,
-            file_name="summary.txt",
-            mime="text/plain"
-        )
-else:
-    st.info("Please provide some text using one of the methods above.")

 import streamlit as st
 from transformers import pipeline
+from PIL import Image
+import pytesseract
+import pdfplumber
+import io
+st.set_page_config(page_title="Docurizzer", layout="centered")
+st.title("📄 Docurizzer")
+st.write("Summarize text, images, or PDFs with AI")
 @st.cache_resource
 def load_model():
 summarizer = load_model()
+def extract_text_from_image(image):
+    """Extract text from image using OCR"""
+    return pytesseract.image_to_string(image)
+def extract_text_from_pdf(pdf_file):
+    """Extract text from PDF file"""
+    text = ""
+    with pdfplumber.open(pdf_file) as pdf:
+        for page in pdf.pages:
+            page_text = page.extract_text()
+            if page_text:
+                text += page_text + "\n"
+    return text
+def summarize_text(text):
+    """Summarize the given text"""
+    if not text.strip():
+        return None
+    input_text = text[:4000]
+    result = summarizer(input_text, max_length=150, min_length=40, do_sample=False)
+    return result[0]["summary_text"]
+tab1, tab2, tab3 = st.tabs(["📝 Text", "🖼️ Image", "📄 PDF"])
+with tab1:
+    st.subheader("Text Summarization")
+    text = st.text_area("Enter your text:", height=200, key="text_input")
+    if st.button("Summarize Text", key="summarize_text"):
+        if text.strip():
+            with st.spinner("Summarizing..."):
+                summary = summarize_text(text)
+            if summary:
+                st.subheader("Summary")
+                st.success(summary)
+                st.download_button("Download Summary", summary, "summary.txt", key="download_text")
+        else:
+            st.warning("Please enter some text first.")
+with tab2:
+    st.subheader("Image Summarization")
+    st.info("Upload an image containing text to extract and summarize it using OCR.")
+    uploaded_image = st.file_uploader("Upload an image", type=["png", "jpg", "jpeg", "bmp", "tiff"], key="image_upload")
+    if uploaded_image:
+        image = Image.open(uploaded_image)
+        st.image(image, caption="Uploaded Image", use_container_width=True)
+        if st.button("Extract & Summarize", key="summarize_image"):
+            with st.spinner("Extracting text from image..."):
+                extracted_text = extract_text_from_image(image)
+            if extracted_text.strip():
+                st.subheader("Extracted Text")
+                with st.expander("View extracted text"):
+                    st.text(extracted_text)
+                with st.spinner("Summarizing..."):
+                    summary = summarize_text(extracted_text)
+                if summary:
+                    st.subheader("Summary")
+                    st.success(summary)
+                    st.download_button("Download Summary", summary, "image_summary.txt", key="download_image")
+            else:
+                st.warning("No text could be extracted from the image. Please try a clearer image.")
+with tab3:
+    st.subheader("PDF Summarization")
+    st.info("Upload a PDF document to extract and summarize its content.")
+    uploaded_pdf = st.file_uploader("Upload a PDF", type=["pdf"], key="pdf_upload")
+    if uploaded_pdf:
+        st.success(f"Uploaded: {uploaded_pdf.name}")
+        if st.button("Extract & Summarize", key="summarize_pdf"):
+            with st.spinner("Extracting text from PDF..."):
+                extracted_text = extract_text_from_pdf(uploaded_pdf)
+            if extracted_text.strip():
+                st.subheader("Extracted Text")
+                with st.expander("View extracted text"):
+                    st.text(extracted_text[:5000] + ("..." if len(extracted_text) > 5000 else ""))
+                with st.spinner("Summarizing..."):
+                    summary = summarize_text(extracted_text)
+                if summary:
+                    st.subheader("Summary")
+                    st.success(summary)
+                    st.download_button("Download Summary", summary, "pdf_summary.txt", key="download_pdf")
+            else:
+                st.warning("No text could be extracted from the PDF. The PDF might be image-based or empty.")
+st.divider()
+st.caption("Powered by T5 AI Model | Built with Streamlit")

packages.txt CHANGED Viewed

	@@ -1 +1 @@
1	-


1	+ tesseract-ocr