Spaces:

vaibhavbalar
/

pdf-toolkit

Sleeping

App Files Files Community

vaibhavbalar commited on Apr 27, 2025

Commit

f9b11f1

verified ·

1 Parent(s): 36fd017

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -16

app.py CHANGED Viewed

@@ -1,26 +1,101 @@
-def compress_pdf(file, quality):
     doc = fitz.open(file.name)
     output_path = "compressed_output.pdf"
     for page in doc:
-        img_list = page.get_images(full=True)
-        for img in img_list:
-            xref = img[0]
-            base_image = doc.extract_image(xref)
-            img_bytes = base_image["image"]
-            # Load image from bytes
-            pix = fitz.Pixmap(fitz.csRGB, fitz.Pixmap(img_bytes))
-            temp_filename = "temp_img.jpg"
-            pix.save(temp_filename)  # No quality parameter here
-            rect = page.get_image_rects(xref)[0]
-            page.insert_image(rect, filename=temp_filename)
-            os.remove(temp_filename)
-    doc.save(output_path, garbage=4, deflate=True, clean=True)
-    doc.close()
-    return output_path

+# app.py
+import gradio as gr
+import PyPDF2
+import fitz  # PyMuPDF
+import os
+import zipfile
+# Merge PDFs
+def merge_pdfs(files):
+    merger = PyPDF2.PdfMerger()
+    for file in files:
+        merger.append(file.name)
+    output_path = "merged_output.pdf"
+    merger.write(output_path)
+    merger.close()
+    return output_path
+# Split PDF
+def split_pdf(file):
+    reader = PyPDF2.PdfReader(file.name)
+    output_folder = "split_outputs"
+    os.makedirs(output_folder, exist_ok=True)
+    # Clean old files
+    for f in os.listdir(output_folder):
+        os.remove(os.path.join(output_folder, f))
+    split_files = []
+    for i, page in enumerate(reader.pages):
+        writer = PyPDF2.PdfWriter()
+        writer.add_page(page)
+        output_filename = os.path.join(output_folder, f"page_{i+1}.pdf")
+        with open(output_filename, "wb") as f_out:
+            writer.write(f_out)
+        split_files.append(output_filename)
+    zip_filename = "split_pages.zip"
+    with zipfile.ZipFile(zip_filename, "w") as zipf:
+        for f in split_files:
+            zipf.write(f, os.path.basename(f))
+    return zip_filename
+# Compress PDF
+def compress_pdf(file):
     doc = fitz.open(file.name)
     output_path = "compressed_output.pdf"
+    doc.save(output_path, garbage=4, deflate=True, clean=True)
+    doc.close()
+    return output_path
+# Extract Text
+def extract_text(file):
+    doc = fitz.open(file.name)
+    text = ""
     for page in doc:
+        text += page.get_text()
+    doc.close()
+    output_path = "extracted_text.txt"
+    with open(output_path, "w", encoding="utf-8") as f:
+        f.write(text)
+    return output_path, text
+# Gradio App
+with gr.Blocks(theme=gr.themes.Base(primary_hue="orange")) as demo:
+    gr.Markdown(
+        """
+        # 📁 Local PDF Toolkit
+        Merge, Split, Compress, and Extract Text from PDFs — Safely inside Hugging Face.
+        """
+    )
+    with gr.Tab("🔗 Merge PDFs"):
+        merge_input = gr.File(file_types=[".pdf"], file_count="multiple", label="Select PDFs to Merge")
+        merge_btn = gr.Button("🚀 Merge PDFs")
+        merge_output = gr.File(label="⬇️ Download Merged PDF")
+        merge_btn.click(merge_pdfs, inputs=merge_input, outputs=merge_output)
+    with gr.Tab("✂️ Split PDF"):
+        split_input = gr.File(file_types=[".pdf"], label="Select PDF to Split")
+        split_btn = gr.Button("✂️ Split PDF")
+        split_output = gr.File(label="⬇️ Download Split ZIP")
+        split_btn.click(split_pdf, inputs=split_input, outputs=split_output)
+    with gr.Tab("📉 Compress PDF"):
+        compress_input = gr.File(file_types=[".pdf"], label="Select PDF to Compress")
+        compress_btn = gr.Button("📉 Compress PDF")
+        compress_output = gr.File(label="⬇️ Download Compressed PDF")
+        compress_btn.click(compress_pdf, inputs=compress_input, outputs=compress_output)
+    with gr.Tab("📜 Extract Text"):
+        extract_input = gr.File(file_types=[".pdf"], label="Select PDF to Extract Text")
+        extract_btn = gr.Button("📜 Extract Text")
+        extract_file = gr.File(label="⬇️ Download Extracted Text File")
+        extract_preview = gr.Textbox(label="📖 Preview Text", lines=20, max_lines=100, interactive=False, show_copy_button=True)
+        extract_btn.click(extract_text, inputs=extract_input, outputs=[extract_file, extract_preview])
+demo.launch()