Spaces:

SathvikGanta
/

Scaned_doc_typed

Sleeping

SathvikGanta commited on Dec 1, 2024

Commit

36fa47a

verified ·

1 Parent(s): 1b4714b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,18 +3,16 @@ import subprocess
 from pdf2image import convert_from_path
 from PIL import Image
 import pytesseract
-from PyPDF2 import PdfWriter
 from docx import Document
 import gradio as gr
 import shutil
 # Define paths for dependencies
 POPPLER_PATH = "/usr/bin"
 TESSERACT_PATH = "/usr/bin/tesseract"
-# Define a directory to store output files
-OUTPUT_DIR = "./output_files"
-os.makedirs(OUTPUT_DIR, exist_ok=True)
 def install_dependencies():
     """Install Poppler and Tesseract if not already installed."""
@@ -66,30 +64,36 @@ def convert_pdf_to_text(input_pdf):
     # Combine text
     full_text = "\n".join(text_data)
-    # Generate text-based PDF
-    output_pdf_path = os.path.join(OUTPUT_DIR, "output.pdf")
-    with open(output_pdf_path, "wb") as f:
-        pdf_writer = PdfWriter()
-        pdf_writer.add_metadata({
-            "/Title": "OCR Converted PDF",
-            "/Author": "OCR Application"
-        })
-        pdf_writer.write(f)
-    # Generate Word document
-    output_docx_path = os.path.join(OUTPUT_DIR, "output.docx")
     doc = Document()
     doc.add_heading("OCR Converted Text", level=1)
     doc.add_paragraph(full_text)
-    doc.save(output_docx_path)
-    # Return file paths
-    return output_pdf_path, output_docx_path
 def gradio_interface(file):
-    pdf_output_path, docx_output_path = convert_pdf_to_text(file)
-    return pdf_output_path, docx_output_path
 iface = gr.Interface(

 from pdf2image import convert_from_path
 from PIL import Image
 import pytesseract
+from PyPDF2 import PdfWriter, PdfReader
 from docx import Document
 import gradio as gr
+import io
 import shutil
 # Define paths for dependencies
 POPPLER_PATH = "/usr/bin"
 TESSERACT_PATH = "/usr/bin/tesseract"
 def install_dependencies():
     """Install Poppler and Tesseract if not already installed."""
     # Combine text
     full_text = "\n".join(text_data)
+    # Generate text-based PDF in memory
+    pdf_buffer = io.BytesIO()
+    pdf_writer = PdfWriter()
+    pdf_writer.add_metadata({
+        "/Title": "OCR Converted PDF",
+        "/Author": "OCR Application"
+    })
+    with open(input_pdf_path, "rb") as reader_file:
+        reader = PdfReader(reader_file)
+        for page in reader.pages:
+            pdf_writer.add_page(page)
+    pdf_writer.write(pdf_buffer)
+    # Generate Word document in memory
+    docx_buffer = io.BytesIO()
     doc = Document()
     doc.add_heading("OCR Converted Text", level=1)
     doc.add_paragraph(full_text)
+    doc.save(docx_buffer)
+    # Rewind buffers
+    pdf_buffer.seek(0)
+    docx_buffer.seek(0)
+    return pdf_buffer, docx_buffer
 def gradio_interface(file):
+    pdf_output, docx_output = convert_pdf_to_text(file)
+    return pdf_output, docx_output
 iface = gr.Interface(