Spaces:

Alexvatti
/

PDF-Invoce-Extract

Sleeping

Alexvatti commited on Apr 19, 2025

Commit

c53700e

verified ·

1 Parent(s): fce75b6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,28 +2,30 @@ import streamlit as st
 import fitz  # PyMuPDF
 import pytesseract
 from PIL import Image
-from pdf2image import convert_from_bytes
 import pandas as pd
 import re
 st.set_page_config(page_title="Invoice Extractor", layout="centered")
 st.title("🧾 PDF Invoice Data Extractor")
-st.write("Upload a PDF invoice and extract mentioned details like Invoice Number, Date, Total, and more.")
 uploaded_file = st.file_uploader("Upload your invoice PDF", type=["pdf"])
 def extract_text_from_pdf(pdf_file):
     text = ""
-    images = convert_from_bytes(pdf_file.read())
-    for img in images:
         text += pytesseract.image_to_string(img)
     return text
 def parse_invoice_text(text):
-    # Simple regex-based field extraction
     data = {}
     data['Invoice Number'] = re.search(r'(Invoice\s*Number|No\.?)[:\-]?\s*([A-Za-z0-9\-]+)', text, re.IGNORECASE)
     data['Date'] = re.search(r'(Date|Invoice Date)[:\-]?\s*([0-9]{2,4}[\/\-\.][0-9]{2}[\/\-\.][0-9]{2,4})', text)
@@ -51,3 +53,4 @@ if uploaded_file:
         df = pd.DataFrame([extracted_data])
         csv = df.to_csv(index=False)
         st.download_button("📥 Download as CSV", csv, "invoice_data.csv", "text/csv")

 import fitz  # PyMuPDF
 import pytesseract
 from PIL import Image
 import pandas as pd
 import re
+import io
 st.set_page_config(page_title="Invoice Extractor", layout="centered")
 st.title("🧾 PDF Invoice Data Extractor")
+st.write("Upload a PDF invoice and extract details like Invoice Number, Date, Total, and more.")
 uploaded_file = st.file_uploader("Upload your invoice PDF", type=["pdf"])
+# 📌 Replaces pdf2image with fitz
 def extract_text_from_pdf(pdf_file):
     text = ""
+    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
+    for page in doc:
+        pix = page.get_pixmap(dpi=300)  # high-res rendering
+        img = Image.open(io.BytesIO(pix.tobytes("png")))
         text += pytesseract.image_to_string(img)
     return text
 def parse_invoice_text(text):
     data = {}
     data['Invoice Number'] = re.search(r'(Invoice\s*Number|No\.?)[:\-]?\s*([A-Za-z0-9\-]+)', text, re.IGNORECASE)
     data['Date'] = re.search(r'(Date|Invoice Date)[:\-]?\s*([0-9]{2,4}[\/\-\.][0-9]{2}[\/\-\.][0-9]{2,4})', text)
         df = pd.DataFrame([extracted_data])
         csv = df.to_csv(index=False)
         st.download_button("📥 Download as CSV", csv, "invoice_data.csv", "text/csv")