Spaces:

Aqdas
/

CV-Extractor

Build error

App Files Files Community

Aqdas commited on Jul 29, 2024

Commit

75beed0

verified ·

1 Parent(s): 5a11367

Upload 6 files

Browse files

Files changed (6) hide show

app.py +63 -0
image_to_text.py +9 -0
mirascope_extractor.py +32 -0
packages.txt +1 -0
pdf_to_image.py +22 -0
requirements.txt +7 -0

app.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import streamlit as st
+from pdf_to_image import pdf_to_image
+from image_to_text import image_to_text
+from mirascope_extractor import extractor
+import google.generativeai as genai
+import pandas as pd
+import glob
+import os
+from dotenv import load_dotenv
+import streamlit as st
+# import subprocess
+# Example installation command (adjust based on your environment)
+# subprocess.run(['apt-get', 'install', 'tesseract-ocr'])
+load_dotenv()
+global empty_df
+openai_api_key = os.getenv('OPENAI_API_KEY')
+genai.configure(api_key=openai_api_key)
+# Verify that Poppler is installed and in PATH
+# folder_name = "/project/workspace/pdfs"
+# invoice_pdfs = glob.glob(os.path.join(folder_name, '*.pdf')) + glob.glob(os.path.join(folder_name, '*.PDF'))
+# print(f'Invoices_pdfs: {invoice_pdfs}')
+st.set_page_config(page_title="Invoice Extractor")
+st.title("Gen AI Invoice Extraction")
+uploaded_files = st.file_uploader("Choose PDF files", accept_multiple_files=True, type="pdf")
+if uploaded_files:
+    # st.write(f'This is {uploaded_files}')
+    if st.button('Extract'):
+        image_bytes = pdf_to_image(uploaded_files)
+        all_texts = []
+        for image_byte in image_bytes:
+          text = image_to_text(image_byte)
+          all_texts.append(text)
+          print('one text appended')
+        empty_df = pd.DataFrame()
+        for text in all_texts:
+            extracted_text = extractor(text)
+            task_details_dict = extracted_text.dict()
+            df = pd.DataFrame([task_details_dict])
+            empty_df = pd.concat([empty_df, df])
+        st.write(empty_df)
+        csv = empty_df.to_csv(index=False)
+        st.download_button(
+            label = 'Click to Download CSV',
+            data = csv,
+            file_name = 'Extracted_data.csv',
+            mime='text/csv',
+        )

image_to_text.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from PIL import Image
+import pytesseract
+import io
+pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'
+def image_to_text(images):
+    img_bytes = io.BytesIO()
+    images.save(img_bytes, format='PNG')
+    text = pytesseract.image_to_string(Image.open(img_bytes))
+    return text

mirascope_extractor.py ADDED Viewed

	@@ -0,0 +1,32 @@

+from mirascope.openai import OpenAIExtractor
+from mirascope.gemini import GeminiExtractor
+from mirascope.groq import GroqExtractor
+from pydantic import FilePath, BaseModel
+from typing import List, Type
+class TaskDetails(BaseModel):
+    seller_company_name: str
+    receiver_company: str
+    description: List[str]
+    invoice_date: str
+    invoice_number: str
+    net_amount : float
+    vat_amount : float
+    vat_rate: str
+    total_amount : float
+class TaskExtractor(OpenAIExtractor[TaskDetails]):
+    extract_schema: Type[TaskDetails] = TaskDetails
+    prompt_template = """
+    Extract the invoice details from the following invoice:
+    {invoice}
+    """
+    invoice: str
+def extractor(text):
+    task_details = TaskExtractor(invoice=text).extract()
+    assert isinstance(task_details, TaskDetails)
+    return task_details

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ tesseract-ocr

pdf_to_image.py ADDED Viewed

	@@ -0,0 +1,22 @@

+import fitz  # PyMuPDF
+from PIL import Image
+def pdf_to_image(pdf_files, dpi=300):
+    pdf_images = []
+    for pdf_file in pdf_files:
+        pdf_bytes = pdf_file.read()  # Read the uploaded file as bytes
+        pdf_document = fitz.open(stream=pdf_bytes, filetype="pdf")
+        images = []
+        for page_num in range(len(pdf_document)):
+            page = pdf_document.load_page(page_num)
+            zoom = dpi / 72  # 72 is the default DPI of the PDF
+            mat = fitz.Matrix(zoom, zoom)
+            pix = page.get_pixmap(matrix=mat)
+            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+            images.append(img)
+        pdf_images.extend(images)
+    return pdf_images

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+pytesseract
+pillow
+mirascope
+groq
+google-generativeai
+streamlit
+pyMuPDF