Spaces:

danial2020
/

CV-Extractor

Sleeping

App Files Files Community

danial2020 commited on Jul 30, 2024

Commit

3f4a167

verified ·

1 Parent(s): fe5c2b9

Upload 6 files

Browse files

Files changed (6) hide show

app.py +58 -0
image_to_text.py +9 -0
mirascope_extractor.py +33 -0
packages.txt +1 -0
pdf_to_image.py +22 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import streamlit as st
+from pdf_to_image import pdf_to_image
+from image_to_text import image_to_text
+from mirascope_extractor import extractor
+import google.generativeai as genai
+import pandas as pd
+import glob
+import os
+from dotenv import load_dotenv
+import streamlit as st
+load_dotenv()
+global empty_df
+openai_api_key = os.getenv('OPENAI_API_KEY')
+genai.configure(api_key=openai_api_key)
+st.set_page_config(page_title="Invoice Extractor")
+st.title("Gen AI CV Extraction")
+uploaded_files = st.file_uploader("Choose PDF files", accept_multiple_files=True, type="pdf")
+if uploaded_files:
+    if st.button('Extract'):
+        image_bytes = pdf_to_image(uploaded_files)
+        all_texts = []
+        for image_byte in image_bytes:
+            print('This is image_byte: ', image_byte)
+            combine_text = ''
+            for image in image_byte:
+                text = image_to_text(image)
+                combine_text += text
+            print('This is the text from single PDF: ', combine_text)
+            all_texts.append(combine_text)
+        empty_df = pd.DataFrame()
+        for text in all_texts:
+            extracted_text = extractor(text)
+            task_details_dict = extracted_text.dict()
+            df = pd.DataFrame([task_details_dict])
+            empty_df = pd.concat([empty_df, df])
+        st.write(empty_df)
+        csv = empty_df.to_csv(index=False)
+        st.download_button(
+            label = 'Click to Download CSV',
+            data = csv,
+            file_name = 'Extracted_data.csv',
+            mime='text/csv',
+        )

image_to_text.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from PIL import Image
+import pytesseract
+import io
+pytesseract.pytesseract.tesseract_cmd = r'/usr/bin/tesseract'
+def image_to_text(images):
+    img_bytes = io.BytesIO()
+    images.save(img_bytes, format='PNG')
+    text = pytesseract.image_to_string(Image.open(img_bytes))
+    return text

mirascope_extractor.py ADDED Viewed

	@@ -0,0 +1,33 @@

+from mirascope.openai import OpenAIExtractor
+from mirascope.gemini import GeminiExtractor
+from mirascope.groq import GroqExtractor
+from retry import retry
+from pydantic import FilePath, BaseModel
+from typing import List, Type
+class TaskDetails(BaseModel):
+    name: str
+    email: str
+    phone_number: str
+    skills: List[str]
+    education: str
+    past_company_experience: str
+    about_section: str
+class TaskExtractor(OpenAIExtractor[TaskDetails]):
+    extract_schema: Type[TaskDetails] = TaskDetails
+    prompt_template = """
+    Extract the Resume details from the following Resume:
+    {resume}
+    """
+    resume: str
+@retry(tries=3, delay=2, backoff=2)
+def extractor(text):
+    task_details = TaskExtractor(resume=text).extract()
+    assert isinstance(task_details, TaskDetails)
+    return task_details

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ tesseract-ocr

pdf_to_image.py ADDED Viewed

	@@ -0,0 +1,22 @@

+import fitz  # PyMuPDF
+from PIL import Image
+def pdf_to_image(pdf_files, dpi=300):
+    pdf_images = []
+    for pdf_file in pdf_files:
+        pdf_bytes = pdf_file.read()  # Read the uploaded file as bytes
+        pdf_document = fitz.open(stream=pdf_bytes, filetype="pdf")
+        images = []
+        for page_num in range(len(pdf_document)):
+            page = pdf_document.load_page(page_num)
+            zoom = dpi / 72  # 72 is the default DPI of the PDF
+            mat = fitz.Matrix(zoom, zoom)
+            pix = page.get_pixmap(matrix=mat)
+            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+            images.append(img)
+        pdf_images.append(images)
+    return pdf_images

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+pytesseract
+pillow
+mirascope
+groq
+google-generativeai
+streamlit
+pyMuPDF
+retry