Spaces:

Mummia-99
/

pdf_extracter

Sleeping

App Files Files Community

Mummia-99 commited on May 2, 2025

Commit

826bb40

verified ·

1 Parent(s): 305672a

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -6

app.py CHANGED Viewed

@@ -12,7 +12,23 @@ import os
 load_dotenv()
 # Configure Google Generative AI API
-genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
 def get_response(model, user_input, image, prompt):
     """Generate response from the model using input and image data."""
@@ -39,7 +55,7 @@ if uploaded_pdf:
     with st.spinner("Converting PDF to images..."):
         images = convert_pdf_to_images(uploaded_pdf.read())
-    st.image(images[0], caption="Page 1 of PDF", use_container_width=True)
     if st.button("Extract Table from Invoice"):
         with st.spinner("Extracting data with Gemini..."):
@@ -71,28 +87,42 @@ Format strictly as JSON array of dictionaries.
 """
             all_data = []
             try:
                 for i, image in enumerate(images):
                     response_text = get_response(model, prompt, image, prompt)
                     st.success(f"✅ Gemini responded for page {i+1}!")
-                    # Parse JSON
                     start_index = response_text.find('[')
                     end_index = response_text.rfind(']') + 1
                     clean_json = response_text[start_index:end_index]
                     data = json.loads(clean_json)
                     for row in data:
-                        row["Page"] = i + 1  # Add page number for traceability
                     all_data.extend(data)
-                if all_data:
                     df = pd.DataFrame(all_data)
                     if "CODE ARTICLE" in df.columns:
                         df = df[df["CODE ARTICLE"].notna() & (df["CODE ARTICLE"] != "")]
                     st.dataframe(df)
-                    # Create downloadable Excel
                     output = io.BytesIO()
                     with pd.ExcelWriter(output, engine="xlsxwriter") as writer:
                         df.to_excel(writer, index=False, sheet_name="Invoice Data")

 load_dotenv()
 # Configure Google Generative AI API
+genai.configure(api_key=os.getenv("GOOGLE_API_KEY", "your-api-key-here"))
+# File to track already processed invoices
+PROCESSED_FILE = "processed_invoices.json"
+def load_processed_invoices():
+    if os.path.exists(PROCESSED_FILE):
+        with open(PROCESSED_FILE, "r") as f:
+            return json.load(f)
+    return []
+def save_processed_invoice(invoice_number):
+    processed = load_processed_invoices()
+    if invoice_number not in processed:
+        processed.append(invoice_number)
+        with open(PROCESSED_FILE, "w") as f:
+            json.dump(processed, f)
 def get_response(model, user_input, image, prompt):
     """Generate response from the model using input and image data."""
     with st.spinner("Converting PDF to images..."):
         images = convert_pdf_to_images(uploaded_pdf.read())
+    st.image(images[0], caption="Page 1 of PDF", use_column_width=True)
     if st.button("Extract Table from Invoice"):
         with st.spinner("Extracting data with Gemini..."):
 """
             all_data = []
+            invoice_numbers_found = set()
             try:
                 for i, image in enumerate(images):
                     response_text = get_response(model, prompt, image, prompt)
                     st.success(f"✅ Gemini responded for page {i+1}!")
+                    # Parse response text to extract JSON
                     start_index = response_text.find('[')
                     end_index = response_text.rfind(']') + 1
                     clean_json = response_text[start_index:end_index]
                     data = json.loads(clean_json)
                     for row in data:
+                        row["Page"] = i + 1
+                        invoice_id = row.get("N° FACTURE") or row.get("Avoir")
+                        if invoice_id:
+                            invoice_numbers_found.add(invoice_id.strip())
                     all_data.extend(data)
+                # Check if already processed
+                processed = load_processed_invoices()
+                duplicate_invoices = [inv for inv in invoice_numbers_found if inv in processed]
+                if duplicate_invoices:
+                    st.warning(f"⚠️ Invoice(s) {', '.join(duplicate_invoices)} have already been analyzed. Skipping processing.")
+                elif all_data:
                     df = pd.DataFrame(all_data)
                     if "CODE ARTICLE" in df.columns:
                         df = df[df["CODE ARTICLE"].notna() & (df["CODE ARTICLE"] != "")]
                     st.dataframe(df)
+                    for inv in invoice_numbers_found:
+                        save_processed_invoice(inv)
                     output = io.BytesIO()
                     with pd.ExcelWriter(output, engine="xlsxwriter") as writer:
                         df.to_excel(writer, index=False, sheet_name="Invoice Data")