Spaces:

kryman27
/

pdf-extractor

Sleeping

kryman27 commited on Feb 5, 2025

Commit

814c19e

verified ·

1 Parent(s): 0dacbdd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,29 +1,37 @@
 import gradio as gr
-from magic_pdf import MagicPDF
 def extract_info(pdf_file):
-    # Inicjalizacja MagicPDF
-    pdf_processor = MagicPDF()
-    # Przetwarzanie pliku PDF
-    result = pdf_processor(pdf_file.name)
-    # Wyodrębnianie pożądanych informacji
-    extracted_data = {
-        "company_name": result.get("company_name", "Nie znaleziono"),
-        "invoice_number": result.get("invoice_number", "Nie znaleziono"),
-        # Dodaj inne pola według potrzeb
-    }
     return extracted_data
-# Interfejs użytkownika
 iface = gr.Interface(
     fn=extract_info,
-    inputs=gr.inputs.File(label="Wybierz plik PDF"),
-    outputs=gr.outputs.JSON(label="Wyodrębnione informacje"),
     title="Ekstrakcja informacji z faktur PDF",
-    description="Prześlij plik PDF z fakturą, aby wyodrębnić określone informacje."
 )
 if __name__ == "__main__":

 import gradio as gr
+import pdfplumber
+from transformers import pipeline
+# Inicjalizacja modelu do ekstrakcji informacji
+extractor = pipeline("ner", model="dslim/bert-base-NER")
 def extract_info(pdf_file):
+    with pdfplumber.open(pdf_file) as pdf:
+        text = ""
+        for page in pdf.pages:
+            text += page.extract_text() + "\n"
+    # Przetwarzanie tekstu modelem NLP
+    entities = extractor(text)
+    # Filtrowanie i formatowanie wyników
+    extracted_data = {}
+    for entity in entities:
+        label = entity['entity']
+        word = entity['word']
+        if label not in extracted_data:
+            extracted_data[label] = []
+        extracted_data[label].append(word)
     return extracted_data
+# Interfejs użytkownika w Hugging Face Space
 iface = gr.Interface(
     fn=extract_info,
+    inputs=gr.File(label="Wybierz plik PDF"),
+    outputs="json",
     title="Ekstrakcja informacji z faktur PDF",
+    description="Prześlij plik PDF z fakturą, a model rozpozna kluczowe informacje."
 )
 if __name__ == "__main__":