Update app.py
Browse files
app.py
CHANGED
|
@@ -8,7 +8,6 @@ import shutil
|
|
| 8 |
import tempfile
|
| 9 |
from transformers import AutoModelForCausalLM, AutoTokenizer
|
| 10 |
from langchain_community.document_loaders import PyMuPDFLoader
|
| 11 |
-
from PyPDF2 import PdfReader
|
| 12 |
|
| 13 |
# Configurações do modelo
|
| 14 |
MODEL_PATH = "numind/NuExtract-1.5"
|
|
@@ -142,23 +141,15 @@ def process_and_generate(pdf_file):
|
|
| 142 |
finally:
|
| 143 |
os.remove(pdf_path) # Remove o arquivo temporário após o uso
|
| 144 |
|
| 145 |
-
def extract_text(file):
|
| 146 |
-
reader = PdfReader(file.name)
|
| 147 |
-
text = "\n".join([page.extract_text() for page in reader.pages if page.extract_text()])
|
| 148 |
-
return text, text # Retorna o texto para ambas as saídas
|
| 149 |
|
| 150 |
|
| 151 |
-
|
| 152 |
-
|
| 153 |
-
|
| 154 |
-
|
| 155 |
-
|
| 156 |
-
|
| 157 |
-
|
| 158 |
-
|
| 159 |
-
|
| 160 |
-
|
| 161 |
-
extract_button = gr.Button("Extrair Texto")
|
| 162 |
-
extract_button.click(extract_text, inputs=pdf_input, outputs=[text_output, json_output])
|
| 163 |
-
|
| 164 |
-
app.launch()
|
|
|
|
| 8 |
import tempfile
|
| 9 |
from transformers import AutoModelForCausalLM, AutoTokenizer
|
| 10 |
from langchain_community.document_loaders import PyMuPDFLoader
|
|
|
|
| 11 |
|
| 12 |
# Configurações do modelo
|
| 13 |
MODEL_PATH = "numind/NuExtract-1.5"
|
|
|
|
| 141 |
finally:
|
| 142 |
os.remove(pdf_path) # Remove o arquivo temporário após o uso
|
| 143 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 144 |
|
| 145 |
|
| 146 |
+
|
| 147 |
+
interface = gr.Interface(
|
| 148 |
+
fn=process_and_generate,
|
| 149 |
+
inputs=gr.File(label="Upload PDF"),
|
| 150 |
+
outputs=gr.JSON(label="Dados Extraídos"),
|
| 151 |
+
title="Extração de Dados com Modelo Local",
|
| 152 |
+
description="Envie um PDF para extrair e processar informações automaticamente.",
|
| 153 |
+
)
|
| 154 |
+
|
| 155 |
+
interface.launch()
|
|
|
|
|
|
|
|
|
|
|
|