Spaces:

fccoelho
/

reference_extractor

Sleeping

fccoelho aider (anthropic/claude-sonnet-4-20250514) commited on Sep 12, 2025

Commit

7ceeb49

1 Parent(s): e998be0

refactor: substituir PyPDF2 por PyMuPDF para extração de texto de PDF

Co-authored-by: aider (anthropic/claude-sonnet-4-20250514) <aider@aider.chat>

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-import PyPDF2
 import pandas as pd
 import openai
 import os
@@ -11,20 +11,28 @@ import re
 def extract_pdf_text(pdf_file):
     """Extrai texto e metadados básicos do PDF"""
     try:
-        pdf_reader = PyPDF2.PdfReader(pdf_file)
         # Extrair texto de todas as páginas
         full_text = ""
-        for page in pdf_reader.pages:
-            full_text += page.extract_text() + "\n"
         # Extrair metadados básicos
         metadata = {
-            "num_pages": len(pdf_reader.pages),
-            "title": pdf_reader.metadata.get('/Title', 'Não disponível') if pdf_reader.metadata else 'Não disponível',
-            "author": pdf_reader.metadata.get('/Author', 'Não disponível') if pdf_reader.metadata else 'Não disponível'
         }
         return full_text, metadata
     except Exception as e:
         return None, {"error": f"Erro ao processar PDF: {str(e)}"}

 import gradio as gr
+import fitz  # PyMuPDF
 import pandas as pd
 import openai
 import os
 def extract_pdf_text(pdf_file):
     """Extrai texto e metadados básicos do PDF"""
     try:
+        # Abrir o PDF com PyMuPDF
+        doc = fitz.open(stream=pdf_file, filetype="pdf")
         # Extrair texto de todas as páginas
         full_text = ""
+        for page_num in range(len(doc)):
+            page = doc.load_page(page_num)
+            full_text += page.get_text() + "\n"
         # Extrair metadados básicos
+        metadata_dict = doc.metadata
         metadata = {
+            "num_pages": len(doc),
+            "title": metadata_dict.get('title', 'Não disponível') if metadata_dict.get('title') else 'Não disponível',
+            "author": metadata_dict.get('author', 'Não disponível') if metadata_dict.get('author') else 'Não disponível',
+            "subject": metadata_dict.get('subject', 'Não disponível') if metadata_dict.get('subject') else 'Não disponível',
+            "creator": metadata_dict.get('creator', 'Não disponível') if metadata_dict.get('creator') else 'Não disponível'
         }
+        # Fechar o documento
+        doc.close()
         return full_text, metadata
     except Exception as e:
         return None, {"error": f"Erro ao processar PDF: {str(e)}"}

pyproject.toml CHANGED Viewed

@@ -6,7 +6,7 @@ readme = "README.md"
 requires-python = ">=3.12"
 dependencies = [
     "gradio>=4.0.0",
-    "PyPDF2>=3.0.0",
     "pandas>=2.0.0",
     "openai>=1.0.0",
     "python-dotenv>=1.0.0"

 requires-python = ">=3.12"
 dependencies = [
     "gradio>=4.0.0",
+    "pymupdf>=1.23.0",
     "pandas>=2.0.0",
     "openai>=1.0.0",
     "python-dotenv>=1.0.0"