Spaces:

eberhenriquez94
/

PDF_OCR

Build error

App Files Files Community

eberhenriquez94 commited on Dec 1, 2024

Commit

af608ef

verified ·

1 Parent(s): ae6949f

a

Browse files

Files changed (1) hide show

app.py +2 -6

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import logging
 from PyPDF2 import PdfReader
 import tempfile
 import os
-import shlex  # Importa para manejar nombres de archivo con espacios
 # Configuración de logs
 logger = logging.getLogger(__name__)
@@ -24,11 +24,10 @@ def ejecutar_comando(comando):
 def crear_pdf_con_texto_incrustado(pdf_original, archivo_salida, idioma="spa"):
     """Procesa un PDF con OCR usando OCRmyPDF."""
     try:
-        # Usa shlex.quote para manejar espacios en los nombres de archivo
         comando = f"ocrmypdf -l {idioma} --force-ocr --deskew --output-type pdf {shlex.quote(pdf_original)} {shlex.quote(archivo_salida)}"
         ejecutar_comando(comando)
     except RuntimeError as e:
-        raise gr.Error(str(e))  # Mostrar el error en la interfaz de Gradio
 def leer_pdf(pdf_path):
     """Extrae texto de un archivo PDF."""
@@ -54,10 +53,8 @@ def flujo_principal(pdf_file, idioma="spa"):
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_output:
         output_pdf = temp_output.name
-    # Extraer texto original del PDF
     texto_original = leer_pdf(input_pdf)
-    # Procesar el PDF con OCR
     try:
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
         texto_ocr = leer_pdf(output_pdf)
@@ -69,7 +66,6 @@ def flujo_principal(pdf_file, idioma="spa"):
             os.remove(output_pdf)
         raise e
     finally:
-        # Limpieza de archivos temporales
         if os.path.exists(input_pdf):
             os.remove(input_pdf)
         if os.path.exists(output_pdf):

 from PyPDF2 import PdfReader
 import tempfile
 import os
+import shlex
 # Configuración de logs
 logger = logging.getLogger(__name__)
 def crear_pdf_con_texto_incrustado(pdf_original, archivo_salida, idioma="spa"):
     """Procesa un PDF con OCR usando OCRmyPDF."""
     try:
         comando = f"ocrmypdf -l {idioma} --force-ocr --deskew --output-type pdf {shlex.quote(pdf_original)} {shlex.quote(archivo_salida)}"
         ejecutar_comando(comando)
     except RuntimeError as e:
+        raise gr.Error(str(e))
 def leer_pdf(pdf_path):
     """Extrae texto de un archivo PDF."""
     with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_output:
         output_pdf = temp_output.name
     texto_original = leer_pdf(input_pdf)
     try:
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
         texto_ocr = leer_pdf(output_pdf)
             os.remove(output_pdf)
         raise e
     finally:
         if os.path.exists(input_pdf):
             os.remove(input_pdf)
         if os.path.exists(output_pdf):