Spaces:

eberhenriquez94
/

PDF_OCR

Build error

App Files Files Community

eberhenriquez94 commited on Dec 2, 2024

Commit

b5e6996

verified ·

1 Parent(s): e3f9a77

a

Browse files

Files changed (1) hide show

app.py +14 -6

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ def crear_pdf_con_texto_incrustado(pdf_original, archivo_salida, idioma="spa"):
         comando = f"ocrmypdf -l {idioma} --force-ocr --deskew --output-type pdf {shlex.quote(pdf_original)} {shlex.quote(archivo_salida)}"
         ejecutar_comando(comando)
     except RuntimeError as e:
-        raise gr.Error(str(e))
 def leer_pdf(pdf_path):
     """Extrae texto de un archivo PDF."""
@@ -38,6 +38,7 @@ def leer_pdf(pdf_path):
             texto += pagina.extract_text() + "\n"
         return texto.strip() or "No se pudo extraer texto del PDF."
     except Exception as e:
         return f"Error al leer el PDF: {e}"
 def flujo_principal(pdf_file, idioma="spa"):
@@ -56,16 +57,15 @@ def flujo_principal(pdf_file, idioma="spa"):
     texto_original = leer_pdf(input_pdf)
     try:
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
         texto_ocr = leer_pdf(output_pdf)
         return gr.File(input_pdf, label="PDF Original"), texto_original, gr.File(output_pdf, label="PDF con OCR"), texto_ocr
     except gr.Error as e:
-        if os.path.exists(input_pdf):
-            os.remove(input_pdf)
-        if os.path.exists(output_pdf):
-            os.remove(output_pdf)
         raise e
     finally:
         if os.path.exists(input_pdf):
             os.remove(input_pdf)
         if os.path.exists(output_pdf):
@@ -74,20 +74,28 @@ def flujo_principal(pdf_file, idioma="spa"):
 # Interfaz Gradio
 with gr.Blocks() as interfaz:
     gr.Markdown("## Procesador OCR para PDFs")
     with gr.Row():
         archivo_pdf = gr.File(label="Sube tu archivo PDF", file_types=[".pdf"])
         idioma_ocr = gr.Dropdown(["spa", "eng", "fra", "deu"], label="Idioma OCR", value="spa")
         boton_procesar = gr.Button("Procesar OCR")
     with gr.Row():
         texto_original = gr.Textbox(label="Texto Original", lines=10, interactive=False)
         texto_ocr = gr.Textbox(label="Texto con OCR", lines=10, interactive=False)
     with gr.Row():
         pdf_original_vista = gr.File(label="Descargar PDF Original", interactive=False)
         pdf_ocr_vista = gr.File(label="Descargar PDF con OCR", interactive=False)
     boton_procesar.click(
         fn=flujo_principal,
         inputs=[archivo_pdf, idioma_ocr],
         outputs=[pdf_original_vista, texto_original, pdf_ocr_vista, texto_ocr]
     )
-interfaz.launch()

         comando = f"ocrmypdf -l {idioma} --force-ocr --deskew --output-type pdf {shlex.quote(pdf_original)} {shlex.quote(archivo_salida)}"
         ejecutar_comando(comando)
     except RuntimeError as e:
+        raise gr.Error(f"Error al procesar el archivo con OCR: {e}")
 def leer_pdf(pdf_path):
     """Extrae texto de un archivo PDF."""
             texto += pagina.extract_text() + "\n"
         return texto.strip() or "No se pudo extraer texto del PDF."
     except Exception as e:
+        logger.error(f"Error al leer el PDF: {e}")
         return f"Error al leer el PDF: {e}"
 def flujo_principal(pdf_file, idioma="spa"):
     texto_original = leer_pdf(input_pdf)
     try:
+        # Procesar con OCR
         crear_pdf_con_texto_incrustado(input_pdf, output_pdf, idioma)
         texto_ocr = leer_pdf(output_pdf)
         return gr.File(input_pdf, label="PDF Original"), texto_original, gr.File(output_pdf, label="PDF con OCR"), texto_ocr
     except gr.Error as e:
+        logger.error("Error durante el procesamiento del PDF.")
         raise e
     finally:
+        # Limpiar archivos temporales
         if os.path.exists(input_pdf):
             os.remove(input_pdf)
         if os.path.exists(output_pdf):
 # Interfaz Gradio
 with gr.Blocks() as interfaz:
     gr.Markdown("## Procesador OCR para PDFs")
+    # Carga de archivo y selección de idioma
     with gr.Row():
         archivo_pdf = gr.File(label="Sube tu archivo PDF", file_types=[".pdf"])
         idioma_ocr = gr.Dropdown(["spa", "eng", "fra", "deu"], label="Idioma OCR", value="spa")
         boton_procesar = gr.Button("Procesar OCR")
+    # Resultados del procesamiento
     with gr.Row():
         texto_original = gr.Textbox(label="Texto Original", lines=10, interactive=False)
         texto_ocr = gr.Textbox(label="Texto con OCR", lines=10, interactive=False)
     with gr.Row():
         pdf_original_vista = gr.File(label="Descargar PDF Original", interactive=False)
         pdf_ocr_vista = gr.File(label="Descargar PDF con OCR", interactive=False)
+    # Conectar la lógica con la interfaz
     boton_procesar.click(
         fn=flujo_principal,
         inputs=[archivo_pdf, idioma_ocr],
         outputs=[pdf_original_vista, texto_original, pdf_ocr_vista, texto_ocr]
     )
+if __name__ == "__main__":
+    interfaz.launch()