analizadordocumentoJAC

Sleeping

App Files Files Community

jcalbornoz commited on Oct 7, 2025

Commit

1cccf6d

verified ·

1 Parent(s): cb6d1e8

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -21

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import json
-import traceback # <--- AÑADIDO PARA DIAGNÓSTICO
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
@@ -25,23 +25,21 @@ def ocr_page(img_bytes):
         return text
     except Exception as e:
         print(f"Error en Pytesseract/OCR: {e}")
         return ""
 def extract_text_from_file(file):
-    """
-    Extrae texto de un archivo PDF, usando PyPDF2 primero y luego Tesseract OCR
-    como fallback si el PDF es escaneado. Procesa TODAS las páginas.
-    """
     file_bytes = file.read()
     total_text = ""
-    # --- 1. Intento de extracción nativa (PyPDF2) ---
     try:
         if file.filename.endswith('.pdf'):
             pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
             if len(total_text.strip()) > 100:
                 return total_text.strip()
@@ -51,18 +49,15 @@ def extract_text_from_file(file):
     except Exception:
         pass
-    # --- 2. Fallback a OCR con Tesseract (Solo para PDFs) ---
     if file.filename.endswith('.pdf'):
         try:
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
             for i in range(len(document)):
                 page = document.load_page(i)
                 pix = page.get_pixmap(dpi=300)
                 img_bytes = pix.tobytes("ppm")
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
@@ -73,12 +68,10 @@ def extract_text_from_file(file):
     return ""
 def generate_summary_openai(text):
-    """
-    Genera un análisis experto en formato JSON.
-    """
     try:
         json_schema = {
             "type": "object",
             "properties": {
@@ -106,6 +99,7 @@ def generate_summary_openai(text):
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
             response_format={"type": "json_object", "schema": json_schema},
             temperature=0.3,
         )
@@ -116,8 +110,7 @@ def generate_summary_openai(text):
         return structured_data
     except Exception as e:
-        print(f"Error al generar el resumen/JSON con OpenAI: {e}")
-        # Relanzamos el error para que sea capturado por el bloque except de summarize
         raise
 # --- Rutas de Flask ---
@@ -152,17 +145,16 @@ def summarize():
     except Exception as e:
         # --- BLOQUE DE DIAGNÓSTICO CRÍTICO ---
-        # 1. Imprime el traceback completo en la consola
         print("\n" + "="*50)
         print("DIAGNÓSTICO: ERROR 500 DURANTE EL PROCESAMIENTO")
         print(f"Tipo de Error: {type(e).__name__}")
         print("Traceback Completo:")
-        traceback.print_exc() # Imprime el stack trace completo
         print("="*50 + "\n")
         # ----------------------------------------
-        # 2. Devuelve el error de forma segura al usuario
-        # El frontend recibirá un mensaje de error que incluye el tipo de error
         return jsonify({'error': f"Error interno del servidor. Detalle: {type(e).__name__} - {str(e)}"}), 500
 if __name__ == '__main__':

 import os
 import json
+import traceback
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
         return text
     except Exception as e:
         print(f"Error en Pytesseract/OCR: {e}")
+        # En caso de que Tesseract no se encuentre (el error 500 más común), esto se imprimirá
+        print("Asegúrate de que Tesseract-OCR esté instalado correctamente en tu Dockerfile.")
         return ""
 def extract_text_from_file(file):
+    """Extrae texto de un PDF/TXT, usando OCR si es necesario en todas las páginas."""
     file_bytes = file.read()
     total_text = ""
+    # Intento de extracción nativa
     try:
         if file.filename.endswith('.pdf'):
             pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
             if len(total_text.strip()) > 100:
                 return total_text.strip()
     except Exception:
         pass
+    # Fallback a OCR
     if file.filename.endswith('.pdf'):
         try:
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
             for i in range(len(document)):
                 page = document.load_page(i)
                 pix = page.get_pixmap(dpi=300)
                 img_bytes = pix.tobytes("ppm")
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
     return ""
 def generate_summary_openai(text):
+    """Genera un análisis experto en formato JSON usando el nuevo SDK."""
     try:
+        # Esquema JSON
         json_schema = {
             "type": "object",
             "properties": {
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
+            # SINTAXIS MODERNA (Requiere openai>=1.0.0)
             response_format={"type": "json_object", "schema": json_schema},
             temperature=0.3,
         )
         return structured_data
     except Exception as e:
+        # Propaga el error para que sea capturado en summarize
         raise
 # --- Rutas de Flask ---
     except Exception as e:
         # --- BLOQUE DE DIAGNÓSTICO CRÍTICO ---
         print("\n" + "="*50)
         print("DIAGNÓSTICO: ERROR 500 DURANTE EL PROCESAMIENTO")
         print(f"Tipo de Error: {type(e).__name__}")
         print("Traceback Completo:")
+        # Imprime el stack trace completo del error
+        traceback.print_exc()
         print("="*50 + "\n")
         # ----------------------------------------
+        # Devuelve el error de forma segura al usuario
         return jsonify({'error': f"Error interno del servidor. Detalle: {type(e).__name__} - {str(e)}"}), 500
 if __name__ == '__main__':