analizadordocumentoJAC

Sleeping

App Files Files Community

jcalbornoz commited on Oct 7, 2025

Commit

205a6eb

verified ·

1 Parent(s): 7e51ade

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -18

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import json
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
@@ -9,11 +10,9 @@ import pytesseract
 import io
 # 1. Configuración de Flask
-# Usa '.' como carpeta de plantillas si index.html está en la raíz.
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
-# Lee la clave de API desde la variable de entorno 'OPENAI_API_KEY'.
 client = OpenAI(
     api_key=os.environ.get("OPENAI_API_KEY"),
 )
@@ -22,7 +21,6 @@ def ocr_page(img_bytes):
     """Realiza OCR en una imagen (byte stream) usando Tesseract."""
     try:
         image = Image.open(io.BytesIO(img_bytes))
-        # Usa el idioma español ('spa').
         text = pytesseract.image_to_string(image, lang='spa')
         return text
     except Exception as e:
@@ -44,13 +42,10 @@ def extract_text_from_file(file):
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
-            # Si se extrajo una cantidad significativa de texto, úsalo.
             if len(total_text.strip()) > 100:
-                print("Extracción: Éxito nativo.")
                 return total_text.strip()
         elif file.filename.endswith('.txt'):
-             print("Extracción: Éxito TXT.")
              return file_bytes.decode('utf-8').strip()
     except Exception:
@@ -62,21 +57,18 @@ def extract_text_from_file(file):
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
-            # ITERAR SOBRE TODAS las páginas
             for i in range(len(document)):
                 page = document.load_page(i)
-                pix = page.get_pixmap(dpi=300) # 300 DPI para buena precisión
                 img_bytes = pix.tobytes("ppm")
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
-                print("Extracción: Éxito OCR.")
                 return ocr_text.strip()
         except Exception as e:
-            print(f"Fallo el proceso OCR con Tesseract: {e}")
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
     return ""
@@ -87,7 +79,6 @@ def generate_summary_openai(text):
     Genera un análisis experto en formato JSON.
     """
     try:
-        # Define el esquema JSON para asegurar la estructura de la respuesta
         json_schema = {
             "type": "object",
             "properties": {
@@ -120,20 +111,19 @@ def generate_summary_openai(text):
         )
         json_string = response.choices[0].message.content.strip()
         structured_data = json.loads(json_string)
         return structured_data
     except Exception as e:
         print(f"Error al generar el resumen/JSON con OpenAI: {e}")
-        raise Exception("Error al generar el JSON. Verifica que la APIKey o que el documento sea legible y contenga texto relevante.")
 # --- Rutas de Flask ---
 @app.route('/')
 def index():
-    # Renderiza index.html desde la raíz
     return render_template('index.html')
 @app.route('/summarize', methods=['POST'])
@@ -153,18 +143,27 @@ def summarize():
         structured_summary = generate_summary_openai(raw_text)
-        # Convertimos el diccionario a una lista de strings formateados para el panel de Summary en el frontend
         summary_list = [f"**{k.replace('_', ' ').title()}:** {v}" for k, v in structured_summary.items()]
-        # Devolvemos el JSON completo y la lista formateada
         return jsonify({
             'structured_data': structured_summary,
             'summary': summary_list
         })
     except Exception as e:
-        print(f"Error general en la ruta /summarize: {e}")
-        return jsonify({'error': f"Error interno del servidor: {str(e)}"}), 500
 if __name__ == '__main__':
     app.run(debug=True)

 import os
 import json
+import traceback # <--- AÑADIDO PARA DIAGNÓSTICO
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
 import io
 # 1. Configuración de Flask
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
 client = OpenAI(
     api_key=os.environ.get("OPENAI_API_KEY"),
 )
     """Realiza OCR en una imagen (byte stream) usando Tesseract."""
     try:
         image = Image.open(io.BytesIO(img_bytes))
         text = pytesseract.image_to_string(image, lang='spa')
         return text
     except Exception as e:
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
             if len(total_text.strip()) > 100:
                 return total_text.strip()
         elif file.filename.endswith('.txt'):
              return file_bytes.decode('utf-8').strip()
     except Exception:
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
             for i in range(len(document)):
                 page = document.load_page(i)
+                pix = page.get_pixmap(dpi=300)
                 img_bytes = pix.tobytes("ppm")
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
                 return ocr_text.strip()
         except Exception as e:
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
     return ""
     Genera un análisis experto en formato JSON.
     """
     try:
         json_schema = {
             "type": "object",
             "properties": {
         )
         json_string = response.choices[0].message.content.strip()
         structured_data = json.loads(json_string)
         return structured_data
     except Exception as e:
         print(f"Error al generar el resumen/JSON con OpenAI: {e}")
+        # Relanzamos el error para que sea capturado por el bloque except de summarize
+        raise
 # --- Rutas de Flask ---
 @app.route('/')
 def index():
     return render_template('index.html')
 @app.route('/summarize', methods=['POST'])
         structured_summary = generate_summary_openai(raw_text)
         summary_list = [f"**{k.replace('_', ' ').title()}:** {v}" for k, v in structured_summary.items()]
         return jsonify({
             'structured_data': structured_summary,
             'summary': summary_list
         })
     except Exception as e:
+        # --- BLOQUE DE DIAGNÓSTICO CRÍTICO ---
+        # 1. Imprime el traceback completo en la consola
+        print("\n" + "="*50)
+        print("DIAGNÓSTICO: ERROR 500 DURANTE EL PROCESAMIENTO")
+        print(f"Tipo de Error: {type(e).__name__}")
+        print("Traceback Completo:")
+        traceback.print_exc() # Imprime el stack trace completo
+        print("="*50 + "\n")
+        # ----------------------------------------
+        # 2. Devuelve el error de forma segura al usuario
+        # El frontend recibirá un mensaje de error que incluye el tipo de error
+        return jsonify({'error': f"Error interno del servidor. Detalle: {type(e).__name__} - {str(e)}"}), 500
 if __name__ == '__main__':
     app.run(debug=True)