analizadordocumentoJAC

Running

App Files Files Community

jcalbornoz commited on Oct 7, 2025

Commit

25cd901

verified ·

1 Parent(s): cf50f79

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -17

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
@@ -8,9 +9,11 @@ import pytesseract
 import io
 # 1. Configuración de Flask
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
 client = OpenAI(
     api_key=os.environ.get("OPENAI_API_KEY"),
 )
@@ -19,6 +22,7 @@ def ocr_page(img_bytes):
     """Realiza OCR en una imagen (byte stream) usando Tesseract."""
     try:
         image = Image.open(io.BytesIO(img_bytes))
         text = pytesseract.image_to_string(image, lang='spa')
         return text
     except Exception as e:
@@ -27,8 +31,8 @@ def ocr_page(img_bytes):
 def extract_text_from_file(file):
     """
-    Extrae texto de todas las páginas de un PDF, con fallback a Tesseract OCR para escaneados.
-    (La lógica de extracción y OCR permanece igual)
     """
     file_bytes = file.read()
     total_text = ""
@@ -40,6 +44,7 @@ def extract_text_from_file(file):
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
             if len(total_text.strip()) > 100:
                 return total_text.strip()
@@ -55,9 +60,10 @@ def extract_text_from_file(file):
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
             for i in range(len(document)):
                 page = document.load_page(i)
-                pix = page.get_pixmap(dpi=300)
                 img_bytes = pix.tobytes("ppm")
@@ -67,6 +73,7 @@ def extract_text_from_file(file):
                 return ocr_text.strip()
         except Exception as e:
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
     return ""
@@ -74,10 +81,10 @@ def extract_text_from_file(file):
 def generate_summary_openai(text):
     """
-    Genera un análisis experto y devuelve los datos estructurados en formato JSON.
     """
     try:
-        # Definición del esquema JSON para una salida estructurada
         json_schema = {
             "type": "object",
             "properties": {
@@ -95,40 +102,39 @@ def generate_summary_openai(text):
         prompt_text = (
             "Eres un **experto legal en derecho inmobiliario colombiano y reglamentos de Juntas de Acción Comunal (JAC)**. "
-            "Tu tarea es analizar el documento adjunto (que puede ser un Certificado de Tradición y Libertad o un documento de JAC) y extraer la información clave para un estudio de títulos o de propiedad comunal. "
             "DEBES DEVOLVER TU RESPUESTA EXCLUSIVAMENTE EN FORMATO JSON, siguiendo el esquema proporcionado. No añadas texto explicativo fuera del JSON."
             f"\n\nTexto del Documento:\n\n{text}"
         )
         response = client.chat.completions.create(
-            model="gpt-4o-mini", # Usamos GPT-4o-mini, que es mejor para tareas de JSON y rápido.
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
-            # Configuramos la respuesta para que sea JSON con el esquema definido
             response_format={"type": "json_object", "schema": json_schema},
             temperature=0.3,
         )
-        # El contenido de la respuesta será una cadena JSON
         json_string = response.choices[0].message.content.strip()
-        # Intentamos parsear la cadena JSON a un objeto Python
-        import json
         structured_data = json.loads(json_string)
-        # Devolvemos el objeto structured_data
         return structured_data
     except Exception as e:
         print(f"Error al generar el resumen/JSON con OpenAI: {e}")
-        # Capturamos errores de la API o de formato JSON inválido
         raise Exception("Error al generar el JSON. Verifica que la APIKey o que el documento sea legible y contenga texto relevante.")
 # --- Rutas de Flask ---
 @app.route('/')
 def index():
     return render_template('index.html')
 @app.route('/summarize', methods=['POST'])
@@ -144,18 +150,24 @@ def summarize():
         raw_text = extract_text_from_file(file)
         if not raw_text:
-            return jsonify({'error': 'No se pudo extraer texto. Documento ilegible o sin texto.'}), 400
-        # Llamamos a la función que ahora devuelve un objeto Python (diccionario)
         structured_summary = generate_summary_openai(raw_text)
-        # Convertimos el diccionario a una lista de cadenas para mostrar en el frontend
         summary_list = [f"**{k.replace('_', ' ').title()}:** {v}" for k, v in structured_summary.items()]
-        return jsonify({'summary': summary_list})
     except Exception as e:
         print(f"Error general en la ruta /summarize: {e}")
         return jsonify({'error': f"Error interno del servidor: {str(e)}"}), 500
 if __name__ == '__main__':

 import os
+import json
 from flask import Flask, request, jsonify, render_template
 import PyPDF2
 from openai import OpenAI
 import io
 # 1. Configuración de Flask
+# Usa '.' como carpeta de plantillas si index.html está en la raíz.
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
+# Lee la clave de API desde la variable de entorno 'OPENAI_API_KEY'.
 client = OpenAI(
     api_key=os.environ.get("OPENAI_API_KEY"),
 )
     """Realiza OCR en una imagen (byte stream) usando Tesseract."""
     try:
         image = Image.open(io.BytesIO(img_bytes))
+        # Usa el idioma español ('spa').
         text = pytesseract.image_to_string(image, lang='spa')
         return text
     except Exception as e:
 def extract_text_from_file(file):
     """
+    Extrae texto de un archivo PDF, usando PyPDF2 primero y luego Tesseract OCR
+    como fallback si el PDF es escaneado. Procesa TODAS las páginas.
     """
     file_bytes = file.read()
     total_text = ""
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
+            # Si se extrajo una cantidad significativa de texto, úsalo.
             if len(total_text.strip()) > 100:
                 return total_text.strip()
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
+            # ITERAR SOBRE TODAS las páginas
             for i in range(len(document)):
                 page = document.load_page(i)
+                pix = page.get_pixmap(dpi=300) # 300 DPI para buena precisión
                 img_bytes = pix.tobytes("ppm")
                 return ocr_text.strip()
         except Exception as e:
+            print(f"Fallo el proceso OCR con Tesseract: {e}")
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
     return ""
 def generate_summary_openai(text):
     """
+    Genera un análisis experto en formato JSON.
     """
     try:
+        # Define el esquema JSON para asegurar la estructura de la respuesta
         json_schema = {
             "type": "object",
             "properties": {
         prompt_text = (
             "Eres un **experto legal en derecho inmobiliario colombiano y reglamentos de Juntas de Acción Comunal (JAC)**. "
+            "Tu tarea es analizar el documento adjunto y extraer la información clave para un estudio de títulos o de propiedad comunal. "
             "DEBES DEVOLVER TU RESPUESTA EXCLUSIVAMENTE EN FORMATO JSON, siguiendo el esquema proporcionado. No añadas texto explicativo fuera del JSON."
             f"\n\nTexto del Documento:\n\n{text}"
         )
         response = client.chat.completions.create(
+            # Usamos un modelo bueno para JSON
+            model="gpt-4o-mini",
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
+            # Forzamos la respuesta a ser un JSON válido
             response_format={"type": "json_object", "schema": json_schema},
             temperature=0.3,
         )
         json_string = response.choices[0].message.content.strip()
+        # Parseamos la cadena JSON a un diccionario de Python
         structured_data = json.loads(json_string)
+        # Devolvemos el diccionario estructurado
         return structured_data
     except Exception as e:
         print(f"Error al generar el resumen/JSON con OpenAI: {e}")
         raise Exception("Error al generar el JSON. Verifica que la APIKey o que el documento sea legible y contenga texto relevante.")
 # --- Rutas de Flask ---
 @app.route('/')
 def index():
+    # Renderiza index.html desde la raíz
     return render_template('index.html')
 @app.route('/summarize', methods=['POST'])
         raw_text = extract_text_from_file(file)
         if not raw_text:
+            return jsonify({'error': 'No se pudo extraer texto. Documento ilegible, escaneado de baja calidad o sin texto.'}), 400
+        # structured_summary es ahora un diccionario de Python (JSON)
         structured_summary = generate_summary_openai(raw_text)
+        # Convertimos el diccionario a una lista de strings formateados para el frontend
+        # Esto es lo que el JS de index.html usará para el panel de Summary
         summary_list = [f"**{k.replace('_', ' ').title()}:** {v}" for k, v in structured_summary.items()]
+        # Devolvemos el JSON original (structured_summary) y la lista formateada (summary_list)
+        return jsonify({
+            'structured_data': structured_summary, # JSON completo
+            'summary': summary_list # Lista formateada para fácil visualización
+        })
     except Exception as e:
         print(f"Error general en la ruta /summarize: {e}")
+        # Aseguramos un retorno de error 500 con un mensaje útil
         return jsonify({'error': f"Error interno del servidor: {str(e)}"}), 500
 if __name__ == '__main__':