analizadordocumentoJAC

Sleeping

App Files Files Community

jcalbornoz commited on Oct 7, 2025

Commit

6764e62

verified ·

1 Parent(s): 2556fce

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -40

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ import pytesseract
 import io
 # 1. Configuración de Flask
-# Asumimos que index.html está en la raíz del proyecto (junto a app.py).
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
@@ -29,6 +28,7 @@ def ocr_page(img_bytes):
 def extract_text_from_file(file):
     """
     Extrae texto de todas las páginas de un PDF, con fallback a Tesseract OCR para escaneados.
     """
     file_bytes = file.read()
     total_text = ""
@@ -37,22 +37,16 @@ def extract_text_from_file(file):
     try:
         if file.filename.endswith('.pdf'):
             pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
-            # ITERAMOS SOBRE TODAS LAS PÁGINAS
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
-            # Si se extrajo una cantidad significativa de texto, úsalo directamente
             if len(total_text.strip()) > 100:
-                print("Extracción: Éxito nativo.")
                 return total_text.strip()
         elif file.filename.endswith('.txt'):
-             print("Extracción: Éxito TXT.")
              return file_bytes.decode('utf-8').strip()
-    except Exception as e:
-        print(f"Fallo PyPDF2: {e}. Intentando OCR...")
         pass
     # --- 2. Fallback a OCR con Tesseract (Solo para PDFs) ---
@@ -61,7 +55,6 @@ def extract_text_from_file(file):
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
-            # ITERAMOS SOBRE TODAS LAS PÁGINAS DEL DOCUMENTO
             for i in range(len(document)):
                 page = document.load_page(i)
                 pix = page.get_pixmap(dpi=300)
@@ -71,55 +64,66 @@ def extract_text_from_file(file):
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
-                print("Extracción: Éxito OCR.")
                 return ocr_text.strip()
         except Exception as e:
-            print(f"Fallo el proceso OCR con Tesseract: {e}")
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
-    return ""
 def generate_summary_openai(text):
     """
-    Genera un análisis experto de 7 puntos clave (más detallado) para CTL/Matrícula Inmobiliaria.
     """
     try:
         prompt_text = (
-            "Eres un **abogado experto en derecho inmobiliario colombiano** y en el análisis exhaustivo de Certificados de Tradición y Libertad (CTL) o Matrículas Inmobiliarias. "
-            "Tu tarea es analizar detalladamente la historia registral de TODAS las páginas del documento proporcionado y responder con un resumen de **7 puntos clave** utilizando viñetas. "
-            "Los 7 puntos deben ser críticos y exhaustivos para un estudio de títulos detallado:\n\n"
-            "1. **Identificación del Predio y Propietario Actual**: Menciona el número de la **Matrícula Inmobiliaria**, el nombre del o los propietarios actuales, y el tipo de tenencia (ej. Plena Propiedad, Fideicomiso).\n"
-            "2. **Gravámenes Vigentes y Montos**: Indicar **claramente** la existencia o inexistencia de **Hipoteca, Embargo, o Demanda Civil (Litis)**. Si existen, menciona la anotación y el valor del gravamen si está registrado.\n"
-            "3. **Limitaciones de Dominio Vigentes**: Indicar la existencia o inexistencia de **Patrimonio de Familia, Afectación a Vivienda Familiar, o Servidumbres**. Si existe, mencionar el número de anotación.\n"
-            "4. **Última Transacción Registrada**: Detalla el tipo de acto (ej. compraventa, sucesión, liquidación) y el número de **Escritura Pública** con que se adquirió el inmueble.\n"
-            "5. **Cancelación de Gravámenes Anteriores**: Confirma si todas las hipotecas o embargos anteriores fueron **debidamente cancelados** y menciona el número de anotación de la cancelación.\n"
-            "6. **Falsa Tradición/Estatuto de Saneamiento**: Indica si existen anotaciones que sugieran Falsa Tradición, o si el inmueble ha sido objeto de procesos de extinción de dominio o saneamiento.\n"
-            "7. **Conclusión de Titulabilidad**: Breve conclusión legal sobre la **limpieza** del folio, si existen riesgos mayores para un nuevo comprador o entidad financiera, y si el inmueble es apto para una transacción inmediata (Compraventa o Hipoteca).\n\n"
-            f"Texto completo del CTL/Matrícula Inmobiliaria:\n\n{text}"
         )
         response = client.chat.completions.create(
-            model="gpt-3.5-turbo",
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
-            max_tokens=700, # Aumentado el límite para la respuesta de 7 puntos
-            n=1,
-            temperature=0.3, # Baja temperatura para objetividad legal
         )
-        summary_raw = response.choices[0].message.content.strip()
-        summary_points = [line.strip() for line in summary_raw.split('\n') if line.strip()]
-        return summary_points
     except Exception as e:
-        print(f"Error al llamar a la API de OpenAI: {e}")
-        # Capturamos errores de la API (ej. clave inválida, límite de tokens)
-        raise Exception("Error al generar el resumen. Por favor, verifica tu clave de API o que el texto no sea demasiado largo.")
 # --- Rutas de Flask ---
@@ -140,14 +144,18 @@ def summarize():
         raw_text = extract_text_from_file(file)
         if not raw_text:
-            return jsonify({'error': 'No se pudo extraer texto del archivo. Puede ser un PDF escaneado con muy baja calidad o un formato no soportado.'}), 400
-        summary = generate_summary_openai(raw_text)
-        return jsonify({'summary': summary})
     except Exception as e:
         print(f"Error general en la ruta /summarize: {e}")
-        # El retorno sigue siendo un Error 500 para el servidor
         return jsonify({'error': f"Error interno del servidor: {str(e)}"}), 500
 if __name__ == '__main__':

 import io
 # 1. Configuración de Flask
 app = Flask(__name__, template_folder='.')
 # 2. Configuración de OpenAI
 def extract_text_from_file(file):
     """
     Extrae texto de todas las páginas de un PDF, con fallback a Tesseract OCR para escaneados.
+    (La lógica de extracción y OCR permanece igual)
     """
     file_bytes = file.read()
     total_text = ""
     try:
         if file.filename.endswith('.pdf'):
             pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
             for page in pdf_reader.pages:
                 total_text += page.extract_text() or ""
             if len(total_text.strip()) > 100:
                 return total_text.strip()
         elif file.filename.endswith('.txt'):
              return file_bytes.decode('utf-8').strip()
+    except Exception:
         pass
     # --- 2. Fallback a OCR con Tesseract (Solo para PDFs) ---
             document = fitz.open(stream=file_bytes, filetype="pdf")
             ocr_text = ""
             for i in range(len(document)):
                 page = document.load_page(i)
                 pix = page.get_pixmap(dpi=300)
                 ocr_text += ocr_page(img_bytes) + "\n"
             if len(ocr_text.strip()) > 100:
                 return ocr_text.strip()
         except Exception as e:
             raise Exception("Fallo la extracción de texto del PDF. Asegúrate de que el documento no sea un archivo de imagen corrupto.")
+    return ""
 def generate_summary_openai(text):
     """
+    Genera un análisis experto y devuelve los datos estructurados en formato JSON.
     """
     try:
+        # Definición del esquema JSON para una salida estructurada
+        json_schema = {
+            "type": "object",
+            "properties": {
+                "tipo_documento_detectado": {"type": "string", "description": "Si es CTL/Matrícula Inmobiliaria, o Certificado de Junta de Acción Comunal."},
+                "identificacion_principal": {"type": "string", "description": "Número de Matrícula Inmobiliaria (si es CTL) o Nombre del titular de la propiedad/derecho (si es JAC)."},
+                "propietario_actual": {"type": "string", "description": "Nombre completo del propietario o titular del derecho según el documento."},
+                "estado_gravamenes_vigentes": {"type": "string", "description": "Existencia o inexistencia de Hipoteca, Embargo, o Servidumbre. Breve descripción."},
+                "ultima_transaccion": {"type": "string", "description": "Acto de la última adquisición (ej. Compraventa, Sucesión, o Acto comunal)."},
+                "limites_o_restricciones": {"type": "string", "description": "Presencia de Patrimonio de Familia, Afectación a Vivienda, o restricciones comunales/vecinales."},
+                "analisis_riesgo_legal": {"type": "string", "description": "Riesgos legales detectados (ej. litigios, falsas tradiciones, o conflictos comunales)."},
+                "conclusion_final": {"type": "string", "description": "Conclusión final sobre la validez del título o derecho y aptitud para una transacción."}
+            },
+            "required": ["tipo_documento_detectado", "propietario_actual", "conclusion_final"]
+        }
         prompt_text = (
+            "Eres un **experto legal en derecho inmobiliario colombiano y reglamentos de Juntas de Acción Comunal (JAC)**. "
+            "Tu tarea es analizar el documento adjunto (que puede ser un Certificado de Tradición y Libertad o un documento de JAC) y extraer la información clave para un estudio de títulos o de propiedad comunal. "
+            "DEBES DEVOLVER TU RESPUESTA EXCLUSIVAMENTE EN FORMATO JSON, siguiendo el esquema proporcionado. No añadas texto explicativo fuera del JSON."
+            f"\n\nTexto del Documento:\n\n{text}"
         )
         response = client.chat.completions.create(
+            model="gpt-4o-mini", # Usamos GPT-4o-mini, que es mejor para tareas de JSON y rápido.
             messages=[
                 {"role": "system", "content": prompt_text}
             ],
+            # Configuramos la respuesta para que sea JSON con el esquema definido
+            response_format={"type": "json_object", "schema": json_schema},
+            temperature=0.3,
         )
+        # El contenido de la respuesta será una cadena JSON
+        json_string = response.choices[0].message.content.strip()
+        # Intentamos parsear la cadena JSON a un objeto Python
+        import json
+        structured_data = json.loads(json_string)
+        # Devolvemos el objeto structured_data
+        return structured_data
     except Exception as e:
+        print(f"Error al generar el resumen/JSON con OpenAI: {e}")
+        # Capturamos errores de la API o de formato JSON inválido
+        raise Exception("Error al generar el JSON. Verifica que la APIKey o que el documento sea legible y contenga texto relevante.")
 # --- Rutas de Flask ---
         raw_text = extract_text_from_file(file)
         if not raw_text:
+            return jsonify({'error': 'No se pudo extraer texto. Documento ilegible o sin texto.'}), 400
+        # Llamamos a la función que ahora devuelve un objeto Python (diccionario)
+        structured_summary = generate_summary_openai(raw_text)
+        # Convertimos el diccionario a una lista de cadenas para mostrar en el frontend
+        summary_list = [f"**{k.replace('_', ' ').title()}:** {v}" for k, v in structured_summary.items()]
+        return jsonify({'summary': summary_list})
     except Exception as e:
         print(f"Error general en la ruta /summarize: {e}")
         return jsonify({'error': f"Error interno del servidor: {str(e)}"}), 500
 if __name__ == '__main__':