Spaces:

Yofran23
/

Venezuela

Running

App Files Files Community

Venezuela / ai_processor.py

Yofran23

Actualización automática: ai_processor.py

ca84bcf verified 5 days ago

Raw

History Blame Contribute Delete

22 kB

	import os
	import re
	import json
	import time
	import base64
	from pathlib import Path
	from dotenv import load_dotenv

	load_dotenv()

	try:
	from openai import OpenAI
	AI_AVAILABLE = True
	except ImportError:
	AI_AVAILABLE = False

	try:
	import PIL.Image
	PIL_OK = True
	except ImportError:
	PIL_OK = False

	try:
	import pdfplumber
	PDF_OK = True
	except ImportError:
	PDF_OK = False

	try:
	import pandas as pd
	PANDAS_OK = True
	except ImportError:
	PANDAS_OK = False

	_CLIENT = None

	# Modelo de IA a través de Groq (Gratuito de emergencia)
	MODELO = os.environ.get("AI_MODEL", "llama-3.2-90b-vision-preview")

	TIPOS_IMAGEN = {".jpg", ".jpeg", ".png", ".webp", ".gif", ".bmp", ".tiff", ".tif"}
	TIPOS_PDF = {".pdf"}
	TIPOS_EXCEL = {".xlsx", ".xls", ".csv", ".ods"}


	def _get_client():
	global _CLIENT
	if not AI_AVAILABLE:
	return None
	if _CLIENT is None:
	key = os.environ.get("GROQ_API_KEY", "")
	if not key:
	return None
	_CLIENT = OpenAI(
	base_url="https://api.groq.com/openai/v1",
	api_key=key,
	)
	return _CLIENT


	def _tipo_archivo(path: str) -> str:
	ext = Path(path).suffix.lower()
	if ext in TIPOS_IMAGEN:
	return "imagen"
	if ext in TIPOS_PDF:
	return "pdf"
	if ext in TIPOS_EXCEL:
	return "excel"
	return "desconocido"


	def _parse_json(text: str) -> dict:
	clean = (text or "").strip()
	if "```" in clean:
	for bloque in clean.split("```")[1::2]:
	candidato = bloque.lstrip("json").strip()
	try:
	return json.loads(candidato)
	except Exception:
	continue
	try:
	return json.loads(clean)
	except Exception:
	return {"error": "Respuesta de IA en formato inesperado.", "texto_libre": clean}


	def _encode_image(image_path: str) -> str:
	with open(image_path, "rb") as image_file:
	return base64.b64encode(image_file.read()).decode('utf-8')


	# ─── Prompts ──────────────────────────────────────────────────────────────────

	PROMPT_IMAGEN = """Eres un asistente de emergencia médica. Se te envía una imagen que puede ser:
	foto de un paciente, cédula de identidad, brazalete hospitalario, lista impresa, captura de WhatsApp u otro.

	REGLAS ESTRICTAS — sin excepción:
	1. Si no puedes leer un texto -> escribe "No legible". NUNCA inventes.
	2. Si la imagen es borrosa o ilegible -> di exactamente eso.
	3. NUNCA estimes ni inventes nombres, cédulas, edades u otros datos.
	4. Solo reporta lo que puedes ver con certeza absoluta.
	5. Si la imagen contiene una LISTA de varias personas, extrae TODAS en "personas_multiples".
	6. LIMPIA LOS NOMBRES: Si el nombre tiene casillas como "( )", "[]" o ubicaciones al lado (ej. "Caribe", "Los Corales"), quita los símbolos y mueve la ubicación al campo "notas" o "hospital". El campo "nombre" SOLO debe tener nombre y apellido. Ignora líneas que sean títulos como "Primera Lista" o "GUAIRA)".
	7. EXTRAE EL HOSPITAL CONTEXTUAL: Si el texto introductorio de la imagen menciona un hospital general o centro médico (ej. "Hospital Miguel Pérez Carreño (La Yaguara)"), aplícalo a TODOS los pacientes de la lista en su campo "hospital".

	Responde ÚNICAMENTE en JSON:
	{
	"tipo_imagen": "descripción de qué es",
	"procesable": true,
	"nombre_detectado": null,
	"cedula_detectada": null,
	"edad_estimada": null,
	"descripcion_fisica": null,
	"texto_visible": "todo texto legible o 'Ninguno legible'",
	"condicion_aparente": null,
	"observaciones": null,
	"personas_multiples": [],
	"resumen": "resumen en 1-2 oraciones"
	}

	Cada objeto de "personas_multiples" debe tener: nombre, cedula, edad, hospital, condicion, notas (null si no aparecen).
	Si la imagen no es procesable -> procesable: false y explica en observaciones."""


	PROMPT_PDF = """Eres un asistente de emergencia médica. Se te comparte texto extraído de un documento PDF.
	Puede ser un registro hospitalario, lista de pacientes, acta médica u otro documento de emergencia.

	REGLAS ESTRICTAS:
	1. Extrae SOLO información que está escrita claramente en el texto.
	2. Si un campo no está -> usa null. NUNCA inventes datos.
	3. Si hay varias personas, extráelas TODAS en "personas_multiples".
	4. LIMPIA LOS NOMBRES: Elimina símbolos de casillas vacías "( )", "[]" y mueve ubicaciones (ej. "Los Corales") a "notas". Ignora encabezados y ruido.

	Texto del PDF:
	{texto}

	Responde ÚNICAMENTE en JSON:
	{
	"tipo_documento": "descripción del documento",
	"procesable": true,
	"nombre_detectado": null,
	"cedula_detectada": null,
	"edad_estimada": null,
	"hospital_detectado": null,
	"condicion_detectada": null,
	"observaciones": null,
	"personas_multiples": [],
	"resumen": "resumen en 1-2 oraciones"
	}

	Cada objeto en "personas_multiples" debe tener: nombre, cedula, edad, hospital, condicion, notas (null si no están)."""


	PROMPT_EXCEL = """Eres un asistente de emergencia. Se te envía una tabla en formato texto extraída de un Excel o CSV.
	Puede ser una lista de pacientes en un hospital, registro de heridos u otro listado de emergencia.

	REGLAS ESTRICTAS:
	1. Extrae EXACTAMENTE lo que está en la tabla, sin inventar.
	2. Mapea las columnas al esquema de la base de datos.
	3. Si un campo no existe en la tabla -> null.

	Tabla:
	{tabla}

	Responde ÚNICAMENTE en JSON:
	{
	"tipo_documento": "descripción del documento",
	"procesable": true,
	"columnas_detectadas": ["col1", "col2"],
	"personas_multiples": [
	{"nombre": null, "cedula": null, "edad": null, "hospital": null, "condicion": null, "notas": null}
	],
	"observaciones": null,
	"resumen": "resumen en 1-2 oraciones"
	}"""


	PROMPT_BUSCAR = """Eres un asistente de emergencia. Una familia busca a un ser querido perdido.
	Se te envía una imagen (foto, cédula, captura u otro tipo).

	REGLAS ESTRICTAS:
	1. Describe SOLO lo que puedes ver con certeza.
	2. NUNCA inventes rasgos, nombres ni datos.
	3. Si la imagen es poco clara -> dilo.

	Responde ÚNICAMENTE en JSON:
	{
	"tipo_imagen": "qué es la imagen",
	"procesable": true,
	"descripcion_busqueda": null,
	"genero": "masculino / femenino / no determinable",
	"edad_estimada": null,
	"caracteristicas_clave": null,
	"nombre_visible": null,
	"cedula_visible": null,
	"advertencia": null
	}"""


	# ─── Procesadores por tipo ────────────────────────────────────────────────────

	def _es_error_cuota(msg: str) -> bool:
	m = (msg or "").lower()
	return ("429" in m or "insufficient_quota" in m or "rate limit" in m
	or "exceeded" in m or "balance" in m)


	def _ocr_tesseract(path: str):
	"""OCR local gratuito (sin cuota). Devuelve el texto leído o None."""
	try:
	import pytesseract
	if not PIL_OK:
	return None
	img = PIL.Image.open(path)
	try:
	return pytesseract.image_to_string(img, lang="spa")
	except Exception:
	return pytesseract.image_to_string(img)
	except Exception:
	return None


	def _parse_lista_texto(texto: str) -> list:
	personas = []
	hospital_context = None

	# Buscar posible nombre de hospital en el texto introductorio (primeros 300 caracteres)
	m_hosp = re.search(r"(Hospital\s+[A-Za-zÁÉÍÓÚáéíóúÑñ\s()]+\|Clínica\s+[A-Za-zÁÉÍÓÚáéíóúÑñ\s()]+)", (texto or "")[:300], re.IGNORECASE)
	if m_hosp:
	hospital_context = m_hosp.group(1).strip()

	for linea in (texto or "").splitlines():
	l = linea.strip()
	if not l: continue

	# Eliminar números de viñeta al inicio
	l = re.sub(r"^\s\d{1,3}\s[.\)\-]\s*", "", l).strip()
	# Eliminar marcas de casillas vacías como ( ) o [ ]
	l = re.sub(r"\(\s\)\|\[\s\]\|\{\s*\}", "", l)
	if not l: continue

	edad = None
	m_edad = re.search(r"(\d{1,3})\s*a\w{0,3}os?\b", l, re.IGNORECASE)
	if m_edad:
	edad = m_edad.group(1)
	l = (l[:m_edad.start()] + " " + l[m_edad.end():]).strip()

	cedula = None
	# Soportar cédulas con puntos (ej 17.856.045) o sin puntos (ej 17856045)
	m_ced = re.search(r"\b(\d{1,3}(?:\.\d{3}){1,2}\|\d{6,9})\b", l)
	if m_ced:
	cedula = m_ced.group(1).replace(".", "")
	l = (l[:m_ced.start()] + " " + l[m_ced.end():]).strip()

	nombre = re.sub(r"[.\-•\|()]+", " ", l)
	nombre = re.sub(r"\s+", " ", nombre).strip(" .,-()")

	# Extraer locaciones como "Caribe", "Los Corales", etc., del nombre y pasarlas a notas
	locaciones_conocidas = r"\b(Caribe\|Los Corales\|Pariata\|Maiquetia\|Macuto\|Hospital\|Clinica\|Clínica\|Centro)\b"
	notas = None

	# Buscar locaciones
	m_loc = re.search(locaciones_conocidas, nombre, re.IGNORECASE)
	if m_loc:
	notas = f"Ubicación detectada: {m_loc.group(1).title()}"
	# Remover la locación del nombre
	nombre = re.sub(locaciones_conocidas, "", nombre, flags=re.IGNORECASE).strip()
	nombre = re.sub(r"\s+", " ", nombre) # limpiar dobles espacios que hayan quedado

	# Ignorar encabezados o ruido obvio
	ruido = r"LISTADO\|PACIENTES\|HOSPITAL\|SIN FAMILIAR\|NOMBRE\|LISTA\|GUAIRA\|PAGINA\|HOJA"
	if re.search(ruido, nombre, re.IGNORECASE) and not edad and not cedula:
	continue
	# Si quedó algo muy corto o números sueltos
	if len(nombre) < 3 and not cedula and not edad:
	continue

	personas.append({"nombre": nombre or None, "cedula": cedula, "edad": edad,
	"hospital": hospital_context,
	"condicion": "Sin información", "notas": notas})
	return personas


	def _fallback_ocr(path: str) -> dict:
	texto = _ocr_tesseract(path)
	if not texto or not texto.strip():
	return {
	"procesable": False,
	"error": "La IA no está disponible y el OCR local no pudo leer la imagen. Revisa credenciales o Tesseract.",
	"resumen": "Sin IA ni OCR disponible.",
	}
	personas = _parse_lista_texto(texto)
	uno = personas[0] if len(personas) == 1 else {}
	return {
	"procesable": True,
	"tipo_imagen": "Lista leída con OCR local (sin IA)",
	"texto_visible": texto.strip(),
	"personas_multiples": personas,
	"nombre_detectado": uno.get("nombre"),
	"cedula_detectada": uno.get("cedula"),
	"edad_estimada": uno.get("edad"),
	"nombre_visible": uno.get("nombre"),
	"cedula_visible": uno.get("cedula"),
	"descripcion_busqueda": "Texto leído por OCR local (sin IA).",
	"resumen": f"⚠️ IA inactiva — se usó OCR local. Se leyeron {len(personas)} línea(s). Revisa bien los datos.",
	"observaciones": "Extraído con OCR local (Tesseract).",
	}


	def _intentar_openrouter_imagen(path: str, prompt: str):
	client = _get_client()
	if not client or not PIL_OK:
	return None
	try:
	PIL.Image.open(path).verify()
	base64_img = _encode_image(path)
	except Exception:
	return {"procesable": False, "error": "Formato de imagen no soportado o archivo corrupto."}

	ext = Path(path).suffix.lower().replace(".", "")
	mime = "image/jpeg" if ext in ["jpg", "jpeg"] else f"image/{ext}"

	for intento in range(3):
	try:
	response = client.chat.completions.create(
	model=MODELO,
	messages=[
	{
	"role": "user",
	"content": [
	{"type": "text", "text": prompt},
	{
	"type": "image_url",
	"image_url": {"url": f"data:{mime};base64,{base64_img}"}
	}
	]
	}
	]
	)
	return _parse_json(response.choices[0].message.content)
	except Exception as e:
	msg = str(e)
	if _es_error_cuota(msg):
	return None
	if intento < 2:
	time.sleep(1.5 * (intento + 1))
	continue
	return None
	return None


	def _procesar_imagen(path: str, prompt: str) -> dict:
	resultado = _intentar_openrouter_imagen(path, prompt)
	if resultado is not None and resultado.get("procesable") is not False:
	return resultado
	return _fallback_ocr(path)


	def _procesar_pdf(path: str) -> dict:
	if not PDF_OK:
	return {"procesable": False, "error": "Librería pdfplumber no instalada."}
	try:
	textos = []
	with pdfplumber.open(path) as pdf:
	for pagina in pdf.pages:
	t = pagina.extract_text()
	if t: textos.append(t.strip())

	if not textos:
	return {
	"procesable": False,
	"error": "El PDF no contiene texto legible.",
	"resumen": "PDF sin texto extraíble."
	}

	texto_completo = "\n\n".join(textos)
	if len(texto_completo) > 8000:
	texto_completo = texto_completo[:8000] + "\n...[texto truncado]"

	client = _get_client()
	if not client:
	return _fallback_texto_pdf(texto_completo, "IA no configurada")

	prompt = PROMPT_PDF.replace("{texto}", texto_completo)

	for intento in range(3):
	try:
	response = client.chat.completions.create(
	model=MODELO,
	messages=[{"role": "user", "content": prompt}]
	)
	resultado = _parse_json(response.choices[0].message.content)
	resultado["tipo_imagen"] = resultado.get("tipo_documento", "PDF")
	return resultado
	except Exception as e:
	if _es_error_cuota(str(e)):
	return _fallback_texto_pdf(texto_completo, "cuota agotada")
	if intento < 2:
	time.sleep(1.5 * (intento + 1))
	continue
	return _fallback_texto_pdf(texto_completo, "IA no disponible")

	except Exception as e:
	return {"procesable": False, "error": f"Error al leer el PDF: {str(e)}"}


	def _fallback_texto_pdf(texto: str, motivo: str) -> dict:
	personas = _parse_lista_texto(texto)
	if not personas:
	return {"procesable": False,
	"error": f"No se pudo procesar con IA ({motivo}) y no hay personas detectadas en texto libre.",
	"resumen": "Sin datos extraíbles."}
	return {
	"procesable": True,
	"tipo_imagen": "PDF leído sin IA (texto directo)",
	"personas_multiples": personas,
	"resumen": f"⚠️ {motivo}: se detectaron {len(personas)} personas directamente del texto. Revisa datos.",
	"observaciones": "Extraído del texto del PDF sin IA.",
	}


	def _procesar_excel(path: str) -> dict:
	if not PANDAS_OK:
	return {"procesable": False, "error": "Librería pandas no disponible."}
	try:
	ext = Path(path).suffix.lower()
	if ext == ".csv":
	df = pd.read_csv(path, encoding="utf-8", encoding_errors="replace")
	else:
	df = pd.read_excel(path)

	if df.empty:
	return {"procesable": False, "error": "El archivo está vacío."}

	if not _mapear_columnas(df.columns.tolist()):
	df = _redetectar_encabezado(path, ext, df)

	mapa_cols = _mapear_columnas(df.columns.tolist())
	if mapa_cols:
	personas = []
	for _, fila in df.iterrows():
	p = {}
	for campo, col_excel in mapa_cols.items():
	val = fila.get(col_excel)
	p[campo] = str(val).strip() if val is not None and str(val) != "nan" else None
	if p.get("nombre") or p.get("cedula"):
	personas.append(p)
	return {
	"procesable": True,
	"tipo_imagen": f"Excel/CSV con {len(personas)} registros",
	"personas_multiples": personas,
	"resumen": f"Se detectaron {len(personas)} personas directamente del archivo.",
	"columnas_detectadas": list(mapa_cols.keys())
	}

	tabla_texto = df.head(80).to_string(index=False)
	if len(tabla_texto) > 6000:
	tabla_texto = tabla_texto[:6000] + "\n...[tabla truncada]"

	client = _get_client()
	if not client:
	return {"procesable": False, "error": "IA no configurada. Añade OPENROUTER_API_KEY."}

	prompt = PROMPT_EXCEL.replace("{tabla}", tabla_texto)
	response = client.chat.completions.create(
	model=MODELO,
	messages=[{"role": "user", "content": prompt}]
	)
	resultado = _parse_json(response.choices[0].message.content)
	resultado["tipo_imagen"] = resultado.get("tipo_documento", "Excel/CSV")
	return resultado

	except Exception as e:
	return {"procesable": False, "error": f"Error al leer el archivo: {str(e)}"}


	def _redetectar_encabezado(path: str, ext: str, df_orig):
	try:
	crudo = (pd.read_csv(path, header=None, nrows=15, encoding="utf-8", encoding_errors="replace")
	if ext == ".csv" else pd.read_excel(path, header=None, nrows=15))
	for i in range(len(crudo)):
	posibles = [str(x) for x in crudo.iloc[i].tolist()]
	if _mapear_columnas(posibles):
	return (pd.read_csv(path, header=i, encoding="utf-8", encoding_errors="replace")
	if ext == ".csv" else pd.read_excel(path, header=i))
	except Exception:
	pass
	return df_orig


	def _mapear_columnas(columnas: list) -> dict \| None:
	c = {str(col).lower().strip(): col for col in columnas}
	mapa = {}
	for campo, variantes in {
	"nombre": ["nombre", "name", "paciente", "apellido y nombre", "nombres y apellidos", "apellidos y nombres"],
	"cedula": ["cedula", "cédula", "ci", "documento", "id", "cedula de identidad", "cédula / id"],
	"edad": ["edad", "age", "años"],
	"hospital": ["hospital", "centro", "clinica", "clínica", "lugar", "ubicacion", "ubicación"],
	"condicion":["condicion", "condición", "estado", "status", "diagnostico", "diagnóstico"],
	"contacto": ["telefono", "teléfono", "tel", "celular", "contacto"],
	"notas": ["notas", "observaciones", "nota", "comentarios", "descripcion", "descripción", "direccion"],
	}.items():
	for v in variantes:
	if v in c:
	mapa[campo] = c[v]
	break
	if "nombre" in mapa or "cedula" in mapa:
	return mapa
	return None


	# ─── Funciones públicas ───────────────────────────────────────────────────────

	def analizar_archivo(path: str) -> dict:
	if not path:
	return {"procesable": False, "error": "No se recibió ningún archivo."}

	tipo = _tipo_archivo(path)
	if tipo == "imagen":
	return _procesar_imagen(path, PROMPT_IMAGEN)
	elif tipo == "pdf":
	return _procesar_pdf(path)
	elif tipo == "excel":
	return _procesar_excel(path)
	else:
	ext = Path(path).suffix
	return {
	"procesable": False,
	"error": f"Tipo de archivo '{ext}' no soportado."
	}


	def extraer_lista(path: str) -> dict:
	res = analizar_archivo(path)
	if not res.get("procesable", True):
	return {"procesable": False, "personas": [],
	"error": res.get("error") or res.get("observaciones") or "No procesable.",
	"resumen": res.get("resumen", "")}

	personas = list(res.get("personas_multiples") or [])

	if not personas and (res.get("nombre_detectado") or res.get("cedula_detectada")):
	personas = [{
	"nombre": res.get("nombre_detectado"),
	"cedula": res.get("cedula_detectada"),
	"edad": res.get("edad_estimada"),
	"condicion": res.get("condicion_aparente") or res.get("condicion_detectada"),
	"notas": res.get("observaciones"),
	}]

	limpias = []
	for p in personas:
	nombre = _limpiar(p.get("nombre"))
	cedula = _limpiar(p.get("cedula"))
	if not nombre and not cedula:
	continue
	limpias.append({
	"nombre": nombre,
	"cedula": cedula,
	"edad": _edad_limpia(p.get("edad")),
	"condicion": _limpiar(p.get("condicion")) or "Sin información",
	"notas": _limpiar(p.get("notas")),
	})

	return {
	"procesable": True,
	"personas": limpias,
	"resumen": res.get("resumen", f"Se detectaron {len(limpias)} personas."),
	"error": None,
	}


	def _limpiar(v):
	if v in (None, "", "null", "None", "nan", "No legible", "No detectado"):
	return None
	return str(v).strip()


	def _edad_limpia(v):
	s = _limpiar(v)
	if not s: return None
	try:
	import re as _re
	m = _re.search(r"\d+", s)
	return str(int(float(m.group()))) if m else None
	except (TypeError, ValueError):
	return s


	def describir_para_busqueda(path: str) -> dict:
	if not path:
	return {"procesable": False, "error": "No se recibió ningún archivo."}
	tipo = _tipo_archivo(path)
	if tipo == "imagen":
	return _procesar_imagen(path, PROMPT_BUSCAR)
	return analizar_archivo(path)


	def analizar_imagen_hospital(path: str) -> dict:
	return analizar_archivo(path)

	def describir_imagen_busqueda(path: str) -> dict:
	return describir_para_busqueda(path)