Spaces:

VirselClem
/

Cyta

Sleeping

App Files Files Community

Cyta / app.py

VirselClem

Update app.py

dfd01a0 verified 5 months ago

raw

history blame contribute delete

28.2 kB

	# CYTA - Código completo corregido (descarga, traducción, embeddings, Gradio)
	# CYTA - Código completo corregido (descarga, traducción, embeddings, Gradio) v4.1
	import os
	import json
	import re
	import numpy as np
	import pandas as pd
	import tensorflow_hub as hub
	from sklearn.neighbors import NearestNeighbors
	import gradio as gr
	from deep_translator import GoogleTranslator
	from google.oauth2 import service_account
	from googleapiclient.discovery import build
	import time

	# -------------------------
	# Config
	# -------------------------
	SERVICE_ACCOUNT_JSON = os.environ.get("CytaKey") # ajusta si tu JSON está en otro sitio
	DEFAULT_SHEET_RANGE = "Data!A:Z"
	TRANSLATOR_SRC = "es"
	TRANSLATOR_TGT = "en"

	# Tolerancia fija
	DEFAULT_THRESHOLD = 0.28

	# -------------------------
	# 1. Bases
	# -------------------------
	def get_bases_info():
	return [
	{
	"nombre": "Facultad de Ciencia USACH",
	"url": os.environ.get("URL_FC_USACH"),
	"fecha": "11-10-2025;FCiencia",
	"resumen": "Lista de académicos Facultad de Ciencia con base de datos de patentes, papers y líneas de investigación."
	},
	{
	"nombre": "Lista ScienceUp: Facultades de Ciencia USACH, PUCV, UCN",
	"url": os.environ.get("URL_SCIENCEUP"),
	"fecha": "15-10-2025;ScienceUp",
	"resumen": "Información del Catálogo de capacidades ScienceUp: solo laboratorios y líneas de investigación."
	},
	{
	"nombre": "Lista USACH",
	"url": os.environ.get("URL_USACH"),
	"fecha": "28-05-2024;Usach",
	"resumen": "Información general de líneas de investigación de todos los académicos de la Universidad de Santiago de Chile (en construcción)."
	},
	{
	"nombre": "Facultad de Ciencia USACH Plus",
	"url": os.environ.get("URL_PUBS_CIENCIA"),
	"fecha": "13-11-2025;FCienciaPlus",
	"resumen": "Base extendida: papers + autores asociados a la Facultad de Ciencia."
	}
	]



	# -------------------------
	# 2. Utilidades
	# -------------------------
	def preprocess(text):
	if text is None:
	return ""
	return str(text).replace('\n', ' ').strip()

	def download_google_sheet(sheet_id, output_path="data.xlsx", range_name=DEFAULT_SHEET_RANGE, service_account_json=None):
	SCOPES = ['https://www.googleapis.com/auth/spreadsheets.readonly']

	# usar secreto por defecto si no se pasa uno
	if service_account_json is None:
	service_account_json = SERVICE_ACCOUNT_JSON

	creds_info = json.loads(service_account_json)
	creds = service_account.Credentials.from_service_account_info(creds_info, scopes=SCOPES)

	service = build('sheets', 'v4', credentials=creds)

	try:
	result = service.spreadsheets().values().get(
	spreadsheetId=sheet_id,
	range=range_name
	).execute()
	values = result.get('values', [])
	if not values:
	print("⚠️ No se encontraron datos en la hoja.")
	return None

	df = pd.DataFrame(values[1:], columns=values[0])
	df.to_excel(output_path, index=False)
	print(f"✅ Descarga completada y guardada en {output_path}")
	return output_path

	except Exception as e:
	print(f"❌ Error descargando hoja: {e}")
	return None

	def excel_to_texts(path, column_index=22, sheet_name=0):
	"""
	Convierte una columna de un Excel a lista de textos procesados.
	"""
	try:
	xls = pd.ExcelFile(path)
	# Resolver hoja a usar
	if isinstance(sheet_name, int):
	sheet_to_use = xls.sheet_names[sheet_name] if sheet_name < len(xls.sheet_names) else xls.sheet_names[0]
	else:
	sheet_to_use = sheet_name if sheet_name in xls.sheet_names else xls.sheet_names[0]
	if sheet_name not in xls.sheet_names:
	print(f"⚠️ Hoja '{sheet_name}' no encontrada. Usando '{sheet_to_use}' en su lugar.")

	df = pd.read_excel(xls, sheet_name=sheet_to_use)

	# Resolver columna: puede ser índice (int) o nombre (str)
	if isinstance(column_index, int):
	if column_index >= len(df.columns):
	raise ValueError(f"El índice de columna {column_index} excede el número de columnas ({len(df.columns)})")
	col = df.columns[column_index]
	else:
	if column_index not in df.columns:
	col = df.columns[22] if len(df.columns) > 22 else df.columns[0]
	print(f"⚠️ Columna '{column_index}' no encontrada. Usando '{col}' en su lugar.")
	else:
	col = column_index

	texts = df[col].dropna().astype(str).tolist()
	texts = [preprocess(t) for t in texts]
	print(f"✅ Transformados {len(texts)} registros desde Excel (hoja: '{sheet_to_use}', columna: '{col}')")
	return texts

	except Exception as e:
	print(f"❌ Error en excel_to_texts: {e}")
	return []

	def translate_texts(texts, src=TRANSLATOR_SRC, tgt=TRANSLATOR_TGT, cache_path=None, max_chunk_len=4500, sleep_between=0.35):
	# Cargar cache si existe y crear dict original->translated
	cache_map = {}
	if cache_path and os.path.exists(cache_path):
	try:
	df_cache = pd.read_excel(cache_path)
	if "Original" in df_cache.columns and "Translated" in df_cache.columns:
	cache_map = {str(o): str(t) for o, t in zip(df_cache["Original"].astype(str), df_cache["Translated"].astype(str))}
	print(f"✅ Usando cache de traducción: {cache_map} (entradas: {len(cache_map)})")
	except Exception as e:
	print(f"⚠️ No se pudo leer cache {cache_path}: {e}")

	translator = GoogleTranslator(source=src, target=tgt)
	translated = []
	# For caching later
	new_cache_rows = []

	for idx, txt in enumerate(texts):
	orig = "" if txt is None else str(txt)
	if orig in cache_map:
	translated_text = cache_map[orig]
	translated.append(translated_text)
	continue

	# si el texto es corto, traducir directamente
	if len(orig) <= max_chunk_len:
	try:
	translated_text = translator.translate(orig)
	translated.append(translated_text)
	new_cache_rows.append((orig, translated_text))
	time.sleep(sleep_between)
	except Exception as e:
	print(f"❌ Error traduciendo fila {idx+1}, usando original: {e}")
	translated.append(orig)
	else:
	# dividir en fragmentos intentando cortar por punto para no romper oraciones
	parts = []
	start = 0
	L = len(orig)
	while start < L:
	end = min(start + max_chunk_len, L)
	if end < L:
	# buscar último punto antes de 'end' para cortar en oración (si existe)
	cut = orig.rfind('.', start, end)
	if cut == -1 or cut <= start:
	cut = end
	else:
	cut = cut + 1 # incluir el punto
	else:
	cut = end
	part = orig[start:cut].strip()
	if part:
	parts.append(part)
	start = cut

	# traducir partes secuencialmente
	translated_parts = []
	for j, part in enumerate(parts):
	try:
	tp = translator.translate(part)
	translated_parts.append(tp)
	time.sleep(sleep_between)
	except Exception as e:
	print(f"❌ Error traduciendo fragmento {j+1} de fila {idx+1}: {e}")
	translated_parts.append(part) # fallback al original del fragmento

	translated_text = " ".join(translated_parts)
	translated.append(translated_text)
	new_cache_rows.append((orig, translated_text))

	# Guardar cache incremental si corresponde (por pruebas mejor dejarlo, en cyta 3)
	if cache_path:
	try:
	if os.path.exists(cache_path):
	# leer existente y concatenar evitando duplicados exactos
	df_old = pd.read_excel(cache_path)
	rows = list(zip(df_old["Original"].astype(str), df_old["Translated"].astype(str))) if "Original" in df_old.columns and "Translated" in df_old.columns else []
	rows.extend(new_cache_rows)
	else:
	rows = new_cache_rows
	# eliminar duplicados manteniendo el primero
	seen = set()
	rows_uniq = []
	for o, t in rows:
	if o not in seen:
	rows_uniq.append((o, t))
	seen.add(o)
	df_out = pd.DataFrame(rows_uniq, columns=["Original", "Translated"])
	df_out.to_excel(cache_path, index=False)
	print(f"✅ Traducciones guardadas/actualizadas en cache: {cache_path} (total: {len(df_out)})")
	except Exception as e:
	print(f"⚠️ No se pudo guardar cache en {cache_path}: {e}")

	return translated

	def text_to_chunks(texts, word_length=400):
	"""
	Divide el texto de cada académico en múltiples sub-chunks semánticos,
	manteniendo un ID común (group_id) para agruparlos después.
	"""
	import re
	try:
	chunks = []
	for idx, raw in enumerate(texts):
	if not raw:
	continue
	group_id = f"Row_{idx+1}" # este ID une los chunks del mismo académico

	# dividir por ';' y también por puntos largos
	parts = [p.strip() for p in re.split(r';\|\n\|\.\s{1,2}', str(raw)) if p.strip()]

	# agrupar por tamaño (ajustable)
	current_chunk = []
	for part in parts:
	current_chunk.append(part)
	# cada 3 frases aprox (puedes tunear esto según longitud)
	if len(current_chunk) >= 3:
	chunks.append({
	"group_id": group_id,
	"text": ". ".join(current_chunk)
	})
	current_chunk = []

	# guardar lo que quede
	if current_chunk:
	chunks.append({
	"group_id": group_id,
	"text": ". ".join(current_chunk)
	})

	print(f"✅ Generados {len(chunks)} sub-chunks")
	return chunks
	except Exception as e:
	print(f"Error en text_to_chunks: {e}")
	return []

	# Clase SemanticSearch (reemplazo)
	# -------------------------
	class SemanticSearch:
	def __init__(self, model_url='https://tfhub.dev/google/universal-sentence-encoder-large/5'):
	self.use = hub.load(model_url)
	self.fitted = False

	def fit(self, data, batch=1000, n_neighbors=6, save_path="embeddings.json"):
	"""
	data: lista de strings OR lista de dicts {'group_id':..., 'text':...}
	"""
	# Guardar raw data (puede ser dicts)
	self.data = data

	# Prepara lista de textos que alimentará al encoder
	texts_for_emb = []
	for item in data:
	if isinstance(item, dict):
	texts_for_emb.append(item.get("text", ""))
	else:
	texts_for_emb.append(str(item))

	self.embeddings = self.get_text_embedding(texts_for_emb, batch=batch)
	n_neighbors = min(n_neighbors, len(self.embeddings))
	self.nn = NearestNeighbors(n_neighbors=n_neighbors, metric="cosine")
	self.nn.fit(self.embeddings)
	self.fitted = True

	emb_list = self.embeddings.tolist()
	# Guardar tanto los chunks (raw data) como embeddings
	with open(save_path, "w", encoding="utf-8") as f:
	json.dump({"chunks": self.data, "embeddings": emb_list}, f, ensure_ascii=False, indent=2)
	print(f"Embeddings guardados en {save_path}")

	def load(self, path="embeddings.json", n_neighbors=6):
	with open(path, "r", encoding="utf-8") as f:
	obj = json.load(f)
	self.data = obj["chunks"] # puede ser lista de dicts
	self.embeddings = np.array(obj["embeddings"])
	n_neighbors = min(n_neighbors, len(self.embeddings))
	self.nn = NearestNeighbors(n_neighbors=n_neighbors, metric="cosine")
	self.nn.fit(self.embeddings)
	self.fitted = True
	print(f"Embeddings cargados desde {path}")

	def __call__(self, text, return_data=True, threshold=0.35, top_k=10):
	inp_emb = self.use([text])
	distances, neighbors = self.nn.kneighbors(inp_emb, return_distance=True)
	neighbors, distances = neighbors[0], distances[0]
	results = []
	for idx, dist in zip(neighbors[:top_k], distances[:top_k]):
	sim = 1.0 - float(dist)
	results.append({"chunk": self.data[idx], "distance": float(dist), "similarity": sim})
	# filtrar por similarity usando umbral (threshold es distancia en tu UI)
	filtered = [r for r in results if r["similarity"] >= (1.0 - threshold)]
	return filtered if return_data else results

	def get_text_embedding(self, texts, batch=1000):
	embeddings = []
	for i in range(0, len(texts), batch):
	text_batch = texts[i:(i + batch)]
	emb_batch = self.use(text_batch) # ahora sí son strings
	embeddings.append(emb_batch)
	return np.vstack(embeddings)

	# -------------------------
	# 4.1 Preparar recommender con traducción y mapeo
	# -------------------------
	CACHE = {} # almacenará por base: {'recommender':obj, 'originals':[], 'translated':[]}

	def prepare_recommender(base_name, sheet_id, column_index=22, sheet_name="Data", service_account_json=SERVICE_ACCOUNT_JSON):
	safe = base_name.replace(" ", "_").replace(":", "").replace(";", "")
	embeddings_file = f"embeddings_{safe}.json"
	translated_excel = f"Data_{safe}_en.xlsx"
	original_excel = f"Data_{safe}.xlsx"
	mapping_file = f"mapping_{safe}.json"

	# Si embeddings existen, cargamos embeddings y mapping
	if os.path.exists(embeddings_file) and os.path.exists(mapping_file):
	recommender = SemanticSearch()
	recommender.load(embeddings_file)
	with open(mapping_file, "r", encoding="utf-8") as f:
	mapping = json.load(f)
	CACHE[base_name] = {"recommender": recommender, "originals": mapping["originals"], "translated": mapping["translated"]}
	print(f"✅ Model y mapping cargados para {base_name}")
	return recommender

	# 1) descargar hoja y guardar excel original
	path = download_google_sheet(sheet_id, output_path=original_excel, range_name=f"{sheet_name}!A:Z", service_account_json=service_account_json)
	if path is None:
	print("❌ Error: no se pudo descargar la hoja.")
	return None

	# 2) extraer textos en español
	import openpyxl
	wb = openpyxl.load_workbook(original_excel, read_only=True)
	sheet_name_real = wb.sheetnames[0] # usa la primera hoja
	wb.close()
	print(f"📘 Usando hoja '{sheet_name_real}' del Excel descargado")

	texts_es = excel_to_texts(original_excel, column_index=column_index, sheet_name=sheet_name_real)

	if not texts_es:
	print("❌ No hay textos para procesar.")
	return None

	# 3) traducir al inglés (con cache)
	texts_en = translate_texts(texts_es, src="es", tgt="en", cache_path=translated_excel)

	# Guardar mapping (original <-> translated)
	mapping = {"originals": texts_es, "translated": texts_en}
	with open(mapping_file, "w", encoding="utf-8") as f:
	json.dump(mapping, f, ensure_ascii=False, indent=2)

	# 4) crear chunks desde textos traducidos y entrenar
	chunks = text_to_chunks(texts_en, word_length=5000)
	recommender = SemanticSearch()
	recommender.fit(chunks, batch=512, n_neighbors=10, save_path=embeddings_file)

	# 5) Guardar en CACHE para uso inmediato
	CACHE[base_name] = {"recommender": recommender, "originals": texts_es, "translated": texts_en}
	return recommender

	# -------------------------
	# Helpers para mapear chunks a original
	# -------------------------
	def get_row_from_chunk(chunk):
	if isinstance(chunk, dict):
	gid = chunk.get("group_id", "")
	# buscar número
	m = re.search(r'Row[_\-\s]?(\d+)', gid)
	if m:
	return int(m.group(1)) - 1
	# en caso de que 'text' tenga prefijo antiguo
	txt = chunk.get("text", "")
	else:
	txt = str(chunk)

	m = re.search(r'\[Row\s+(\d+)\]', txt)
	if m:
	return int(m.group(1)) - 1
	return None

	def aggregate_unique_originals(results, originals):
	best = {}
	for r in results:
	chunk = r.get("chunk")
	row = get_row_from_chunk(chunk)
	if row is None or row >= len(originals):
	continue
	sim = r.get("similarity", 0)
	if row not in best or sim > best[row]["similarity"]:
	best[row] = {"original": originals[row], "similarity": sim, "chunk": chunk}
	ranked = sorted(best.values(), key=lambda x: x["similarity"], reverse=True)
	return ranked

	# -------------------------
	# 4.2 Recommender plus
	# -------------------------
	def prepare_recommender_plus(base_name, sheet_id_plus, column_index=22, service_account_json=SERVICE_ACCOUNT_JSON):
	"""
	Lógica extendida para bases 'Plus'.
	Combina:
	- Base simple (misma base sin 'Plus')
	- Base secundaria (papers)
	Y genera texts_es extendidos: papers + autores vinculados.
	"""

	# ============================================================================
	# 4.2.1. Determinar la base simple asociada
	# ============================================================================
	base_simple = base_name.replace(" Plus", "").strip()

	# Buscar en tu lista estándar
	base_info_simple = next((b for b in get_bases_info() if b["nombre"] == base_simple), None)
	if base_info_simple is None:
	print(f"❌ No existe base simple asociada a {base_name}")
	return None

	sheet_id_simple = base_info_simple["url"]

	# ============================================================================
	# 4.2.2. Descargar ambas hojas y guardarlas como Excel
	# ============================================================================
	safe = base_name.replace(" ", "_").replace(":", "").replace(";", "")
	embeddings_file = f"embeddings_{safe}.json"
	translated_excel = f"Data_{safe}_en.xlsx"
	mapping_file = f"mapping_{safe}.json"
	original_excel_simple = f"Data_{safe}_simple.xlsx"
	original_excel_plus = f"Data_{safe}_plus.xlsx"

	# Si existe embeddings: cargar y salir
	if os.path.exists(embeddings_file) and os.path.exists(mapping_file):
	recommender = SemanticSearch()
	recommender.load(embeddings_file)
	with open(mapping_file, "r", encoding="utf-8") as f:
	mapping = json.load(f)
	CACHE[base_name] = {"recommender": recommender,
	"originals": mapping["originals"],
	"translated": mapping["translated"]}
	print(f"✅ Model y mapping cargados para {base_name}")
	return recommender

	# Descargar base simple
	p1 = download_google_sheet(sheet_id_simple, output_path=original_excel_simple,
	range_name="Data!A:Z", service_account_json=service_account_json)
	if p1 is None:
	print("❌ No se pudo descargar la base simple.")
	return None

	# Descargar base secundaria (papers)
	p2 = download_google_sheet(sheet_id_plus, output_path=original_excel_plus,
	range_name="Data!A:Z", service_account_json=service_account_json)
	if p2 is None:
	print("❌ No se pudo descargar la base secundaria.")
	return None

	# ============================================================================
	# 4.2.3. Cargar data simple: autores válidos (A, W)
	# ============================================================================
	df_simple = pd.read_excel(original_excel_simple, sheet_name=0)

	fac_autores_validos = {}
	for _, row in df_simple.iterrows():
	nombre = str(row.get("A", "")).strip()
	texto_w = str(row.get("W", "")).strip()
	if texto_w:
	fac_autores_validos[nombre.lower()] = texto_w

	# ============================================================================
	# 4.2.4. Cargar data plus: papers (W) + autores (M)
	# ============================================================================
	df_plus = pd.read_excel(original_excel_plus, sheet_name=0)

	textos_es_finales = []

	for _, row in df_plus.iterrows():
	texto_paper = str(row.get("W", "")).strip()
	autores_raw = str(row.get("M", "")).strip()

	if texto_paper:
	textos_es_finales.append(texto_paper)

	autores = [a.strip() for a in autores_raw.split("\\") if a.strip()]

	for autor in autores:
	autor_key = autor.lower()
	if autor_key in fac_autores_validos:
	textos_es_finales.append(fac_autores_validos[autor_key])

	# ============================================================================
	# 4.2.5. Traducir, chunkear y entrenar (mismo proceso que la función original)
	# ============================================================================
	if not textos_es_finales:
	print("❌ No hay textos para procesar.")
	return None

	texts_en = translate_texts(textos_es_finales, src="es", tgt="en", cache_path=translated_excel)

	mapping = {"originals": textos_es_finales, "translated": texts_en}
	with open(mapping_file, "w", encoding="utf-8") as f:
	json.dump(mapping, f, ensure_ascii=False, indent=2)

	from text_chunker import text_to_chunks
	chunks = text_to_chunks(texts_en, word_length=5000)

	recommender = SemanticSearch()
	recommender.fit(chunks, batch=512, n_neighbors=10, save_path=embeddings_file)

	CACHE[base_name] = {"recommender": recommender,
	"originals": textos_es_finales,
	"translated": texts_en}

	return recommender


	# -------------------------
	# 5. Funciones UI
	# -------------------------
	def cargar_base(nombre_base): #Parchada
	base = next((b for b in get_bases_info() if b["nombre"] == nombre_base), None)
	if base is None:
	return f"Base '{nombre_base}' no encontrada.", None

	if nombre_base in CACHE:
	return f"Base '{nombre_base}' ya cargada.", nombre_base

	# --- LÓGICA NUEVA: bases Plus ---
	if nombre_base.endswith(" Plus"):
	# sheet_id de la base secundaria (Pubs)
	sheet_id_plus = base["url"]
	recommender = prepare_recommender_plus(nombre_base, sheet_id_plus)
	else:
	# Lógica normal
	recommender = prepare_recommender(nombre_base, base["url"], column_index=22, sheet_name="Data")

	if recommender is None:
	return "Error al preparar la base.", None

	return f"✅ Base '{nombre_base}' lista.", nombre_base


	def buscar_investigadores(consulta, base_seleccionada, threshold=None):
	"""
	Mantengo el parámetro threshold por compatibilidad pero uso DEFAULT_THRESHOLD fijo.
	"""
	if base_seleccionada not in CACHE:
	return "Primero selecciona y carga una base."
	# traducir consulta
	try:
	consulta_en = GoogleTranslator(source='es', target='en').translate(consulta)
	except Exception as e:
	print(f"Error traduciendo consulta: {e}")
	consulta_en = consulta
	recommender = CACHE[base_seleccionada]["recommender"]
	originals = CACHE[base_seleccionada]["originals"]
	# usar tolerancia fija DEFAULT_THRESHOLD
	results = recommender(consulta_en, threshold=1 - DEFAULT_THRESHOLD, top_k=30)
	if not results:
	return "No se encontraron coincidencias con el umbral actual. Prueba con otra consulta."
	ranked = aggregate_unique_originals(results, originals)
	# Formatear salida mostrando similitud
	salida = []
	for r in ranked[:10]:
	sim_pct = int(r["similarity"] * 100)
	salida.append(f"[{sim_pct}%] {r['original']}")
	return "\n\n".join(salida)

	# 6. Interfaz Gradio
	# -------------------------
	Bases_info = get_bases_info()
	nombres_bases = [b["nombre"] for b in Bases_info]

	css_code = """
	.background-video {
	position: fixed;
	top: 0;
	left: 0;
	width: 100%;
	height: 100%;
	object-fit: cover;
	opacity: 0.9;
	filter: blur(1px);
	z-index: 0;
	}
	/* Header con tres logos */
	.header-bar {
	display: flex;
	justify-content: center;
	align-items: center;
	gap: 60px;
	position: relative;
	z-index: 3;
	margin-top: 15px;
	}
	.header-bar img {
	max-height: 150px;
	width: auto;
	}
	/* Logo central un poco más grande */
	.header-bar .center-logo {
	max-height: 180px;
	width: auto;
	}
	/* Footer */
	.footer-logo {
	position: relative;
	bottom: 15px;
	left: 50%;
	transform: translateX(-50%);
	max-height: 165px;
	width: auto;
	opacity: 0.9;
	z-index: 3;
	}
	/* Contenido principal */
	.z-index-1 {
	position: relative;
	z-index: 10; /* 🔼 ahora encima de los logos */
	}
	/* Fondo transparente sin scroll */
	.gradio-container {
	background: transparent !important;
	overflow: hidden;
	}
	/* Título visible */
	h1 {
	color: #000000 !important;
	}

	/* Botón naranja inline a la derecha del textbox */
	.inline-row {
	display: flex;
	gap: 8px;
	align-items: center;
	}
	.btn-orange {
	background-color: #ff7f11 !important;
	color: white !important;
	border: none !important;
	padding: 8px 14px !important;
	font-weight: 600 !important;
	border-radius: 8px !important;
	}
	"""
	with gr.Blocks(css=css_code, title="Cyta: Buscador de capacidades académicas") as demo:
	# --- Video de fondo ---
	gr.HTML(
	'<video class="background-video" autoplay loop muted>'
	'<source src="https://cdn.pixabay.com/video/2022/11/14/138962-770800093_large.mp4" type="video/mp4">'
	'</video>'
	)

	# --- Logos ---
	gr.HTML(
	'<div class="header-bar">'
	' <img src="https://huggingface.co/spaces/VirselClem/Cyta/resolve/main/ScienceUp_02-full_color.png" alt="ScienceUp">'
	' <img src="https://huggingface.co/spaces/VirselClem/Cyta/resolve/main/facultad%20ciencia.png" alt="Facultad de Ciencia" class="center-logo">'
	' <img src="https://huggingface.co/spaces/VirselClem/Cyta/resolve/main/Cyta.png" alt="Cyta">'
	'</div>'
	)

	# --- Encabezado principal ---
	gr.Markdown(
	"<center><h1 style='color: #f37d00; font-size: 36px;'>🔍 Cyta — Búsqueda Semántica de Investigadores</h1></center>",
	elem_classes="z-index-1",
	)

	with gr.Group(elem_classes="z-index-1"):
	base_selector = gr.Dropdown(choices=nombres_bases, label="Selecciona la base de datos")
	load_btn = gr.Button("Cargar Base, 1 a 2 min")
	status = gr.Textbox(label="Estado", interactive=False)

	# Row inline: textbox + botón naranja a la derecha
	with gr.Row(elem_classes="inline-row"):
	consulta = gr.Textbox(
	label="Tu búsqueda (ejemplos: nanotecnología aplicada a minería, busco un investigador experto en..., tengo un proyecto de...)",
	lines=2,
	)
	# botón naranja inline
	btn_buscar = gr.Button("Buscar (o Shift+Enter en el texto)", elem_classes="btn-orange")

	resultados = gr.Textbox(label="Resultados", lines=15)

	# Conexiones
	load_btn.click(cargar_base, inputs=[base_selector], outputs=[status, base_selector])
	# El textbox submit y el botón llaman a la misma función (usa DEFAULT_THRESHOLD)
	consulta.submit(buscar_investigadores, inputs=[consulta, base_selector], outputs=[resultados])
	btn_buscar.click(buscar_investigadores, inputs=[consulta, base_selector], outputs=[resultados])

	# --- Pie de página ---
	gr.HTML('<img src="https://huggingface.co/spaces/VirselClem/Cyta/resolve/main/ScienceUp_logos%20consorcio-naranjo.png" class="footer-logo">')

	demo.launch()