import gradio as gr import pandas as pd # 1. Cargamos tu dataset (sustituye por la URL de tu archivo v0.7 si es necesario) url = "https://huggingface.co/datasets/jamalinu/tarifit-catalan-public-services/resolve/main/tarifit_corpus_v0.7_trilingual.jsonl" df = pd.read_json(url, lines=True) def search(query): if not query: return "Escribe algo para buscar..." # Buscamos en las columnas de Español y Catalán results = df[ df['translation_es'].str.contains(query, case=False, na=False) | df['translation_cat'].str.contains(query, case=False, na=False) ] if results.empty: return "No se han encontrado frases con esa palabra." # Formateamos la respuesta output = "" for _, row in results.head(5).iterrows(): output += f"**Tarifit:** {row['text_rif']}\n" output += f"**Català:** {row['translation_cat']}\n" output += f"**Español:** {row['translation_es']}\n" output += f"--- \n" return output # 2. Creamos la interfaz demo = gr.Interface( fn=search, inputs=gr.Textbox(label="Busca una frase (ej: matrícula, hospital, hola)"), outputs=gr.Markdown(label="Resultados en Tarifit"), title="Trilingual Tarifit Assistant", description="Buscador inteligente para servicios públicos en Tarifit, Catalán y Español." ) if __name__ == "__main__": demo.launch()