import gradio as gr
import pandas as pd

# 1. Cargamos tu dataset (sustituye por la URL de tu archivo v0.7 si es necesario)
url = "https://huggingface.co/datasets/jamalinu/tarifit-catalan-public-services/resolve/main/tarifit_corpus_v0.7_trilingual.jsonl"
df = pd.read_json(url, lines=True)

def search(query):
    if not query:
        return "Escribe algo para buscar..."
    
    # Buscamos en las columnas de Español y Catalán
    results = df[
        df['translation_es'].str.contains(query, case=False, na=False) | 
        df['translation_cat'].str.contains(query, case=False, na=False)
    ]
    
    if results.empty:
        return "No se han encontrado frases con esa palabra."
    
    # Formateamos la respuesta
    output = ""
    for _, row in results.head(5).iterrows():
        output += f"**Tarifit:** {row['text_rif']}\n"
        output += f"**Català:** {row['translation_cat']}\n"
        output += f"**Español:** {row['translation_es']}\n"
        output += f"--- \n"
    return output

# 2. Creamos la interfaz
demo = gr.Interface(
    fn=search,
    inputs=gr.Textbox(label="Busca una frase (ej: matrícula, hospital, hola)"),
    outputs=gr.Markdown(label="Resultados en Tarifit"),
    title="Trilingual Tarifit Assistant",
    description="Buscador inteligente para servicios públicos en Tarifit, Catalán y Español."
)

if __name__ == "__main__":
    demo.launch()