Spaces:
Sleeping
Sleeping
| import gradio as gr | |
| import pandas as pd | |
| headers = [ | |
| "Modelo", | |
| "Promedio", | |
| "Español Mexicano", | |
| "Español España", | |
| "Español Argentino", | |
| "Español Cubano", | |
| "Español Colombiano", | |
| "Español Chileno" | |
| ] | |
| data = [ | |
| ["Gemini 2.5 Pro", 92.47, 95.40, 94.90, 93.40, 95.40, 88.00, 87.70], | |
| ["Gemini 2.5 Flash", 87.47, 88.70, 93.00, 88.50, 86.70, 83.00, 84.90], | |
| ["Gemini 2.0 Flash", 85.42, 93.20, 97.00, 85.10, 73.80, 83.70, 79.70], | |
| ["DeepSeek R1 0528", 85.25, 90.70, 88.10, 89.30, 84.40, 79.80, 79.20], | |
| ["Gemini 2.5 Flash Lite Preview 06-17", 81.75, 80.10, 91.10, 80.00, 75.90, 86.50, 76.90], | |
| ["Qwen 3 235b A22b", 74.02, 77.80, 79.20, 83.50, 61.00, 82.90, 59.70], | |
| ["Llama 4 Maverick", 68.72, 65.20, 75.30, 75.50, 64.50, 75.70, 56.10], | |
| ["Llama 4 Scout", 62.72, 56.80, 72.30, 71.40, 61.50, 65.40, 48.90], | |
| ["Qwen 3 32b", 50.75, 60.40, 56.00, 59.70, 50.90, 43.80, 33.70], | |
| ["Llama 3.1 8b", 47.37, 54.50, 49.40, 39.10, 48.10, 53.30, 39.80] | |
| ] | |
| df_results = pd.DataFrame(data, columns=headers) | |
| info_text = """ | |
| ## Acerca de BBS 2 (Barcenas Benchmark Spanish) | |
| Bienvenido al Barcenas Benchmark Spanish (BBS 2). | |
| **Objetivo:** | |
| El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español. | |
| En esta segunda versión también se agrego la evaluación del conocimiento de los diferentes problemas de países latinoamericanos. | |
| El benchmark se encuentra en una fase temprana avanzada de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido. | |
| **Metodología:** | |
| * Se utilizaron las APIs de Groq, Nvidia y Gemini para estas pruebas. | |
| * Se solicitó al LLM que generara varias situaciones y problemas de diferentes paises en las variantes del español evaluadas. | |
| * Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general. | |
| **Interpretación de Resultados:** | |
| * Los modelos Gemini siguen presentando un rendimiento superior a los demás LLMs en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark. | |
| **Actualizaciones Futuras:** | |
| * Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa. | |
| * Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español. | |
| Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español. | |
| **Hecho con amor y cariño por Danielbrdz** | |
| """ | |
| with gr.Blocks(theme=gr.themes.Default()) as demo: | |
| # Título Principal | |
| gr.Markdown("# BBS 2") | |
| # Subtítulo | |
| gr.Markdown("## (Barcenas Benchmark Spanish)") | |
| with gr.Tabs(): | |
| # Pestaña 1: Resultados | |
| with gr.Tab("Resultados"): | |
| gr.Markdown("### Tabla de Clasificación de Modelos") | |
| # Usamos gr.DataFrame para mostrar los datos tabulares | |
| gr.DataFrame( | |
| value=df_results, | |
| headers=headers, | |
| # Especificar tipos de datos ayuda a la visualización y posible ordenación | |
| datatype=["str", "number", "number", "number", "number", "number", "number", "number"], | |
| wrap=True # Permite que el texto largo se ajuste dentro de las celdas | |
| ) | |
| with gr.Tab("Información"): | |
| # Usamos gr.Markdown para mostrar el texto con formato | |
| gr.Markdown(info_text) | |
| demo.launch() |