Spaces:

Danielbrdz
/

BBS-2

Sleeping

App Files Files Community

BBS-2 / app.py

Danielbrdz

Upload 2 files

08aef12 verified 6 months ago

raw

history blame contribute delete

3.87 kB

	import gradio as gr
	import pandas as pd

	headers = [
	"Modelo",
	"Promedio",
	"Español Mexicano",
	"Español España",
	"Español Argentino",
	"Español Cubano",
	"Español Colombiano",
	"Español Chileno"
	]

	data = [
	["Gemini 2.5 Pro", 92.47, 95.40, 94.90, 93.40, 95.40, 88.00, 87.70],
	["Gemini 2.5 Flash", 87.47, 88.70, 93.00, 88.50, 86.70, 83.00, 84.90],
	["Gemini 2.0 Flash", 85.42, 93.20, 97.00, 85.10, 73.80, 83.70, 79.70],
	["DeepSeek R1 0528", 85.25, 90.70, 88.10, 89.30, 84.40, 79.80, 79.20],
	["Gemini 2.5 Flash Lite Preview 06-17", 81.75, 80.10, 91.10, 80.00, 75.90, 86.50, 76.90],
	["Qwen 3 235b A22b", 74.02, 77.80, 79.20, 83.50, 61.00, 82.90, 59.70],
	["Llama 4 Maverick", 68.72, 65.20, 75.30, 75.50, 64.50, 75.70, 56.10],
	["Llama 4 Scout", 62.72, 56.80, 72.30, 71.40, 61.50, 65.40, 48.90],
	["Qwen 3 32b", 50.75, 60.40, 56.00, 59.70, 50.90, 43.80, 33.70],
	["Llama 3.1 8b", 47.37, 54.50, 49.40, 39.10, 48.10, 53.30, 39.80]
	]

	df_results = pd.DataFrame(data, columns=headers)

	info_text = """
	## Acerca de BBS 2 (Barcenas Benchmark Spanish)

	Bienvenido al Barcenas Benchmark Spanish (BBS 2).

	Objetivo:
	El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español.
	En esta segunda versión también se agrego la evaluación del conocimiento de los diferentes problemas de países latinoamericanos.

	El benchmark se encuentra en una fase temprana avanzada de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido.

	Metodología:
	* Se utilizaron las APIs de Groq, Nvidia y Gemini para estas pruebas.
	* Se solicitó al LLM que generara varias situaciones y problemas de diferentes paises en las variantes del español evaluadas.
	* Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general.

	Interpretación de Resultados:
	* Los modelos Gemini siguen presentando un rendimiento superior a los demás LLMs en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark.

	Actualizaciones Futuras:
	* Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa.
	* Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español.

	Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español.

	Hecho con amor y cariño por Danielbrdz
	"""

	with gr.Blocks(theme=gr.themes.Default()) as demo:
	# Título Principal
	gr.Markdown("# BBS 2")
	# Subtítulo
	gr.Markdown("## (Barcenas Benchmark Spanish)")

	with gr.Tabs():
	# Pestaña 1: Resultados
	with gr.Tab("Resultados"):
	gr.Markdown("### Tabla de Clasificación de Modelos")
	# Usamos gr.DataFrame para mostrar los datos tabulares
	gr.DataFrame(
	value=df_results,
	headers=headers,
	# Especificar tipos de datos ayuda a la visualización y posible ordenación
	datatype=["str", "number", "number", "number", "number", "number", "number", "number"],
	wrap=True # Permite que el texto largo se ajuste dentro de las celdas
	)

	with gr.Tab("Información"):
	# Usamos gr.Markdown para mostrar el texto con formato
	gr.Markdown(info_text)

	demo.launch()