Spaces:

lmms-lab-si
/

EASI-Leaderboard

Running

App Files Files Community

linzhengyu commited on Oct 31

Commit

2576caa

1 Parent(s): e20b429

feat: list benchmarks in different tabs

Browse files

Files changed (4) hide show

app.py +21 -9
src/about.py +4 -0
src/display/utils.py +1 -1
uv.lock +1 -12

app.py CHANGED Viewed

@@ -13,11 +13,13 @@ from src.about import (
     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     BENCHMARK_COLS,
     COLS,
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
@@ -76,17 +78,17 @@ LEADERBOARD_DF = get_leaderboard_df(
 ) = get_evaluation_queue_df(settings.EVAL_REQUESTS_PATH, EVAL_COLS)
-def init_leaderboard(dataframe: pd.DataFrame) -> Leaderboard:
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     # print("///// --- dataframe.head() --- /////", Markdown(dataframe.head().to_markdown() or "No data"))
     selected_columns = SelectColumns(
-        default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-        cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
         label="Select Columns to Display:",
     )
     search_columns = [AutoEvalColumn.model.name, AutoEvalColumn.license.name]
-    hidden_columns = [c.name for c in fields(AutoEvalColumn) if c.hidden]
     filter_columns = [
         ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
         ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
@@ -106,7 +108,7 @@ def init_leaderboard(dataframe: pd.DataFrame) -> Leaderboard:
     ]
     return Leaderboard(
         value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn)],
         select_columns=selected_columns,
         search_columns=search_columns,
         hide_columns=hidden_columns,
@@ -122,13 +124,23 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
-        with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
-        with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=3):
             with gr.Column():
                 with gr.Row():
                     gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")

     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
     TITLE,
+    BENCHMARKS,
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     BENCHMARK_COLS,
     COLS,
+    BASE_COLS,
     EVAL_COLS,
     EVAL_TYPES,
     AutoEvalColumn,
 ) = get_evaluation_queue_df(settings.EVAL_REQUESTS_PATH, EVAL_COLS)
+def init_leaderboard(dataframe: pd.DataFrame, cols: list[str]) -> Leaderboard:
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     # print("///// --- dataframe.head() --- /////", Markdown(dataframe.head().to_markdown() or "No data"))
     selected_columns = SelectColumns(
+        default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default and c.name in cols],
+        cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden and c.name in cols],
         label="Select Columns to Display:",
     )
     search_columns = [AutoEvalColumn.model.name, AutoEvalColumn.license.name]
+    hidden_columns = [c.name for c in fields(AutoEvalColumn) if c.hidden and c.name in cols]
     filter_columns = [
         ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
         ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
     ]
     return Leaderboard(
         value=dataframe,
+        datatype=[c.type for c in fields(AutoEvalColumn) if c.name in cols],
         select_columns=selected_columns,
         search_columns=search_columns,
         hide_columns=hidden_columns,
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        for i, benchmark in enumerate[str](sorted(BENCHMARKS)):
+            with gr.TabItem(f"🏅 {benchmark}", elem_id="llm-benchmark-tab-table", id=i):
+                benchmark_cols = [BENCHMARK_COL for BENCHMARK_COL in BENCHMARK_COLS if BENCHMARK_COL.startswith(benchmark)]
+                cols = BASE_COLS + benchmark_cols
+                BENCHMARK_DF = get_leaderboard_df(
+                    settings.EVAL_RESULTS_PATH,
+                    settings.EVAL_REQUESTS_PATH,
+                    cols,
+                    benchmark_cols,
+                )
+                leaderboard = init_leaderboard(BENCHMARK_DF, cols)
+        with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=len(BENCHMARKS)):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
+        with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=len(BENCHMARKS) + 1):
             with gr.Column():
                 with gr.Row():
                     gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")

src/about.py CHANGED Viewed

@@ -46,6 +46,10 @@ class Tasks(Enum):
     task8_3 = Task(benchmark="VSI (MCQ)", metric="rand", col_name="VSI (MCQ)(rand)")
 NUM_FEWSHOT = 0  # Change with your few shot
 # ---------------------------------------------------

     task8_3 = Task(benchmark="VSI (MCQ)", metric="rand", col_name="VSI (MCQ)(rand)")
+BENCHMARKS = {m.value.benchmark for m in Tasks}
+METRICS = {m.value.metric for m in Tasks}
+COL_NAMES = {m.value.col_name for m in Tasks}
 NUM_FEWSHOT = 0  # Change with your few shot
 # ---------------------------------------------------

src/display/utils.py CHANGED Viewed

@@ -157,7 +157,7 @@ class Precision(Enum):
 # Column selection
 COLS: list[str] = [c.name for c in fields(AutoEvalColumnCls) if not c.hidden]
 EVAL_COLS: list[str] = [c.name for c in fields(EvalQueueColumnCls)]
 EVAL_TYPES: list[Literal["str", "number", "bool", "markdown"]] = [c.type for c in fields(EvalQueueColumnCls)]

 # Column selection
 COLS: list[str] = [c.name for c in fields(AutoEvalColumnCls) if not c.hidden]
+BASE_COLS: list[str] = [c.name for c in fields(_AutoEvalColumnBase) if not c.hidden]
 EVAL_COLS: list[str] = [c.name for c in fields(EvalQueueColumnCls)]
 EVAL_TYPES: list[Literal["str", "number", "bool", "markdown"]] = [c.type for c in fields(EvalQueueColumnCls)]

uv.lock CHANGED Viewed

@@ -1,5 +1,5 @@
 version = 1
-revision = 2
 requires-python = "==3.10.*"
 [[package]]
@@ -687,7 +687,6 @@ dependencies = [
     { name = "python-dotenv" },
     { name = "rich" },
     { name = "sentencepiece" },
-    { name = "tabulate" },
     { name = "tokenizers" },
     { name = "tqdm" },
     { name = "transformers" },
@@ -716,7 +715,6 @@ requires-dist = [
     { name = "python-dotenv", specifier = ">=1.2.1" },
     { name = "rich", specifier = ">=14.2.0" },
     { name = "sentencepiece" },
-    { name = "tabulate", specifier = ">=0.9.0" },
     { name = "tokenizers", specifier = ">=0.15.0" },
     { name = "tqdm" },
     { name = "transformers" },
@@ -1307,15 +1305,6 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/be/72/2db2f49247d0a18b4f1bb9a5a39a0162869acf235f3a96418363947b3d46/starlette-0.48.0-py3-none-any.whl", hash = "sha256:0764ca97b097582558ecb498132ed0c7d942f233f365b86ba37770e026510659", size = 73736, upload-time = "2025-09-13T08:41:03.869Z" },
 ]
-[[package]]
-name = "tabulate"
-version = "0.9.0"
-source = { registry = "https://pypi.org/simple" }
-sdist = { url = "https://files.pythonhosted.org/packages/ec/fe/802052aecb21e3797b8f7902564ab6ea0d60ff8ca23952079064155d1ae1/tabulate-0.9.0.tar.gz", hash = "sha256:0095b12bf5966de529c0feb1fa08671671b3368eec77d7ef7ab114be2c068b3c", size = 81090, upload-time = "2022-10-06T17:21:48.54Z" }
-wheels = [
-    { url = "https://files.pythonhosted.org/packages/40/44/4a5f08c96eb108af5cb50b41f76142f0afa346dfa99d5296fe7202a11854/tabulate-0.9.0-py3-none-any.whl", hash = "sha256:024ca478df22e9340661486f85298cff5f6dcdba14f3813e8830015b9ed1948f", size = 35252, upload-time = "2022-10-06T17:21:44.262Z" },
-]
 [[package]]
 name = "tokenizers"
 version = "0.22.1"

 version = 1
+revision = 3
 requires-python = "==3.10.*"
 [[package]]
     { name = "python-dotenv" },
     { name = "rich" },
     { name = "sentencepiece" },
     { name = "tokenizers" },
     { name = "tqdm" },
     { name = "transformers" },
     { name = "python-dotenv", specifier = ">=1.2.1" },
     { name = "rich", specifier = ">=14.2.0" },
     { name = "sentencepiece" },
     { name = "tokenizers", specifier = ">=0.15.0" },
     { name = "tqdm" },
     { name = "transformers" },
     { url = "https://files.pythonhosted.org/packages/be/72/2db2f49247d0a18b4f1bb9a5a39a0162869acf235f3a96418363947b3d46/starlette-0.48.0-py3-none-any.whl", hash = "sha256:0764ca97b097582558ecb498132ed0c7d942f233f365b86ba37770e026510659", size = 73736, upload-time = "2025-09-13T08:41:03.869Z" },
 ]
 [[package]]
 name = "tokenizers"
 version = "0.22.1"