SafeLawBench

Running

App Files Files Community

dgx-019 commited on Feb 13, 2025

Commit

b090476

1 Parent(s): a14f2ee

111

Browse files

Files changed (2) hide show

app.py +12 -1
src/display/utils.py +66 -2

app.py CHANGED Viewed

@@ -23,7 +23,8 @@ from src.display.utils import (
     ModelType,
     fields,
     WeightType,
-    Precision
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df
@@ -89,6 +90,11 @@ def init_leaderboard(dataframe):
         interactive=False,
     )
 demo = gr.Blocks(css=custom_css)
 with demo:
@@ -98,6 +104,11 @@ with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

     ModelType,
     fields,
     WeightType,
+    Precision,
+    get_category_columns
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df
         interactive=False,
     )
+def update_visible_columns(selected_categories):
+    """根据选中的类别更新可见列"""
+    always_visible = ['model_type_symbol', 'model', 'average']
+    category_columns = get_category_columns(selected_categories)
+    return always_visible + category_columns
 demo = gr.Blocks(css=custom_css)
 with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
+            leaderboard.filter_columns[0].change(
+                fn=update_visible_columns,
+                inputs=[leaderboard.filter_columns[0]],
+                outputs=[leaderboard.select_columns]
+            )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

src/display/utils.py CHANGED Viewed

@@ -19,6 +19,7 @@ class ColumnContent:
     displayed_by_default: bool
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
@@ -32,12 +33,16 @@ auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average
 for category in TaskCategory:
     category_tasks = [task for task in Tasks if task.value.category == category]
     if category_tasks:
-        # 添加该类别下的所有任务
         for task in category_tasks:
             auto_eval_column_dict.append([
                 task.name,  # 使用原始任务名作为列名
                 ColumnContent,
-                ColumnContent(task.value.col_name, "number", False)  # 使用原始显示名
             ])
 # Model information
@@ -134,3 +139,62 @@ CATEGORY_GROUPS = {
     for category in TaskCategory
 }

     displayed_by_default: bool
     hidden: bool = False
     never_hidden: bool = False
+    category: str = None  # 新增类别字段
 ## Leaderboard columns
 auto_eval_column_dict = []
 for category in TaskCategory:
     category_tasks = [task for task in Tasks if task.value.category == category]
     if category_tasks:
         for task in category_tasks:
             auto_eval_column_dict.append([
                 task.name,  # 使用原始任务名作为列名
                 ColumnContent,
+                ColumnContent(
+                    task.value.col_name,  # 使用原始显示名
+                    "number",
+                    False,
+                    category=category.value  # 添加类别信息
+                )
             ])
 # Model information
     for category in TaskCategory
 }
+# 添加用于分组显示的类别过滤器
+CATEGORY_FILTERS = [
+    {
+        'name': category.value,
+        'columns': [task.name for task in Tasks if task.value.category == category]
+    }
+    for category in TaskCategory
+]
+def get_category_columns(categories):
+    """获取指定类别的所有列名"""
+    columns = []
+    for filter_item in CATEGORY_FILTERS:
+        if filter_item['name'] in categories:
+            columns.extend(filter_item['columns'])
+    return columns
+# 修改初始化 Leaderboard 的函数
+def init_leaderboard(dataframe):
+    if dataframe is None or dataframe.empty:
+        raise ValueError("Leaderboard DataFrame is empty or None.")
+    # 添加类别过滤器
+    category_filter = ColumnFilter(
+        "category",
+        type="checkboxgroup",
+        label="Categories",
+        options=[cat.value for cat in TaskCategory]
+    )
+    return Leaderboard(
+        value=dataframe,
+        datatype=[c.type for c in fields(AutoEvalColumn)],
+        select_columns=SelectColumns(
+            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
+            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
+            label="Select Columns to Display:",
+        ),
+        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
+        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
+        filter_columns=[
+            category_filter,  # 添加类别过滤器
+            ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
+            ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
+            ColumnFilter(
+                AutoEvalColumn.params.name,
+                type="slider",
+                min=0.01,
+                max=150,
+                label="Select the number of parameters (B)",
+            ),
+            ColumnFilter(
+                AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
+            ),
+        ],
+        bool_checkboxgroup_label="Hide models",
+        interactive=False,
+    )