SafeLawBench

Running

App Files Files Community

dgx-019 commited on Feb 13, 2025

Commit

ddd6462

1 Parent(s): b090476

111

Browse files

Files changed (2) hide show

app.py +2 -14
src/display/utils.py +5 -95

app.py CHANGED Viewed

@@ -4,8 +4,7 @@ import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
-from src.about import (
     CITATION_BUTTON_LABEL,
     CITATION_BUTTON_TEXT,
     EVALUATION_QUEUE_TEXT,
@@ -23,8 +22,7 @@ from src.display.utils import (
     ModelType,
     fields,
     WeightType,
-    Precision,
-    get_category_columns
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df
@@ -90,11 +88,6 @@ def init_leaderboard(dataframe):
         interactive=False,
     )
-def update_visible_columns(selected_categories):
-    """根据选中的类别更新可见列"""
-    always_visible = ['model_type_symbol', 'model', 'average']
-    category_columns = get_category_columns(selected_categories)
-    return always_visible + category_columns
 demo = gr.Blocks(css=custom_css)
 with demo:
@@ -104,11 +97,6 @@ with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
-            leaderboard.filter_columns[0].change(
-                fn=update_visible_columns,
-                inputs=[leaderboard.filter_columns[0]],
-                outputs=[leaderboard.select_columns]
-            )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import snapshot_download
+from chuxue_leaderboard.Legal_Leaderboard.src.about_ori import (
     CITATION_BUTTON_LABEL,
     CITATION_BUTTON_TEXT,
     EVALUATION_QUEUE_TEXT,
     ModelType,
     fields,
     WeightType,
+    Precision
 )
 from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
 from src.populate import get_evaluation_queue_df, get_leaderboard_df
         interactive=False,
     )
 demo = gr.Blocks(css=custom_css)
 with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

src/display/utils.py CHANGED Viewed

@@ -3,7 +3,7 @@ from enum import Enum
 import pandas as pd
-from src.about import Tasks, TaskCategory
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
@@ -19,7 +19,6 @@ class ColumnContent:
     displayed_by_default: bool
     hidden: bool = False
     never_hidden: bool = False
-    category: str = None  # 新增类别字段
 ## Leaderboard columns
 auto_eval_column_dict = []
@@ -28,23 +27,8 @@ auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent(
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
-# 按类别分组添加任务列
-for category in TaskCategory:
-    category_tasks = [task for task in Tasks if task.value.category == category]
-    if category_tasks:
-        for task in category_tasks:
-            auto_eval_column_dict.append([
-                task.name,  # 使用原始任务名作为列名
-                ColumnContent,
-                ColumnContent(
-                    task.value.col_name,  # 使用原始显示名
-                    "number",
-                    False,
-                    category=category.value  # 添加类别信息
-                )
-            ])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
@@ -52,6 +36,7 @@ auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weigh
 auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
 auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
@@ -121,80 +106,5 @@ COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
-# 修改 BENCHMARK_COLS 的定义，只包含实际的任务列
-BENCHMARK_COLS = [t.name for t in Tasks if t.value.category is not None]
-# 添加用于前端分组显示的类别信息
-CATEGORY_GROUPS = {
-    category.value: {
-        'display_name': category.value,
-        'tasks': [
-            {
-                'col_name': task.name,  # 数据列名
-                'display_name': task.value.col_name  # 显示名称
-            }
-            for task in Tasks if task.value.category == category
-        ]
-    }
-    for category in TaskCategory
-}
-# 添加用于分组显示的类别过滤器
-CATEGORY_FILTERS = [
-    {
-        'name': category.value,
-        'columns': [task.name for task in Tasks if task.value.category == category]
-    }
-    for category in TaskCategory
-]
-def get_category_columns(categories):
-    """获取指定类别的所有列名"""
-    columns = []
-    for filter_item in CATEGORY_FILTERS:
-        if filter_item['name'] in categories:
-            columns.extend(filter_item['columns'])
-    return columns
-# 修改初始化 Leaderboard 的函数
-def init_leaderboard(dataframe):
-    if dataframe is None or dataframe.empty:
-        raise ValueError("Leaderboard DataFrame is empty or None.")
-    # 添加类别过滤器
-    category_filter = ColumnFilter(
-        "category",
-        type="checkboxgroup",
-        label="Categories",
-        options=[cat.value for cat in TaskCategory]
-    )
-    return Leaderboard(
-        value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn)],
-        select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
-            label="Select Columns to Display:",
-        ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=[
-            category_filter,  # 添加类别过滤器
-            ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
-            ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                AutoEvalColumn.params.name,
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            ColumnFilter(
-                AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
-            ),
-        ],
-        bool_checkboxgroup_label="Hide models",
-        interactive=False,
-    )

 import pandas as pd
+from src.about import Tasks
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
     displayed_by_default: bool
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
+for task in Tasks:
+    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
+#auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
 auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
 auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
+BENCHMARK_COLS = [t.value.col_name for t in Tasks]