CapArena_Auto

Running

ycy commited on Mar 2, 2025

Commit

979e0a3

1 Parent(s): ad93dc4

test

Files changed (4) hide show

src/about.py CHANGED Viewed

@@ -13,7 +13,7 @@ class Task:
 #TODO 指标
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    task0 = Task("Score_avg", "score", "Score_Avg")
     task1 = Task("Score_gpt", "score", "Score_GPT")
     task2 = Task("Score_cog", "score", "Score_COG")
     task3 = Task("Score_cpm", "score", "Score_CPM")

 #TODO 指标
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    task0 = Task("Score_avg", "score", "Score_Avg ⬆️")
     task1 = Task("Score_gpt", "score", "Score_GPT")
     task2 = Task("Score_cog", "score", "Score_COG")
     task3 = Task("Score_cpm", "score", "Score_CPM")

src/display/utils.py CHANGED Viewed

@@ -26,8 +26,8 @@ auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-#Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "float", True)])
 # Model information

 # Init
 auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
+# #Scores
+# auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "float", True)])
 # Model information

src/leaderboard/read_evals.py CHANGED Viewed

@@ -111,7 +111,7 @@ class EvalResult:
         """Converts the Eval Result to a dict compatible with our dataframe display"""
         # The first one is the average
-        average = next(iter(self.results.values()))
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
@@ -121,7 +121,7 @@ class EvalResult:
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
-            AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,

         """Converts the Eval Result to a dict compatible with our dataframe display"""
         # The first one is the average
+        #average = next(iter(self.results.values()))
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
+            #AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,

src/populate.py CHANGED Viewed

@@ -54,7 +54,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced

     df = pd.DataFrame.from_records(all_data_json)
+    df = df.sort_values(by=[AutoEvalColumn.task0.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced