eval-leaderboard

Running

xeon27 commited on Jan 21

Commit

36244aa

1 Parent(s): 15e5347

Make task names clickable and link to inspect-evals repo

Files changed (2) hide show

src/display/utils.py CHANGED Viewed

@@ -28,7 +28,7 @@ auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "ma
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(f"[{task.value.col_name}]({task.value.source})", "markdown", True)])
 # # Model information
 # auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 # auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])

 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
+    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "markdown", True)])
 # # Model information
 # auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 # auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])

src/populate.py CHANGED Viewed

@@ -14,6 +14,7 @@ for task in Tasks:
     TASK_NAME_INVERSE_MAP[task.value.col_name] = {
         "name": task.value.benchmark,
         "type": task.value.type,
     }
@@ -45,6 +46,9 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     for col in benchmark_cols:
         df[col] = df[[AutoEvalColumn.model.name, col]].apply(lambda x: f"[{x[col]}]({get_inspect_log_url(model_name=x[AutoEvalColumn.model.name].split('>')[1].split('<')[0], benchmark_name=TASK_NAME_INVERSE_MAP[col]['name'])})", axis=1)
     return df

     TASK_NAME_INVERSE_MAP[task.value.col_name] = {
         "name": task.value.benchmark,
         "type": task.value.type,
+        "source": task.value.source,
     }
     for col in benchmark_cols:
         df[col] = df[[AutoEvalColumn.model.name, col]].apply(lambda x: f"[{x[col]}]({get_inspect_log_url(model_name=x[AutoEvalColumn.model.name].split('>')[1].split('<')[0], benchmark_name=TASK_NAME_INVERSE_MAP[col]['name'])})", axis=1)
+    # make task names clickable and link to inspect-evals repository
+    df = df.rename(columns={col: f"[{col}]({TASK_NAME_INVERSE_MAP[col]['source']})" for col in benchmark_cols})
     return df