eval-leaderboard

Running

xeon27 commited on Feb 12

Commit

b1accaf

1 Parent(s): bad4049

Fix bug

Files changed (2) hide show

app.py CHANGED Viewed

@@ -62,8 +62,7 @@ def init_leaderboard(dataframe, benchmark_type):
     non_task_cols = ["Model"]
     if benchmark_type == "agentic":
-        # Add column for type of agent, as of now all models use the basic inspect agent
-        dataframe["Agent"] = ["[Basic Agent](https://inspect.ai-safety-institute.org.uk/agents.html#sec-basic-agent)"]*(dataframe.shape[0])
         non_task_cols.append("Agent")
     AutoEvalColumnSubset = [c for c in fields(AutoEvalColumn) if ((c.name in non_task_cols) or (TASK_NAME_INVERSE_MAP.get(c.name, dict()).get("type", "")==benchmark_type))]

     non_task_cols = ["Model"]
     if benchmark_type == "agentic":
+        # Include agent column
         non_task_cols.append("Agent")
     AutoEvalColumnSubset = [c for c in fields(AutoEvalColumn) if ((c.name in non_task_cols) or (TASK_NAME_INVERSE_MAP.get(c.name, dict()).get("type", "")==benchmark_type))]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -118,6 +118,8 @@ class EvalResult:
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model.name: make_clickable_model(self.model_version, self.revision),
         }
         for task in Tasks:

         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model.name: make_clickable_model(self.model_version, self.revision),
+            # As of now all models use the basic inspect agent
+            AutoEvalColumn.agent.name: "[Basic Agent](https://inspect.ai-safety-institute.org.uk/agents.html#sec-basic-agent)"
         }
         for task in Tasks: