Spaces:

LLMsMaxEntRL
/

maxent-rl-eval-leaderboard

Running

luckeciano commited on Mar 18, 2025

Commit

866e1ae

verified ·

1 Parent(s): cab81c9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ from glob import glob
 eval_results_dir = "eval_results/"  # Directory containing evaluation results
 def load_results():
-    records = []
     # Recursively find all JSON files in the eval_results directory
     json_files = glob(os.path.join(eval_results_dir, "**", "*.json"), recursive=True)
@@ -19,21 +19,21 @@ def load_results():
                 model_name = data["config_general"].get("model_name", "Unknown")
                 results = data.get("results", {})
                 # Extract relevant evaluation metrics
                 for task, task_data in results.items():
                     if "extractive_match" in task_data:
-                        records.append({
-                            "Model": model_name,
-                            "Task": task,
-                            "Extractive Match": task_data["extractive_match"],
-                            "Std Err": task_data["extractive_match_stderr"]
-                        })
         except Exception as e:
             print(f"Error reading {file_path}: {e}")
     # Convert to DataFrame
-    df = pd.DataFrame(records)
-    return df.sort_values(by=["Task", "Extractive Match"], ascending=[True, False])
 def leaderboard():
     df = load_results()

 eval_results_dir = "eval_results/"  # Directory containing evaluation results
 def load_results():
+    records = {}
     # Recursively find all JSON files in the eval_results directory
     json_files = glob(os.path.join(eval_results_dir, "**", "*.json"), recursive=True)
                 model_name = data["config_general"].get("model_name", "Unknown")
                 results = data.get("results", {})
+                if model_name not in records:
+                    records[model_name] = {}
                 # Extract relevant evaluation metrics
                 for task, task_data in results.items():
                     if "extractive_match" in task_data:
+                        records[model_name][f"{task} (Match)"] = task_data["extractive_match"]
+                        records[model_name][f"{task} (StdErr)"] = task_data["extractive_match_stderr"]
         except Exception as e:
             print(f"Error reading {file_path}: {e}")
     # Convert to DataFrame
+    df = pd.DataFrame.from_dict(records, orient="index").reset_index()
+    df.rename(columns={"index": "Model"}, inplace=True)
+    return df
 def leaderboard():
     df = load_results()