EvalArena

Sleeping

dror44 commited on Apr 24, 2025

Commit

f663644

1 Parent(s): d590c57

fix confidences

Files changed (1) hide show

src/app.py CHANGED Viewed

@@ -17,6 +17,19 @@ selected_judges: list = []
 current_test_type: str = "grounding"
 def initialize():
     """Initialize the application."""
     # Load models from file
@@ -68,8 +81,8 @@ def initialize():
         winner2_fn=lambda: select_winner("Evaluation 2", judge_manager),
         both_correct_fn=lambda: handle_both_correct(judge_manager),
         both_incorrect_fn=lambda: handle_both_incorrect(judge_manager),
-        refresh_leaderboard_fn=lambda: judge_manager.leaderboard_df,
-        leaderboard_df=judge_manager.leaderboard_df,
     )
     return ui.create_interface()

 current_test_type: str = "grounding"
+def format_leaderboard_for_display(df: pd.DataFrame) -> pd.DataFrame:
+    """Format the leaderboard dataframe for display in the UI.
+    This ensures consistent display across environments like Huggingface Spaces."""
+    # Create a copy of the dataframe with only the columns we want to display
+    display_df = pd.DataFrame()
+    display_df["Judge Name"] = df["judge_name"]
+    display_df["ELO Score"] = df["elo_score"]
+    display_df["Wins"] = df["wins"]
+    display_df["Losses"] = df["losses"]
+    display_df["Total Evaluations"] = df["total_evaluations"]
+    return display_df
 def initialize():
     """Initialize the application."""
     # Load models from file
         winner2_fn=lambda: select_winner("Evaluation 2", judge_manager),
         both_correct_fn=lambda: handle_both_correct(judge_manager),
         both_incorrect_fn=lambda: handle_both_incorrect(judge_manager),
+        refresh_leaderboard_fn=lambda: format_leaderboard_for_display(judge_manager.leaderboard_df),
+        leaderboard_df=format_leaderboard_for_display(judge_manager.leaderboard_df),
     )
     return ui.create_interface()