SearchAgent_Leaderboard

Sleeping

App Files Files Community

shyuli commited on Sep 29, 2025

Commit

87688ca

1 Parent(s): 8ef7e14

version v0.1

Browse files

Files changed (3) hide show

debug_df.py +0 -59
requirements.txt +1 -1
src/populate.py +21 -3

debug_df.py DELETED Viewed

@@ -1,59 +0,0 @@
-#!/usr/bin/env python3
-import json
-import os
-import pandas as pd
-from src.display.utils import AutoEvalColumn
-from src.leaderboard.read_evals import get_raw_eval_results
-# 设置路径
-EVAL_RESULTS_PATH = "./eval-results"
-EVAL_REQUESTS_PATH = "./eval-queue"
-# 获取列定义
-cols = [c.name for c in AutoEvalColumn.__dict__.values() if hasattr(c, "name") and not getattr(c, "hidden", False)]
-benchmark_cols = ["NQ", "TriviaQA", "PopQA", "HotpotQA", "2wiki", "Musique", "Bamboogle", "FictionalHot"]
-print("Expected columns from AutoEvalColumn:")
-for c in AutoEvalColumn.__dict__.values():
-    if hasattr(c, "name"):
-        print(f"  {c.name}")
-print("\nTrying to get raw data...")
-try:
-    raw_data = get_raw_eval_results(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH)
-    print(f"Found {len(raw_data)} raw data entries")
-    if raw_data:
-        print("\nFirst entry structure:")
-        first_entry = raw_data[0]
-        print(f"  eval_name: {first_entry.eval_name}")
-        print(f"  full_model: {first_entry.full_model}")
-        print(f"  results: {first_entry.results}")
-        # 转换为字典
-        all_data_json = [v.to_dict() for v in raw_data]
-        df = pd.DataFrame.from_records(all_data_json)
-        print(f"\nDataFrame shape: {df.shape}")
-        print(f"DataFrame columns: {list(df.columns)}")
-        if len(df) > 0:
-            print("\nFirst row:")
-            print(df.iloc[0])
-            print(f"\nLooking for '{AutoEvalColumn.average.name}' column...")
-            if AutoEvalColumn.average.name in df.columns:
-                print(f"Found '{AutoEvalColumn.average.name}' column")
-                print(f"Average values: {df[AutoEvalColumn.average.name].tolist()}")
-            else:
-                print(f"ERROR: '{AutoEvalColumn.average.name}' column not found!")
-                print("Available columns:", list(df.columns))
-    else:
-        print("No raw data found!")
-except Exception as e:
-    print(f"Error occurred: {e}")
-    import traceback
-    traceback.print_exc()

requirements.txt CHANGED Viewed

@@ -2,6 +2,6 @@ APScheduler>=3.10
 gradio>=5.43.1,<6
 gradio_leaderboard==0.0.13
 huggingface-hub>=0.18.0
-pandas>=1.5
 numpy>=1.23

 gradio>=5.43.1,<6
 gradio_leaderboard==0.0.13
 huggingface-hub>=0.18.0
+pandas==2.23.2
 numpy>=1.23

src/populate.py CHANGED Viewed

@@ -14,16 +14,34 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     # Add ranking based on average score
-    df[AutoEvalColumn.rank.name] = range(1, len(df) + 1)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
-    return df
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:

     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
+    if df.empty:
+        return pd.DataFrame(columns=cols)
+    # Ensure all expected columns exist so downstream operations never fail
+    for column in cols:
+        if column not in df.columns:
+            df[column] = pd.NA
+    average_col = AutoEvalColumn.average.name
+    rank_col = AutoEvalColumn.rank.name
+    if average_col not in df.columns:
+        df[average_col] = pd.NA
+    df[average_col] = pd.to_numeric(df[average_col], errors="coerce")
+    if df[average_col].notna().any():
+        df = df.sort_values(by=[average_col], ascending=False, na_position="last")
     # Add ranking based on average score
+    df[rank_col] = range(1, len(df) + 1)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
     df = df[has_no_nan_values(df, benchmark_cols)]
+    return df.reset_index(drop=True)
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]: