Spaces:

Prosodia
/

Atlas

Sleeping

App Files Files Community

Victor Dieguez commited on Nov 24, 2025

Commit

2e39b31

1 Parent(s): 9edb513

Removing envs variables

Browse files

Files changed (1) hide show

src/populate.py +73 -1

src/populate.py CHANGED Viewed

@@ -6,8 +6,9 @@ import pandas as pd
 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_eval_results(results_path, requests_path)
@@ -21,6 +22,77 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:
     """Creates the different dataframes for the evaluation queues requestes"""

 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
+#from src.display.utils import has_no_nan_values
+'''
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_eval_results(results_path, requests_path)
     df = df[has_no_nan_values(df, benchmark_cols)]
     return df
+def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_cols):
+    eval_results = get_raw_eval_results(eval_results_path, eval_requests_path)
+    rows = [e.to_dict() for e in eval_results]
+    # If nothing loaded, just return an empty DF (prevents KeyError)
+    if not rows:
+        print("No eval results found – returning empty leaderboard.")
+        return pd.DataFrame()
+    df = pd.DataFrame(rows)
+    # 1) Sort only if the Average column exists
+    avg_col = AutoEvalColumn.average.name  # usually "Average ⬆️"
+    if avg_col in df.columns:
+        df = df.sort_values(by=[avg_col], ascending=False)
+    else:
+        print("Average column not found in dataframe. Columns:", df.columns)
+    # 2) Only keep columns that actually exist in the DF
+    existing_cols = [c for c in cols if c in df.columns]
+    df = df[existing_cols].round(decimals=2)
+    # 3) Filter models that miss some benchmarks, but only for existing benchmarks
+    existing_benchmarks = [c for c in benchmark_cols if c in df.columns]
+    if existing_benchmarks:
+        df = df[has_no_nan_values(df, existing_benchmarks)]
+    return df
+'''
+def get_leaderboard_df(eval_results_path, eval_requests_path, cols, benchmark_cols):
+    """
+    Build the leaderboard dataframe from the JSON eval results.
+    - Does NOT assume that an 'Average ⬆️' column already exists.
+    - Does NOT depend on has_no_nan_values.
+    - Is tolerant to missing columns.
+    """
+    # 1) Load EvalResult objects from results (and requests, if your get_raw_eval_results uses it)
+    eval_results = get_raw_eval_results(eval_results_path, eval_requests_path)
+    rows = [e.to_dict() for e in eval_results]
+    # If nothing loaded, return an empty DF with the expected column order
+    if not rows:
+        print("No eval results found – returning empty leaderboard.")
+        return pd.DataFrame(columns=cols)
+    df = pd.DataFrame(rows)
+    # 2) Sort by Average if that column exists
+    avg_col = AutoEvalColumn.average.name  # usually "Average ⬆️"
+    if avg_col in df.columns:
+        df = df.sort_values(by=[avg_col], ascending=False)
+    else:
+        print(f"Average column '{avg_col}' not found. Available columns:", list(df.columns))
+    # 3) Keep only the columns that actually exist in the dataframe
+    existing_cols = [c for c in cols if c in df.columns]
+    df = df[existing_cols]
+    # 4) Round numeric columns to 2 decimals
+    num_cols = df.select_dtypes(include="number").columns
+    if len(num_cols) > 0:
+        df[num_cols] = df[num_cols].round(2)
+    # 5) If you *want* to drop rows with NaNs in benchmark columns, do it directly with dropna
+    existing_benchmarks = [c for c in benchmark_cols if c in df.columns]
+    if existing_benchmarks:
+        df = df.dropna(subset=existing_benchmarks, how="any")
+    return df
 def get_evaluation_queue_df(save_path: str, cols: list) -> list[pd.DataFrame]:
     """Creates the different dataframes for the evaluation queues requestes"""