Spaces:

TIGER-Lab
/

ClawBench

Running

AgPerry commited on 19 days ago

Commit

e77a483

verified ·

1 Parent(s): 78cfa0c

Switch sort key to corpus-interception (Stage 1) with corpus-reward as tiebreak

Files changed (1) hide show

app.py CHANGED Viewed

@@ -107,18 +107,23 @@ def load_results() -> pd.DataFrame:
     df = pd.read_csv(io.BytesIO(raw))
     if "reward_rate" not in df.columns:
         df["reward_rate"] = pd.NA
-    # Rank by corpus reward (passed / full_corpus_size) so partial batches don't
-    # outrank complete ones with lower reward_rate. The displayed reward_rate is
-    # still over attempted tasks; only the sort changes.
     df["_corpus_size"] = df["dataset"].map(CORPUS_SIZE).fillna(df["total"])
     df["_corpus_reward"] = df["passed"] / df["_corpus_size"]
     df = df.sort_values(
-        ["dataset", "_corpus_reward", "pass_rate"],
         ascending=[True, False, False],
         na_position="last",
     ).reset_index(drop=True)
     df.insert(0, "rank", df.groupby("dataset").cumcount() + 1)
-    df = df.drop(columns=["_corpus_size", "_corpus_reward"])
     df["pass_rate"] = df["pass_rate"].map(_format_pct)
     df["reward_rate"] = df["reward_rate"].map(_format_pct)
     df["wall_hours"] = df["wall_hours"].map(_format_wall)

     df = pd.read_csv(io.BytesIO(raw))
     if "reward_rate" not in df.columns:
         df["reward_rate"] = pd.NA
+    # Rank by corpus interception rate (intercepted_count / full_corpus_size) as
+    # the headline metric — Stage 1 is deterministic (URL/method match) and
+    # universally comparable. Tiebreak by corpus reward (passed / corpus_size)
+    # so partial batches don't outrank complete ones with lower rates.
     df["_corpus_size"] = df["dataset"].map(CORPUS_SIZE).fillna(df["total"])
+    # `pass_rate` in our CSV is the Stage-1 intercept rate (%) over attempted.
+    # Convert it to a fraction over the full corpus.
+    df["_intercepted_count"] = (df["pass_rate"].astype(float) / 100.0 * df["total"]).round().astype(int)
+    df["_corpus_intercepted"] = df["_intercepted_count"] / df["_corpus_size"]
     df["_corpus_reward"] = df["passed"] / df["_corpus_size"]
     df = df.sort_values(
+        ["dataset", "_corpus_intercepted", "_corpus_reward"],
         ascending=[True, False, False],
         na_position="last",
     ).reset_index(drop=True)
     df.insert(0, "rank", df.groupby("dataset").cumcount() + 1)
+    df = df.drop(columns=["_corpus_size", "_corpus_reward", "_intercepted_count", "_corpus_intercepted"])
     df["pass_rate"] = df["pass_rate"].map(_format_pct)
     df["reward_rate"] = df["reward_rate"].map(_format_pct)
     df["wall_hours"] = df["wall_hours"].map(_format_wall)