Spaces:

ToolGym
/

leaderboard

Runtime error

App Files Files Community

xiziqiao commited on Jan 9

Commit

6a2f803

verified ·

1 Parent(s): e7fdf18

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -108

app.py CHANGED Viewed

@@ -7,8 +7,8 @@ import gradio as gr
 CSV_PATH = Path("leaderboard.csv")
-# Full breakdown columns = Appendix Table 6 (same metrics, same names)
-FULL_COLS = [
     "Model",
     "Score",
     "Completeness",
@@ -26,19 +26,6 @@ FULL_COLS = [
     "Goal Decomposition",
 ]
-# A compact "Arena-like" summary view (close to your Table 2)
-SUMMARY_COLS = [
-    "Model",
-    "Score",
-    "Completeness",
-    "Grounding",
-    "Recovery Rate",
-    "Flexibility",
-    "Format",
-    "Tool Calls",
-    "Goal Decomposition",
-]
 PERCENT_COLS = {
     "Success Rate",
     "Recovery Rate",
@@ -56,12 +43,12 @@ LABEL_MAP = {
     "Goal Decomposition": "Goal Decomp.",
 }
 ARENA_CSS = r"""
-/* ===== Force a clean "Arena-like" light theme with proper contrast ===== */
 :root { color-scheme: light; }
 html, body { background: #f6f7fb !important; }
-/* ---- Gradio theme tokens (this fixes your "light bg + light text" issue) ---- */
 .gradio-container{
   max-width: 1200px !important;
   margin: 0 auto !important;
@@ -70,10 +57,10 @@ html, body { background: #f6f7fb !important; }
   --body-background-fill: #f6f7fb !important;
   --body-background-fill-hover: #f6f7fb !important;
-  --body-text-color: #0f172a !important;               /* main text */
-  --body-text-color-subdued: #334155 !important;       /* secondary text */
-  --block-background-fill: #ffffff !important;         /* panels */
   --block-background-fill-hover: #ffffff !important;
   --block-border-color: #e5e7eb !important;
@@ -98,24 +85,7 @@ html, body { background: #f6f7fb !important; }
   --link-text-color-active: #1d4ed8 !important;
 }
-/* Make markdown visibly dark (Gradio sometimes keeps dark-theme opacity) */
-.gradio-container .prose, .gradio-container .prose *{
-  color: #0f172a !important;
-}
-.gradio-container .prose p{
-  color: #334155 !important;
-}
-/* Make inline code pill readable */
-.gradio-container code{
-  background: #f1f5f9 !important;
-  border: 1px solid #e2e8f0 !important;
-  color: #0f172a !important;
-  padding: 1px 6px;
-  border-radius: 6px;
-}
-/* ===== Arena table card ===== */
 .arena-card{
   background: #ffffff;
   border: 1px solid #e5e7eb;
@@ -127,33 +97,38 @@ html, body { background: #f6f7fb !important; }
 table.arena-table{
   width: 100%;
-  min-width: 1100px;
   border-collapse: separate;
   border-spacing: 0;
   font-size: 13px;
   color: #0f172a;
 }
-/* Header */
 table.arena-table thead th{
   position: sticky;
   top: 0;
-  z-index: 1;
   background: #f8fafc;
   color: #334155 !important;
   font-weight: 650;
   text-align: left;
   padding: 10px 12px;
-  border-bottom: 1px solid #e2e8f0;
   white-space: nowrap;
 }
-/* Body */
 table.arena-table tbody td{
   padding: 10px 12px;
-  border-bottom: 1px solid #eef2f7;
   white-space: nowrap;
-  color: #0f172a !important;   /* IMPORTANT: force readable text */
 }
 table.arena-table tbody tr:nth-child(even){ background: #fbfdff; }
@@ -163,8 +138,21 @@ table.arena-table th.num, table.arena-table td.num{
   text-align: right;
   font-variant-numeric: tabular-nums;
 }
-table.arena-table td.model{ font-weight: 600; }
 table.arena-table td.rank{ width: 52px; color: #64748b !important; }
 """
 def _to_float(x):
@@ -173,7 +161,6 @@ def _to_float(x):
         return float("nan")
     if isinstance(x, (int, float)) and not pd.isna(x):
         return float(x)
     s = str(x).strip()
     if not s:
         return float("nan")
@@ -187,44 +174,37 @@ def _to_float(x):
 def load_df() -> pd.DataFrame:
     if not CSV_PATH.exists():
-        return pd.DataFrame(columns=FULL_COLS)
     df = pd.read_csv(CSV_PATH)
-    for c in FULL_COLS:
         if c not in df.columns:
             df[c] = ""
-    return df[FULL_COLS]
 def format_cell(col: str, val) -> str:
     if val is None or (isinstance(val, float) and pd.isna(val)):
         return ""
     if col in PERCENT_COLS:
-        return str(val).strip()
     f = _to_float(val)
     if pd.isna(f):
-        return str(val).strip()
     return f"{f:.2f}"
-def prepare_df(query: str, sort_by: str, descending: bool, view: str) -> pd.DataFrame:
     df = load_df()
-    # Search (Arena-style: by model name)
     if query:
         q = query.lower().strip()
         df = df[df["Model"].astype(str).str.lower().str.contains(q, na=False)]
-    cols = SUMMARY_COLS if view == "Summary" else FULL_COLS
-    # Sort
     if sort_by in df.columns:
         df = df.assign(_s=df[sort_by].map(_to_float))
         df = df.sort_values("_s", ascending=not descending, na_position="last").drop(columns=["_s"])
-    # Rank
     df = df.reset_index(drop=True)
     df.insert(0, "Rank", range(1, len(df) + 1))
-    return df[["Rank"] + cols]
 def render_table(df: pd.DataFrame) -> str:
     if df.empty:
@@ -232,32 +212,28 @@ def render_table(df: pd.DataFrame) -> str:
     cols = list(df.columns)
-    # Header
     ths = []
     for c in cols:
         label = LABEL_MAP.get(c, c)
-        cls = []
         if c == "Rank":
-            cls += ["rank", "num"]
-        elif c == "Model":
-            cls += ["model"]
-        else:
-            cls += ["num"]
-        ths.append(f"<th class=\"{' '.join(cls)}\">{html.escape(label)}</th>")
-    # Body
     rows = []
     for _, row in df.iterrows():
         tds = []
         for c in cols:
             if c == "Rank":
                 cls = "rank num"
             elif c == "Model":
                 cls = "model"
             else:
                 cls = "num"
-            val = format_cell(c, row[c])
-            tds.append(f"<td class=\"{cls}\">{html.escape(str(val))}</td>")
         rows.append("<tr>" + "".join(tds) + "</tr>")
     return f"""
@@ -271,57 +247,36 @@ def render_table(df: pd.DataFrame) -> str:
     </div>
     """
-def update(query: str, view: str, sort_by: str, descending: bool) -> str:
-    df = prepare_df(query, sort_by, descending, view)
-    return render_table(df)
-def sort_choices(view: str):
-    cols = SUMMARY_COLS if view == "Summary" else FULL_COLS
-    return [c for c in cols if c not in ("Model",)]
 with gr.Blocks(title="ToolGym Leaderboard", css=ARENA_CSS) as demo:
     gr.Markdown("# 🏆 ToolGym Leaderboard")
-    gr.Markdown("Arena-style leaderboard view (Summary / Full breakdown). Update by editing `leaderboard.csv` via PR.")
     with gr.Row():
         query = gr.Textbox(label="Search", placeholder="e.g., deepseek, gemini, qwen ...")
-        view = gr.Radio(choices=["Summary", "Full breakdown"], value="Full breakdown", label="View")
-    with gr.Row():
-        sort_by = gr.Dropdown(choices=sort_choices("Full breakdown"), value="Score", label="Sort by")
         descending = gr.Checkbox(value=True, label="Descending")
     table = gr.HTML()
-    # When switching view, update sort choices + refresh table
-    def on_view_change(v, q, desc):
-        new_choices = sort_choices(v)
-        # keep Score as default if present
-        default = "Score" if "Score" in new_choices else (new_choices[0] if new_choices else "")
-        df = prepare_df(q, default, desc, v)
-        return gr.Dropdown.update(choices=new_choices, value=default), render_table(df)
-    view.change(on_view_change, inputs=[view, query, descending], outputs=[sort_by, table])
-    # Regular refresh
-    query.change(update, inputs=[query, view, sort_by, descending], outputs=table)
-    sort_by.change(update, inputs=[query, view, sort_by, descending], outputs=table)
-    descending.change(update, inputs=[query, view, sort_by, descending], outputs=table)
-    # Initial render
-    demo.load(update, inputs=[query, view, sort_by, descending], outputs=table)
-    # Footer info
     if CSV_PATH.exists():
         ts = datetime.utcfromtimestamp(CSV_PATH.stat().st_mtime).strftime("%Y-%m-%d %H:%M UTC")
-        gr.Markdown(f"<small>Source: <code>leaderboard.csv</code> · Last updated: {ts}</small>")
-    else:
-        gr.Markdown("<small>Source: <code>leaderboard.csv</code></small>")
     with gr.Accordion("Submit / Update", open=False):
         gr.Markdown(
-            "- Open a PR that edits `leaderboard.csv`.\n"
-            "- Please include: model name, evaluation setting/commit hash, and the metrics.\n"
         )
 demo.launch()

 CSV_PATH = Path("leaderboard.csv")
+# Full breakdown columns (Appendix Table 6)
+COLS = [
     "Model",
     "Score",
     "Completeness",
     "Goal Decomposition",
 ]
 PERCENT_COLS = {
     "Success Rate",
     "Recovery Rate",
     "Goal Decomposition": "Goal Decomp.",
 }
+# Light, Arena-like, high-contrast style (prevents "light bg + light text" issues)
 ARENA_CSS = r"""
 :root { color-scheme: light; }
 html, body { background: #f6f7fb !important; }
+/* Gradio theme tokens */
 .gradio-container{
   max-width: 1200px !important;
   margin: 0 auto !important;
   --body-background-fill: #f6f7fb !important;
   --body-background-fill-hover: #f6f7fb !important;
+  --body-text-color: #0f172a !important;
+  --body-text-color-subdued: #334155 !important;
+  --block-background-fill: #ffffff !important;
   --block-background-fill-hover: #ffffff !important;
   --block-border-color: #e5e7eb !important;
   --link-text-color-active: #1d4ed8 !important;
 }
+/* Arena table card */
 .arena-card{
   background: #ffffff;
   border: 1px solid #e5e7eb;
 table.arena-table{
   width: 100%;
+  min-width: 1300px; /* wide table, scrolls horizontally */
   border-collapse: separate;
   border-spacing: 0;
   font-size: 13px;
   color: #0f172a;
 }
+/* IMPORTANT: override any global "prose table" borders */
+table.arena-table th, table.arena-table td{
+  border: none !important;
+  overflow: visible !important;
+  text-overflow: clip !important;
+}
 table.arena-table thead th{
   position: sticky;
   top: 0;
+  z-index: 2;
   background: #f8fafc;
   color: #334155 !important;
   font-weight: 650;
   text-align: left;
   padding: 10px 12px;
+  border-bottom: 1px solid #e2e8f0 !important;
   white-space: nowrap;
 }
 table.arena-table tbody td{
   padding: 10px 12px;
+  border-bottom: 1px solid #eef2f7 !important;
   white-space: nowrap;
+  color: #0f172a !important;
 }
 table.arena-table tbody tr:nth-child(even){ background: #fbfdff; }
   text-align: right;
   font-variant-numeric: tabular-nums;
 }
+table.arena-table td.model{ font-weight: 650; }
 table.arena-table td.rank{ width: 52px; color: #64748b !important; }
+/* optional: keep Model column visible while horizontal scrolling */
+table.arena-table thead th:first-child,
+table.arena-table tbody td:first-child{
+  position: sticky;
+  left: 0;
+  z-index: 3;
+  background: #f8fafc;
+}
+table.arena-table tbody td:first-child{
+  background: #ffffff;
+}
 """
 def _to_float(x):
         return float("nan")
     if isinstance(x, (int, float)) and not pd.isna(x):
         return float(x)
     s = str(x).strip()
     if not s:
         return float("nan")
 def load_df() -> pd.DataFrame:
     if not CSV_PATH.exists():
+        return pd.DataFrame(columns=COLS)
     df = pd.read_csv(CSV_PATH)
+    for c in COLS:
         if c not in df.columns:
             df[c] = ""
+    return df[COLS]
 def format_cell(col: str, val) -> str:
     if val is None or (isinstance(val, float) and pd.isna(val)):
         return ""
+    s = str(val).strip()
     if col in PERCENT_COLS:
+        return s
     f = _to_float(val)
     if pd.isna(f):
+        return s
     return f"{f:.2f}"
+def prepare_df(query: str, sort_by: str, descending: bool) -> pd.DataFrame:
     df = load_df()
     if query:
         q = query.lower().strip()
         df = df[df["Model"].astype(str).str.lower().str.contains(q, na=False)]
     if sort_by in df.columns:
         df = df.assign(_s=df[sort_by].map(_to_float))
         df = df.sort_values("_s", ascending=not descending, na_position="last").drop(columns=["_s"])
     df = df.reset_index(drop=True)
     df.insert(0, "Rank", range(1, len(df) + 1))
+    return df
 def render_table(df: pd.DataFrame) -> str:
     if df.empty:
     cols = list(df.columns)
     ths = []
     for c in cols:
         label = LABEL_MAP.get(c, c)
+        cls = "num" if c not in ("Model",) else ""
         if c == "Rank":
+            cls = "rank num"
+        ths.append(f"<th class='{cls}'>{html.escape(label)}</th>")
     rows = []
     for _, row in df.iterrows():
         tds = []
         for c in cols:
             if c == "Rank":
                 cls = "rank num"
+                val = row[c]
             elif c == "Model":
                 cls = "model"
+                val = row[c]
             else:
                 cls = "num"
+                val = format_cell(c, row[c])
+            tds.append(f"<td class='{cls}'>{html.escape(str(val))}</td>")
         rows.append("<tr>" + "".join(tds) + "</tr>")
     return f"""
     </div>
     """
+def update(q: str, s: str, d: bool) -> str:
+    return render_table(prepare_df(q, s, d))
+SORT_CHOICES = [c for c in COLS if c != "Model"]
 with gr.Blocks(title="ToolGym Leaderboard", css=ARENA_CSS) as demo:
     gr.Markdown("# 🏆 ToolGym Leaderboard")
+    gr.Markdown("Full leaderboard breakdown. Update by editing `leaderboard.csv` via PR.")
     with gr.Row():
         query = gr.Textbox(label="Search", placeholder="e.g., deepseek, gemini, qwen ...")
+        sort_by = gr.Dropdown(label="Sort by", choices=SORT_CHOICES, value="Score")
         descending = gr.Checkbox(value=True, label="Descending")
     table = gr.HTML()
+    query.change(update, inputs=[query, sort_by, descending], outputs=table)
+    sort_by.change(update, inputs=[query, sort_by, descending], outputs=table)
+    descending.change(update, inputs=[query, sort_by, descending], outputs=table)
+    demo.load(update, inputs=[query, sort_by, descending], outputs=table)
+    ts = ""
     if CSV_PATH.exists():
         ts = datetime.utcfromtimestamp(CSV_PATH.stat().st_mtime).strftime("%Y-%m-%d %H:%M UTC")
+    gr.Markdown(f"<small>Source: <code>leaderboard.csv</code>{(' · Last updated: ' + ts) if ts else ''}</small>")
     with gr.Accordion("Submit / Update", open=False):
         gr.Markdown(
+            "- Open a PR editing `leaderboard.csv`.\n"
+            "- Include: model name, evaluation setting/commit hash, and the metrics.\n"
         )
 demo.launch()