Spaces:

MiniAppBench
/

Leaderboard

Running

App Files Files Community

ha251 commited on Mar 2

Commit

31001ef

verified ·

1 Parent(s): de2f793

Update miniapp_leaderboard.py

Browse files

Files changed (1) hide show

miniapp_leaderboard.py +106 -10

miniapp_leaderboard.py CHANGED Viewed

@@ -42,13 +42,13 @@ def _slug(s: str):
 def _load_df(prefix: str):
     if not HF_TOKEN or not LEADERBOARD_DATASET:
-        return pd.DataFrame(columns=COLUMNS)
     api = _api()
     try:
         files = api.list_repo_files(repo_id=LEADERBOARD_DATASET, repo_type="dataset")
     except Exception:
-        return pd.DataFrame(columns=COLUMNS)
     files = [f for f in files if f.startswith(prefix) and f.endswith(".json")]
     rows = []
@@ -67,9 +67,10 @@ def _load_df(prefix: str):
             continue
     if not rows:
-        return pd.DataFrame(columns=COLUMNS)
     df = pd.DataFrame(rows)
     for c in COLUMNS:
         if c not in df.columns:
             df[c] = ""
@@ -77,9 +78,17 @@ def _load_df(prefix: str):
     for c in NUMERIC_COLS:
         df[c] = pd.to_numeric(df[c], errors="coerce")
-    df = df.sort_values(by="avg", ascending=False)
-    return df[COLUMNS]
 def refresh():
     return _load_df(APPROVED_PREFIX)
@@ -134,34 +143,121 @@ def submit(model_name, model_family, email, zip_file):
     return "Submitted. Waiting for review.", refresh()
-with gr.Blocks(title=f"{APP_NAME} leaderboard") as demo:
-    gr.Markdown(f"# {APP_NAME} Leaderboard")
-    # ✅ 占满横向宽度
     leaderboard = gr.Dataframe(
         value=_load_df(APPROVED_PREFIX),
         interactive=False,
         wrap=True,
-        elem_classes="full-width",
     )
     refresh_btn = gr.Button("Refresh")
-    gr.Markdown("## Submit")
     model_name = gr.Textbox(label="Model name")
     model_family = gr.Textbox(label="Model family")
     email = gr.Textbox(label="Email")
     zip_file = gr.File(label="Upload zip", file_types=[".zip"])
     submit_btn = gr.Button("Submit", variant="primary")
     status = gr.Markdown()
     refresh_btn.click(refresh, outputs=[leaderboard])
     submit_btn.click(
         submit,
         inputs=[model_name, model_family, email, zip_file],
         outputs=[status, leaderboard],
     )
 demo.launch()

 def _load_df(prefix: str):
     if not HF_TOKEN or not LEADERBOARD_DATASET:
+        return pd.DataFrame(columns=["rank"] + COLUMNS)
     api = _api()
     try:
         files = api.list_repo_files(repo_id=LEADERBOARD_DATASET, repo_type="dataset")
     except Exception:
+        return pd.DataFrame(columns=["rank"] + COLUMNS)
     files = [f for f in files if f.startswith(prefix) and f.endswith(".json")]
     rows = []
             continue
     if not rows:
+        return pd.DataFrame(columns=["rank"] + COLUMNS)
     df = pd.DataFrame(rows)
     for c in COLUMNS:
         if c not in df.columns:
             df[c] = ""
     for c in NUMERIC_COLS:
         df[c] = pd.to_numeric(df[c], errors="coerce")
+    # 按 avg 排序
+    df = df.sort_values(by="avg", ascending=False).reset_index(drop=True)
+    # 自动生成排名
+    df.insert(0, "rank", df.index + 1)
+    # 加 medal
+    medals = {1: "🥇", 2: "🥈", 3: "🥉"}
+    df["rank"] = df["rank"].apply(lambda x: f"{medals.get(x, '')} {x}")
+    return df[["rank"] + COLUMNS]
 def refresh():
     return _load_df(APPROVED_PREFIX)
     return "Submitted. Waiting for review.", refresh()
+custom_css = """
+.gradio-container {
+    max-width: 100% !important;
+    padding-left: 2rem !important;
+    padding-right: 2rem !important;
+}
+thead tr th {
+    position: sticky;
+    top: 0;
+    background: white !important;
+    z-index: 10;
+}
+table {
+    font-size: 14px;
+}
+@media (max-width: 768px) {
+    table {
+        font-size: 12px;
+    }
+}
+"""
+with gr.Blocks(
+    title=f"{APP_NAME} leaderboard",
+    css=custom_css,
+    fill_width=True,
+) as demo:
+    # =============================
+    # 标题
+    # =============================
+    gr.Markdown(f"# {APP_NAME} Benchmark Leaderboard")
+    # =============================
+    # 学术风格说明
+    # =============================
+    gr.Markdown(
+        """
+### Overview
+This leaderboard reports performance on **MiniAppBench**,
+a benchmark designed to evaluate model capability across
+multi-difficulty application scenarios.
+### Evaluation Protocol
+All submissions are evaluated under a standardized pipeline.
+Each model is tested on three difficulty tiers:
+- **Easy**
+- **Mid**
+- **Hard**
+The final **Average (avg)** score is computed as the unweighted mean
+across all tiers.
+### Ranking Policy
+Models are ranked by **avg score (descending)**.
+Ties are broken by Hard score, then Mid score.
+Only reviewed and approved submissions are displayed.
+        """
+    )
+    # =============================
+    # Leaderboard 表格
+    # =============================
     leaderboard = gr.Dataframe(
         value=_load_df(APPROVED_PREFIX),
         interactive=False,
         wrap=True,
+        height=600,
     )
     refresh_btn = gr.Button("Refresh")
+    # =============================
+    # Submission
+    # =============================
+    gr.Markdown("---")
+    gr.Markdown(
+        """
+## Submission Guidelines
+Please upload:
+- A `.zip` file containing your model artifacts
+- Model name
+- Model family
+- Contact email
+Submissions will undergo verification before appearing on the leaderboard.
+        """
+    )
     model_name = gr.Textbox(label="Model name")
     model_family = gr.Textbox(label="Model family")
     email = gr.Textbox(label="Email")
     zip_file = gr.File(label="Upload zip", file_types=[".zip"])
     submit_btn = gr.Button("Submit", variant="primary")
     status = gr.Markdown()
     refresh_btn.click(refresh, outputs=[leaderboard])
     submit_btn.click(
         submit,
         inputs=[model_name, model_family, email, zip_file],
         outputs=[status, leaderboard],
     )
 demo.launch()