Spaces:

doubao-bench
/

web-bench-leaderboard

Sleeping

App Files Files Community

doubao-bench commited on 24 days ago

Commit

0339608

1 Parent(s): f10384f

add model

Browse files

Files changed (9) hide show

app.py +28 -111
eval-queue/GPT-5-High_eval_request_float16.json +8 -0
eval-queue/gemini-2.5-Pro_eval_request_float16.json +8 -0
eval-results/GPT-5-High.json +14 -0
eval-results/gemini-2.5-Pro.json +14 -0
src/about.py +2 -4
src/display/utils.py +4 -13
src/leaderboard/read_evals.py +6 -9
src/populate.py +0 -2

app.py CHANGED Viewed

@@ -69,22 +69,9 @@ def init_leaderboard(dataframe):
             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=[
-            ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
-            ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                AutoEvalColumn.params.name,
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            ColumnFilter(
-                AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
-            ),
-        ],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
@@ -102,102 +89,32 @@ with demo:
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
-        with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=3):
-            with gr.Column():
-                with gr.Row():
-                    gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
-                with gr.Column():
-                    with gr.Accordion(
-                        f"✅ Finished Evaluations ({len(finished_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            finished_eval_table = gr.components.Dataframe(
-                                value=finished_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-                    with gr.Accordion(
-                        f"🔄 Running Evaluation Queue ({len(running_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            running_eval_table = gr.components.Dataframe(
-                                value=running_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-                    with gr.Accordion(
-                        f"⏳ Pending Evaluation Queue ({len(pending_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            pending_eval_table = gr.components.Dataframe(
-                                value=pending_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-            with gr.Row():
-                gr.Markdown("# ✉️✨ Submit your model here!", elem_classes="markdown-text")
-            with gr.Row():
-                with gr.Column():
-                    model_name_textbox = gr.Textbox(label="Model name")
-                    revision_name_textbox = gr.Textbox(label="Revision commit", placeholder="main")
-                    model_type = gr.Dropdown(
-                        choices=[t.to_str(" : ") for t in ModelType if t != ModelType.Unknown],
-                        label="Model type",
-                        multiselect=False,
-                        value=None,
-                        interactive=True,
-                    )
-                with gr.Column():
-                    precision = gr.Dropdown(
-                        choices=[i.value.name for i in Precision if i != Precision.Unknown],
-                        label="Precision",
-                        multiselect=False,
-                        value="float16",
-                        interactive=True,
-                    )
-                    weight_type = gr.Dropdown(
-                        choices=[i.value.name for i in WeightType],
-                        label="Weights type",
-                        multiselect=False,
-                        value="Original",
-                        interactive=True,
-                    )
-                    base_model_name_textbox = gr.Textbox(label="Base model (for delta or adapter weights)")
-            submit_button = gr.Button("Submit Eval")
-            submission_result = gr.Markdown()
-            submit_button.click(
-                add_new_eval,
-                [
-                    model_name_textbox,
-                    base_model_name_textbox,
-                    revision_name_textbox,
-                    precision,
-                    weight_type,
-                    model_type,
-                ],
-                submission_result,
-            )
-    with gr.Row():
-        with gr.Accordion("📙 Citation", open=False):
-            citation_button = gr.Textbox(
-                value=CITATION_BUTTON_TEXT,
-                label=CITATION_BUTTON_LABEL,
-                lines=20,
-                elem_id="citation-button",
-                show_copy_button=True,
-            )
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=[AutoEvalColumn.model.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
+        filter_columns=[],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
     )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
+        with gr.TabItem("🚀 Submit", elem_id="llm-benchmark-tab-table", id=3):
+            gr.Markdown("""
+We welcome community submissions of new model evaluation results. Those submissions will be listed as 'External', and authors must upload their generated outputs for peer review.
+## Evaluation
+Evaluation [Setup](https://huggingface.co/docs/hub/spaces-overview) and [Usage](https://huggingface.co/docs/hub/spaces-overview). This will generate a markdown report summarizing the results.
+## Submission
+To submit your results, create a Pull Request in the [Community Tab](https://huggingface.co/spaces/doubao-bench/web-bench-leaderboard/discussions) to add them to the `src/custom-eval-results` folder in this repository:
+* Create a new folder named with your provider and model names (e.g., `ollama_mistral-small`, using underscores to separate parts).
+* Each folder stores the evaluation results of only one model.
+* Add a `base_meta.json` file with the following fields:
+    * **Model**: the name of your model
+    * **Model Link**: the link to the model page
+    * **Provider**: the name of the provider
+    * **Openness**: the openness of the model
+    * **Agent**: the agent used for evaluation, `Web-Agent` or your custom agent name
+* Put your generated reports (e.g. `eval-20258513-102235.zip`) in your folder.
+* The title of the PR should be: `[Community Submission] Model: org/model, Username: your_username`.
+* **Tips**: `gen_meta.json` will be created after our review.
+We will promptly merge and review your submission. Once the review is complete, we will publish the results on the leaderboard.
+""")
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

eval-queue/GPT-5-High_eval_request_float16.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "model": "GPT-5-High",
+  "precision": "float16",
+  "status": "FINISHED",
+  "model_type": "pretrained",
+  "submit_type": "official",
+  "report": "https://openai.com/gpt-5"
+}

eval-queue/gemini-2.5-Pro_eval_request_float16.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "model": "gemini-2.5-Pro",
+  "precision": "float16",
+  "status": "FINISHED",
+  "model_type": "pretrained",
+  "submit_type": "official",
+  "report": "https://google.ai/gemini"
+}

eval-results/GPT-5-High.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "config": {
+    "model_name": "GPT-5-High",
+    "model_dtype": "float16"
+  },
+  "results": {
+    "anli_r1": {
+      "acc": 0.98
+    },
+    "logiqa": {
+      "acc_norm": 0.96
+    }
+  }
+}

eval-results/gemini-2.5-Pro.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "config": {
+    "model_name": "gemini-2.5-Pro",
+    "model_dtype": "float16"
+  },
+  "results": {
+    "anli_r1": {
+      "acc": 0.95
+    },
+    "logiqa": {
+      "acc_norm": 0.92
+    }
+  }
+}

src/about.py CHANGED Viewed

@@ -30,10 +30,8 @@ Intro text
 # Which evaluations are you running? how can people reproduce what you have?
 LLM_BENCHMARKS_TEXT = f"""
-## How it works
-## Reproducibility
-To reproduce our results, here is the commands you can run:
 """

 # Which evaluations are you running? how can people reproduce what you have?
 LLM_BENCHMARKS_TEXT = f"""
+## More Information
+More information could be found in [Paper](https://huggingface.co/docs/safetensors/index) or [Github](https://huggingface.co/docs/safetensors/index)
 """

src/display/utils.py CHANGED Viewed

@@ -23,22 +23,13 @@ class ColumnContent:
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
-auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
-for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
-auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
+auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
+auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("score", "number", True)])
 # Model information
+auto_eval_column_dict.append(["submit_type", ColumnContent, ColumnContent("submit_type", "str", True)])
+auto_eval_column_dict.append(["report", ColumnContent, ColumnContent("report", "str", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -31,6 +31,8 @@ class EvalResult:
     num_params: int = 0
     date: str = "" # submission date of request file
     still_on_hub: bool = False
     @classmethod
     def init_from_json_file(self, json_filepath):
@@ -104,6 +106,8 @@ class EvalResult:
             self.likes = request.get("likes", 0)
             self.num_params = request.get("params", 0)
             self.date = request.get("submitted_time", "")
         except Exception:
             print(f"Could not find request file for {self.org}/{self.model} with precision {self.precision.value.name}")
@@ -112,18 +116,11 @@ class EvalResult:
         average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
-            AutoEvalColumn.precision.name: self.precision.value.name,
             AutoEvalColumn.model_type.name: self.model_type.value.name,
-            AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol,
-            AutoEvalColumn.weight_type.name: self.weight_type.value.name,
-            AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
-            AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.average.name: average,
-            AutoEvalColumn.license.name: self.license,
-            AutoEvalColumn.likes.name: self.likes,
-            AutoEvalColumn.params.name: self.num_params,
-            AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:

     num_params: int = 0
     date: str = "" # submission date of request file
     still_on_hub: bool = False
+    submit_type: str = ""
+    report: str = ""
     @classmethod
     def init_from_json_file(self, json_filepath):
             self.likes = request.get("likes", 0)
             self.num_params = request.get("params", 0)
             self.date = request.get("submitted_time", "")
+            self.submit_type = request.get("submit_type", "")
+            self.report = request.get("report", "")
         except Exception:
             print(f"Could not find request file for {self.org}/{self.model} with precision {self.precision.value.name}")
         average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model_type.name: self.model_type.value.name,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.average.name: average,
+            AutoEvalColumn.submit_type.name: self.submit_type,
+            AutoEvalColumn.report.name: self.report,
         }
         for task in Tasks:

src/populate.py CHANGED Viewed

@@ -20,8 +20,6 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
-    # filter out if any of the benchmarks have not been produced
-    df = df[has_no_nan_values(df, benchmark_cols)]
     return df

     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     return df