Spaces:

open-llm-leaderboard
/

comparator

Running on CPU Upgrade

App Files Files Community

albertvillanova HF Staff commited on Oct 21, 2024

Commit

07db628

verified ·

1 Parent(s): ea4c670

Plot Results

Browse files

Files changed (2) hide show

app.py +6 -0
src/results.py +43 -0

app.py CHANGED Viewed

@@ -19,6 +19,7 @@ from src.results import (
     display_results,
     fetch_result_paths,
     load_results_dataframes,
     sort_result_paths_per_model,
     update_load_results_component,
     update_tasks_component,
@@ -62,6 +63,7 @@ with gr.Blocks(fill_height=True, fill_width=True, css=".col_heading {width: 50%}
                 visible=False,
             )
             hide_std_errors = gr.Checkbox(label="Hide Standard Errors", value=True, info="Options")
             results = gr.HTML()
             results_dataframe_1 = gr.Dataframe(visible=False)
             results_dataframe_2 = gr.Dataframe(visible=False)
@@ -153,6 +155,10 @@ with gr.Blocks(fill_height=True, fill_width=True, css=".col_heading {width: 50%}
         fn=display_results,
         inputs=[results_task, hide_std_errors, show_only_differences, results_dataframe_1, results_dataframe_2],
         outputs=[results, configs],
     )
     gr.on(
         triggers=[clear_results_btn.click, clear_configs_btn.click],

     display_results,
     fetch_result_paths,
     load_results_dataframes,
+    plot_results,
     sort_result_paths_per_model,
     update_load_results_component,
     update_tasks_component,
                 visible=False,
             )
             hide_std_errors = gr.Checkbox(label="Hide Standard Errors", value=True, info="Options")
+            results_plot = gr.Plot()
             results = gr.HTML()
             results_dataframe_1 = gr.Dataframe(visible=False)
             results_dataframe_2 = gr.Dataframe(visible=False)
         fn=display_results,
         inputs=[results_task, hide_std_errors, show_only_differences, results_dataframe_1, results_dataframe_2],
         outputs=[results, configs],
+    ).then(
+        fn=plot_results,
+        inputs=[results_task, results_dataframe_1, results_dataframe_2],  # results,
+        outputs=results_plot,
     )
     gr.on(
         triggers=[clear_results_btn.click, clear_configs_btn.click],

src/results.py CHANGED Viewed

@@ -4,6 +4,7 @@ import gradio as gr
 import pandas as pd
 import src.constants as constants
 from src.hub import glob, load_json_file
@@ -143,3 +144,45 @@ def clear_results():
 def display_loading_message_for_results():
     return ("<h3 style='text-align: center;'>Loading...</h3>",) * 2

 import pandas as pd
 import src.constants as constants
+from src.constants import TASKS
 from src.hub import glob, load_json_file
 def display_loading_message_for_results():
     return ("<h3 style='text-align: center;'>Loading...</h3>",) * 2
+def plot_results(task, *dfs):
+    df = concat_results(dfs)
+    if df is not None:
+        df = df[
+            [
+                col
+                for col in df.columns
+                if col.startswith("results.")
+                and (col.endswith("acc,none") or col.endswith("acc_norm,none") or col.endswith("exact_match,none"))
+            ]
+        ]
+        if task == "All":
+            df = df[[col for col in df.columns if col.split(".")[1] in TASKS]]
+            # - IFEval: Calculate average of both strict accuracies
+            ifeval_mean = df[
+                [
+                    "results.leaderboard_ifeval.inst_level_strict_acc,none",
+                    "results.leaderboard_ifeval.prompt_level_strict_acc,none",
+                ]
+            ].mean(axis=1)
+            df = df.drop(columns=[col for col in df.columns if col.split(".")[1] == "leaderboard_ifeval"])
+            loc = df.columns.get_loc("results.leaderboard_math_hard.exact_match,none")
+            df.insert(loc - 1, "results.leaderboard_ifeval", ifeval_mean)
+            # Rename
+            df = df.rename(columns=lambda col: TASKS[col.split(".")[1]][0])
+        else:
+            df = df[[col for col in df.columns if col.startswith(f"results.{task}")]]
+            tasks = {key: tupl[0] for key, tupl in TASKS.items()}
+            subtasks = {tupl[1]: tupl[0] for value in constants.SUBTASKS.values() for tupl in value}
+            subtasks = {**tasks, **subtasks}
+            # - IFEval: Return 4 accuracies
+            if task == "leaderboard_ifeval":
+                df = df.rename(columns=lambda col: col.split(".")[2].removesuffix(",none"))
+            else:
+                df = df.rename(columns=lambda col: subtasks[col.split(".")[1]])
+        ax = df.T.rename_axis(columns="Models").plot(kind="bar", ylabel="Scores", rot=45, figsize=(18, 6))
+        fig = ax.get_figure()
+        fig.autofmt_xdate(rotation=45)
+        fig.tight_layout()
+        return fig