open_asr_leaderboard_longform

Runtime error

App Files Files Community

Steveeeeeeen HF Staff commited on Aug 27, 2025

Commit

7feaac0

1 Parent(s): ed12281

add long form tab

Browse files

Files changed (3) hide show

app.py +53 -5
constants.py +13 -0
utils_display.py +8 -0

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import gradio as gr
 import pandas as pd
 import json
-from constants import BANNER, INTRODUCTION_TEXT, CITATION_TEXT, METRICS_TAB_TEXT, DIR_OUTPUT_REQUESTS, LEADERBOARD_CSS, EU_LANGUAGES, MULTILINGUAL_TAB_TEXT
 from init import is_model_on_hub, upload_file, load_all_info_from_dataset_hub
-from utils_display import AutoEvalColumn, MultilingualColumn, fields, make_clickable_model, styled_error, styled_message
 import numpy as np
 from datetime import datetime, timezone
@@ -57,6 +57,10 @@ TYPES = [c.type for c in fields(AutoEvalColumn)]
 # Multilingual columns (dynamic based on expansion state)
 MULTILINGUAL_COLS = [c.name for c in fields(MultilingualColumn)]
 def create_multilingual_dataframe():
     """Create multilingual dataframe with CoVoST, MLS, and FLEURS benchmark data"""
     global benchmark_details, expanded_languages
@@ -225,6 +229,39 @@ def toggle_language_expansion(language_code):
 # Initialize multilingual dataframe
 multilingual_df = create_multilingual_dataframe()
 def request_model(model_text, chbcoco2017):
@@ -363,10 +400,21 @@ with gr.Blocks(css=LEADERBOARD_CSS) as demo:
                     outputs=[multilingual_table]
                 )
-        with gr.TabItem("📈 Metrics", elem_id="od-benchmark-tab-table", id=3):
             gr.Markdown(METRICS_TAB_TEXT, elem_classes="markdown-text")
-        with gr.TabItem("✉️✨ Request a model here!", elem_id="od-benchmark-tab-table", id=4):
             with gr.Column():
                 gr.Markdown("# ✉️✨ Request results for a new model here!", elem_classes="markdown-text")
             with gr.Column():
@@ -381,7 +429,7 @@ with gr.Blocks(css=LEADERBOARD_CSS) as demo:
                                       [model_name_textbox, chb_coco2017],
                                       mdw_submission_result)
         # add an about section
-        with gr.TabItem("🤗 About", elem_id="od-benchmark-tab-table", id=5):
             gr.Markdown("## About", elem_classes="markdown-text")
     gr.Markdown(f"Last updated on **{LAST_UPDATED}**", elem_classes="markdown-text")

 import gradio as gr
 import pandas as pd
 import json
+from constants import BANNER, INTRODUCTION_TEXT, CITATION_TEXT, METRICS_TAB_TEXT, DIR_OUTPUT_REQUESTS, LEADERBOARD_CSS, EU_LANGUAGES, MULTILINGUAL_TAB_TEXT, LONGFORM_TAB_TEXT
 from init import is_model_on_hub, upload_file, load_all_info_from_dataset_hub
+from utils_display import AutoEvalColumn, MultilingualColumn, LongformColumn, fields, make_clickable_model, styled_error, styled_message
 import numpy as np
 from datetime import datetime, timezone
 # Multilingual columns (dynamic based on expansion state)
 MULTILINGUAL_COLS = [c.name for c in fields(MultilingualColumn)]
+# Longform columns
+LONGFORM_COLS = [c.name for c in fields(LongformColumn)]
+LONGFORM_TYPES = [c.type for c in fields(LongformColumn)]
 def create_multilingual_dataframe():
     """Create multilingual dataframe with CoVoST, MLS, and FLEURS benchmark data"""
     global benchmark_details, expanded_languages
 # Initialize multilingual dataframe
 multilingual_df = create_multilingual_dataframe()
+def create_longform_dataframe():
+    """Create longform dataframe with sample data for Earnings21 and MustC datasets"""
+    longform_data = []
+    # Sample data with realistic WER values for longform tasks (generally higher than short-form)
+    sample_models = [
+        {"model": "openai/whisper-large-v3", "earnings21": 8.2, "mustc": 12.4, "rtfx": 2.1},
+        {"model": "openai/whisper-large-v2", "earnings21": 9.1, "mustc": 13.8, "rtfx": 1.8},
+        {"model": "nvidia/canary-1b", "earnings21": 7.5, "mustc": 11.2, "rtfx": 3.2},
+        {"model": "microsoft/speecht5_asr", "earnings21": 15.3, "mustc": 18.7, "rtfx": 1.4},
+        {"model": "facebook/wav2vec2-large-960h", "earnings21": 12.4, "mustc": 16.8, "rtfx": 0.8},
+        {"model": "assemblyai/conformer-1", "earnings21": 6.8, "mustc": 10.1, "rtfx": 2.8},
+        {"model": "speechmatics/en", "earnings21": 5.9, "mustc": 9.3, "rtfx": 3.5},
+        {"model": "revai/english", "earnings21": 6.2, "mustc": 9.8, "rtfx": 2.9},
+    ]
+    for model_data in sample_models:
+        row = {
+            "Model": make_clickable_model(model_data["model"]),
+            "Average WER ⬇️": round((model_data["earnings21"] + model_data["mustc"]) / 2, 2),
+            "RTFx ⬆️️": model_data["rtfx"] if model_data["rtfx"] > 0 else "NA",
+            "Earnings21": model_data["earnings21"],
+            "MustC": model_data["mustc"]
+        }
+        longform_data.append(row)
+    longform_df = pd.DataFrame(longform_data)
+    longform_df = longform_df.sort_values(by='Average WER ⬇️')
+    return longform_df
+# Initialize longform dataframe
+longform_df = create_longform_dataframe()
 def request_model(model_text, chbcoco2017):
                     outputs=[multilingual_table]
                 )
+        with gr.TabItem("📝 Long-form", elem_id="longform-benchmark-tab-table", id=2):
+            gr.Markdown(LONGFORM_TAB_TEXT, elem_classes="markdown-text")
+            longform_table = gr.components.Dataframe(
+                value=longform_df,
+                datatype=LONGFORM_TYPES,
+                elem_id="longform-table",
+                interactive=False,
+                visible=True,
+            )
+        with gr.TabItem("📈 Metrics", elem_id="od-benchmark-tab-table", id=4):
             gr.Markdown(METRICS_TAB_TEXT, elem_classes="markdown-text")
+        with gr.TabItem("✉️✨ Request a model here!", elem_id="od-benchmark-tab-table", id=5):
             with gr.Column():
                 gr.Markdown("# ✉️✨ Request results for a new model here!", elem_classes="markdown-text")
             with gr.Column():
                                       [model_name_textbox, chb_coco2017],
                                       mdw_submission_result)
         # add an about section
+        with gr.TabItem("🤗 About", elem_id="od-benchmark-tab-table", id=6):
             gr.Markdown("## About", elem_classes="markdown-text")
     gr.Markdown(f"Last updated on **{LAST_UPDATED}**", elem_classes="markdown-text")

constants.py CHANGED Viewed

@@ -128,6 +128,11 @@ MULTILINGUAL_TAB_TEXT = """
 """
 LEADERBOARD_CSS = """
 #leaderboard-table th .header-content {
     white-space: nowrap;
@@ -141,6 +146,14 @@ LEADERBOARD_CSS = """
     background-color: var(--table-row-focus);
 }
 .language-detail-modal {
     background: var(--background-fill-primary);
     border: 1px solid var(--border-color-primary);

 """
+LONGFORM_TAB_TEXT = """
+## 📝 Long-form ASR Evaluation
+"""
 LEADERBOARD_CSS = """
 #leaderboard-table th .header-content {
     white-space: nowrap;
     background-color: var(--table-row-focus);
 }
+#longform-table th .header-content {
+    white-space: nowrap;
+}
+#longform-table th:hover {
+    background-color: var(--table-row-focus);
+}
 .language-detail-modal {
     background: var(--background-fill-primary);
     border: 1px solid var(--border-color-primary);

utils_display.py CHANGED Viewed

@@ -40,6 +40,14 @@ class MultilingualColumn: # Multilingual benchmark columns
     ro_avg = ColumnContent("🇷🇴 Romanian", "number")
     hu_avg = ColumnContent("🇭🇺 Hungarian", "number")
 def make_clickable_model(model_name):
     model_name_list = model_name.split("/")

     ro_avg = ColumnContent("🇷🇴 Romanian", "number")
     hu_avg = ColumnContent("🇭🇺 Hungarian", "number")
+@dataclass(frozen=True)
+class LongformColumn: # Long-form ASR benchmark columns
+    model = ColumnContent("Model", "markdown")
+    avg_longform = ColumnContent("Average WER ⬇️", "number")
+    rtf = ColumnContent("RTFx ⬆️️", "number")
+    earnings21_wer = ColumnContent("Earnings21", "number")
+    mustc_wer = ColumnContent("MustC", "number")
 def make_clickable_model(model_name):
     model_name_list = model_name.split("/")