Spaces:

MCILAB
/

ASR_Evaluation

Sleeping

App Files Files Community

pourbahman commited on Nov 23, 2025

Commit

c50d20c

1 Parent(s): 72a9f71

add columns

Browse files

Files changed (5) hide show

app.py +6 -5
src/display/css_html_js.py +17 -0
src/display/utils.py +17 -2
src/leaderboard/read_evals.py +53 -2
src/populate.py +5 -3

app.py CHANGED Viewed

@@ -60,16 +60,17 @@ LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS,
 def init_leaderboard(dataframe):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     return Leaderboard(
         value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn)],
         select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
         search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
             ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
@@ -201,4 +202,4 @@ with demo:
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
-demo.queue(default_concurrency_limit=40).launch()

 def init_leaderboard(dataframe):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
+    visible_columns = [c for c in fields(AutoEvalColumn) if not c.hidden]
     return Leaderboard(
         value=dataframe,
+        datatype=[c.type for c in visible_columns],
         select_columns=SelectColumns(
+            default_selection=[c.name for c in visible_columns if c.displayed_by_default],
+            cant_deselect=[c.name for c in visible_columns if c.never_hidden],
             label="Select Columns to Display:",
         ),
         search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
+        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden and c.name in dataframe.columns],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
             ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
+demo.queue(default_concurrency_limit=40).launch()

src/display/css_html_js.py CHANGED Viewed

@@ -103,3 +103,20 @@ get_window_url_params = """
         return url_params;
     }
     """

         return url_params;
     }
     """
+# src/display/css_html_js.py
+custom_css = """
+/* ... (کدهای قبلی بدون تغییر باقی بمانند) ... */
+#box-filter > .form{
+    border: 0
+}
+/* --- کد جدید برای شکستن خط در هدر جدول --- */
+th {
+    white-space: pre-wrap !important;
+    text-align: center !important;
+    vertical-align: bottom !important;
+}
+"""

src/display/utils.py CHANGED Viewed

@@ -20,6 +20,19 @@ class ColumnContent:
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
@@ -27,8 +40,11 @@ auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent(
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
-    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
@@ -107,4 +123,3 @@ EVAL_COLS = [c.name for c in fields(EvalQueueColumn)]
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]

     hidden: bool = False
     never_hidden: bool = False
+# Aggregated metrics displayed alongside the global average
+ADDITIONAL_SCORE_SPECS = [
+    ("accent_oriented", "Accent\n(SER|WER|SW-WER)"),
+    ("acoustic_env_oriented", "Acoustic\n(SER|WER|SW-WER)"),
+    ("age_oriented", "Age\n(SER|WER|SW-WER)"),
+    ("formality_oriented", "Formality\n(SER|WER|SW-WER)"),
+    ("gender_oriented", "Gender\n(SER|WER|SW-WER)"),
+    ("num_of_speaker_oriented", "#Speakers\n(SER|WER|SW-WER)"),
+    ("spontaneous_oriented", "Spontaneous\n(SER|WER|SW-WER)"),
+]
+ADDITIONAL_SCORE_FIELDS = [name for name, _ in ADDITIONAL_SCORE_SPECS]
+ADDITIONAL_SCORE_SOURCE_KEYS = {name: [name.replace("_", "-"), name] for name in ADDITIONAL_SCORE_FIELDS}
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
+for field_name, display_name in ADDITIONAL_SCORE_SPECS:
+    auto_eval_column_dict.append([field_name, ColumnContent, ColumnContent(display_name, "number", True)])
+# Hide task-specific metrics from the selector; only expose the aggregate.
 for task in Tasks:
+    auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", False, True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]

src/leaderboard/read_evals.py CHANGED Viewed

@@ -2,16 +2,60 @@ import glob
 import json
 import math
 import os
-from dataclasses import dataclass
 import dateutil
 import numpy as np
 from src.display.formatting import make_clickable_model
-from src.display.utils import AutoEvalColumn, ModelType, Tasks, Precision, WeightType
 from src.submission.check_validity import is_model_on_hub
 @dataclass
 class EvalResult:
     """Represents one full evaluation. Built from a combination of the result and request file for a given run.
@@ -22,6 +66,7 @@ class EvalResult:
     model: str
     revision: str # commit hash, "" if main
     results: dict
     precision: Precision = Precision.Unknown
     model_type: ModelType = ModelType.Unknown # Pretrained, fine tuned, ...
     weight_type: WeightType = WeightType.Original # Original or Adapter
@@ -78,6 +123,7 @@ class EvalResult:
             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
         return self(
             eval_name=result_key,
@@ -85,6 +131,7 @@ class EvalResult:
             org=org,
             model=model,
             results=results,
             precision=precision,
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
@@ -126,6 +173,7 @@ class EvalResult:
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
             data_dict[task.value.col_name] = self.results[task.value.benchmark]
@@ -182,6 +230,9 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
         eval_name = eval_result.eval_name
         if eval_name in eval_results.keys():
             eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
         else:
             eval_results[eval_name] = eval_result

 import json
 import math
 import os
+from dataclasses import dataclass, field
 import dateutil
 import numpy as np
 from src.display.formatting import make_clickable_model
+from src.display.utils import (
+    ADDITIONAL_SCORE_FIELDS,
+    ADDITIONAL_SCORE_SOURCE_KEYS,
+    AutoEvalColumn,
+    ModelType,
+    Precision,
+    Tasks,
+    WeightType,
+)
 from src.submission.check_validity import is_model_on_hub
+def _score_to_percentage(score):
+    """Convert ratio metrics to percentage while leaving already-percentage scores untouched."""
+    if isinstance(score, (int, float)):
+        return score * 100 if 0 <= score <= 1 else score
+    return None
+def _extract_numeric_metric(metric_container):
+    """Grab the first numeric value from a metric container."""
+    if isinstance(metric_container, (int, float)):
+        return metric_container
+    if isinstance(metric_container, dict):
+        for value in metric_container.values():
+            if isinstance(value, (int, float)):
+                return value
+    return None
+def _extract_additional_scores(results):
+    """Extract additional aggregate scores (accent, gender, etc.) from the raw results."""
+    scores = {getattr(AutoEvalColumn, field_name).name: None for field_name in ADDITIONAL_SCORE_FIELDS}
+    normalized_results = {k.lower(): v for k, v in results.items()}
+    for field_name, candidate_keys in ADDITIONAL_SCORE_SOURCE_KEYS.items():
+        metric_value = None
+        for candidate_key in candidate_keys:
+            normalized_key = candidate_key.lower()
+            if normalized_key in normalized_results:
+                metric_value = _extract_numeric_metric(normalized_results[normalized_key])
+                break
+        if metric_value is not None:
+            scores[getattr(AutoEvalColumn, field_name).name] = _score_to_percentage(metric_value)
+    return scores
 @dataclass
 class EvalResult:
     """Represents one full evaluation. Built from a combination of the result and request file for a given run.
     model: str
     revision: str # commit hash, "" if main
     results: dict
+    aggregated_scores: dict = field(default_factory=dict)
     precision: Precision = Precision.Unknown
     model_type: ModelType = ModelType.Unknown # Pretrained, fine tuned, ...
     weight_type: WeightType = WeightType.Original # Original or Adapter
             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
+        aggregated_scores = _extract_additional_scores(data.get("results", {}))
         return self(
             eval_name=result_key,
             org=org,
             model=model,
             results=results,
+            aggregated_scores=aggregated_scores,
             precision=precision,
             revision= config.get("model_sha", ""),
             still_on_hub=still_on_hub,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
+        data_dict.update(self.aggregated_scores)
         for task in Tasks:
             data_dict[task.value.col_name] = self.results[task.value.benchmark]
         eval_name = eval_result.eval_name
         if eval_name in eval_results.keys():
             eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
+            eval_results[eval_name].aggregated_scores.update(
+                {k: v for k, v in eval_result.aggregated_scores.items() if v is not None}
+            )
         else:
             eval_results[eval_name] = eval_result

src/populate.py CHANGED Viewed

@@ -14,11 +14,13 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-    df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced
-    df = df[has_no_nan_values(df, benchmark_cols)]
     return df

     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
     # filter out if any of the benchmarks have not been produced
+    benchmark_cols_available = [col for col in benchmark_cols if col in df.columns]
+    if benchmark_cols_available:
+        df = df[has_no_nan_values(df, benchmark_cols_available)]
+    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
+    df = df[cols].round(decimals=2)
     return df