Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Apr 15

Commit

e445644

verified ·

1 Parent(s): 53036ab

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -23

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ token = os.environ.get("HG_TOKEN")
 if token:
     login(token)
-# Load reference dataset
 try:
     dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
     references = {row["id"]: row["text"] for row in dataset}
@@ -22,10 +22,10 @@ except Exception as e:
     print(f"Error loading dataset: {str(e)}")
     references = {}
-# Initialize or load the leaderboard file
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
-    # Create a new leaderboard with sample data for testing
     sample_data = []
         # ["MALIBA-AI/bambara-asr-v1", 0.2264, 0.1094, 0.1922, "2025-03-15 10:30:45"],
         # ["whisper-large-v3-bambara", 0.3120, 0.1870, 0.2745, "2025-02-20 14:22:33"]
@@ -36,7 +36,7 @@ if not os.path.exists(leaderboard_file):
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
-    # Ensure the Combined_Score column exists
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
         leaderboard_df.to_csv(leaderboard_file, index=False)
@@ -78,7 +78,6 @@ def calculate_metrics(predictions_df):
             sample_wer = wer(reference, hypothesis)
             sample_cer = cer(reference, hypothesis)
-            # Cap extreme values to prevent outliers from skewing results
             sample_wer = min(sample_wer, 2.0)
             sample_cer = min(sample_cer, 2.0)
@@ -104,7 +103,7 @@ def calculate_metrics(predictions_df):
     avg_wer = sum(item["wer"] for item in results) / len(results)
     avg_cer = sum(item["cer"] for item in results) / len(results)
-    # Calculate weighted average metrics based on reference length
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
@@ -119,22 +118,19 @@ def prepare_leaderboard_for_display(df, sort_by="Combined_Score"):
     if df is None or len(df) == 0:
         return pd.DataFrame(columns=["Rank", "Model_Name", "WER (%)", "CER (%)", "Combined_Score (%)", "timestamp"])
-    # Make a copy to avoid modifying the original
     display_df = df.copy()
-    # Sort by the selected metric (lower is better)
     display_df = display_df.sort_values(sort_by)
-    # Add ranking column
     display_df.insert(0, "Rank", range(1, len(display_df) + 1))
-    # Format numeric columns as percentages
     for col in ["WER", "CER", "Combined_Score"]:
         if col in display_df.columns:
             display_df[f"{col} (%)"] = display_df[col].apply(lambda x: f"{x * 100:.2f}")
-    # Keep both the raw values and percentage displays
-    # This allows for proper sorting while showing formatted values
     return display_df
@@ -198,16 +194,13 @@ def process_submission(model_name, csv_file):
         except Exception as e:
             return f"Error calculating metrics: {str(e)}", None
-        # Load existing leaderboard
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-        # Calculate combined score (70% WER, 30% CER)
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
-        # Check if model already exists
         if model_name in leaderboard["Model_Name"].values:
-            # Update existing entry
             idx = leaderboard[leaderboard["Model_Name"] == model_name].index
             leaderboard.loc[idx, "WER"] = avg_wer
             leaderboard.loc[idx, "CER"] = avg_cer
@@ -215,18 +208,15 @@ def process_submission(model_name, csv_file):
             leaderboard.loc[idx, "timestamp"] = timestamp
             updated_leaderboard = leaderboard
         else:
-            # Add new entry
             new_entry = pd.DataFrame(
                 [[model_name, avg_wer, avg_cer, combined_score, timestamp]],
                 columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
             )
             updated_leaderboard = pd.concat([leaderboard, new_entry])
-        # Sort and save updated leaderboard
         updated_leaderboard = updated_leaderboard.sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
-        # Prepare for display
         display_leaderboard = prepare_leaderboard_for_display(updated_leaderboard)
         return f"Submission processed successfully! WER: {format_as_percentage(avg_wer)}, CER: {format_as_percentage(avg_cer)}, Combined Score: {format_as_percentage(combined_score)}", display_leaderboard
@@ -270,7 +260,7 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     current_data = get_current_leaderboard()
-    # Highlight top-performing model
     if len(current_data) > 0:
         best_model = current_data.sort_values("Combined_Score").iloc[0]
         gr.Markdown(f"""
@@ -282,7 +272,7 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Model Rankings"):
-            # Pre-load the leaderboard data
             initial_leaderboard = create_leaderboard_table()
             ranking_method = gr.Radio(
@@ -373,12 +363,12 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 """
                 ## About the Benchmark Dataset
-                This leaderboard uses the **[sudoping01/bambara-speech-recognition-benchmark](https://huggingface.co/datasets/sudoping01/bambara-speech-recognition-benchmark)** dataset:
                 * Contains diverse Bambara speech samples
                 * Includes various speakers, accents, and dialects
                 * Covers different speech styles and recording conditions
-                * Professionally transcribed and validated
                 ### How to Generate Predictions
@@ -394,6 +384,8 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 * Text is normalized (lowercase, punctuation removed) before metrics calculation
                 * Extreme outliers are capped to prevent skewing results
                 * All submissions are validated for format and completeness
                 """
             )

 if token:
     login(token)
 try:
     dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
     references = {row["id"]: row["text"] for row in dataset}
     print(f"Error loading dataset: {str(e)}")
     references = {}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     sample_data = []
         # ["MALIBA-AI/bambara-asr-v1", 0.2264, 0.1094, 0.1922, "2025-03-15 10:30:45"],
         # ["whisper-large-v3-bambara", 0.3120, 0.1870, 0.2745, "2025-02-20 14:22:33"]
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
         leaderboard_df.to_csv(leaderboard_file, index=False)
             sample_wer = wer(reference, hypothesis)
             sample_cer = cer(reference, hypothesis)
             sample_wer = min(sample_wer, 2.0)
             sample_cer = min(sample_cer, 2.0)
     avg_wer = sum(item["wer"] for item in results) / len(results)
     avg_cer = sum(item["cer"] for item in results) / len(results)
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
     if df is None or len(df) == 0:
         return pd.DataFrame(columns=["Rank", "Model_Name", "WER (%)", "CER (%)", "Combined_Score (%)", "timestamp"])
     display_df = df.copy()
     display_df = display_df.sort_values(sort_by)
     display_df.insert(0, "Rank", range(1, len(display_df) + 1))
     for col in ["WER", "CER", "Combined_Score"]:
         if col in display_df.columns:
             display_df[f"{col} (%)"] = display_df[col].apply(lambda x: f"{x * 100:.2f}")
     return display_df
         except Exception as e:
             return f"Error calculating metrics: {str(e)}", None
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         if model_name in leaderboard["Model_Name"].values:
             idx = leaderboard[leaderboard["Model_Name"] == model_name].index
             leaderboard.loc[idx, "WER"] = avg_wer
             leaderboard.loc[idx, "CER"] = avg_cer
             leaderboard.loc[idx, "timestamp"] = timestamp
             updated_leaderboard = leaderboard
         else:
             new_entry = pd.DataFrame(
                 [[model_name, avg_wer, avg_cer, combined_score, timestamp]],
                 columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
             )
             updated_leaderboard = pd.concat([leaderboard, new_entry])
         updated_leaderboard = updated_leaderboard.sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
         display_leaderboard = prepare_leaderboard_for_display(updated_leaderboard)
         return f"Submission processed successfully! WER: {format_as_percentage(avg_wer)}, CER: {format_as_percentage(avg_cer)}, Combined Score: {format_as_percentage(combined_score)}", display_leaderboard
     current_data = get_current_leaderboard()
     if len(current_data) > 0:
         best_model = current_data.sort_values("Combined_Score").iloc[0]
         gr.Markdown(f"""
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Model Rankings"):
             initial_leaderboard = create_leaderboard_table()
             ranking_method = gr.Radio(
                 """
                 ## About the Benchmark Dataset
+                This leaderboard uses the **[sudoping01/bambara-speech-recognition-benchmark](https://huggingface.co/datasets/MALIBA-AI/bambara-speech-recognition-leaderboard)** dataset:
                 * Contains diverse Bambara speech samples
                 * Includes various speakers, accents, and dialects
                 * Covers different speech styles and recording conditions
+                * Transcribed and validated
                 ### How to Generate Predictions
                 * Text is normalized (lowercase, punctuation removed) before metrics calculation
                 * Extreme outliers are capped to prevent skewing results
                 * All submissions are validated for format and completeness
+                NB: This work is a collaboration between MALIBA-AI, RobotsMali AI4D-LAB and Djelia
                 """
             )