Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 25

Commit

2e23fb2

verified ·

1 Parent(s): 5f3b2ed

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -100

app.py CHANGED Viewed

@@ -8,65 +8,25 @@ import re
 from huggingface_hub import login
-# Authentication setup
 token = os.environ.get("HG_TOKEN")
-print(f"Token exists: {token is not None}")
-if token:
-    print(f"Token length: {len(token)}")
-    print(f"Token first few chars: {token[:4]}...")
 login(token)
 print("Loading dataset...")
-try:
-    # Try loading without use_auth_token parameter since it's not accepted
-    dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
-    print(f"Successfully loaded dataset with {len(dataset)} samples")
-    references = {row["id"]: row["text"] for row in dataset}
-except Exception as e:
-    print(f"Error loading dataset: {str(e)}")
-    try:
-        # Second attempt with token passed differently
-        from huggingface_hub import HfApi
-        api = HfApi(token=token)
-        dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
-        print(f"Successfully loaded dataset with {len(dataset)} samples")
-        references = {row["id"]: row["text"] for row in dataset}
-    except Exception as e2:
-        print(f"Second attempt error: {str(e2)}")
-        # Fallback in case dataset can't be loaded
-        references = {}
-        print("WARNING: Using empty references dictionary due to dataset loading error")
-# Initialize leaderboard file with combined score
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
-    # Create empty leaderboard with necessary columns
     pd.DataFrame(columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
-    print("Created new leaderboard file")
-    # Add example entries so first-time visitors see something
-    example_data = [
-        ["Example Model 1", 0.35, 0.20, 0.305, "2023-01-01 00:00:00"],
-        ["Example Model 2", 0.40, 0.18, 0.334, "2023-01-02 00:00:00"],
-        ["Example Model 3", 0.32, 0.25, 0.299, "2023-01-03 00:00:00"]
-    ]
-    example_df = pd.DataFrame(
-        example_data,
-        columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
-    )
-    example_df.to_csv(leaderboard_file, index=False)
-    print("Added example data to empty leaderboard for demonstration")
 else:
-    # Load existing leaderboard
     leaderboard_df = pd.read_csv(leaderboard_file)
-    # Add Combined_Score column if it doesn't exist
     if "Combined_Score" not in leaderboard_df.columns:
-        leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
         leaderboard_df.to_csv(leaderboard_file, index=False)
-        print("Added Combined_Score column to existing leaderboard")
-    print(f"Loaded existing leaderboard with {len(leaderboard_df)} entries")
 def normalize_text(text):
     """
@@ -79,15 +39,9 @@ def normalize_text(text):
     if not isinstance(text, str):
         text = str(text)
-    # Convert to lowercase
     text = text.lower()
-    # Remove punctuation, keeping spaces
     text = re.sub(r'[^\w\s]', '', text)
-    # Normalize whitespace
     text = re.sub(r'\s+', ' ', text).strip()
     return text
 def calculate_metrics(predictions_df):
@@ -99,48 +53,32 @@ def calculate_metrics(predictions_df):
     for _, row in predictions_df.iterrows():
         id_val = row["id"]
         if id_val not in references:
-            print(f"Warning: ID {id_val} not found in references")
             continue
         reference = normalize_text(references[id_val])
         hypothesis = normalize_text(row["text"])
-        # Print detailed info for first few entries
-        if len(results) < 5:
-            print(f"ID: {id_val}")
-            print(f"Reference: '{reference}'")
-            print(f"Hypothesis: '{hypothesis}'")
-        # Skip empty strings
         if not reference or not hypothesis:
             print(f"Warning: Empty reference or hypothesis for ID {id_val}")
             continue
-        # Split into words for jiwer
         reference_words = reference.split()
         hypothesis_words = hypothesis.split()
         reference_chars = list(reference)
-        if len(results) < 5:
-            print(f"Reference words: {reference_words}")
-            print(f"Hypothesis words: {hypothesis_words}")
-        # Calculate metrics
         try:
-            # Calculate WER and CER
             sample_wer = wer(reference, hypothesis)
             sample_cer = cer(reference, hypothesis)
-            # Cap metrics at sensible values to prevent outliers
-            sample_wer = min(sample_wer, 2.0)  # Cap at 200% WER
-            sample_cer = min(sample_cer, 2.0)  # Cap at 200% CER
-            # For weighted calculations
             total_ref_words += len(reference_words)
             total_ref_chars += len(reference_chars)
-            if len(results) < 5:
-                print(f"WER: {sample_wer}, CER: {sample_cer}")
             results.append({
                 "id": id_val,
@@ -165,19 +103,14 @@ def calculate_metrics(predictions_df):
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
-    print(f"Simple average WER: {avg_wer:.4f}, CER: {avg_cer:.4f}")
-    print(f"Weighted average WER: {weighted_wer:.4f}, CER: {weighted_cer:.4f}")
-    print(f"Processed {len(results)} valid samples")
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def update_ranking(method):
-    """Update leaderboard ranking based on selected method"""
     current_lb = pd.read_csv(leaderboard_file)
-    # Calculate combined score if not present
     if "Combined_Score" not in current_lb.columns:
-        current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3
     if method == "WER Only":
         return current_lb.sort_values("WER")
@@ -188,7 +121,7 @@ def update_ranking(method):
 def process_submission(submitter_name, csv_file):
     try:
-        # Read and validate the uploaded CSV
         df = pd.read_csv(csv_file)
         print(f"Processing submission from {submitter_name} with {len(df)} rows")
@@ -216,25 +149,19 @@ def process_submission(submitter_name, csv_file):
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
-            # Debug information
-            print(f"Calculated metrics - WER: {avg_wer:.4f}, CER: {avg_cer:.4f}")
-            print(f"Weighted metrics - WER: {weighted_wer:.4f}, CER: {weighted_cer:.4f}")
-            print(f"Processed {len(detailed_results)} valid samples")
-            # Check for suspiciously low values
             if avg_wer < 0.001:
-                print("WARNING: WER is extremely low - likely an error")
                 return "Error: WER calculation yielded suspicious results (near-zero). Please check your submission CSV.", None
         except Exception as e:
-            print(f"Error in metrics calculation: {str(e)}")
             return f"Error calculating metrics: {str(e)}", None
-        # Update the leaderboard
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-        # Calculate combined score (70% WER, 30% CER)
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
@@ -242,17 +169,15 @@ def process_submission(submitter_name, csv_file):
             columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
         )
-        # Add new entry to leaderboard
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
         return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}, Combined Score: {combined_score:.4f}", updated_leaderboard
     except Exception as e:
-        print(f"Error processing submission: {str(e)}")
         return f"Error processing submission: {str(e)}", None
-# Create the Gradio interface
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
         """
@@ -263,22 +188,17 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
         """
     )
-    # Load and display current leaderboard immediately
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
-            # Show current leaderboard rankings
             current_leaderboard = pd.read_csv(leaderboard_file)
-            # Calculate combined score if not present
             if "Combined_Score" not in current_leaderboard.columns:
                 current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
-            # Sort by combined score
             current_leaderboard = current_leaderboard.sort_values("Combined_Score")
             gr.Markdown("### Current ASR Model Rankings")
-            # Add radio buttons for ranking method
             ranking_method = gr.Radio(
                 ["Combined Score (WER 70%, CER 30%)", "WER Only", "CER Only"],
                 label="Ranking Method",
@@ -291,7 +211,6 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 label="Models are ranked by selected metric - lower is better"
             )
-            # Update leaderboard based on ranking method selection
             ranking_method.change(
                 fn=update_ranking,
                 inputs=[ranking_method],
@@ -335,9 +254,9 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 outputs=[output_msg, leaderboard_display]
             )
-# Print startup message
 print("Starting Bambara ASR Leaderboard app...")
-# Launch the app
 if __name__ == "__main__":
     demo.launch(share=True)

 from huggingface_hub import login
 token = os.environ.get("HG_TOKEN")
 login(token)
 print("Loading dataset...")
+dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
+references = {row["id"]: row["text"] for row in dataset}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
     if "Combined_Score" not in leaderboard_df.columns:
+        leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3 # WER 70% and CER 30%
         leaderboard_df.to_csv(leaderboard_file, index=False)
 def normalize_text(text):
     """
     if not isinstance(text, str):
         text = str(text)
     text = text.lower()
     text = re.sub(r'[^\w\s]', '', text)
     text = re.sub(r'\s+', ' ', text).strip()
     return text
 def calculate_metrics(predictions_df):
     for _, row in predictions_df.iterrows():
         id_val = row["id"]
         if id_val not in references:
             continue
         reference = normalize_text(references[id_val])
         hypothesis = normalize_text(row["text"])
         if not reference or not hypothesis:
             print(f"Warning: Empty reference or hypothesis for ID {id_val}")
             continue
         reference_words = reference.split()
         hypothesis_words = hypothesis.split()
         reference_chars = list(reference)
         try:
             sample_wer = wer(reference, hypothesis)
             sample_cer = cer(reference, hypothesis)
+            sample_wer = min(sample_wer, 2.0)
+            sample_cer = min(sample_cer, 2.0)
             total_ref_words += len(reference_words)
             total_ref_chars += len(reference_chars)
             results.append({
                 "id": id_val,
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def update_ranking(method):
     current_lb = pd.read_csv(leaderboard_file)
     if "Combined_Score" not in current_lb.columns:
+        current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3 # 70% for WER
     if method == "WER Only":
         return current_lb.sort_values("WER")
 def process_submission(submitter_name, csv_file):
     try:
         df = pd.read_csv(csv_file)
         print(f"Processing submission from {submitter_name} with {len(df)} rows")
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
+            # suspiciously low values
             if avg_wer < 0.001:
                 return "Error: WER calculation yielded suspicious results (near-zero). Please check your submission CSV.", None
         except Exception as e:
             return f"Error calculating metrics: {str(e)}", None
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+        #  (70% WER, 30% CER)
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
             columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
         )
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
         return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}, Combined Score: {combined_score:.4f}", updated_leaderboard
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
         """
         """
     )
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
             current_leaderboard = pd.read_csv(leaderboard_file)
             if "Combined_Score" not in current_leaderboard.columns:
                 current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
             current_leaderboard = current_leaderboard.sort_values("Combined_Score")
             gr.Markdown("### Current ASR Model Rankings")
             ranking_method = gr.Radio(
                 ["Combined Score (WER 70%, CER 30%)", "WER Only", "CER Only"],
                 label="Ranking Method",
                 label="Models are ranked by selected metric - lower is better"
             )
             ranking_method.change(
                 fn=update_ranking,
                 inputs=[ranking_method],
                 outputs=[output_msg, leaderboard_display]
             )
 print("Starting Bambara ASR Leaderboard app...")
 if __name__ == "__main__":
     demo.launch(share=True)