Spaces:

akera
/

leaderboard

Sleeping

App Files Files Community

akera commited on Jun 13, 2025

Commit

24ebdcb

verified ·

1 Parent(s): 6e3baf0

Update src/leaderboard.py

Browse files

Files changed (1) hide show

src/leaderboard.py +114 -29

src/leaderboard.py CHANGED Viewed

@@ -118,6 +118,88 @@ def save_leaderboard(df: pd.DataFrame) -> bool:
         print(f"Error saving leaderboard: {e}")
         return False
 def add_model_to_leaderboard(
     model_name: str,
     author: str,
@@ -126,23 +208,31 @@ def add_model_to_leaderboard(
     model_type: str = "",
     description: str = ""
 ) -> pd.DataFrame:
-    """Add new model results to leaderboard."""
     # Load current leaderboard
     df = load_leaderboard()
-    # Check if model already exists
     existing_mask = df['model_name'] == model_name
     if existing_mask.any():
-        print(f"Model '{model_name}' already exists. Updating...")
-        df = df[~existing_mask]  # Remove existing entry
     # Extract metrics
     averages = evaluation_results.get('averages', {})
     google_averages = evaluation_results.get('google_comparable_averages', {})
     summary = evaluation_results.get('summary', {})
-    # Create new entry
     new_entry = {
         'submission_id': create_submission_id(),
         'model_name': sanitize_model_name(model_name),
@@ -150,12 +240,12 @@ def add_model_to_leaderboard(
         'submission_date': datetime.datetime.now().isoformat(),
         'model_type': model_type[:50] if model_type else 'unknown',
         'description': description[:500] if description else '',
         # Primary metrics
         'quality_score': float(averages.get('quality_score', 0.0)),
         'bleu': float(averages.get('bleu', 0.0)),
         'chrf': float(averages.get('chrf', 0.0)),
         # Secondary metrics
         'rouge1': float(averages.get('rouge1', 0.0)),
         'rouge2': float(averages.get('rouge2', 0.0)),
@@ -163,41 +253,36 @@ def add_model_to_leaderboard(
         'cer': float(averages.get('cer', 0.0)),
         'wer': float(averages.get('wer', 0.0)),
         'len_ratio': float(averages.get('len_ratio', 0.0)),
         # Google comparable metrics
         'google_quality_score': float(google_averages.get('quality_score', 0.0)),
         'google_bleu': float(google_averages.get('bleu', 0.0)),
         'google_chrf': float(google_averages.get('chrf', 0.0)),
         # Coverage info
         'total_samples': int(summary.get('total_samples', 0)),
         'language_pairs_covered': int(summary.get('language_pairs_covered', 0)),
         'google_pairs_covered': int(summary.get('google_comparable_pairs', 0)),
         'coverage_rate': float(validation_info.get('coverage', 0.0)),
-        # Detailed results
-        'detailed_metrics': json.dumps(evaluation_results),
         'validation_report': validation_info.get('report', ''),
         # Metadata
         'evaluation_date': datetime.datetime.now().isoformat(),
         'leaderboard_version': 1
     }
-    # Add to dataframe
     new_row_df = pd.DataFrame([new_entry])
     updated_df = pd.concat([df, new_row_df], ignore_index=True)
-    # Sort by quality score (descending)
     updated_df = updated_df.sort_values('quality_score', ascending=False).reset_index(drop=True)
-    # Save updated leaderboard
-    if save_leaderboard(updated_df):
-        print(f"Added '{model_name}' to leaderboard")
-        return updated_df
-    else:
-        print("Failed to save leaderboard")
-        return df
 def get_leaderboard_stats(df: pd.DataFrame) -> Dict:
     """Get summary statistics for the leaderboard."""

         print(f"Error saving leaderboard: {e}")
         return False
+# def add_model_to_leaderboard(
+#     model_name: str,
+#     author: str,
+#     evaluation_results: Dict,
+#     validation_info: Dict,
+#     model_type: str = "",
+#     description: str = ""
+# ) -> pd.DataFrame:
+#     """Add new model results to leaderboard."""
+#     # Load current leaderboard
+#     df = load_leaderboard()
+#     # Check if model already exists
+#     existing_mask = df['model_name'] == model_name
+#     if existing_mask.any():
+#         print(f"Model '{model_name}' already exists. Updating...")
+#         df = df[~existing_mask]  # Remove existing entry
+#     # Extract metrics
+#     averages = evaluation_results.get('averages', {})
+#     google_averages = evaluation_results.get('google_comparable_averages', {})
+#     summary = evaluation_results.get('summary', {})
+#     # Create new entry
+#     new_entry = {
+#         'submission_id': create_submission_id(),
+#         'model_name': sanitize_model_name(model_name),
+#         'author': author[:100] if author else 'Anonymous',
+#         'submission_date': datetime.datetime.now().isoformat(),
+#         'model_type': model_type[:50] if model_type else 'unknown',
+#         'description': description[:500] if description else '',
+#         # Primary metrics
+#         'quality_score': float(averages.get('quality_score', 0.0)),
+#         'bleu': float(averages.get('bleu', 0.0)),
+#         'chrf': float(averages.get('chrf', 0.0)),
+#         # Secondary metrics
+#         'rouge1': float(averages.get('rouge1', 0.0)),
+#         'rouge2': float(averages.get('rouge2', 0.0)),
+#         'rougeL': float(averages.get('rougeL', 0.0)),
+#         'cer': float(averages.get('cer', 0.0)),
+#         'wer': float(averages.get('wer', 0.0)),
+#         'len_ratio': float(averages.get('len_ratio', 0.0)),
+#         # Google comparable metrics
+#         'google_quality_score': float(google_averages.get('quality_score', 0.0)),
+#         'google_bleu': float(google_averages.get('bleu', 0.0)),
+#         'google_chrf': float(google_averages.get('chrf', 0.0)),
+#         # Coverage info
+#         'total_samples': int(summary.get('total_samples', 0)),
+#         'language_pairs_covered': int(summary.get('language_pairs_covered', 0)),
+#         'google_pairs_covered': int(summary.get('google_comparable_pairs', 0)),
+#         'coverage_rate': float(validation_info.get('coverage', 0.0)),
+#         # Detailed results
+#         'detailed_metrics': json.dumps(evaluation_results),
+#         'validation_report': validation_info.get('report', ''),
+#         # Metadata
+#         'evaluation_date': datetime.datetime.now().isoformat(),
+#         'leaderboard_version': 1
+#     }
+#     # Add to dataframe
+#     new_row_df = pd.DataFrame([new_entry])
+#     updated_df = pd.concat([df, new_row_df], ignore_index=True)
+#     # Sort by quality score (descending)
+#     updated_df = updated_df.sort_values('quality_score', ascending=False).reset_index(drop=True)
+#     # Save updated leaderboard
+#     if save_leaderboard(updated_df):
+#         print(f"Added '{model_name}' to leaderboard")
+#         return updated_df
+#     else:
+#         print("Failed to save leaderboard")
+#         return df
 def add_model_to_leaderboard(
     model_name: str,
     author: str,
     model_type: str = "",
     description: str = ""
 ) -> pd.DataFrame:
+    """
+    Add new model results to leaderboard, with JSON-safe detailed_metrics.
+    """
     # Load current leaderboard
     df = load_leaderboard()
+    # Remove existing entry if present
     existing_mask = df['model_name'] == model_name
     if existing_mask.any():
+        df = df[~existing_mask]
+    # Safely serialize evaluation_results by dropping non-JSON types
+    safe_results = evaluation_results.copy()
+    # Remove sample_metrics DataFrame which isn't JSON serializable
+    if 'sample_metrics' in safe_results:
+        safe_results.pop('sample_metrics')
+    detailed_json = json.dumps(safe_results)
     # Extract metrics
     averages = evaluation_results.get('averages', {})
     google_averages = evaluation_results.get('google_comparable_averages', {})
     summary = evaluation_results.get('summary', {})
+    # Prepare new entry
     new_entry = {
         'submission_id': create_submission_id(),
         'model_name': sanitize_model_name(model_name),
         'submission_date': datetime.datetime.now().isoformat(),
         'model_type': model_type[:50] if model_type else 'unknown',
         'description': description[:500] if description else '',
         # Primary metrics
         'quality_score': float(averages.get('quality_score', 0.0)),
         'bleu': float(averages.get('bleu', 0.0)),
         'chrf': float(averages.get('chrf', 0.0)),
         # Secondary metrics
         'rouge1': float(averages.get('rouge1', 0.0)),
         'rouge2': float(averages.get('rouge2', 0.0)),
         'cer': float(averages.get('cer', 0.0)),
         'wer': float(averages.get('wer', 0.0)),
         'len_ratio': float(averages.get('len_ratio', 0.0)),
         # Google comparable metrics
         'google_quality_score': float(google_averages.get('quality_score', 0.0)),
         'google_bleu': float(google_averages.get('bleu', 0.0)),
         'google_chrf': float(google_averages.get('chrf', 0.0)),
         # Coverage info
         'total_samples': int(summary.get('total_samples', 0)),
         'language_pairs_covered': int(summary.get('language_pairs_covered', 0)),
         'google_pairs_covered': int(summary.get('google_comparable_pairs', 0)),
         'coverage_rate': float(validation_info.get('coverage', 0.0)),
+        # Detailed results (JSON string)
+        'detailed_metrics': detailed_json,
         'validation_report': validation_info.get('report', ''),
         # Metadata
         'evaluation_date': datetime.datetime.now().isoformat(),
         'leaderboard_version': 1
     }
+    # Convert to DataFrame and append
     new_row_df = pd.DataFrame([new_entry])
     updated_df = pd.concat([df, new_row_df], ignore_index=True)
     updated_df = updated_df.sort_values('quality_score', ascending=False).reset_index(drop=True)
+    # Save to hub
+    save_leaderboard(updated_df)
+    return updated_df
 def get_leaderboard_stats(df: pd.DataFrame) -> Dict:
     """Get summary statistics for the leaderboard."""