Spaces:

AMA-bench
/

AMA-bench-Leaderboard

Running

App Files Files Community

NorahYujieZhao commited on Mar 5

Commit

31cd310

1 Parent(s): 60ae732

fix the avg score bug

Browse files

Files changed (1) hide show

verify_fix.py +0 -127

verify_fix.py DELETED Viewed

@@ -1,127 +0,0 @@
-#!/usr/bin/env python3
-"""验证修复后的加权平均计算"""
-import json
-import sys
-# Load data
-with open("data/qa_distribution.json", "r") as f:
-    QA_DISTRIBUTION = json.load(f)
-# Load model data
-model_data = []
-with open("data/model.jsonl", "r") as f:
-    for line in f:
-        if line.strip():
-            model_data.append(json.loads(line))
-# Simulate the new convert_jsonl_to_dict logic for first model
-model = model_data[0]
-name = model["model"]
-scores = model["Score"]
-print(f"验证模型: {name}")
-print("=" * 80)
-capability_mapping = {
-    "A": "Recall",
-    "B": "Causal Inference",
-    "C": "State Updating",
-    "D": "State Abstraction"
-}
-# Calculate domain scores using ratio_in_domain
-print("\n【Domain分数计算 - 使用 ratio_in_domain】")
-domain_scores = {}
-for domain, domain_score_list in scores.items():
-    capability_scores_for_domain = {}
-    for score_dict in domain_score_list:
-        for cap_letter, score_value in score_dict.items():
-            capability_scores_for_domain[cap_letter] = score_value
-    # Weighted average using ratio_in_domain
-    domain_info = QA_DISTRIBUTION["domain_distribution"][domain]
-    problem_types = domain_info.get("problem_types", {})
-    weighted_sum = 0
-    weight_total = 0
-    for cap_letter, score_value in capability_scores_for_domain.items():
-        if cap_letter in problem_types:
-            weight = problem_types[cap_letter].get("ratio_in_domain", 0.0)
-            weighted_sum += score_value * weight
-            weight_total += weight
-    avg_domain_score = weighted_sum / weight_total if weight_total > 0 else 0
-    domain_scores[domain] = avg_domain_score
-    print(f"  {domain:15s}: {avg_domain_score:.6f}")
-# Calculate domain weighted average
-print("\n【Domain维度的总平均 - 使用 qa_ratio】")
-domain_weighted_sum = 0
-domain_weight_total = 0
-for domain, score in domain_scores.items():
-    weight = QA_DISTRIBUTION["domain_distribution"][domain]["qa_ratio"]
-    domain_weighted_sum += score * weight
-    domain_weight_total += weight
-    print(f"  {domain:15s}: {score:.6f} * {weight:.6f} = {score * weight:.6f}")
-domain_avg = domain_weighted_sum / domain_weight_total
-print(f"\n  总平均: {domain_avg:.6f}")
-# Calculate capability scores using ratio_overall
-print("\n【Capability分数计算 - 使用 ratio_overall】")
-capability_scores = {"A": 0, "B": 0, "C": 0, "D": 0}
-capability_weights = {"A": 0, "B": 0, "C": 0, "D": 0}
-for domain, domain_score_list in scores.items():
-    capability_scores_for_domain = {}
-    for score_dict in domain_score_list:
-        for cap_letter, score_value in score_dict.items():
-            capability_scores_for_domain[cap_letter] = score_value
-    # Accumulate with ratio_overall
-    domain_info = QA_DISTRIBUTION["domain_distribution"][domain]
-    problem_types = domain_info.get("problem_types", {})
-    for cap_letter, score_value in capability_scores_for_domain.items():
-        if cap_letter in problem_types:
-            weight = problem_types[cap_letter].get("ratio_overall", 0.0)
-            capability_scores[cap_letter] += score_value * weight
-            capability_weights[cap_letter] += weight
-# Calculate weighted averages
-capability_avgs = {}
-for cap_letter in ["A", "B", "C", "D"]:
-    avg = capability_scores[cap_letter] / capability_weights[cap_letter] if capability_weights[cap_letter] > 0 else 0
-    capability_avgs[cap_letter] = avg
-    cap_name = capability_mapping[cap_letter]
-    print(f"  {cap_name:20s} ({cap_letter}): {avg:.6f}")
-# Calculate capability weighted average
-print("\n【Capability维度的总平均 - 使用 overall ratio】")
-cap_weighted_sum = 0
-cap_weight_total = 0
-for cap_letter, score in capability_avgs.items():
-    weight = QA_DISTRIBUTION["overall_distribution"]["problem_types"][cap_letter]["ratio"]
-    cap_weighted_sum += score * weight
-    cap_weight_total += weight
-    cap_name = capability_mapping[cap_letter]
-    print(f"  {cap_name:20s}: {score:.6f} * {weight:.6f} = {score * weight:.6f}")
-cap_avg = cap_weighted_sum / cap_weight_total
-print(f"\n  总平均: {cap_avg:.6f}")
-# Compare
-print("\n" + "=" * 80)
-print("【结果对比】")
-print("=" * 80)
-print(f"Domain维度总平均:     {domain_avg:.6f}")
-print(f"Capability维度总平均: {cap_avg:.6f}")
-print(f"差异:                 {abs(domain_avg - cap_avg):.10f}")
-if abs(domain_avg - cap_avg) < 1e-6:
-    print("\n✓ 成功！两个维度的计算结果一致！")
-    sys.exit(0)
-else:
-    print(f"\n✗ 失败！两个维度的计算结果不一致，差异: {abs(domain_avg - cap_avg):.10f}")
-    sys.exit(1)