Spaces:

mentorme666
/

mentorme

Sleeping

Doanh Van Vu commited on 24 days ago

Commit

dbdb72a

1 Parent(s): ee8ceae

Enhance evaluation metrics and reporting in recommendation system

- Updated `evaluate_recommendations.py` to include Mean Reciprocal Rank (MRR) as a new evaluation metric alongside existing metrics like Precision@K, Recall@K, Hit Rate@K, and NDCG@K.
- Modified the evaluation report generation to incorporate MRR results, ensuring comprehensive performance insights.
- Revised `evaluation_report.md` and `sample_mentee_evaluation.json` to reflect updated ground truth data and evaluation results for improved accuracy and relevance.

Files changed (3) hide show

evaluation/evaluate_recommendations.py +39 -8
evaluation/evaluation_report.md +0 -0
evaluation/sample_mentee_evaluation.json +0 -0

evaluation/evaluate_recommendations.py CHANGED Viewed

@@ -4,7 +4,7 @@ Script đánh giá hệ thống recommendation cho MentorMe.
 Script này thực hiện đánh giá hiệu suất của hệ thống recommendation bằng cách:
 1. Gửi requests recommendation cho các mentees trong dataset
 2. So sánh kết quả với ground truth
-3. Tính toán các metrics: Precision@K, Recall@K, Hit Rate@K, NDCG@K
 4. Tạo báo cáo đánh giá theo format nghiên cứu khoa học
 """
@@ -114,6 +114,25 @@ def ndcg_at_k(recommended: List[str], relevant_list: List[str], k: int) -> float
     return dcg / idcg if idcg > 0 else 0.0
 def evaluate_recommendation(
     recommended: List[Dict[str, Any]],
     ground_truth: List[int],
@@ -138,7 +157,8 @@ def evaluate_recommendation(
         "precision": {},
         "recall": {},
         "hit": {},
-        "ndcg": {}
     }
     for k in k_values:
@@ -146,6 +166,7 @@ def evaluate_recommendation(
         results["recall"][k] = recall_at_k(recommended_ids, ground_truth_set, k)
         results["hit"][k] = hit_at_k(recommended_ids, ground_truth_set, k)
         results["ndcg"][k] = ndcg_at_k(recommended_ids, ground_truth_list, k)
     return results
@@ -200,7 +221,7 @@ def generate_research_report(
     # Tính toán thống kê cơ bản
     stats_by_metric = {}
-    for metric_name in ['precision', 'recall', 'hit', 'ndcg']:
         stats_by_metric[metric_name] = {}
         for k in k_values:
             metrics_list = [r['metrics'][metric_name][k] for r in all_results]
@@ -231,6 +252,7 @@ def generate_research_report(
 | **Recall** | {aggregate_metrics['recall'][1]:.4f} | {aggregate_metrics['recall'][3]:.4f} | {aggregate_metrics['recall'][6]:.4f} |
 | **Hit Rate** | {aggregate_metrics['hit'][1]:.4f} | {aggregate_metrics['hit'][3]:.4f} | {aggregate_metrics['hit'][6]:.4f} |
 | **NDCG** | {aggregate_metrics['ndcg'][1]:.4f} | {aggregate_metrics['ndcg'][3]:.4f} | {aggregate_metrics['ndcg'][6]:.4f} |
 ## Thống Kê Chi Tiết
@@ -248,6 +270,12 @@ def generate_research_report(
         stats = stats_by_metric['recall'][k]
         report += f"- **@{k}:** Mean={stats['mean']:.4f}, Std={stats['std']:.4f}, Min={stats['min']:.4f}, Max={stats['max']:.4f}\n"
     report += f"\n### Hit Rate Distribution (@6)\n\n"
     report += f"- 0 hits: {hit_rate_distribution['0 hits']} ({hit_rate_distribution['0 hits']/total_mentees*100:.1f}%)\n"
     report += f"- Partial hits: {hit_rate_distribution['Partial hits']} ({hit_rate_distribution['Partial hits']/total_mentees*100:.1f}%)\n"
@@ -265,7 +293,8 @@ def generate_research_report(
         report += f"| Precision | {result['metrics']['precision'][1]:.4f} | {result['metrics']['precision'][3]:.4f} | {result['metrics']['precision'][6]:.4f} |\n"
         report += f"| Recall | {result['metrics']['recall'][1]:.4f} | {result['metrics']['recall'][3]:.4f} | {result['metrics']['recall'][6]:.4f} |\n"
         report += f"| Hit Rate | {result['metrics']['hit'][1]:.4f} | {result['metrics']['hit'][3]:.4f} | {result['metrics']['hit'][6]:.4f} |\n"
-        report += f"| NDCG | {result['metrics']['ndcg'][1]:.4f} | {result['metrics']['ndcg'][3]:.4f} | {result['metrics']['ndcg'][6]:.4f} |\n\n"
     return report
@@ -341,7 +370,8 @@ def main():
                     'precision': {k: 0.0 for k in args.k_values},
                     'recall': {k: 0.0 for k in args.k_values},
                     'hit': {k: 0.0 for k in args.k_values},
-                    'ndcg': {k: 0.0 for k in args.k_values}
                 }
             })
             continue
@@ -359,7 +389,7 @@ def main():
             'metrics': results
         })
-        print(f"  Precision@6: {results['precision'][6]:.4f}, Recall@6: {results['recall'][6]:.4f}, NDCG@6: {results['ndcg'][6]:.4f}\n")
         time.sleep(args.delay)
@@ -368,11 +398,12 @@ def main():
         'precision': {k: 0.0 for k in args.k_values},
         'recall': {k: 0.0 for k in args.k_values},
         'hit': {k: 0.0 for k in args.k_values},
-        'ndcg': {k: 0.0 for k in args.k_values}
     }
     for result in all_results:
-        for metric_name in ['precision', 'recall', 'hit', 'ndcg']:
             for k in args.k_values:
                 aggregate_metrics[metric_name][k] += result['metrics'][metric_name][k]

 Script này thực hiện đánh giá hiệu suất của hệ thống recommendation bằng cách:
 1. Gửi requests recommendation cho các mentees trong dataset
 2. So sánh kết quả với ground truth
+3. Tính toán các metrics: Precision@K, Recall@K, Hit Rate@K, NDCG@K, MRR@K
 4. Tạo báo cáo đánh giá theo format nghiên cứu khoa học
 """
     return dcg / idcg if idcg > 0 else 0.0
+def mrr_at_k(recommended: List[str], relevant: Set[str], k: int) -> float:
+    """
+    Tính Mean Reciprocal Rank@K.
+    Reciprocal Rank = 1 / position của item relevant đầu tiên trong top-k
+    Nếu không có item relevant nào trong top-k, RR = 0
+    """
+    if len(relevant) == 0:
+        return 0.0
+    top_k = recommended[:k]
+    for i, mentor_id in enumerate(top_k, 1):
+        if mentor_id in relevant:
+            return 1.0 / i
+    return 0.0
 def evaluate_recommendation(
     recommended: List[Dict[str, Any]],
     ground_truth: List[int],
         "precision": {},
         "recall": {},
         "hit": {},
+        "ndcg": {},
+        "mrr": {}
     }
     for k in k_values:
         results["recall"][k] = recall_at_k(recommended_ids, ground_truth_set, k)
         results["hit"][k] = hit_at_k(recommended_ids, ground_truth_set, k)
         results["ndcg"][k] = ndcg_at_k(recommended_ids, ground_truth_list, k)
+        results["mrr"][k] = mrr_at_k(recommended_ids, ground_truth_set, k)
     return results
     # Tính toán thống kê cơ bản
     stats_by_metric = {}
+    for metric_name in ['precision', 'recall', 'hit', 'ndcg', 'mrr']:
         stats_by_metric[metric_name] = {}
         for k in k_values:
             metrics_list = [r['metrics'][metric_name][k] for r in all_results]
 | **Recall** | {aggregate_metrics['recall'][1]:.4f} | {aggregate_metrics['recall'][3]:.4f} | {aggregate_metrics['recall'][6]:.4f} |
 | **Hit Rate** | {aggregate_metrics['hit'][1]:.4f} | {aggregate_metrics['hit'][3]:.4f} | {aggregate_metrics['hit'][6]:.4f} |
 | **NDCG** | {aggregate_metrics['ndcg'][1]:.4f} | {aggregate_metrics['ndcg'][3]:.4f} | {aggregate_metrics['ndcg'][6]:.4f} |
+| **MRR** | {aggregate_metrics['mrr'][1]:.4f} | {aggregate_metrics['mrr'][3]:.4f} | {aggregate_metrics['mrr'][6]:.4f} |
 ## Thống Kê Chi Tiết
         stats = stats_by_metric['recall'][k]
         report += f"- **@{k}:** Mean={stats['mean']:.4f}, Std={stats['std']:.4f}, Min={stats['min']:.4f}, Max={stats['max']:.4f}\n"
+    report += "\n### MRR@K\n\n"
+    for k in k_values:
+        stats = stats_by_metric['mrr'][k]
+        report += f"- **@{k}:** Mean={stats['mean']:.4f}, Std={stats['std']:.4f}, Min={stats['min']:.4f}, Max={stats['max']:.4f}\n"
     report += f"\n### Hit Rate Distribution (@6)\n\n"
     report += f"- 0 hits: {hit_rate_distribution['0 hits']} ({hit_rate_distribution['0 hits']/total_mentees*100:.1f}%)\n"
     report += f"- Partial hits: {hit_rate_distribution['Partial hits']} ({hit_rate_distribution['Partial hits']/total_mentees*100:.1f}%)\n"
         report += f"| Precision | {result['metrics']['precision'][1]:.4f} | {result['metrics']['precision'][3]:.4f} | {result['metrics']['precision'][6]:.4f} |\n"
         report += f"| Recall | {result['metrics']['recall'][1]:.4f} | {result['metrics']['recall'][3]:.4f} | {result['metrics']['recall'][6]:.4f} |\n"
         report += f"| Hit Rate | {result['metrics']['hit'][1]:.4f} | {result['metrics']['hit'][3]:.4f} | {result['metrics']['hit'][6]:.4f} |\n"
+        report += f"| NDCG | {result['metrics']['ndcg'][1]:.4f} | {result['metrics']['ndcg'][3]:.4f} | {result['metrics']['ndcg'][6]:.4f} |\n"
+        report += f"| MRR | {result['metrics']['mrr'][1]:.4f} | {result['metrics']['mrr'][3]:.4f} | {result['metrics']['mrr'][6]:.4f} |\n\n"
     return report
                     'precision': {k: 0.0 for k in args.k_values},
                     'recall': {k: 0.0 for k in args.k_values},
                     'hit': {k: 0.0 for k in args.k_values},
+                    'ndcg': {k: 0.0 for k in args.k_values},
+                    'mrr': {k: 0.0 for k in args.k_values}
                 }
             })
             continue
             'metrics': results
         })
+        print(f"  Precision@6: {results['precision'][6]:.4f}, Recall@6: {results['recall'][6]:.4f}, NDCG@6: {results['ndcg'][6]:.4f}, MRR@6: {results['mrr'][6]:.4f}\n")
         time.sleep(args.delay)
         'precision': {k: 0.0 for k in args.k_values},
         'recall': {k: 0.0 for k in args.k_values},
         'hit': {k: 0.0 for k in args.k_values},
+        'ndcg': {k: 0.0 for k in args.k_values},
+        'mrr': {k: 0.0 for k in args.k_values}
     }
     for result in all_results:
+        for metric_name in ['precision', 'recall', 'hit', 'ndcg', 'mrr']:
             for k in args.k_values:
                 aggregate_metrics[metric_name][k] += result['metrics'][metric_name][k]

evaluation/evaluation_report.md CHANGED Viewed

The diff for this file is too large to render. See raw diff

evaluation/sample_mentee_evaluation.json CHANGED Viewed

The diff for this file is too large to render. See raw diff