Spaces:

rfr2003
/

mcq_eval

Sleeping

Rodrigo Ferreira Rodrigues commited on 12 days ago

Commit

440ceb6

1 Parent(s): 6cd9340

adding bert score

Files changed (2) hide show

mcq_eval.py CHANGED Viewed

@@ -15,9 +15,7 @@
 import evaluate
 import datasets
-bleu = evaluate.load('bleu')
-#bert_score = evaluate.load('bertscore')
 # TODO: Add BibTeX citation
@@ -50,7 +48,7 @@ Examples:
     Here is an exemple on how to use the metric:
     >>> metric = evaluate.load("rfr2003/MQC_eval")
-    >>> results = metric.compute(references=["A", "B"], predictions=["A", "D"])
     >>> print(results)
     {'accuracy': 0.5, 'bleu-1': 0.5}
 """
@@ -82,8 +80,8 @@ class MCQ_eval(evaluate.Metric):
     def _download_and_prepare(self, dl_manager):
         """Optional: download external resources useful to compute the scores"""
-        # TODO: Download external resources if needed
-        pass
     def _compute(self, generations, golds):
         """Returns the scores"""
@@ -107,10 +105,10 @@ class MCQ_eval(evaluate.Metric):
             references.append(gold)
         metrics = {}
-        #metrics = {f"bert_score_{k}":np.mean(v).item() for k,v in bert_score.compute(predictions=predictions, references=references, lang="en").items() if k in ['recall', 'precision', 'f1']}
         metrics.update({
             'accuracy': correct/total,
-            'bleu-1': bleu.compute(predictions=predictions, references=references, max_order=1)['bleu']
         })
         return metrics

 import evaluate
 import datasets
+import numpy as np
 # TODO: Add BibTeX citation
     Here is an exemple on how to use the metric:
     >>> metric = evaluate.load("rfr2003/MQC_eval")
+    >>> results = metric.compute(generations=["A", "B"], golds=["A", "D"])
     >>> print(results)
     {'accuracy': 0.5, 'bleu-1': 0.5}
 """
     def _download_and_prepare(self, dl_manager):
         """Optional: download external resources useful to compute the scores"""
+        self.bleu = evaluate.load('bleu')
+        self.bert_score = evaluate.load('bertscore')
     def _compute(self, generations, golds):
         """Returns the scores"""
             references.append(gold)
         metrics = {}
+        metrics = {f"bert_score_{k}": np.mean(v).item() for k,v in self.bert_score.compute(predictions=predictions, references=references, lang="en").items() if k in ['recall', 'precision', 'f1']}
         metrics.update({
             'accuracy': correct/total,
+            'bleu-1': self.bleu.compute(predictions=predictions, references=references, max_order=1)['bleu']
         })
         return metrics

requirements.txt CHANGED Viewed

	@@ -1 +1,6 @@
1	- git+https://github.com/huggingface/evaluate@main

+git+https://github.com/huggingface/evaluate@main
+transformers
+torch
+datasets
+numpy
+bert_score