Spaces:

Rom89823974978
/

RAG_Eval

Sleeping

App Files Files Community

Rom89823974978 commited on Jun 6

Commit

4ab9c98

1 Parent(s): e32216e

Resolved error generation metrics

Browse files

Files changed (2) hide show

evaluation/metrics/generation_metrics.py +39 -7
requirements.txt +1 -0

evaluation/metrics/generation_metrics.py CHANGED Viewed

@@ -1,29 +1,61 @@
-"""Generation‑level metrics using the `evaluate` library."""
 from __future__ import annotations
 from typing import Sequence, Mapping, Any
 import functools
-import evaluate  # type: ignore[import]
 def _load(metric_name: str):
-    """Cache metric loading to avoid re‑downloads."""
     return functools.lru_cache()(lambda: evaluate.load(metric_name))()
 def bleu(predictions: Sequence[str], references: Sequence[str]) -> float:
     metric = _load("sacrebleu")
-    result: Mapping[str, Any] = metric.compute(predictions=predictions, references=[[r] for r in references])
     return result["score"] / 100.0
 def rouge_l(predictions: Sequence[str], references: Sequence[str]) -> float:
     metric = _load("rouge")
-    result = metric.compute(predictions=predictions, references=references, rouge_types=["rougeL"])
-    return result["rougeL"]
 def bert_score(predictions: Sequence[str], references: Sequence[str]) -> float:
     metric = _load("bertscore")
     result = metric.compute(predictions=predictions, references=references, lang="en")
-    return float(sum(result["f1"]) / len(result["f1"]))

+"""Generation-level metrics using the `evaluate` library."""
 from __future__ import annotations
 from typing import Sequence, Mapping, Any
 import functools
+# Attempt to import the `evaluate` package; if missing, set to None.
+try:
+    import evaluate  # type: ignore[import]
+except ImportError:
+    evaluate = None
 def _load(metric_name: str):
+    """Cache metric loading to avoid re-downloads."""
+    if evaluate is None:
+        return None
     return functools.lru_cache()(lambda: evaluate.load(metric_name))()
 def bleu(predictions: Sequence[str], references: Sequence[str]) -> float:
+    """Compute BLEU via sacrebleu. If `evaluate` is missing, return 0.0."""
+    if evaluate is None:
+        return 0.0
     metric = _load("sacrebleu")
+    if metric is None:
+        return 0.0
+    result: Mapping[str, Any] = metric.compute(
+        predictions=predictions,
+        references=[[r] for r in references],
+    )
     return result["score"] / 100.0
 def rouge_l(predictions: Sequence[str], references: Sequence[str]) -> float:
+    """Compute ROUGE-L via `evaluate`. If `evaluate` is missing, return 0.0."""
+    if evaluate is None:
+        return 0.0
     metric = _load("rouge")
+    if metric is None:
+        return 0.0
+    result = metric.compute(
+        predictions=predictions,
+        references=references,
+        rouge_types=["rougeL"],
+    )
+    return result.get("rougeL", 0.0)
 def bert_score(predictions: Sequence[str], references: Sequence[str]) -> float:
+    """Compute BERTScore via `evaluate`. If `evaluate` is missing, return 0.0."""
+    if evaluate is None:
+        return 0.0
     metric = _load("bertscore")
+    if metric is None:
+        return 0.0
     result = metric.compute(predictions=predictions, references=references, lang="en")
+    f1_scores = result.get("f1", [])
+    if not f1_scores:
+        return 0.0
+    return float(sum(f1_scores) / len(f1_scores))

requirements.txt CHANGED Viewed

@@ -8,6 +8,7 @@ sentence-transformers>=2.7
 langchain>=0.1.0
 ragas>=0.1.0
 trulens-eval>=0.21.0
 # Data & science
 pandas>=2.2

 langchain>=0.1.0
 ragas>=0.1.0
 trulens-eval>=0.21.0
+evaluate
 # Data & science
 pandas>=2.2