Spaces:

below-threshold
/

ai-response-validator

Sleeping

below-threshold commited on 23 days ago

Commit

7b3dadd

1 Parent(s): 6e6032f

Fix faithfulness: score per chunk, take max entailment

Files changed (1) hide show

backend/grader.py CHANGED Viewed

@@ -124,11 +124,16 @@ def grade_answer_relevancy(query: str, response: str) -> GradeResult:
 def grade_faithfulness(response: str, context: str) -> GradeResult:
-    """Score NLI entailment: does context entail the response?"""
     model = get_nli_model()
     # NLI label order for cross-encoder/nli-deberta-v3-small: contradiction, entailment, neutral
-    scores = model.predict([(context, response)], apply_softmax=True)[0]
-    entailment_score = float(scores[1])
     passed = entailment_score >= FAITHFULNESS_THRESHOLD
     return GradeResult(
         metric="faithfulness",

 def grade_faithfulness(response: str, context: str) -> GradeResult:
+    """Score NLI entailment per context chunk; pass if any chunk entails the response."""
     model = get_nli_model()
+    # Split on the double-newline separator used by _build_context in pipeline.py
+    chunks = [c.strip() for c in context.split("\n\n") if c.strip()]
+    if not chunks:
+        return GradeResult(metric="faithfulness", passed=False, score=0.0, detail="No context")
     # NLI label order for cross-encoder/nli-deberta-v3-small: contradiction, entailment, neutral
+    pairs = [(chunk, response) for chunk in chunks]
+    all_scores = model.predict(pairs, apply_softmax=True)
+    entailment_score = float(max(s[1] for s in all_scores))
     passed = entailment_score >= FAITHFULNESS_THRESHOLD
     return GradeResult(
         metric="faithfulness",