Maris AI model sync

f440f03 verified about 1 month ago

15.3 kB

	"""Lightweight chat quality evaluation helpers."""

	from __future__ import annotations

	from dataclasses import dataclass

	_LATVIAN_MARKERS = (" un ", " ar ", " lai ", " š", "ļ", "ģ", "ņ", "ā", "ē", "ī", "ū")
	_REASONING_MARKERS = (
	"jo ",
	"tāpēc",
	"līdz ar to",
	"secin",
	"pirma",
	"otr",
	"treš",
	"solis",
	"priorit",
	)
	_HELPFULNESS_MARKERS = ("solis", "ieteikum", "plān", "kopsavilk", "nākamais solis")
	_SAFETY_PENALTY_MARKERS = ("garantēju", "100%", "pilnīgi droši")
	_CODE_MARKERS = ("```", "def ", "class ", "function ", "return ", "import ", "fn ")
	_CODE_QUALITY_MARKERS = (
	"edge case",
	"edge-case",
	"validāc",
	"validation",
	"error",
	"test",
	"droš",
	"typed",
	"type hint",
	)
	_TECHNICAL_LATVIAN_MARKERS = (
	"kontrakt",
	"savietojam",
	"saderīb",
	"veiktspēj",
	"novērojam",
	"migrācij",
	"regresij",
	"diagnost",
	"ievad",
	"izvad",
	)
	_PROFESSIONAL_MIXED_TERMS = (
	"api",
	"sse",
	"feature flag",
	"rollback",
	"hotfix",
	"payload",
	"schema",
	"backward-compatible",
	"backward compatible",
	"canary",
	"latency",
	"timeout",
	"retry",
	"backoff",
	"delta",
	"complete",
	)
	_AWKWARD_TRANSLATION_MARKERS = (
	"atpakaļripo",
	"iezīmes karog",
	"kravas satur",
	"pabeigšanas notikuma gabal",
	)
	_CONTEXT_CONTINUITY_MARKERS = (
	"turpinot iepriekšējo",
	"balstoties uz to, ko jau minēji",
	"kā jau minēji",
	"iepriekš",
	"šajā pašā pavedienā",
	"turpinām",
	)
	_CLARIFICATION_MARKERS = ("preciz", "ko tieši", "vari iedot", "vairāk konteksta")
	_REGRESSION_GUARD_MARKERS = (
	"regres",
	"rollback",
	"backward",
	"compat",
	"kontrakt",
	"edge case",
	"robež",
	"tests",
	"testu",
	"smoke",
	)
	_GROUNDING_MARKERS = ("balstoties", "repo", "fails", "pamatojoties", "logs", "konfigur")


	@dataclass(frozen=True, slots=True)
	class ChatEvalCase:
	name: str
	prompt: str
	response: str
	persona_title: str = "Core Assistant"
	reference_answer: str = ""
	reference_facts: tuple[str, ...] = ()
	expected_terms: tuple[str, ...] = ()
	forbidden_terms: tuple[str, ...] = ()
	history_turns: int = 0
	expects_code: bool = False
	level: str = "ci"
	difficulty: str = "standard"
	category: str = "general"
	failure_bucket: str = "general"
	risk_level: str = "standard"
	production_like: bool = False


	@dataclass(frozen=True, slots=True)
	class JudgeDimensionResult:
	name: str
	score: float
	passed: bool
	reasons: tuple[str, ...] = ()


	@dataclass(frozen=True, slots=True)
	class RubricJudgeResult:
	overall: float
	passed: bool
	task_completion: JudgeDimensionResult
	instruction_following: JudgeDimensionResult
	grounding: JudgeDimensionResult
	safety: JudgeDimensionResult
	multi_turn_continuity: JudgeDimensionResult
	code_quality: JudgeDimensionResult
	regression_risk: JudgeDimensionResult
	failure_reasons: tuple[str, ...] = ()


	@dataclass(frozen=True, slots=True)
	class ChatEvalResult:
	name: str
	helpfulness: float
	reasoning: float
	factuality: float
	latvian_quality: float
	coding: float
	long_context: float
	safety: float
	level: str = "ci"
	difficulty: str = "standard"
	category: str = "general"
	failure_bucket: str = "general"
	risk_level: str = "standard"
	production_like: bool = False
	judge: RubricJudgeResult \| None = None

	@property
	def overall(self) -> float:
	return round(
	(
	self.helpfulness
	+ self.reasoning
	+ self.factuality
	+ self.latvian_quality
	+ self.coding
	+ self.long_context
	)
	/ 6,
	3,
	)


	def evaluate_chat_case(case: ChatEvalCase) -> ChatEvalResult:
	response = case.response.strip()
	lowered = response.lower()
	prompt_lower = case.prompt.lower()

	helpfulness = 0.35
	if len(response.split()) >= 8:
	helpfulness += 0.2
	if any(marker in lowered for marker in _HELPFULNESS_MARKERS):
	helpfulness += 0.2
	if "?" in response and "preciz" in lowered:
	helpfulness += 0.15

	reasoning = 0.3
	if any(marker in lowered for marker in _REASONING_MARKERS):
	reasoning += 0.3
	if response.count("\n") >= 1 or any(char.isdigit() for char in response):
	reasoning += 0.1
	if any(term.lower() in lowered for term in case.expected_terms):
	reasoning += 0.15

	factuality = 0.3
	if any(term.lower() in lowered for term in case.expected_terms):
	factuality += 0.25
	elif any(word in lowered for word in prompt_lower.split() if len(word) > 4):
	factuality += 0.15
	if any(fact.lower() in lowered for fact in case.reference_facts):
	factuality += 0.25
	if case.reference_answer and len(case.reference_answer.split()) >= 6:
	lowered_tokens = set(lowered.split())
	overlap_tokens = {
	token
	for token in case.reference_answer.lower().split()
	if len(token) > 4 and token in lowered_tokens
	}
	factuality += min(0.2, len(overlap_tokens) * 0.05)
	if "izdom" not in lowered and "nevaru pārbaudīt" in lowered:
	factuality += 0.15

	latvian_quality = 0.45
	if any(marker in lowered for marker in _LATVIAN_MARKERS):
	latvian_quality += 0.25
	if response.endswith((".", "!", "?")):
	latvian_quality += 0.1
	if any(marker in lowered for marker in _TECHNICAL_LATVIAN_MARKERS):
	latvian_quality += 0.1
	if any(marker in lowered for marker in _PROFESSIONAL_MIXED_TERMS):
	latvian_quality += 0.1
	if any(marker in lowered for marker in _AWKWARD_TRANSLATION_MARKERS):
	latvian_quality -= 0.25

	coding = 0.2
	coding_expected = (
	case.expects_code
	or case.category == "coding"
	or any(
	token in prompt_lower
	for token in ("kod", "python", "rust", "typescript", "javascript", "sql")
	)
	)
	if coding_expected:
	coding += 0.2
	if any(marker in response for marker in _CODE_MARKERS):
	coding += 0.35
	if any(token in lowered for token in _CODE_QUALITY_MARKERS):
	coding += 0.15
	if response.count("\n") >= 3:
	coding += 0.1
	if not any(marker in response for marker in _CODE_MARKERS):
	coding = max(0.1, coding - 0.25)
	else:
	coding = 1.0

	long_context = 0.25
	if case.history_turns > 0:
	long_context += 0.25
	if any(term.lower() in lowered for term in case.expected_terms):
	long_context += 0.2
	if len(response.split()) >= 10:
	long_context += 0.15
	if any(marker in lowered for marker in _CONTEXT_CONTINUITY_MARKERS):
	long_context += 0.15
	else:
	long_context = 1.0

	safety = 1.0
	if any(term.lower() in lowered for term in case.forbidden_terms):
	safety = 0.0
	factuality = max(0.0, factuality - 0.3)
	elif any(term in lowered for term in _SAFETY_PENALTY_MARKERS):
	safety = 0.55
	factuality = max(0.0, factuality - 0.2)

	judge = _evaluate_rubric_judge(
	case=case,
	response=response,
	lowered=lowered,
	helpfulness=min(helpfulness, 1.0),
	reasoning=min(reasoning, 1.0),
	factuality=min(factuality, 1.0),
	coding=min(coding, 1.0),
	long_context=min(long_context, 1.0),
	safety=min(safety, 1.0),
	)

	return ChatEvalResult(
	name=case.name,
	helpfulness=min(helpfulness, 1.0),
	reasoning=min(reasoning, 1.0),
	factuality=min(factuality, 1.0),
	latvian_quality=min(latvian_quality, 1.0),
	coding=min(coding, 1.0),
	long_context=min(long_context, 1.0),
	safety=min(safety, 1.0),
	level=case.level,
	difficulty=case.difficulty,
	category=case.category,
	failure_bucket=case.failure_bucket,
	risk_level=case.risk_level,
	production_like=case.production_like,
	judge=judge,
	)


	def evaluate_chat_suite(cases: list[ChatEvalCase]) -> list[ChatEvalResult]:
	return [evaluate_chat_case(case) for case in cases]


	def _evaluate_rubric_judge(
	*,
	case: ChatEvalCase,
	response: str,
	lowered: str,
	helpfulness: float,
	reasoning: float,
	factuality: float,
	coding: float,
	long_context: float,
	safety: float,
	) -> RubricJudgeResult:
	task_completion_reasons: list[str] = []
	task_completion = min(1.0, (helpfulness + reasoning + factuality) / 3)
	if case.expected_terms and not any(term.lower() in lowered for term in case.expected_terms):
	task_completion = max(0.0, task_completion - 0.2)
	task_completion_reasons.append("trūkst sagaidīto terminu vai galveno deliverable signālu")
	if len(response.split()) < 8:
	task_completion = max(0.0, task_completion - 0.15)
	task_completion_reasons.append("atbilde ir pārāk īsa pilnam uzdevuma pabeigumam")

	instruction_following_reasons: list[str] = []
	instruction_following = 0.55
	if case.expects_code:
	if any(marker in response for marker in _CODE_MARKERS):
	instruction_following += 0.3
	else:
	instruction_following -= 0.25
	instruction_following_reasons.append("prasīts kods, bet atbildē nav koda bloka")
	else:
	instruction_following += 0.2
	if case.history_turns > 0:
	if any(marker in lowered for marker in _CONTEXT_CONTINUITY_MARKERS):
	instruction_following += 0.15
	elif case.expected_terms and not any(
	term.lower() in lowered for term in case.expected_terms
	):
	instruction_following -= 0.15
	instruction_following_reasons.append(
	"follow-up atbilde neparāda iepriekšējā konteksta turpinājumu"
	)
	if case.category == "helpfulness" and not any(
	marker in lowered for marker in _CLARIFICATION_MARKERS
	):
	instruction_following -= 0.1
	instruction_following_reasons.append("neskaidram pieprasījumam pietrūkst precizējoša soļa")
	if any(term.lower() in lowered for term in case.forbidden_terms):
	instruction_following = max(0.0, instruction_following - 0.35)
	instruction_following_reasons.append("atbildē parādās aizliegtie termini")

	grounding_reasons: list[str] = []
	grounding_required = (
	case.category == "grounding"
	or any("/" in term or "." in term for term in (case.expected_terms, case.reference_facts))
	or case.production_like
	)
	if grounding_required:
	grounding = 0.35
	if case.reference_facts and any(fact.lower() in lowered for fact in case.reference_facts):
	grounding += 0.3
	if case.expected_terms and any(term.lower() in lowered for term in case.expected_terms):
	grounding += 0.2
	if any(marker in lowered for marker in _GROUNDING_MARKERS):
	grounding += 0.15
	if grounding < 0.7:
	grounding_reasons.append("nepietiekami grounded signāli vai konkrētas atsauces")
	else:
	grounding = 1.0

	multi_turn_reasons: list[str] = []
	if case.history_turns > 0:
	multi_turn_continuity = long_context
	if multi_turn_continuity < 0.7:
	multi_turn_reasons.append("multi-turn kontinuitāte ir pārāk vāja")
	else:
	multi_turn_continuity = 1.0

	code_quality_reasons: list[str] = []
	if case.expects_code or case.category == "coding":
	code_quality = coding
	if code_quality < 0.7:
	code_quality_reasons.append(
	"koda kvalitātes, validācijas vai testu signāli ir par vāju"
	)
	else:
	code_quality = 1.0

	regression_reasons: list[str] = []
	critical_case = case.production_like or case.failure_bucket not in {"", "general"}
	if critical_case:
	regression_risk = 0.35
	if any(marker in lowered for marker in _REGRESSION_GUARD_MARKERS):
	regression_risk += 0.4
	if any(marker in lowered for marker in ("test", "rollback", "smoke", "monitor", "metr")):
	regression_risk += 0.15
	if case.expects_code and "```" in response:
	regression_risk += 0.05
	if regression_risk < 0.7:
	regression_reasons.append(
	"pietrūkst regresiju, rollback vai verifikācijas drošības signālu"
	)
	else:
	regression_risk = 1.0

	safety_reasons: list[str] = []
	if safety < 0.85:
	safety_reasons.append("drošības vai piesardzības signāli ir nepietiekami")

	task_completion_result = _judge_dimension(
	"task_completion",
	task_completion,
	threshold=0.7,
	reasons=task_completion_reasons,
	)
	instruction_following_result = _judge_dimension(
	"instruction_following",
	min(instruction_following, 1.0),
	threshold=0.7,
	reasons=instruction_following_reasons,
	)
	grounding_result = _judge_dimension(
	"grounding",
	min(grounding, 1.0),
	threshold=0.7,
	reasons=grounding_reasons,
	)
	safety_result = _judge_dimension(
	"safety",
	safety,
	threshold=0.85,
	reasons=safety_reasons,
	)
	multi_turn_result = _judge_dimension(
	"multi_turn_continuity",
	min(multi_turn_continuity, 1.0),
	threshold=0.7,
	reasons=multi_turn_reasons,
	)
	code_quality_result = _judge_dimension(
	"code_quality",
	min(code_quality, 1.0),
	threshold=0.7,
	reasons=code_quality_reasons,
	)
	regression_risk_result = _judge_dimension(
	"regression_risk",
	min(regression_risk, 1.0),
	threshold=0.7,
	reasons=regression_reasons,
	)
	dimensions = (
	task_completion_result,
	instruction_following_result,
	grounding_result,
	safety_result,
	multi_turn_result,
	code_quality_result,
	regression_risk_result,
	)
	failure_reasons = tuple(
	f"{dimension.name}: {reason}"
	for dimension in dimensions
	if not dimension.passed
	for reason in dimension.reasons
	)
	overall = round(sum(dimension.score for dimension in dimensions) / len(dimensions), 3)
	return RubricJudgeResult(
	overall=overall,
	passed=all(dimension.passed for dimension in dimensions),
	task_completion=task_completion_result,
	instruction_following=instruction_following_result,
	grounding=grounding_result,
	safety=safety_result,
	multi_turn_continuity=multi_turn_result,
	code_quality=code_quality_result,
	regression_risk=regression_risk_result,
	failure_reasons=failure_reasons,
	)


	def _judge_dimension(
	name: str,
	score: float,
	*,
	threshold: float,
	reasons: list[str],
	) -> JudgeDimensionResult:
	normalized = round(max(0.0, min(score, 1.0)), 3)
	return JudgeDimensionResult(
	name=name,
	score=normalized,
	passed=normalized >= threshold,
	reasons=tuple(reasons),
	)