Spaces:

build-small-hackathon
/

figment

Running on Zero

App Files Files Community

figment / scripts /run_eval.py

ThomsenDrake

Sync submission-ready runtime and docs

2d63573 verified 12 days ago

Raw

History Blame Contribute Delete

42.2 kB

	"""Deterministic Figment eval runner."""

	from __future__ import annotations

	import argparse
	from dataclasses import replace
	import json
	import os
	from pathlib import Path
	import sys
	from time import perf_counter
	from typing import Any
	import urllib.error
	import urllib.parse
	import urllib.request

	PROJECT_ROOT = Path(__file__).resolve().parents[1]
	if str(PROJECT_ROOT) not in sys.path:
	sys.path.insert(0, str(PROJECT_ROOT))

	from figment.config import FigmentConfig # noqa: E402
	from figment.eval_metrics import score_expected_labels, score_handoff_readiness, summarize_eval_records # noqa: E402
	from figment.field_provenance import ( # noqa: E402
	DETERMINISTIC_FALLBACK,
	MODEL_REPAIRED,
	accepted_raw_fields_from_failures,
	deterministic_field_provenance,
	has_deterministic_patches,
	merge_field_provenance,
	model_raw_field_provenance,
	) # noqa: E402
	from figment.focused_repair import build_focused_repair_prompts, missing_mandatory_source_cards # noqa: E402
	from figment.harness_evidence import build_harness_evidence # noqa: E402
	from figment.model_client import ModelClient, ModelClientError, canned_navigator_output # noqa: E402
	from figment.observation_targets import ( # noqa: E402
	NavigationScaffoldResult,
	apply_navigation_scaffolding,
	required_observation_targets,
	)
	from figment.prompt_builder import build_prompt # noqa: E402
	from figment.retrieval import known_card_ids, query_from_intake, search_protocol_cards # noqa: E402
	from figment.rules import run_red_flag_checks # noqa: E402
	from figment.trace import derive_model_route, stable_hash # noqa: E402
	from figment.validators import urgency_floor_from_rules, validate_navigator_output # noqa: E402


	DEFAULT_CASE_GLOB = "data/eval/*.jsonl"
	REAL_LLAMA_CPP_EVAL_COMMAND = (
	"FIGMENT_MODE=local MODEL_STACK=local_4b_parakeet MODEL_BACKEND=llama_cpp "
	"LOCAL_MODEL_ID=nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 "
	"LLAMA_BASE_URL=http://127.0.0.1:8001/v1 PYTHON_DOTENV_DISABLED=true "
	"python3 scripts/run_eval.py --backend llama_cpp --model-stack local_4b_parakeet "
	"--cases data/eval/initial_handwritten_cases.jsonl "
	"--cases data/eval/adversarial_strict_cases.jsonl "
	"--cases data/eval/comprehensive_hosted_cases.jsonl "
	"--output traces/local_llama_cpp_eval_$(date -u +%Y%m%dT%H%M%SZ).jsonl"
	)


	def load_cases(case_paths: list[Path]) -> list[dict[str, Any]]:
	cases: list[dict[str, Any]] = []
	for path in case_paths:
	for line_number, line in enumerate(path.read_text(encoding="utf-8").splitlines(), start=1):
	if not line.strip():
	continue
	case = json.loads(line)
	case["_case_path"] = str(path)
	case["_case_line"] = line_number
	cases.append(case)
	return cases


	def run_eval(
	*,
	case_paths: list[Path],
	output_path: Path \| None,
	config: FigmentConfig,
	limit: int \| None = None,
	) -> dict[str, Any]:
	cases = load_cases(case_paths)
	if limit is not None:
	cases = cases[: max(0, limit)]
	records = [_evaluate_case(case, config) for case in cases]
	if output_path is not None:
	output_path.parent.mkdir(parents=True, exist_ok=True)
	output_path.write_text(
	"".join(f"{json.dumps(record, sort_keys=True)}\n" for record in records),
	encoding="utf-8",
	)
	else:
	for record in records:
	sys.stdout.write(f"{json.dumps(record, sort_keys=True)}\n")
	summary = _summarize(records, config, case_paths, output_path)
	if output_path is not None:
	_write_eval_bundle_metadata(summary, records, config, case_paths, output_path)
	return summary


	def _evaluate_case(case: dict[str, Any], config: FigmentConfig) -> dict[str, Any]:
	started = perf_counter()
	intake = case["structured_intake"]
	rule_results = [rule.to_dict() for rule in run_red_flag_checks(intake)]
	floor = urgency_floor_from_rules(rule_results)
	query = query_from_intake(intake)
	retrieved = search_protocol_cards(query, limit=6)
	retrieved_ids = [str(item.get("card_id", "")) for item in retrieved if item.get("card_id")]
	prompt, prompt_hash = build_prompt(intake, retrieved, rule_results, floor)
	known_cards = known_card_ids()

	raw_output: dict[str, Any] \| None = None
	repaired_output: dict[str, Any] \| None = None
	fallback_output: dict[str, Any] \| None = None
	raw_validation = {"passed": False, "failures": ["configured model not attempted for canned backend"]}
	repair_validation = {"passed": False, "failures": ["repair not attempted"]}
	fallback_validation = {"passed": False, "failures": ["fallback not used"]}
	raw_attempted = config.model_backend != "canned"
	repair_attempted = False
	fallback_used = False
	fallback_reason: str \| None = None
	competence_repair_attempted = False
	competence_repair_success = False
	competence_repair_scope: str \| None = None
	competence_repaired_output: dict[str, Any] \| None = None
	competence_repair_validation = {"passed": False, "failures": ["competence repair not attempted"]}
	scaffolded_model_output: dict[str, Any] \| None = None
	handoff_readiness_before: dict[str, Any] \| None = None
	handoff_readiness_after: dict[str, Any] \| None = None
	final_output: dict[str, Any]
	final_validation: dict[str, Any]
	field_provenance: dict[str, str] = {}
	scaffold_patched_fields: set[str] = set()
	filled_required_observation_ids: list[str] = []
	model_selected_required_observation_ids: list[str] = []
	invalid_selected_required_observation_ids: list[str] = []
	stripped_trace_only_fields: list[str] = []

	context = {
	"intake": intake,
	"rule_results": rule_results,
	"retrieved_cards": retrieved,
	"urgency_floor": floor,
	}

	if config.model_backend == "canned":
	fallback_reason = "canned_backend"
	fallback_used = True
	fallback_output, fallback_validation, fallback_scaffold = _run_fallback(
	intake,
	rule_results,
	retrieved,
	floor,
	known_cards,
	retrieved_ids,
	)
	_absorb_scaffold_trace(
	fallback_scaffold,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)
	final_output = fallback_output
	final_validation = fallback_validation
	field_provenance = deterministic_field_provenance()
	else:
	client = ModelClient(config)
	try:
	raw_output = client.generate_json(prompt, context)
	scaffold_result = apply_navigation_scaffolding(
	raw_output,
	retrieved_cards=retrieved,
	rule_results=rule_results,
	urgency_floor=floor,
	confirmed_intake=intake,
	)
	scaffolded_model_output = scaffold_result.output
	_absorb_scaffold_trace(
	scaffold_result,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)
	raw_validation = _validate_output(
	scaffolded_model_output,
	known_cards,
	floor,
	intake,
	rule_results,
	retrieved,
	retrieved_ids,
	)
	except ModelClientError as exc:
	raw_validation = {"passed": False, "failures": [f"model backend error: {exc}"]}
	fallback_reason = "model_backend_error"

	if scaffolded_model_output is not None and raw_validation["passed"]:
	final_output = scaffolded_model_output
	final_validation = raw_validation
	field_provenance = model_raw_field_provenance()
	_mark_deterministic_patch_fields(field_provenance, scaffold_patched_fields)
	patch_repair_failures = _observation_patch_repair_failures(
	filled_required_observation_ids,
	scaffold_patched_fields,
	)
	if patch_repair_failures and raw_output is not None:
	(
	repaired_output,
	repair_validation,
	repair_attempted,
	merged_output,
	merged_validation,
	merged_field_provenance,
	) = _try_field_level_model_output(
	client=client,
	prompt=prompt,
	context=context,
	raw_output=raw_output,
	validation_failures=patch_repair_failures,
	fallback_output=scaffolded_model_output,
	known_cards=known_cards,
	floor=floor,
	intake=intake,
	rule_results=rule_results,
	retrieved=retrieved,
	retrieved_ids=retrieved_ids,
	scaffold_patched_fields=scaffold_patched_fields,
	)
	if merged_output is not None and merged_validation is not None:
	final_output = merged_output
	final_validation = merged_validation
	field_provenance = merged_field_provenance
	else:
	if scaffolded_model_output is not None:
	fallback_output, fallback_validation, fallback_scaffold = _run_fallback(
	intake,
	rule_results,
	retrieved,
	floor,
	known_cards,
	retrieved_ids,
	)
	(
	repaired_output,
	repair_validation,
	repair_attempted,
	merged_output,
	merged_validation,
	merged_field_provenance,
	) = _try_field_level_model_output(
	client=client,
	prompt=prompt,
	context=context,
	raw_output=scaffolded_model_output,
	validation_failures=raw_validation["failures"],
	fallback_output=fallback_output,
	known_cards=known_cards,
	floor=floor,
	intake=intake,
	rule_results=rule_results,
	retrieved=retrieved,
	retrieved_ids=retrieved_ids,
	scaffold_patched_fields=scaffold_patched_fields,
	)
	if merged_output is not None and merged_validation is not None:
	final_output = merged_output
	final_validation = merged_validation
	field_provenance = merged_field_provenance
	if (
	field_provenance.get("missing_info_to_collect") == DETERMINISTIC_FALLBACK
	or field_provenance.get("next_observations_to_collect") == DETERMINISTIC_FALLBACK
	):
	_absorb_scaffold_trace(
	fallback_scaffold,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)
	else:
	fallback_reason = fallback_reason or "navigator_validation_failure"
	fallback_used = True
	final_output = fallback_output
	final_validation = fallback_validation
	field_provenance = deterministic_field_provenance()
	_absorb_scaffold_trace(
	fallback_scaffold,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)
	else:
	fallback_used = True
	fallback_output, fallback_validation, fallback_scaffold = _run_fallback(
	intake,
	rule_results,
	retrieved,
	floor,
	known_cards,
	retrieved_ids,
	)
	_absorb_scaffold_trace(
	fallback_scaffold,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)
	final_output = fallback_output
	final_validation = fallback_validation
	field_provenance = deterministic_field_provenance()

	if final_validation["passed"] and config.model_backend != "canned":
	handoff_readiness_before = score_handoff_readiness(
	final_output,
	actual_red_flag_rule_ids=[str(rule.get("rule_id")) for rule in rule_results if rule.get("rule_id")],
	source_card_ids=final_output.get("source_cards", []),
	validation_result=final_validation,
	)
	if handoff_readiness_before.get("handoff_readiness_passed") is not True:
	competence_fallback_output, _competence_fallback_validation, competence_fallback_scaffold = _run_fallback(
	intake,
	rule_results,
	retrieved,
	floor,
	known_cards,
	retrieved_ids,
	)
	(
	competence_repaired_output,
	competence_repair_validation,
	competence_repair_attempted,
	competence_merged_output,
	competence_merged_validation,
	competence_merged_field_provenance,
	) = _try_field_level_model_output(
	client=client,
	prompt=prompt,
	context={
	**context,
	"handoff_readiness_metrics": handoff_readiness_before,
	},
	raw_output=final_output,
	validation_failures=_handoff_competence_failures(handoff_readiness_before),
	fallback_output=competence_fallback_output,
	known_cards=known_cards,
	floor=floor,
	intake=intake,
	rule_results=rule_results,
	retrieved=retrieved,
	retrieved_ids=retrieved_ids,
	scaffold_patched_fields=scaffold_patched_fields,
	)
	competence_repair_scope = "handoff_note_sbar" if competence_repair_attempted else None
	if competence_merged_output is not None and competence_merged_validation is not None:
	after = score_handoff_readiness(
	competence_merged_output,
	actual_red_flag_rule_ids=[str(rule.get("rule_id")) for rule in rule_results if rule.get("rule_id")],
	source_card_ids=competence_merged_output.get("source_cards", []),
	validation_result=competence_merged_validation,
	)
	handoff_readiness_after = after
	if after.get("handoff_readiness_passed") is True:
	final_output = competence_merged_output
	final_validation = competence_merged_validation
	field_provenance = competence_merged_field_provenance
	competence_repair_success = True
	if (
	field_provenance.get("missing_info_to_collect") == DETERMINISTIC_FALLBACK
	or field_provenance.get("next_observations_to_collect") == DETERMINISTIC_FALLBACK
	):
	_absorb_scaffold_trace(
	competence_fallback_scaffold,
	scaffold_patched_fields=scaffold_patched_fields,
	filled_required_observation_ids=filled_required_observation_ids,
	model_selected_required_observation_ids=model_selected_required_observation_ids,
	invalid_selected_required_observation_ids=invalid_selected_required_observation_ids,
	stripped_trace_only_fields=stripped_trace_only_fields,
	)

	field_level_fallback_used = has_deterministic_patches(field_provenance)

	raw_success = raw_attempted and raw_validation["passed"] and not scaffold_patched_fields
	repair_success = repair_attempted and repair_validation["passed"]
	fallback_success = fallback_used and fallback_validation["passed"]
	fallback_tier = "canned" if fallback_used else "configured"
	competence_success = bool(raw_success or repair_success or competence_repair_success)
	model_route = {
	"model_stack": config.model_stack,
	"model_backend": config.model_backend,
	"model_id": config.active_model_id,
	"fallback_tier": fallback_tier,
	"fallback_reason": fallback_reason,
	"field_level_fallback_used": field_level_fallback_used,
	"deterministic_scaffold_patched_fields": sorted(scaffold_patched_fields),
	"filled_required_observation_ids": filled_required_observation_ids,
	"model_selected_required_observation_ids": model_selected_required_observation_ids,
	"invalid_selected_required_observation_ids": invalid_selected_required_observation_ids,
	"stripped_trace_only_fields": stripped_trace_only_fields,
	}
	model_route = derive_model_route(model_route, final_validation, [], field_provenance=field_provenance)
	harness_evidence = build_harness_evidence(
	confirmed_intake=intake,
	retrieved_card_ids=retrieved_ids,
	rule_results=rule_results,
	urgency_floor=floor,
	validator_result=final_validation,
	final_output=final_output,
	model_route=model_route,
	)
	final_output = dict(final_output)
	final_output["harness_evidence"] = harness_evidence
	trace_payload = {
	"case_id": case["case_id"],
	"input_hash": stable_hash(intake),
	"red_flags": rule_results,
	"retrieved_card_ids": retrieved_ids,
	"prompt_template_hash": prompt_hash,
	"model_route": model_route,
	"harness_evidence": harness_evidence,
	"navigator_output": final_output,
	"validator_result": final_validation,
	"field_provenance": field_provenance,
	}

	actual_source_card_ids = [
	str(card_id) for card_id in final_output.get("source_cards", []) if str(card_id)
	]
	actual_candidate_pathway_card_ids = _candidate_pathway_card_ids(
	final_output.get("candidate_protocol_pathways")
	)
	record = {
	"case_id": case["case_id"],
	"case_path": case.get("_case_path"),
	"case_line": case.get("_case_line"),
	"target_protocol_card_id": case.get("target_protocol_card_id"),
	"expected_min_protocol_urgency": case.get("expected_min_protocol_urgency"),
	"expected_red_flag_rule_ids": case.get("expected_red_flag_rule_ids", []),
	"expected_source_card_ids": case.get("expected_source_card_ids", []),
	"expected_candidate_pathway_card_ids": case.get("expected_candidate_pathway_card_ids", []),
	"expected_missing_observations": case.get("expected_missing_observations", []),
	"expected_model_observation_cues": case.get("expected_model_observation_cues", []),
	"expected_handoff_cues": case.get("expected_handoff_cues", []),
	"expected_harness_evidence_cues": case.get("expected_harness_evidence_cues", []),
	"forbidden_behavior": case.get("forbidden_behavior", []),
	"actual_red_flag_rule_ids": [rule["rule_id"] for rule in rule_results],
	"actual_protocol_urgency": final_output.get("protocol_urgency"),
	"actual_source_card_ids": actual_source_card_ids,
	"actual_candidate_pathway_card_ids": actual_candidate_pathway_card_ids,
	"retrieved_card_ids": retrieved_ids,
	"model_backend": config.model_backend,
	"model_stack": config.model_stack,
	"active_model_id": config.active_model_id,
	"fallback_tier": fallback_tier,
	"fallback_reason": fallback_reason,
	"field_level_fallback_used": field_level_fallback_used,
	"deterministic_scaffold_patched_fields": sorted(scaffold_patched_fields),
	"filled_required_observation_ids": filled_required_observation_ids,
	"model_selected_required_observation_ids": model_selected_required_observation_ids,
	"invalid_selected_required_observation_ids": invalid_selected_required_observation_ids,
	"stripped_trace_only_fields": stripped_trace_only_fields,
	"raw_configured_model_attempted": raw_attempted,
	"raw_configured_model_success": raw_success,
	"repair_attempted": repair_attempted,
	"repair_success": repair_success,
	"validation_repair_attempted": repair_attempted,
	"validation_repair_success": repair_success,
	"competence_repair_attempted": competence_repair_attempted,
	"competence_repair_success": competence_repair_success,
	"competence_repair_scope": competence_repair_scope,
	"handoff_readiness_before_competence_repair": handoff_readiness_before,
	"handoff_readiness_after_competence_repair": handoff_readiness_after,
	"canned_fallback_used": fallback_used,
	"canned_fallback_success": fallback_success,
	"competence_success": competence_success,
	"raw_validation": raw_validation,
	"repair_validation": repair_validation,
	"competence_repair_validation": competence_repair_validation,
	"fallback_validation": fallback_validation,
	"validation_result": final_validation,
	"final_validation": final_validation,
	"harness_evidence": harness_evidence,
	"raw_model_output": raw_output,
	"scaffolded_model_output": scaffolded_model_output,
	"repaired_output": repaired_output,
	"competence_repaired_output": competence_repaired_output,
	"fallback_output": fallback_output,
	"final_output": final_output,
	"field_provenance": field_provenance,
	"latency_ms": round((perf_counter() - started) * 1000, 3),
	"trace_hash": stable_hash(trace_payload),
	}
	record["expected_label_score"] = score_expected_labels(record)
	return record


	def _run_fallback(
	intake: dict[str, Any],
	rule_results: list[dict[str, Any]],
	retrieved: list[dict[str, Any]],
	floor: str,
	known_cards: set[str],
	retrieved_ids: list[str],
	) -> tuple[dict[str, Any], dict[str, Any], NavigationScaffoldResult]:
	output = canned_navigator_output(intake, rule_results, retrieved, floor)
	scaffold = apply_navigation_scaffolding(
	output,
	retrieved_cards=retrieved,
	rule_results=rule_results,
	urgency_floor=floor,
	confirmed_intake=intake,
	)
	output = scaffold.output
	validation = _validate_output(output, known_cards, floor, intake, rule_results, retrieved, retrieved_ids)
	return output, validation, scaffold


	def _absorb_scaffold_trace(
	result: NavigationScaffoldResult,
	*,
	scaffold_patched_fields: set[str],
	filled_required_observation_ids: list[str],
	model_selected_required_observation_ids: list[str],
	invalid_selected_required_observation_ids: list[str],
	stripped_trace_only_fields: list[str],
	) -> None:
	scaffold_patched_fields.update(result.patched_fields)
	_extend_unique(filled_required_observation_ids, result.filled_required_observation_ids)
	_extend_unique(model_selected_required_observation_ids, result.model_selected_required_observation_ids)
	_extend_unique(invalid_selected_required_observation_ids, result.invalid_selected_required_observation_ids)
	_extend_unique(stripped_trace_only_fields, result.stripped_trace_only_fields)


	def _extend_unique(items: list[str], values: list[str]) -> None:
	for value in values:
	if value not in items:
	items.append(value)


	def _merge_observation_repair_values(previous_value: Any, repair_value: Any) -> list[str]:
	merged: list[str] = []
	for value in _coerce_text_list(previous_value) + _coerce_text_list(repair_value):
	if value not in merged:
	merged.append(value)
	return merged


	def _coerce_text_list(value: Any) -> list[str]:
	if isinstance(value, list):
	return [str(item).strip() for item in value if str(item).strip()]
	if isinstance(value, str) and value.strip():
	return [value.strip()]
	return []


	def _validate_output(
	output: dict[str, Any],
	known_cards: set[str],
	floor: str,
	intake: dict[str, Any],
	rule_results: list[dict[str, Any]],
	retrieved: list[dict[str, Any]],
	retrieved_ids: list[str],
	) -> dict[str, Any]:
	return validate_navigator_output(
	output,
	known_cards,
	floor,
	confirmed_intake=intake,
	rule_results=rule_results,
	retrieved_card_ids=set(retrieved_ids),
	retrieved_cards=retrieved,
	strict_schema=True,
	).to_dict()


	def _try_field_level_model_output(
	*,
	client: ModelClient,
	prompt: str,
	context: dict[str, Any],
	raw_output: dict[str, Any],
	validation_failures: list[str],
	fallback_output: dict[str, Any],
	known_cards: set[str],
	floor: str,
	intake: dict[str, Any],
	rule_results: list[dict[str, Any]],
	retrieved: list[dict[str, Any]],
	retrieved_ids: list[str],
	scaffold_patched_fields: set[str],
	) -> tuple[dict[str, Any] \| None, dict[str, Any], bool, dict[str, Any] \| None, dict[str, Any] \| None, dict[str, str]]:
	accepted_raw_fields = accepted_raw_fields_from_failures(validation_failures)
	repaired_fields: dict[str, Any] = {}
	repair_attempted = False
	repair_validation = {"passed": False, "failures": ["repair not attempted"]}
	for focused_prompt in build_focused_repair_prompts(
	original_prompt=prompt,
	previous_output=raw_output,
	failures=validation_failures,
	urgency_floor=floor,
	required_observation_targets=required_observation_targets(retrieved),
	):
	repair_attempted = True
	try:
	repair_output = client.generate_json(
	focused_prompt.prompt,
	{
	**context,
	"previous_output": raw_output,
	"validation_failures": validation_failures,
	"repair_scope": focused_prompt.scope.name,
	},
	)
	except ModelClientError as exc:
	repair_validation = {"passed": False, "failures": [f"repair backend error: {exc}"]}
	continue
	if not isinstance(repair_output, dict):
	repair_validation = {"passed": False, "failures": ["repair output was not an object"]}
	continue
	missing_source_cards = missing_mandatory_source_cards(focused_prompt.scope, repair_output)
	if missing_source_cards:
	repair_validation = {
	"passed": False,
	"failures": [
	f"repair omitted mandatory source card {card_id}" for card_id in missing_source_cards
	],
	}
	continue
	for field in focused_prompt.scope.fields:
	if field in repair_output:
	if focused_prompt.scope.name == "missing_observations":
	repaired_fields[field] = _merge_observation_repair_values(
	raw_output.get(field),
	repair_output[field],
	)
	else:
	repaired_fields[field] = repair_output[field]

	merge_candidates = []
	if repaired_fields:
	merge_candidates.append(repaired_fields)
	merge_candidates.append({})
	for candidate_repaired_fields in merge_candidates:
	merge_result = merge_field_provenance(
	raw_output,
	candidate_repaired_fields,
	fallback_output,
	accepted_raw_fields=accepted_raw_fields,
	)
	merged_validation = _validate_output(
	merge_result.output,
	known_cards,
	floor,
	intake,
	rule_results,
	retrieved,
	retrieved_ids,
	)
	if merged_validation["passed"]:
	if merge_result.provenance == deterministic_field_provenance():
	continue
	_mark_deterministic_patch_fields(merge_result.provenance, scaffold_patched_fields)
	if candidate_repaired_fields:
	repair_validation = merged_validation
	return (
	candidate_repaired_fields or None,
	repair_validation,
	repair_attempted,
	merge_result.output,
	merged_validation,
	merge_result.provenance,
	)
	if candidate_repaired_fields:
	repair_validation = merged_validation
	return None, repair_validation, repair_attempted, None, None, {}


	def _mark_deterministic_patch_fields(provenance: dict[str, str], fields: set[str]) -> None:
	for field in fields:
	if field in provenance and provenance[field] != MODEL_REPAIRED:
	provenance[field] = DETERMINISTIC_FALLBACK


	def _observation_patch_repair_failures(
	filled_required_observation_ids: list[str],
	scaffold_patched_fields: set[str],
	) -> list[str]:
	if not {"missing_info_to_collect", "next_observations_to_collect"} & scaffold_patched_fields:
	return []
	card_ids: list[str] = []
	for target_id in filled_required_observation_ids:
	card_id, separator, _index = str(target_id).partition("::required_observation::")
	if separator and card_id and card_id not in card_ids:
	card_ids.append(card_id)
	return [
	f"missing_info_to_collect does not reference required observations for {card_id}"
	for card_id in card_ids
	]


	def _handoff_competence_failures(metrics: dict[str, Any]) -> list[str]:
	failures = ["handoff_note_sbar handoff_readiness_passed failed"]
	for key, value in sorted(metrics.items()):
	if key.startswith("sbar_") and value is False:
	failures.append(f"handoff_note_sbar {key} failed")
	elif key == "handoff_brevity_ok" and value is False:
	failures.append("handoff_note_sbar handoff_brevity_ok failed")
	elif key == "handoff_unsupported_fact_count" and value:
	failures.append(f"handoff_note_sbar unsupported fact count: {value}")
	return failures


	def _repair_prompt(
	original_prompt: str,
	previous_output: dict[str, Any],
	failures: list[str],
	urgency_floor: str,
	) -> str:
	repair_context = {
	"deterministic_validation_failures": failures,
	"urgency_floor": urgency_floor,
	"previous_output": previous_output,
	}
	return (
	f"{original_prompt}\n\n"
	"Your previous JSON failed deterministic validation. Return corrected JSON only.\n"
	"Keep protocol_urgency at or above the urgency_floor, cite only retrieved source_cards, "
	"cite every fired rule card, ground SBAR fields in confirmed intake/rules, and avoid diagnosis, "
	"prescription, dosing, autonomous routing, or treatment language.\n\n"
	f"REPAIR_CONTEXT:\n{json.dumps(repair_context, indent=2, sort_keys=True)}"
	)


	def _candidate_pathway_card_ids(value: Any) -> list[str]:
	if not isinstance(value, list):
	return []
	card_ids: list[str] = []
	for item in value:
	if isinstance(item, dict):
	card_id = item.get("card_id")
	else:
	card_id = item
	if card_id:
	card_ids.append(str(card_id))
	return card_ids


	def _summarize(
	records: list[dict[str, Any]],
	config: FigmentConfig,
	case_paths: list[Path],
	output_path: Path \| None,
	) -> dict[str, Any]:
	summary = summarize_eval_records(records)
	summary.update(
	{
	"model_backend": config.model_backend,
	"model_stack": config.model_stack,
	"active_model_id": config.active_model_id,
	"case_paths": [str(path) for path in case_paths],
	"output_path": str(output_path) if output_path else None,
	}
	)
	runtime_errors = _runtime_error_summary(records)
	summary["runtime_error_summary"] = runtime_errors
	summary["scored_reporting_eligible"] = runtime_errors["critical_runtime_error_count"] == 0
	if config.model_backend == "llama_cpp":
	summary["local_llm_evidence"] = _local_llm_evidence_summary(summary, config)
	return summary


	def _local_llm_evidence_summary(summary: dict[str, Any], config: FigmentConfig) -> dict[str, Any]:
	total_cases = int(summary.get("total_cases", 0))
	competence_successes = int(summary.get("competence_successes", 0))
	return {
	"proof_status": "eval_records_summarized",
	"model_backend": config.model_backend,
	"model_stack": config.model_stack,
	"model_id": config.active_model_id,
	"llama_base_url": config.llama_base_url,
	"server_command": os.getenv("LLAMA_SERVER_COMMAND") or None,
	"gguf_path": os.getenv("LOCAL_GGUF_PATH") or os.getenv("LLAMA_ARG_MODEL") or None,
	"gguf_sha256": os.getenv("LOCAL_GGUF_SHA256") or None,
	"n_ctx": _optional_int_env("LLAMA_N_CTX") or _optional_int_env("LLAMA_ARG_CTX_SIZE"),
	"n_parallel": _optional_int_env("LLAMA_N_PARALLEL") or _optional_int_env("LLAMA_ARG_N_PARALLEL"),
	"prompt_cache": os.getenv("LLAMA_PROMPT_CACHE") or None,
	"models_endpoint": _models_endpoint_metadata(config.llama_base_url),
	"runtime_error_summary": summary.get("runtime_error_summary", {}),
	"scored_reporting_eligible": summary.get("scored_reporting_eligible"),
	"total_cases": total_cases,
	"competence_successes": competence_successes,
	"raw_configured_model_successes": summary.get("raw_configured_model_successes", 0),
	"repair_successes": summary.get("repair_successes", 0),
	"fallback_uses": summary.get("fallback_uses", 0),
	"final_validation_successes": summary.get("final_validation_successes", 0),
	"counts_as_50_case_local_llm_eval": total_cases >= 50,
	"counts_as_50_case_local_llm_competence": total_cases >= 50 and competence_successes > 0,
	"no_cloud_note": (
	"MODEL_BACKEND=llama_cpp calls the configured local OpenAI-compatible LLAMA_BASE_URL. "
	"Record server /v1/models metadata and network isolation evidence beside the trace."
	),
	"real_eval_command": REAL_LLAMA_CPP_EVAL_COMMAND,
	}


	def _runtime_error_summary(records: list[dict[str, Any]]) -> dict[str, Any]:
	markers = {
	"context_size_exceeded": ("Context size has been exceeded",),
	"kv_cache_failure": ("failed to find free space in the KV cache", "KV cache"),
	"server_http_500": ("http_status=500", "HTTP Error 500", " 500 "),
	}
	text_by_record = {
	str(record.get("case_id") or index): json.dumps(
	{
	"raw_validation": record.get("raw_validation"),
	"repair_validation": record.get("repair_validation"),
	"competence_repair_validation": record.get("competence_repair_validation"),
	"fallback_validation": record.get("fallback_validation"),
	"final_validation": record.get("final_validation"),
	},
	sort_keys=True,
	)
	for index, record in enumerate(records, start=1)
	}
	summary: dict[str, Any] = {
	"context_size_exceeded": False,
	"kv_cache_failure": False,
	"server_http_500": False,
	"critical_runtime_error_count": 0,
	"affected_case_ids": [],
	}
	affected: set[str] = set()
	for case_id, text in text_by_record.items():
	for key, key_markers in markers.items():
	if any(marker in text for marker in key_markers):
	summary[key] = True
	affected.add(case_id)
	summary["affected_case_ids"] = sorted(affected)
	summary["critical_runtime_error_count"] = sum(
	int(bool(summary[key])) for key in ("context_size_exceeded", "kv_cache_failure", "server_http_500")
	)
	return summary


	def _models_endpoint_metadata(base_url: str) -> dict[str, Any]:
	url = _openai_models_url(base_url)
	try:
	with urllib.request.urlopen(url, timeout=2.0) as response:
	payload = json.loads(response.read().decode("utf-8"))
	except (OSError, TimeoutError, urllib.error.URLError, json.JSONDecodeError) as exc:
	return {"url": url, "available": False, "error": str(exc)[:200]}
	return {"url": url, "available": True, "payload": payload}


	def _openai_models_url(base_url: str) -> str:
	parts = urllib.parse.urlsplit(base_url.strip())
	path = parts.path.rstrip("/")
	if path.endswith("/v1"):
	path = f"{path}/models"
	elif path.endswith("/models"):
	pass
	else:
	path = f"{path}/models" if path else "/v1/models"
	return urllib.parse.urlunsplit((parts.scheme, parts.netloc, path, "", ""))


	def _optional_int_env(name: str) -> int \| None:
	value = os.getenv(name, "").strip()
	if not value:
	return None
	try:
	return int(value)
	except ValueError:
	return None


	def _write_eval_bundle_metadata(
	summary: dict[str, Any],
	records: list[dict[str, Any]],
	config: FigmentConfig,
	case_paths: list[Path],
	output_path: Path,
	) -> None:
	output_dir = output_path.parent
	output_dir.mkdir(parents=True, exist_ok=True)
	summary_path = output_dir / "eval_summary.json"
	manifest_path = output_dir / "eval_evidence_manifest.json"
	summary_path.write_text(json.dumps(summary, indent=2, sort_keys=True) + "\n", encoding="utf-8")
	manifest = {
	"output_jsonl": str(output_path),
	"summary_json": str(summary_path),
	"case_paths": [str(path) for path in case_paths],
	"model_backend": config.model_backend,
	"model_stack": config.model_stack,
	"active_model_id": config.active_model_id,
	"total_cases": len(records),
	"trace_hashes": [
	{"case_id": record.get("case_id"), "trace_hash": record.get("trace_hash")}
	for record in records
	],
	"all_trace_hashes_present": all(bool(record.get("trace_hash")) for record in records),
	"runtime_error_summary": summary.get("runtime_error_summary", {}),
	"scored_reporting_eligible": summary.get("scored_reporting_eligible"),
	"local_llm_evidence": summary.get("local_llm_evidence"),
	}
	manifest_path.write_text(json.dumps(manifest, indent=2, sort_keys=True) + "\n", encoding="utf-8")


	def main(argv: list[str] \| None = None) -> int:
	parser = argparse.ArgumentParser(description=__doc__)
	parser.add_argument("--backend", choices=["canned", "hosted_omni", "llama_cpp"], default="canned")
	parser.add_argument("--model-stack", choices=["omni_native", "local_4b_parakeet"], default=None)
	parser.add_argument("--cases", action="append", default=None, help="JSONL eval case path. Repeatable.")
	parser.add_argument("--output", default="-", help="JSONL result path, or '-' for stdout.")
	parser.add_argument("--limit", type=int, default=None)
	args = parser.parse_args(argv)

	case_paths = [Path(path) for path in args.cases] if args.cases else sorted(Path().glob(DEFAULT_CASE_GLOB))
	if not case_paths:
	raise SystemExit(f"no eval case files matched {DEFAULT_CASE_GLOB}")
	output_path = None if args.output == "-" else Path(args.output)
	config = _config_for_backend(args.backend, args.model_stack)
	summary = run_eval(case_paths=case_paths, output_path=output_path, config=config, limit=args.limit)
	if output_path is None:
	print(json.dumps(summary, indent=2, sort_keys=True), file=sys.stderr)
	else:
	print(json.dumps(summary, indent=2, sort_keys=True))
	return 0


	def _config_for_backend(backend: str, model_stack: str \| None) -> FigmentConfig:
	if backend == "canned":
	return FigmentConfig(model_backend="canned", model_stack=model_stack or "omni_native").validated()
	stack = model_stack or ("local_4b_parakeet" if backend == "llama_cpp" else "omni_native")
	base = FigmentConfig.from_env()
	return replace(base, model_backend=backend, model_stack=stack).validated()


	if __name__ == "__main__":
	raise SystemExit(main())