Spaces:

Ishangtxl
/

SafeSpace

Running

App Files Files Community

SafeSpace / tests /test_inference.py

Ishangtxl

Upload folder using huggingface_hub

1ccd052 verified about 2 months ago

raw

history blame contribute delete

31.4 kB

	"""Tests for the canonical baseline evaluator helpers."""

	import asyncio
	import json
	from types import SimpleNamespace

	import pytest

	import content_moderation_env.inference as inference_module
	from content_moderation_env.inference import (
	EpisodeExecutionError,
	InferenceConfigurationError,
	ModelRequestError,
	OPENAI_SEED,
	SafeSpaceAgent,
	build_failed_episode_result,
	calibrate_confidence,
	compact_trigger_info_for_prompt,
	heuristic_investigation_candidates,
	infer_difficulty,
	infer_task_id,
	load_scenario_ids,
	main,
	normalize_factors,
	normalize_violation,
	parse_json_response,
	run_episode,
	run_task_evaluation,
	resolve_env_target,
	resolve_api_key_and_source,
	sanitize_prompt_text,
	summarize_task,
	validate_runtime_configuration,
	)
	from content_moderation_env.models import (
	ContentItem,
	GatheredContext,
	ModerationAction,
	ModerationObservation,
	TriggerInfo,
	)


	class FakeAgent:
	"""Stub agent for inference tests."""

	def decide_investigation(self, observation, difficulty):
	return ["thread_context"]

	def make_decision(self, observation, difficulty):
	return ModerationAction(
	action_type="decide",
	decision="approve",
	primary_violation="none",
	severity="none",
	confidence=0.7,
	key_factors=["no_violation_found"],
	)


	class FakeEnv:
	"""Minimal async-client-like object for testing run_episode."""

	def __init__(self):
	self._reward = 0.0
	self._step_index = 0

	async def reset(self, **kwargs):
	self._reward = 0.0
	self._step_index = 0
	return SimpleNamespace(
	observation=ModerationObservation(
	content_item=ContentItem(
	text="Looks bad at first glance",
	post_id="p_test",
	author_id="user_test",
	community="general",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text",
	media_description=None,
	),
	trigger_info=TriggerInfo(trigger_type="user_report"),
	gathered_context=GatheredContext(),
	platform_policy="policy",
	available_factors=["no_violation_found"],
	actions_taken=0,
	max_actions=8,
	action_history=[],
	feedback="ready",
	),
	reward=None,
	done=False,
	)

	async def step(self, action):
	self._step_index += 1
	if action.action_type == "request_thread_context":
	self._reward += 0.04
	return SimpleNamespace(
	observation=ModerationObservation(
	content_item=ContentItem(
	text="Looks bad at first glance",
	post_id="p_test",
	author_id="user_test",
	community="general",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text",
	media_description=None,
	),
	trigger_info=TriggerInfo(trigger_type="user_report"),
	gathered_context=GatheredContext(
	thread_context=[{"author": "user_other", "text": "friendly banter"}]
	),
	platform_policy="policy",
	available_factors=["no_violation_found"],
	actions_taken=1,
	max_actions=8,
	action_history=["request_thread_context"],
	feedback="context",
	reward_breakdown={"score": 0.04},
	task_grade=None,
	grade_breakdown=None,
	),
	reward=0.04,
	done=False,
	)

	self._reward += 0.60
	return SimpleNamespace(
	observation=ModerationObservation(
	content_item=ContentItem(
	text="Looks bad at first glance",
	post_id="p_test",
	author_id="user_test",
	community="general",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text",
	media_description=None,
	),
	trigger_info=TriggerInfo(trigger_type="user_report"),
	gathered_context=GatheredContext(
	thread_context=[{"author": "user_other", "text": "friendly banter"}]
	),
	platform_policy="policy",
	available_factors=["no_violation_found"],
	actions_taken=1,
	max_actions=8,
	action_history=["request_thread_context", "decide: approve"],
	feedback="done",
	reward_breakdown={"score": 0.60},
	task_grade=0.81,
	grade_breakdown={"total": 0.81},
	done=True,
	reward=0.60,
	),
	reward=0.60,
	done=True,
	)

	async def state(self):
	return SimpleNamespace(
	difficulty="medium",
	episode_reward=self._reward,
	raw_episode_reward=self._reward,
	)


	def test_parse_json_response_handles_wrapped_json():
	"""The evaluator should extract JSON from chatty model output."""
	parsed = parse_json_response("Here you go:\n{\"decision\":\"approve\"}")
	assert parsed == {"decision": "approve"}


	def test_resolve_api_key_and_source_prefers_documented_precedence(monkeypatch):
	"""Credential resolution should prefer HF_TOKEN, then OpenAI-compatible fallbacks."""
	monkeypatch.delenv("OPENAI_API_KEY", raising=False)
	monkeypatch.delenv("API_KEY", raising=False)
	monkeypatch.delenv("HF_TOKEN", raising=False)
	monkeypatch.delenv("AZURE_OPENAI_API_KEY", raising=False)

	monkeypatch.setenv("HF_TOKEN", "hf-token")
	monkeypatch.setenv("API_KEY", "api-token")
	monkeypatch.setenv("OPENAI_API_KEY", "openai-token")
	assert resolve_api_key_and_source() == ("hf-token", "HF_TOKEN")

	monkeypatch.delenv("HF_TOKEN")
	assert resolve_api_key_and_source() == ("openai-token", "OPENAI_API_KEY")

	monkeypatch.delenv("OPENAI_API_KEY")
	assert resolve_api_key_and_source() == ("api-token", "API_KEY")

	monkeypatch.delenv("API_KEY")
	monkeypatch.setenv("AZURE_OPENAI_API_KEY", "azure-token")
	assert resolve_api_key_and_source() == ("azure-token", "AZURE_OPENAI_API_KEY")


	def test_run_episode_uses_cumulative_episode_reward(monkeypatch, capsys):
	"""Inference should report both episode reward and normalized task grade."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", "test-model")
	result = asyncio.run(run_episode(FakeEnv(), FakeAgent(), "med_test"))
	assert result["scenario_id"] == "med_test"
	assert result["task_id"] == "context_dependent"
	assert result["episode_reward"] == 0.64
	assert result["raw_episode_reward"] == 0.64
	assert result["task_grade"] == 0.81
	assert result["investigation_plan"] == ["thread_context"]
	assert result["steps_taken"] == 2
	assert result["step_rewards"] == [0.04, 0.60]
	assert result["status"] == "success"
	assert result["failure"] is None
	stdout_lines = capsys.readouterr().out.strip().splitlines()
	assert stdout_lines == [
	"[START] task=context_dependent env=safespace model=test-model",
	"[STEP] step=1 action=request_thread_context reward=0.04 done=false error=null",
	"[STEP] step=2 action=decide:approve:none:none:0.70 reward=0.60 done=true error=null",
	"[END] success=true steps=2 score=0.810 rewards=0.04,0.60",
	]


	def test_infer_task_and_difficulty_from_scenario_prefix():
	"""Scenario prefixes should resolve to canonical benchmark buckets."""
	assert infer_task_id("easy_001") == "clear_violations"
	assert infer_task_id("med_plus_001") == "context_dependent"
	assert infer_task_id("hard_001") == "policy_edge_cases"
	assert infer_difficulty(None, "hard_plus_005") == "hard"


	def test_build_failed_episode_result_uses_open_interval_fallbacks():
	"""Failed episodes should contribute conservative validator-safe scores."""
	result = build_failed_episode_result(
	task_id="context_dependent",
	scenario_id="med_fail",
	stage="make_decision",
	error="synthetic failure",
	)

	assert result["task_id"] == "context_dependent"
	assert result["difficulty"] == "medium"
	assert result["episode_reward"] == 0.0
	assert result["raw_episode_reward"] == 0.0
	assert result["task_grade"] == pytest.approx(inference_module.clamp_score(0.0))
	assert result["status"] == "failed"
	assert result["failure"]["stage"] == "make_decision"
	assert result["step_rewards"] == []
	assert result["steps_taken"] == 0


	def test_normalize_violation_maps_verbose_labels():
	"""Verbose model labels should collapse to canonical policy IDs."""
	assert normalize_violation("3.1 Targeted Harassment", "remove") == "3.1"
	assert normalize_violation("privacy doxxing", "remove") == "7.1"
	assert normalize_violation("1.1 Baseline Expectations", "warn") == "1.1"
	assert normalize_violation("bad faith participation", "warn") == "1.2"


	def test_normalize_factors_maps_aliases_and_falls_back():
	"""Free-form factor phrases should map to canonical factor names."""
	normalized = normalize_factors(
	["gaming_context", "quoted_for_reporting"],
	["gaming_or_competition_context", "quoting_or_reporting", "no_violation_found"],
	"approve",
	)
	assert normalized == ["gaming_or_competition_context", "quoting_or_reporting"]
	assert normalize_factors([], ["no_violation_found"], "approve") == ["no_violation_found"]


	def test_calibrate_confidence_reduces_hard_case_overconfidence():
	"""Hard cases should not stay overconfident after sparse investigation."""
	assert calibrate_confidence(0.99, "hard", "remove", 1) <= 0.65
	assert calibrate_confidence(0.99, "hard", "escalate", 3) <= 0.38


	def test_sanitize_prompt_text_redacts_high_risk_literals():
	"""Prompt sanitization should redact violent and private details."""
	sanitized = sanitize_prompt_text(
	"I will kill you at 123 Main St and call 206-555-0147 tonight."
	)
	assert "[violent_phrase]" in sanitized
	assert "[private_address]" in sanitized
	assert "[phone_number]" in sanitized


	def test_sanitize_prompt_text_redacts_medical_claim_transport_tokens():
	"""Known provider-filter-prone medical phrases should be redacted in transport."""
	sanitized = sanitize_prompt_text(
	"Vaccines cause autism. Big pharma is hiding the truth."
	)
	assert "[medical_misinformation_claim]" in sanitized
	assert "[industry_conspiracy_reference]" in sanitized


	def test_compact_trigger_info_for_prompt_drops_noisy_fields():
	"""Prompt trigger payload should keep only high-signal structured fields."""
	compact = compact_trigger_info_for_prompt(
	{
	"trigger_type": "user_report",
	"report_count": 12,
	"report_categories": ["privacy", "threats"],
	"sample_report_reason": "long free-form reason",
	"auto_flag_reason": None,
	"original_decision": None,
	"appeal_text": None,
	"audit_reason": None,
	}
	)

	assert compact == {
	"trigger_type": "user_report",
	"report_count": 12,
	}


	def test_heuristic_investigation_prefers_links_for_suspicious_link_case():
	"""Link-heavy cases should prioritize linked content investigation."""
	observation = ModerationObservation(
	content_item=ContentItem(
	post_id="p_link",
	text="Free remote job checklist, totally legit.",
	author_id="user_link",
	community="careers",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text+link",
	media_description="suspicious link",
	),
	trigger_info=TriggerInfo(
	trigger_type="auto_flag",
	auto_flag_reason="suspicious_link_score: 0.71",
	),
	gathered_context=GatheredContext(),
	platform_policy="policy",
	available_factors=["harmful_link"],
	actions_taken=0,
	max_actions=8,
	action_history=[],
	feedback="ready",
	)
	assert "linked_content_summary" in heuristic_investigation_candidates(observation, "medium")


	def test_heuristic_investigation_prefers_author_history_for_repeat_spam_case():
	"""Borderline self-promo should inspect author history before anything else."""
	observation = ModerationObservation(
	content_item=ContentItem(
	post_id="p_promo",
	text="Hey everyone! Just launched my new productivity app - it's free to try.",
	author_id="user_dev_spam",
	community="productivity",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text+link",
	media_description="Link to a mobile app download page",
	),
	trigger_info=TriggerInfo(
	trigger_type="auto_flag",
	auto_flag_reason="spam_score: 0.65 (promotional language detected)",
	),
	gathered_context=GatheredContext(),
	platform_policy="policy",
	available_factors=["repeat_offender", "spam_commercial"],
	actions_taken=0,
	max_actions=8,
	action_history=[],
	feedback="ready",
	)

	assert heuristic_investigation_candidates(observation, "medium")[0] == "author_violations"


	def test_summarize_task_prefers_task_grade_as_headline_metric():
	"""Task summaries should aggregate grade and reward separately."""
	summary = summarize_task(
	"context_dependent",
	[
	{
	"task_grade": 0.8,
	"episode_reward": 0.5,
	"raw_episode_reward": 0.4,
	"decision": "approve",
	},
	{
	"task_grade": 0.6,
	"episode_reward": 0.3,
	"raw_episode_reward": 0.2,
	"decision": "remove",
	},
	],
	)

	assert summary["average_task_grade"] == 0.7
	assert summary["average_reward"] == 0.4
	assert summary["average_raw_reward"] == pytest.approx(0.3)
	assert summary["decision_distribution"] == {"approve": 1, "remove": 1}


	def test_run_task_evaluation_records_failed_episode_metadata():
	"""A failed scenario should be counted, surfaced, and low-scored."""

	class FailingAgent(FakeAgent):
	def make_decision(self, observation, difficulty):
	del observation, difficulty
	raise ModelRequestError("decision failure")

	summary, failure_details = asyncio.run(
	run_task_evaluation(
	FakeEnv(),
	FailingAgent(),
	"context_dependent",
	["med_fail"],
	)
	)

	assert summary["num_scenarios"] == 1
	assert summary["successful_scenarios"] == 0
	assert summary["failed_scenarios"] == 1
	assert summary["average_task_grade"] == pytest.approx(inference_module.clamp_score(0.0))
	assert summary["average_reward"] == 0.0
	assert summary["results"][0]["status"] == "failed"
	assert failure_details == [
	{
	"scenario_id": "med_fail",
	"task_id": "context_dependent",
	"stage": "make_decision",
	"error": "decision failure",
	}
	]


	def test_run_episode_wraps_stage_failures_with_episode_metadata():
	"""Low-level episode failures should retain scenario and stage context."""

	class BrokenEnv(FakeEnv):
	async def reset(self, **kwargs):
	del kwargs
	raise RuntimeError("reset failed")

	with pytest.raises(EpisodeExecutionError) as exc_info:
	asyncio.run(
	run_episode(BrokenEnv(), FakeAgent(), "med_fail", task_id="context_dependent")
	)

	assert exc_info.value.scenario_id == "med_fail"
	assert exc_info.value.task_id == "context_dependent"
	assert exc_info.value.stage == "reset"


	def test_safe_space_agent_passes_fixed_seed_to_openai_client():
	"""OpenAI calls should use the fixed seed for reproducible outputs."""

	class StubCompletions:
	def __init__(self):
	self.kwargs = None

	def create(self, **kwargs):
	self.kwargs = kwargs
	return SimpleNamespace(
	choices=[SimpleNamespace(message=SimpleNamespace(content='{"decision":"approve"}'))]
	)

	completions = StubCompletions()
	agent = object.__new__(SafeSpaceAgent)
	agent.client = SimpleNamespace(chat=SimpleNamespace(completions=completions))
	agent.model = "test-model"

	parsed = agent._call_llm("hello") # pylint: disable=protected-access

	assert parsed == {"decision": "approve"}
	assert completions.kwargs is not None
	assert completions.kwargs["seed"] == OPENAI_SEED
	assert completions.kwargs["max_completion_tokens"] == inference_module.MAX_TOKENS


	def test_safe_space_agent_falls_back_to_max_tokens_when_provider_rejects_max_completion_tokens():
	"""Unsupported max_completion_tokens should retry with max_tokens."""

	class StubCompletions:
	def __init__(self):
	self.calls = []

	def create(self, **kwargs):
	self.calls.append(kwargs)
	if len(self.calls) == 1:
	raise RuntimeError("Unsupported parameter: max_completion_tokens")
	return SimpleNamespace(
	choices=[SimpleNamespace(message=SimpleNamespace(content='{"decision":"approve"}'))]
	)

	completions = StubCompletions()
	agent = object.__new__(SafeSpaceAgent)
	agent.client = SimpleNamespace(chat=SimpleNamespace(completions=completions))
	agent.model = "test-model"

	parsed = agent._call_llm("hello") # pylint: disable=protected-access

	assert parsed == {"decision": "approve"}
	assert "max_completion_tokens" in completions.calls[0]
	assert "max_tokens" in completions.calls[1]
	assert completions.calls[1]["seed"] == OPENAI_SEED


	def test_safe_space_agent_retries_without_seed_when_provider_rejects_seed():
	"""Seed rejection should retry once without the seed parameter."""

	class StubCompletions:
	def __init__(self):
	self.calls = []

	def create(self, **kwargs):
	self.calls.append(kwargs)
	if len(self.calls) == 1:
	raise RuntimeError("Unexpected keyword argument 'seed'")
	return SimpleNamespace(
	choices=[SimpleNamespace(message=SimpleNamespace(content='{"decision":"approve"}'))]
	)

	completions = StubCompletions()
	agent = object.__new__(SafeSpaceAgent)
	agent.client = SimpleNamespace(chat=SimpleNamespace(completions=completions))
	agent.model = "test-model"

	parsed = agent._call_llm("hello") # pylint: disable=protected-access

	assert parsed == {"decision": "approve"}
	assert completions.calls[0]["seed"] == OPENAI_SEED
	assert "seed" not in completions.calls[1]


	def test_safe_space_agent_investigation_falls_back_to_heuristic_on_model_error():
	"""Investigation planning should fall back to deterministic heuristics."""
	agent = object.__new__(SafeSpaceAgent)
	agent._call_llm = lambda prompt: (_ for _ in ()).throw(ModelRequestError("filtered")) # type: ignore[attr-defined]

	observation = ModerationObservation(
	content_item=ContentItem(
	post_id="p_promo",
	text="Hey everyone! Just launched my new productivity app - it's free to try.",
	author_id="user_dev_spam",
	community="productivity",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text+link",
	media_description="Link to a mobile app download page",
	),
	trigger_info=TriggerInfo(
	trigger_type="auto_flag",
	auto_flag_reason="spam_score: 0.65 (promotional language detected)",
	),
	gathered_context=GatheredContext(),
	platform_policy="policy",
	available_factors=["repeat_offender", "spam_commercial"],
	actions_taken=0,
	max_actions=8,
	action_history=[],
	feedback="ready",
	)

	assert agent.decide_investigation(observation, "medium") == ["author_violations"]


	def test_safe_space_agent_decision_falls_back_to_heuristic_on_model_error():
	"""Final decisions should fall back to deterministic heuristics."""
	agent = object.__new__(SafeSpaceAgent)
	agent._call_llm = lambda prompt: (_ for _ in ()).throw(ModelRequestError("filtered")) # type: ignore[attr-defined]

	observation = ModerationObservation(
	content_item=ContentItem(
	post_id="p_spam",
	text="MAKE $5000 DAILY working from home! Click here for secret method!",
	author_id="user_spam",
	community="general",
	timestamp="2026-01-01T00:00:00Z",
	media_type="text",
	media_description=None,
	),
	trigger_info=TriggerInfo(
	trigger_type="auto_flag",
	auto_flag_reason="spam_score: 0.95",
	),
	gathered_context=GatheredContext(),
	platform_policy="policy",
	available_factors=[
	"spam_commercial",
	"clear_violation_no_exception",
	"auto_flag_high_confidence",
	],
	actions_taken=0,
	max_actions=8,
	action_history=[],
	feedback="ready",
	)

	decision = agent.make_decision(observation, "easy")

	assert decision.decision == "remove"
	assert decision.primary_violation == "5.1"
	assert decision.severity == "high"


	def test_safe_space_agent_does_not_retry_on_auth_or_network_failures():
	"""Non-parameter failures should fail loudly without compatibility retries."""

	class StubCompletions:
	def __init__(self):
	self.call_count = 0

	def create(self, **kwargs):
	del kwargs
	self.call_count += 1
	raise RuntimeError("401 Unauthorized")

	completions = StubCompletions()
	agent = object.__new__(SafeSpaceAgent)
	agent.client = SimpleNamespace(chat=SimpleNamespace(completions=completions))
	agent.model = "test-model"

	with pytest.raises(ModelRequestError):
	agent._call_llm("hello") # pylint: disable=protected-access

	assert completions.call_count == 1


	def test_safe_space_agent_raises_on_unparseable_response():
	"""Non-JSON model output should fail loudly."""

	class StubCompletions:
	def create(self, **kwargs):
	del kwargs
	return SimpleNamespace(
	choices=[SimpleNamespace(message=SimpleNamespace(content="not json at all"))]
	)

	agent = object.__new__(SafeSpaceAgent)
	agent.client = SimpleNamespace(chat=SimpleNamespace(completions=StubCompletions()))
	agent.model = "test-model"

	with pytest.raises(ModelRequestError):
	agent._call_llm("hello") # pylint: disable=protected-access


	def test_load_scenario_ids_reads_canonical_manifest():
	"""Canonical evaluation should load the 20-scenario manifest split."""
	scenario_ids = load_scenario_ids("context_dependent", "canonical")
	assert len(scenario_ids) == 20
	assert len(set(scenario_ids)) == 20


	def test_load_scenario_ids_full_mode_starts_with_canonical_split():
	"""Full mode should begin with the canonical benchmark IDs for smoke friendliness."""
	canonical = load_scenario_ids("policy_edge_cases", "canonical")
	full = load_scenario_ids("policy_edge_cases", "full")
	assert full[: len(canonical)] == canonical


	def test_validate_runtime_configuration_returns_manifest_metadata(monkeypatch):
	"""Config validation should include manifest and seed metadata."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", "test-model")
	monkeypatch.delenv("API_KEY", raising=False)
	monkeypatch.delenv("HF_TOKEN", raising=False)
	monkeypatch.setenv("OPENAI_API_KEY", "test-key")
	metadata = validate_runtime_configuration("canonical")

	assert metadata["manifest_version"]
	assert metadata["canonical_task_counts"]["clear_violations"] == 20
	assert metadata["api_key_source"] == "OPENAI_API_KEY"
	assert metadata["openai_seed"] == OPENAI_SEED
	assert metadata["connection_mode"] == "base_url"


	def test_validate_runtime_configuration_requires_model_name(monkeypatch):
	"""Missing MODEL_NAME should fail fast."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", None)
	monkeypatch.delenv("API_KEY", raising=False)
	monkeypatch.delenv("HF_TOKEN", raising=False)
	monkeypatch.setenv("OPENAI_API_KEY", "test-key")

	with pytest.raises(InferenceConfigurationError):
	validate_runtime_configuration("canonical")


	def test_validate_runtime_configuration_requires_api_key(monkeypatch):
	"""Missing API key should fail fast."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", "test-model")
	monkeypatch.delenv("OPENAI_API_KEY", raising=False)
	monkeypatch.delenv("API_KEY", raising=False)
	monkeypatch.delenv("HF_TOKEN", raising=False)
	monkeypatch.delenv("AZURE_OPENAI_API_KEY", raising=False)

	with pytest.raises(InferenceConfigurationError):
	validate_runtime_configuration("canonical")


	def test_resolve_env_target_prefers_local_image_when_no_url(monkeypatch):
	"""A local image should be used only when no URL target is configured."""
	monkeypatch.setattr(inference_module, "ENV_BASE_URL", None)
	monkeypatch.setattr(inference_module, "LOCAL_IMAGE_NAME", "safespace:latest")

	target = resolve_env_target(None)

	assert target == {
	"connection_mode": "local_image",
	"env_base_url": None,
	"local_image_name": "safespace:latest",
	}


	def test_main_validate_config_prints_manifest_metadata(monkeypatch, capsys):
	"""CLI validation mode should emit the manifest version and counts."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", "test-model")
	monkeypatch.setattr(inference_module, "API_BASE_URL", "https://example.invalid/v1")
	monkeypatch.setattr(inference_module, "ENV_BASE_URL", "http://localhost:8000")
	monkeypatch.setattr(inference_module, "LOCAL_IMAGE_NAME", None)
	monkeypatch.delenv("OPENAI_API_KEY", raising=False)
	monkeypatch.delenv("HF_TOKEN", raising=False)
	monkeypatch.setenv("API_KEY", "test-key")
	monkeypatch.setattr(
	inference_module.argparse.ArgumentParser,
	"parse_args",
	lambda self: SimpleNamespace(
	mode="canonical",
	limit_per_task=None,
	validate_config=True,
	env_base_url="http://localhost:8000",
	summary_json_path=None,
	),
	)

	main()
	payload = json.loads(capsys.readouterr().out)
	assert payload["manifest_version"]
	assert payload["canonical_task_counts"]["policy_edge_cases"] == 20
	assert payload["api_key_source"] == "API_KEY"
	assert payload["connection_mode"] == "base_url"


	def test_main_evaluation_summary_includes_failure_metadata(monkeypatch, capsys, tmp_path):
	"""CLI evaluation mode should write aggregate JSON to the requested summary path."""
	monkeypatch.setattr(inference_module, "MODEL_NAME", "test-model")
	monkeypatch.setattr(inference_module, "API_BASE_URL", "https://example.invalid/v1")
	monkeypatch.setattr(inference_module, "ENV_BASE_URL", "http://localhost:8000")
	monkeypatch.setattr(inference_module, "LOCAL_IMAGE_NAME", None)
	monkeypatch.delenv("OPENAI_API_KEY", raising=False)
	monkeypatch.delenv("API_KEY", raising=False)
	monkeypatch.setenv("HF_TOKEN", "test-key")
	summary_path = tmp_path / "summary.json"
	monkeypatch.setattr(
	inference_module.argparse.ArgumentParser,
	"parse_args",
	lambda self: SimpleNamespace(
	mode="canonical",
	limit_per_task=1,
	validate_config=False,
	env_base_url="http://localhost:8000",
	summary_json_path=str(summary_path),
	),
	)

	class DummySafeSpaceEnv:
	async def __aenter__(self):
	return self

	async def __aexit__(self, exc_type, exc, tb):
	del exc_type, exc, tb
	return False

	async def fake_create_env_client(explicit_base_url):
	del explicit_base_url
	return DummySafeSpaceEnv()

	async def fake_run_task_evaluation(env, agent, task_id, scenario_ids):
	del env, agent
	result = {
	"scenario_id": scenario_ids[0],
	"task_id": task_id,
	"difficulty": inference_module.TASK_TO_DIFFICULTY[task_id],
	"episode_reward": 1.0 if task_id != "context_dependent" else 0.0,
	"raw_episode_reward": 0.8 if task_id != "context_dependent" else 0.0,
	"task_grade": (
	inference_module.clamp_score(1.0)
	if task_id != "context_dependent"
	else inference_module.clamp_score(0.0)
	),
	"decision": "approve" if task_id != "context_dependent" else None,
	"confidence": 0.9 if task_id != "context_dependent" else None,
	"investigation_plan": [],
	"step_rewards": [],
	"steps_taken": 0,
	"final_reward_breakdown": None,
	"final_grade_breakdown": None,
	"status": "success" if task_id != "context_dependent" else "failed",
	"failure": (
	None
	if task_id != "context_dependent"
	else {
	"scenario_id": scenario_ids[0],
	"task_id": task_id,
	"stage": "make_decision",
	"error": "synthetic failure",
	}
	),
	}
	failures = [] if result["failure"] is None else [result["failure"]]
	summary = summarize_task(task_id, [result])
	summary["successful_scenarios"] = 1 - len(failures)
	summary["failed_scenarios"] = len(failures)
	summary["failure_details"] = failures
	return summary, failures

	monkeypatch.setattr(inference_module, "SafeSpaceAgent", lambda: object())
	monkeypatch.setattr(inference_module, "create_env_client", fake_create_env_client)
	monkeypatch.setattr(
	inference_module,
	"load_scenario_ids",
	lambda task_id, mode: [f"{task_id}_{mode}_001"],
	)
	monkeypatch.setattr(
	inference_module,
	"run_task_evaluation",
	fake_run_task_evaluation,
	)

	main()
	assert capsys.readouterr().out == ""
	payload = json.loads(summary_path.read_text())

	assert payload["total_scenarios"] == 3
	assert payload["successful_scenarios"] == 2
	assert payload["failed_scenarios"] == 1
	assert payload["failure_count"] == 1
	assert payload["api_key_source"] == "HF_TOKEN"
	assert payload["overall_average_raw_reward"] == pytest.approx((0.8 + 0.0 + 0.8) / 3)
	assert payload["failure_details"] == [
	{
	"scenario_id": "context_dependent_canonical_001",
	"task_id": "context_dependent",
	"stage": "make_decision",
	"error": "synthetic failure",
	}
	]