Spaces:

abrown31
/

open-range

Runtime error

open-range / tests /test_trajectory.py

Aaron Brown

Add episode CLI, synthetic data pipeline, NPC generalization, service manifest

f016eb7 2 months ago

12.5 kB

	"""Tests for TrajectoryLogger -- JSONL export for SFT warm-start."""

	import json
	from pathlib import Path

	import pytest

	from open_range.training.trajectory import (
	Episode,
	TrajectoryLogger,
	Turn,
	RED_SYSTEM_PROMPT,
	BLUE_SYSTEM_PROMPT,
	)


	# ---------------------------------------------------------------------------
	# Turn dataclass
	# ---------------------------------------------------------------------------


	class TestTurn:
	def test_basic_construction(self):
	t = Turn(role="red", observation="Range ready.", action="nmap -sV web", reward=0.1)
	assert t.role == "red"
	assert t.observation == "Range ready."
	assert t.action == "nmap -sV web"
	assert t.reward == 0.1
	assert t.timestamp > 0

	def test_timestamp_auto_set(self):
	t = Turn(role="blue", observation="ok", action="grep alert", reward=0.0)
	assert t.timestamp > 0


	# ---------------------------------------------------------------------------
	# Episode dataclass
	# ---------------------------------------------------------------------------


	class TestEpisode:
	def _make_episode(self) -> Episode:
	ep = Episode(episode_id="ep-1", snapshot_id="snap-1", tier=1)
	ep.briefings = {
	"red": "Red briefing",
	"blue": "Blue briefing",
	}
	ep.turns = [
	Turn(
	role="red",
	observation="[0.2s] 80/tcp open http",
	action="nmap -sV web",
	reward=0.1,
	assistant_content="<think>\nRecon first.\n</think>",
	),
	Turn(
	role="blue",
	observation="[0.3s] suspicious nmap",
	action="submit_finding nmap scan",
	reward=0.2,
	assistant_content="<think>\nThis is actionable.\n</think>",
	),
	Turn(
	role="red",
	observation="[0.4s] products",
	action="curl http://web/search?q=test",
	reward=0.15,
	assistant_content="<think>\nInspect the search route.\n</think>",
	),
	Turn(
	role="blue",
	observation="[0.5s] SQLi in web log",
	action="grep UNION /var/log/siem/web.log",
	reward=0.05,
	assistant_content="<think>\nI need evidence.\n</think>",
	),
	Turn(
	role="red",
	observation="[0.6s] correct",
	action="submit_flag FLAG{sqli_123}",
	reward=0.5,
	assistant_content="<think>\nThis token is worth validating.\n</think>",
	tool_name="flag_found",
	tool_arguments={"flag": "FLAG{sqli_123}"},
	),
	]
	ep.outcome = "flag_captured"
	return ep

	def test_red_turns(self):
	ep = self._make_episode()
	assert len(ep.red_turns) == 3
	assert all(t.role == "red" for t in ep.red_turns)

	def test_blue_turns(self):
	ep = self._make_episode()
	assert len(ep.blue_turns) == 2
	assert all(t.role == "blue" for t in ep.blue_turns)

	def test_total_red_reward(self):
	ep = self._make_episode()
	expected = 0.1 + 0.15 + 0.5
	assert abs(ep.total_red_reward - expected) < 1e-6

	def test_total_blue_reward(self):
	ep = self._make_episode()
	expected = 0.2 + 0.05
	assert abs(ep.total_blue_reward - expected) < 1e-6

	def test_to_chat_messages_red(self):
	ep = self._make_episode()
	msgs = ep.to_chat_messages("red")
	# system + briefing + 3 * (assistant + tool) = 8 messages
	assert len(msgs) == 8
	assert msgs[0]["role"] == "system"
	assert msgs[0]["content"] == RED_SYSTEM_PROMPT
	assert msgs[1]["role"] == "user"
	assert msgs[1]["content"] == "Red briefing"
	assert msgs[2]["role"] == "assistant"
	assert "tool_calls" in msgs[2]
	assert msgs[2]["tool_calls"][0]["function"]["name"] == "shell_command"
	assert msgs[3]["role"] == "tool"

	def test_to_chat_messages_blue(self):
	ep = self._make_episode()
	msgs = ep.to_chat_messages("blue")
	# system + briefing + 2 * (assistant + tool) = 6 messages
	assert len(msgs) == 6
	assert msgs[0]["role"] == "system"
	assert msgs[0]["content"] == BLUE_SYSTEM_PROMPT
	assert msgs[1]["role"] == "user"
	assert msgs[1]["content"] == "Blue briefing"

	def test_to_jsonl_record(self):
	ep = self._make_episode()
	record = ep.to_jsonl_record("red")
	assert record["episode_id"] == "ep-1"
	assert record["snapshot_id"] == "snap-1"
	assert record["tier"] == 1
	assert record["role"] == "red"
	assert record["outcome"] == "flag_captured"
	assert isinstance(record["messages"], list)
	assert isinstance(record["reward"], float)
	# Verify it's JSON-serializable
	json.dumps(record)


	# ---------------------------------------------------------------------------
	# TrajectoryLogger
	# ---------------------------------------------------------------------------


	class TestTrajectoryLogger:
	def test_start_episode(self):
	logger = TrajectoryLogger()
	ep = logger.start_episode(
	"ep-1",
	snapshot_id="snap-1",
	tier=2,
	briefings={"red": "brief"},
	)
	assert ep.episode_id == "ep-1"
	assert ep.snapshot_id == "snap-1"
	assert ep.tier == 2
	assert ep.briefings["red"] == "brief"
	assert logger.current_episode is ep

	def test_log_turn(self):
	logger = TrajectoryLogger()
	logger.start_episode("ep-1")
	turn = logger.log_turn(role="red", observation="Ready.", action="nmap web", reward=0.1)
	assert turn.role == "red"
	assert len(logger.current_episode.turns) == 1

	def test_log_turn_without_episode_raises(self):
	logger = TrajectoryLogger()
	with pytest.raises(RuntimeError, match="No active episode"):
	logger.log_turn(role="red", observation="x", action="y")

	def test_end_episode(self):
	logger = TrajectoryLogger()
	logger.start_episode("ep-1")
	logger.log_turn(role="red", observation="Ready.", action="nmap web", reward=0.1)
	ep = logger.end_episode(outcome="timeout", metrics={"steps": 1})
	assert ep.outcome == "timeout"
	assert ep.metrics == {"steps": 1}
	assert logger.current_episode is None
	assert len(logger.episodes) == 1

	def test_end_episode_without_active_raises(self):
	logger = TrajectoryLogger()
	with pytest.raises(RuntimeError, match="No active episode"):
	logger.end_episode()

	def test_start_new_episode_abandons_current(self):
	logger = TrajectoryLogger()
	logger.start_episode("ep-1")
	logger.log_turn(role="red", observation="x", action="y")
	logger.start_episode("ep-2")
	assert len(logger.episodes) == 1
	assert logger.episodes[0].outcome == "abandoned"
	assert logger.current_episode.episode_id == "ep-2"

	def test_clear(self):
	logger = TrajectoryLogger()
	logger.start_episode("ep-1")
	logger.log_turn(role="red", observation="x", action="y")
	logger.end_episode()
	logger.clear()
	assert len(logger.episodes) == 0
	assert logger.current_episode is None


	# ---------------------------------------------------------------------------
	# JSONL export
	# ---------------------------------------------------------------------------


	class TestExportJsonl:
	def _build_logger_with_episodes(self) -> TrajectoryLogger:
	logger = TrajectoryLogger()

	# Episode 1: Red succeeds (high reward)
	logger.start_episode("ep-1", snapshot_id="snap-1", tier=1)
	logger.log_turn(role="red", observation="Range ready.", action="nmap -sV web", reward=0.1)
	logger.log_turn(role="blue", observation="Alert: nmap", action="submit_finding nmap", reward=0.2)
	logger.log_turn(role="red", observation="80/tcp open", action="curl http://web/search?q=1' OR 1=1--", reward=0.3)
	logger.log_turn(role="red", observation="FLAG{sqli}", action="submit_flag FLAG{sqli}", reward=0.5)
	logger.end_episode(outcome="flag_captured")

	# Episode 2: Both low reward (below typical threshold)
	logger.start_episode("ep-2", snapshot_id="snap-2", tier=1)
	logger.log_turn(role="red", observation="Range ready.", action="nmap -sV web", reward=0.01)
	logger.log_turn(role="blue", observation="No alerts", action="tail /var/log/siem/web.log", reward=0.01)
	logger.end_episode(outcome="timeout")

	return logger

	def test_export_creates_file(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "trajectories.jsonl"
	count = logger.export_jsonl(out)
	assert out.exists()
	assert count > 0

	def test_export_all_no_filter(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "all.jsonl"
	count = logger.export_jsonl(out, reward_threshold=0.0)
	# 2 episodes * 2 roles = 4 lines
	assert count == 4
	lines = out.read_text().strip().split("\n")
	assert len(lines) == 4

	def test_export_with_reward_filter(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "filtered.jsonl"
	count = logger.export_jsonl(out, reward_threshold=0.1)
	# ep-1 red reward = 0.9, ep-1 blue reward = 0.2 -> both pass
	# ep-2 red reward = 0.01, ep-2 blue reward = 0.01 -> both filtered
	assert count == 2

	def test_export_single_role(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "red_only.jsonl"
	count = logger.export_jsonl(out, roles=("red",))
	# 2 episodes, red only = 2 lines
	assert count == 2

	def test_export_jsonl_format(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "format.jsonl"
	logger.export_jsonl(out)
	lines = out.read_text().strip().split("\n")
	for line in lines:
	record = json.loads(line)
	assert "episode_id" in record
	assert "snapshot_id" in record
	assert "tier" in record
	assert "role" in record
	assert "messages" in record
	assert "reward" in record
	assert "outcome" in record
	# Messages must follow chat format
	msgs = record["messages"]
	assert msgs[0]["role"] == "system"
	assert msgs[1]["role"] == "user"
	for msg in msgs:
	assert "role" in msg
	assert "content" in msg
	for msg in msgs:
	if msg["role"] == "assistant":
	assert msg["tool_calls"]

	def test_export_creates_parent_dirs(self, tmp_path: Path):
	logger = self._build_logger_with_episodes()
	out = tmp_path / "nested" / "deep" / "trajectories.jsonl"
	count = logger.export_jsonl(out)
	assert out.exists()
	assert count > 0

	def test_export_empty_logger(self, tmp_path: Path):
	logger = TrajectoryLogger()
	out = tmp_path / "empty.jsonl"
	count = logger.export_jsonl(out)
	assert count == 0
	assert out.exists()
	assert out.read_text() == ""

	def test_red_and_blue_are_independent_examples(self, tmp_path: Path):
	"""Red and Blue trajectories produce separate JSONL lines."""
	logger = self._build_logger_with_episodes()
	out = tmp_path / "independent.jsonl"
	logger.export_jsonl(out)
	lines = out.read_text().strip().split("\n")
	records = [json.loads(line) for line in lines]

	# Find ep-1 records
	ep1_records = [r for r in records if r["episode_id"] == "ep-1"]
	roles = {r["role"] for r in ep1_records}
	assert roles == {"red", "blue"}

	# Red and Blue have different system prompts
	for rec in ep1_records:
	system_msg = rec["messages"][0]
	if rec["role"] == "red":
	assert "penetration tester" in system_msg["content"]
	else:
	assert "SOC analyst" in system_msg["content"]