Spaces:

huzzle-labs
/

visual_memory

Sleeping

App Files Files Community

visual_memory / run_eval.py

kdemon1011

Upload folder using huggingface_hub

599c9bd verified 2 days ago

raw

history blame contribute delete

55.3 kB

	#!/usr/bin/env python3
	"""
	Evaluation Runner — run an LLM agent against Visual Memory gym scenarios.

	Single-gym version of the repo-level run_eval.py, tailored for the
	visual_memory environment. No --gym flag needed.

	Usage:
	# Single model (backward compatible)
	python run_eval.py --model gpt-5.4 --save --trajectory

	# Multiple models in parallel
	python run_eval.py --model gpt-5.4,claude-sonnet-4-6 --parallel-models 3 --save --trajectory

	# Specific scenario
	python run_eval.py --model gpt-5.4 --scenario directional_trap_8x8

	# pass@k evaluation (run each scenario 10 times, report pass@1, pass@3, pass@8)
	python run_eval.py --model gpt-5.4 --num-samples 10 --pass-k 1,3,8 --save

	# Parallel scenarios (run 4 scenarios concurrently per model)
	python run_eval.py --model gpt-5.4 --parallel-scenarios 4 --save

	# Resume interrupted run
	python run_eval.py --model gpt-5.4 --run-id my_run --resume --save --trajectory

	# ATIF trajectory format (Harbor/Terminus-2 standard)
	python run_eval.py --model gpt-5.4 --trajectory --trajectory-format atif

	Prerequisites:
	1. pip install -e .
	2. docker build -t openenv-visual-memory -f server/Dockerfile .
	3. docker run -d --name visual-memory -p 8000:8000 openenv-visual-memory
	"""

	import argparse
	import json
	import logging
	import os
	import sys
	import threading
	import time
	from concurrent.futures import ThreadPoolExecutor, as_completed
	from datetime import datetime, timezone, timedelta
	from typing import Any, Dict, List, Optional, Set, Tuple

	import numpy as np

	IST = timezone(timedelta(hours=5, minutes=30))

	from dotenv import load_dotenv

	load_dotenv(os.path.join(os.path.dirname(__file__), ".env"))

	sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))

	from openenv import AutoEnv

	from agent.runner import AgentRunner
	from rewards.base import RewardBreakdown
	from rewards.checks import VisualMemoryChecker
	from rewards.transforms import VisualMemoryStepTransform
	from scenarios.definitions import VISUAL_MEMORY_SCENARIOS

	logger = logging.getLogger(__name__)

	GYM_NAME = "visual_memory"
	OUTPUT_DIR = os.path.join(os.path.dirname(os.path.abspath(__file__)), "outputs")


	# ── Helpers ──


	def _resolve_base_url() -> str:
	import importlib.resources
	import yaml

	try:
	ref = importlib.resources.files(GYM_NAME).joinpath("openenv.yaml")
	with importlib.resources.as_file(ref) as f:
	manifest = yaml.safe_load(f.read_text())
	port = manifest.get("port", 8000)
	return f"http://localhost:{port}"
	except Exception:
	logger.warning("Could not read openenv.yaml, defaulting to port 8000")
	return "http://localhost:8000"


	def _fetch_gym_metadata(base_url: str) -> dict \| None:
	import httpx

	try:
	resp = httpx.get(f"{base_url}/metadata", timeout=5.0)
	resp.raise_for_status()
	data = resp.json()
	data.pop("readme_content", None)
	return data
	except Exception as e:
	logger.debug(f"Failed to fetch /metadata from {base_url}: {e}")
	return None


	def divider(text: str = ""):
	print(f"\n{'=' * 70}")
	if text:
	print(f" {text}")
	print(f"{'=' * 70}")


	def print_breakdown(breakdown: RewardBreakdown):
	print(breakdown.summary())
	print()
	print(f" Details: {breakdown.details}")


	def _check_label(check: dict) -> str:
	for key in ("min_score", "min_pct", "max_hits"):
	if key in check and key != "type":
	return str(check[key])
	return check.get("type", "?")


	def _short_json(obj, max_len=80):
	s = json.dumps(obj, default=str)
	return s if len(s) <= max_len else s[:max_len] + "..."


	# ── pass@k Estimator ──


	def pass_at_k_estimator(n: int, c: int, k: int) -> float:
	"""
	Unbiased estimator of pass@k (Chen et al., 2021 — HumanEval).
	n = total samples, c = correct samples, k = subset size.
	Returns P(at least 1 correct in a random k-subset of n runs).
	"""
	if n - c < k:
	return 1.0
	return 1.0 - np.prod(1.0 - k / np.arange(n - c + 1, n + 1))


	# ── Checkpoint (Resume) ──


	def _load_checkpoint(run_id: str, model: str) -> Tuple[Set[str], List[Dict]]:
	"""Load completed scenario IDs and their results from a checkpoint file."""
	safe_model = model.replace("/", "_").replace(":", "_")
	checkpoint_path = os.path.join(
	OUTPUT_DIR, "trajectories", run_id, f"{safe_model}.checkpoint.json"
	)
	final_path = os.path.join(
	OUTPUT_DIR, "trajectories", run_id, f"{safe_model}.json"
	)

	for path in [checkpoint_path, final_path]:
	if not os.path.exists(path):
	continue
	try:
	with open(path) as f:
	data = json.load(f)
	completed = set()
	prior_results = []
	for s in data.get("scenarios", []):
	sid = s.get("scenario_id")
	reward = s.get("reward")
	if sid and reward is not None:
	completed.add(sid)
	prior_results.append({
	"scenario": sid,
	"total_reward": reward["total"],
	"breakdown": RewardBreakdown(
	structural=reward["structural"],
	ground_truth=reward["ground_truth"],
	efficiency=reward["efficiency"],
	penalty=reward["penalty"],
	total=reward["total"],
	),
	"steps": s.get("total_steps", 0),
	"elapsed": s.get("elapsed_s", 0),
	"from_checkpoint": True,
	})
	print(f" [{model}] Checkpoint loaded: {len(completed)} scenarios completed")
	return completed, prior_results
	except (json.JSONDecodeError, KeyError) as e:
	logger.warning(f"Could not parse checkpoint {path}: {e}")

	return set(), []


	def _build_scenario_entry(r: Dict, scenario) -> Dict:
	"""Build a trajectory scenario entry from a result dict."""
	entry = {
	"scenario_id": r.get("scenario", getattr(scenario, "id", "unknown")),
	"elapsed_s": round(r.get("elapsed", 0), 2),
	}

	if scenario:
	entry["prompt"] = scenario.prompt
	entry["expected_tools"] = scenario.expected_tools
	entry["max_steps"] = scenario.max_steps

	episode = r.get("episode")
	if episode:
	steps = []
	for i, step in enumerate(episode.steps, 1):
	result_data = step.result
	if isinstance(result_data, str):
	try:
	result_data = json.loads(result_data)
	except (json.JSONDecodeError, TypeError):
	pass
	steps.append({
	"step": i,
	"timestamp": step.timestamp,
	"tool_name": step.tool_name,
	"arguments": step.arguments,
	"success": step.success,
	"result": result_data,
	"error": step.error,
	"elapsed_s": round(step.elapsed, 3),
	})
	entry["steps"] = steps
	entry["total_steps"] = len(steps)
	else:
	entry["steps"] = []
	entry["total_steps"] = r.get("steps", 0)
	if r.get("error"):
	entry["error"] = r["error"]

	outcome_results = r.get("outcome_results", [])
	if outcome_results and scenario:
	checks = []
	for check_def, passed in zip(scenario.outcome_checks, outcome_results):
	checks.append({"check": check_def, "passed": passed})
	entry["outcome_checks"] = checks

	bd = r.get("breakdown")
	if bd:
	entry["reward"] = {
	"structural": round(bd.structural, 4),
	"ground_truth": round(bd.ground_truth, 4),
	"efficiency": round(bd.efficiency, 4),
	"penalty": round(bd.penalty, 4),
	"total": round(bd.total, 4),
	}
	else:
	entry["reward"] = None

	# pass@k multi-sample data
	if "samples" in r:
	entry["num_samples"] = r.get("n", 1)
	entry["correct_count"] = r.get("c", 0)
	entry["pass_at_k"] = r.get("pass_at_k", {})
	entry["samples"] = []
	for sample in r["samples"]:
	sample_entry = {
	"sample_idx": sample.get("sample_idx", 0),
	"success": sample.get("success", False),
	"total_reward": sample.get("total_reward", 0),
	"steps": sample.get("steps", 0),
	"elapsed": round(sample.get("elapsed", 0), 2),
	}
	if sample.get("error"):
	sample_entry["error"] = sample["error"]
	entry["samples"].append(sample_entry)

	return entry


	def _save_checkpoint(
	run_id: str,
	model: str,
	all_results: List[Dict],
	scenarios: list,
	temperature: float,
	reward_mode: str,
	gym_version: str,
	):
	"""Incrementally save checkpoint after each scenario."""
	safe_model = model.replace("/", "_").replace(":", "_")
	traj_dir = os.path.join(OUTPUT_DIR, "trajectories", run_id)
	os.makedirs(traj_dir, exist_ok=True)
	checkpoint_path = os.path.join(traj_dir, f"{safe_model}.checkpoint.json")

	scenario_map = {s.id: s for s in scenarios}
	checkpoint = {
	"run_id": run_id,
	"model": model,
	"gym": GYM_NAME,
	"gym_version": gym_version,
	"timestamp": datetime.now(IST).isoformat(),
	"temperature": temperature,
	"reward_mode": reward_mode,
	"total_scenarios": len(all_results),
	"scenarios": [],
	}

	for r in all_results:
	sid = r.get("scenario")
	if r.get("from_checkpoint"):
	checkpoint["scenarios"].append({
	"scenario_id": sid,
	"elapsed_s": r.get("elapsed", 0),
	"total_steps": r.get("steps", 0),
	"reward": {
	"structural": r["breakdown"].structural,
	"ground_truth": r["breakdown"].ground_truth,
	"efficiency": r["breakdown"].efficiency,
	"penalty": r["breakdown"].penalty,
	"total": r["breakdown"].total,
	} if r.get("breakdown") else None,
	})
	else:
	entry = _build_scenario_entry(r, scenario_map.get(sid))
	checkpoint["scenarios"].append(entry)

	with open(checkpoint_path, "w") as f:
	json.dump(checkpoint, f, indent=2, default=str)


	# ── Results & Trajectory Saving ──


	def save_results_to_markdown(
	results: List[Dict[str, Any]],
	model: str,
	output_path: str,
	total_elapsed: float,
	temperature: float,
	run_id: str = "",
	reward_mode: str = "custom",
	gym_version: str = "unknown",
	num_samples: int = 1,
	pass_k_values: Optional[List[int]] = None,
	):
	os.makedirs(os.path.dirname(output_path), exist_ok=True)

	timestamp = datetime.now(IST).strftime("%Y-%m-%d %H:%M:%S")
	is_new_file = not os.path.exists(output_path)
	is_passk = num_samples > 1 and pass_k_values

	with open(output_path, "a") as f:
	if is_new_file:
	f.write(f"# Visual Memory Gym — Evaluation Results\n\n")
	f.write(f"Run ID: `{run_id}` \n")
	f.write(f"Gym Version: `{gym_version}`\n\n")
	f.write(f"Evaluation results for the visual_memory gym across different LLM models.\n\n")
	if is_passk:
	f.write(f"Mode: pass@k (n={num_samples}, k={pass_k_values})\n\n")
	if reward_mode == "openenv":
	f.write(f"Reward Mode: `openenv` — per-step rewards from `rewards/transforms.py` + ground truth\n\n")
	else:
	f.write(f"Reward Mode: `custom` — episode-level rewards from `rewards/base.py`\n\n")
	f.write(f"Trajectories: `outputs/trajectories/{run_id}/`\n\n")
	f.write(f"---\n\n")

	safe_model = model.replace("/", "_").replace(":", "_")
	f.write(f"## Model: `{model}`\n\n")
	f.write(f"- Date: {timestamp}\n")
	f.write(f"- Temperature: {temperature}\n")
	f.write(f"- Reward Mode: {reward_mode}\n")
	if is_passk:
	f.write(f"- Samples per scenario: {num_samples}\n")
	f.write(f"- Total Time: {total_elapsed:.1f}s\n")
	f.write(f"- Trajectory: `outputs/trajectories/{run_id}/{safe_model}.json`\n\n")

	if is_passk:
	k_headers = " \| ".join(f"pass@{k}" for k in pass_k_values)
	f.write(f"\| Scenario \| n \| c \| {k_headers} \| Best Reward \| Avg Steps \|\n")
	k_divs = " \| ".join(":---:" for _ in pass_k_values)
	f.write(f"\|---\|:---:\|:---:\|{k_divs}\|:---:\|:---:\|\n")

	for r in results:
	n = r.get("n", 1)
	c = r.get("c", 0)
	pass_at = r.get("pass_at_k", {})
	k_vals = " \| ".join(f"{pass_at.get(str(k), 0.0):.2f}" for k in pass_k_values)
	best = r.get("best_reward", 0.0)
	avg_steps = r.get("avg_steps", 0)
	f.write(
	f"\| {r['scenario']} "
	f"\| {n} \| {c} \| {k_vals} "
	f"\| {best:.2f} \| {avg_steps:.1f} \|\n"
	)

	all_pass1 = [r.get("pass_at_k", {}).get("1", 0.0) for r in results]
	avg_pass1 = sum(all_pass1) / len(all_pass1) if all_pass1 else 0.0
	f.write(f"\nAverage pass@1: {avg_pass1:.2f}\n\n")
	else:
	if reward_mode == "openenv":
	f.write(f"\| Scenario \| Quality \| Ground Truth \| Penalty \| Total \| Steps \| Time \|\n")
	f.write(f"\|---\|:---:\|:---:\|:---:\|:---:\|:---:\|:---:\|\n")
	else:
	f.write(f"\| Scenario \| Structural \| Ground Truth \| Efficiency \| Penalty \| Total \| Steps \| Time \|\n")
	f.write(f"\|---\|:---:\|:---:\|:---:\|:---:\|:---:\|:---:\|:---:\|\n")

	total_reward = 0.0
	for r in results:
	bd = r.get("breakdown")
	if bd:
	if reward_mode == "openenv":
	f.write(
	f"\| {r['scenario']} "
	f"\| {bd.structural:.2f} "
	f"\| {bd.ground_truth:.2f} "
	f"\| {bd.penalty:.2f} "
	f"\| {bd.total:.2f} "
	f"\| {r['steps']} "
	f"\| {r['elapsed']:.1f}s \|\n"
	)
	else:
	f.write(
	f"\| {r['scenario']} "
	f"\| {bd.structural:.2f} "
	f"\| {bd.ground_truth:.2f} "
	f"\| {bd.efficiency:.2f} "
	f"\| {bd.penalty:.2f} "
	f"\| {bd.total:.2f} "
	f"\| {r['steps']} "
	f"\| {r['elapsed']:.1f}s \|\n"
	)
	total_reward += bd.total
	else:
	cols = "\| — \| — \| — " if reward_mode == "openenv" else "\| — \| — \| — \| — "
	f.write(
	f"\| {r['scenario']} "
	f"{cols}"
	f"\| ERROR "
	f"\| {r['steps']} "
	f"\| {r['elapsed']:.1f}s \|\n"
	)

	avg = total_reward / len(results) if results else 0.0
	f.write(f"\nAverage Reward: {avg:.2f}\n\n")

	f.write(f"---\n\n")

	logger.info(f"Results saved to {output_path}")


	def save_trajectory(
	results: List[Dict[str, Any]],
	scenarios: list,
	model: str,
	temperature: float,
	total_elapsed: float,
	run_id: str = "",
	reward_mode: str = "custom",
	gym_version: str = "unknown",
	num_samples: int = 1,
	pass_k_values: Optional[List[int]] = None,
	):
	run_ts = datetime.now(IST).isoformat()

	safe_model = model.replace("/", "_").replace(":", "_")
	filename = f"{safe_model}.json"

	traj_dir = os.path.join(OUTPUT_DIR, "trajectories", run_id)
	os.makedirs(traj_dir, exist_ok=True)
	filepath = os.path.join(traj_dir, filename)

	scenario_map = {s.id: s for s in scenarios}

	trajectory = {
	"run_id": run_id or "untagged",
	"model": model,
	"gym": GYM_NAME,
	"gym_version": gym_version,
	"timestamp": run_ts,
	"temperature": temperature,
	"reward_mode": reward_mode,
	"total_elapsed_s": round(total_elapsed, 2),
	"total_scenarios": len(results),
	}

	if num_samples > 1:
	trajectory["num_samples"] = num_samples
	trajectory["pass_k_values"] = pass_k_values or [1]

	trajectory["scenarios"] = []

	for r in results:
	sid = r.get("scenario")
	scenario = scenario_map.get(sid)
	if r.get("from_checkpoint"):
	trajectory["scenarios"].append({
	"scenario_id": sid,
	"elapsed_s": r.get("elapsed", 0),
	"total_steps": r.get("steps", 0),
	"reward": {
	"structural": r["breakdown"].structural,
	"ground_truth": r["breakdown"].ground_truth,
	"efficiency": r["breakdown"].efficiency,
	"penalty": r["breakdown"].penalty,
	"total": r["breakdown"].total,
	} if r.get("breakdown") else None,
	"from_checkpoint": True,
	})
	else:
	entry = _build_scenario_entry(r, scenario)
	trajectory["scenarios"].append(entry)

	totals = [
	s["reward"]["total"]
	for s in trajectory["scenarios"]
	if s.get("reward")
	]
	trajectory["avg_reward"] = round(sum(totals) / len(totals), 4) if totals else 0.0

	with open(filepath, "w") as f:
	json.dump(trajectory, f, indent=2, default=str)

	print(f"\n Trajectory saved: {filepath}")
	logger.info(f"Trajectory saved to {filepath}")

	# Clean up checkpoint file now that full trajectory is written
	checkpoint_path = os.path.join(traj_dir, f"{safe_model}.checkpoint.json")
	if os.path.exists(checkpoint_path):
	os.remove(checkpoint_path)

	return filepath


	def save_trajectory_atif(
	results: List[Dict[str, Any]],
	scenarios: list,
	model: str,
	temperature: float,
	total_elapsed: float,
	run_id: str = "",
	reward_mode: str = "custom",
	gym_version: str = "unknown",
	token_usage: Optional[Dict[str, int]] = None,
	):
	"""Save trajectory in ATIF v1.4 format (Harbor/Terminus-2 standard)."""
	safe_model = model.replace("/", "_").replace(":", "_")
	filename = f"{safe_model}_atif.json"
	traj_dir = os.path.join(OUTPUT_DIR, "trajectories", run_id)
	os.makedirs(traj_dir, exist_ok=True)
	filepath = os.path.join(traj_dir, filename)

	scenario_map = {s.id: s for s in scenarios}
	atif_steps = []
	step_id = 0

	for r in results:
	if r.get("from_checkpoint"):
	continue

	sid = r.get("scenario")
	scenario = scenario_map.get(sid)
	episode = r.get("episode")
	if not episode:
	continue

	step_id += 1
	atif_steps.append({
	"step_id": step_id,
	"timestamp": episode.steps[0].timestamp if episode.steps else None,
	"role": "user",
	"message": scenario.prompt if scenario else sid,
	"tool_calls": [],
	"observation": None,
	})

	for step in episode.steps:
	step_id += 1
	result_data = step.result
	if isinstance(result_data, str):
	try:
	result_data = json.loads(result_data)
	except (json.JSONDecodeError, TypeError):
	pass

	atif_steps.append({
	"step_id": step_id,
	"timestamp": step.timestamp,
	"role": "assistant",
	"message": None,
	"tool_calls": [{
	"id": f"call_{step_id}",
	"function_name": step.tool_name,
	"arguments": step.arguments,
	}],
	"observation": {
	"content": result_data,
	"success": step.success,
	"error": step.error,
	},
	"duration_ms": round(step.elapsed * 1000),
	})

	bd = r.get("breakdown")
	if bd and atif_steps:
	atif_steps[-1]["reward"] = bd.total

	usage = token_usage or {}
	trajectory = {
	"schema_version": "ATIF-v1.4",
	"session_id": run_id,
	"started_at": datetime.now(IST).isoformat(),
	"agent": {
	"name": f"openenv-{GYM_NAME}",
	"model_name": model,
	"temperature": temperature,
	},
	"environment": {
	"gym": GYM_NAME,
	"version": gym_version,
	"reward_mode": reward_mode,
	},
	"steps": atif_steps,
	"final_metrics": {
	"total_steps": step_id,
	"total_wall_time_s": round(total_elapsed, 2),
	"total_prompt_tokens": usage.get("prompt_tokens", 0),
	"total_completion_tokens": usage.get("completion_tokens", 0),
	"total_cost_usd": 0.0,
	"custom": {
	"avg_reward": round(
	sum(r.get("total_reward", 0) for r in results) / max(len(results), 1), 4
	),
	"total_scenarios": len(results),
	},
	},
	}

	with open(filepath, "w") as f:
	json.dump(trajectory, f, indent=2, default=str)

	print(f"\n ATIF trajectory saved: {filepath}")
	logger.info(f"ATIF trajectory saved to {filepath}")
	return filepath


	# ── Scenario Execution ──


	WS_RETRY_ERRORS = ("ConnectionClosed", "ConnectionClosedOK", "ConnectionClosedError", "sent 1000")
	MAX_WS_RETRIES = 3


	def _run_scenario_with_retries(
	scenario,
	runner: AgentRunner,
	checker,
	env_client,
	connect_fn,
	model: str,
	) -> Dict[str, Any]:
	"""Execute a single scenario with WebSocket retry logic. Returns a result dict."""
	start = time.time()
	last_error = None

	for attempt in range(MAX_WS_RETRIES + 1):
	try:
	if attempt > 0:
	logger.info(f"[{model}] Reconnecting (attempt {attempt + 1}) for {scenario.id}")
	print(f" [{model}] Reconnecting WebSocket (attempt {attempt + 1})...")
	try:
	env_client.__exit__(None, None, None)
	except Exception:
	pass
	time.sleep(2 * attempt)
	env_client, runner = connect_fn()

	episode, breakdown = runner.run_scenario(scenario, checker)
	elapsed = time.time() - start

	if hasattr(checker, "set_episode"):
	checker.set_episode(episode)
	outcome_results = checker.check_all(scenario.outcome_checks)

	return {
	"scenario": scenario.id,
	"total_reward": breakdown.total,
	"breakdown": breakdown,
	"steps": len(episode.steps),
	"elapsed": elapsed,
	"episode": episode,
	"outcome_results": outcome_results,
	}

	except Exception as e:
	last_error = e
	is_ws_error = any(tok in type(e).__name__ or tok in str(e) for tok in WS_RETRY_ERRORS)
	if is_ws_error and attempt < MAX_WS_RETRIES:
	logger.warning(f"[{model}] WebSocket error on {scenario.id}: {e}")
	continue
	break

	elapsed = time.time() - start
	logger.exception(f"[{model}] Scenario {scenario.id} failed")
	return {
	"scenario": scenario.id,
	"total_reward": 0.0,
	"breakdown": None,
	"steps": 0,
	"elapsed": elapsed,
	"error": str(last_error),
	}


	def _run_scenario_n_samples(
	scenario,
	n: int,
	pass_threshold: float,
	pass_k_values: List[int],
	model: str,
	base_url: str,
	temperature: float,
	max_tokens: int,
	reward_mode: str,
	) -> Dict[str, Any]:
	"""Run a single scenario n times for pass@k evaluation."""
	samples = []
	correct_count = 0

	def _connect():
	client = AutoEnv.from_env(GYM_NAME, base_url=base_url)
	client.__enter__()
	xform = VisualMemoryStepTransform() if reward_mode == "openenv" else None
	rnr = AgentRunner(
	model=model,
	env_client=client,
	temperature=temperature,
	max_tokens=max_tokens,
	reward_mode=reward_mode,
	transform=xform,
	)
	return client, rnr

	env_client, runner = _connect()
	checker = VisualMemoryChecker()

	try:
	for sample_idx in range(n):
	result = _run_scenario_with_retries(
	scenario, runner, checker, env_client, _connect, model,
	)

	gt_score = 0.0
	outcome_results = result.get("outcome_results", [])
	if outcome_results:
	gt_score = sum(outcome_results) / len(outcome_results)
	is_success = gt_score >= pass_threshold

	if is_success:
	correct_count += 1

	result["sample_idx"] = sample_idx
	result["ground_truth_score"] = gt_score
	result["success"] = is_success
	samples.append(result)

	status = "PASS" if is_success else "FAIL"
	print(
	f" [{model}] {scenario.id} sample {sample_idx + 1}/{n}: "
	f"{status} (gt={gt_score:.2f}, reward={result['total_reward']:.2f}, "
	f"{result['steps']} steps, {result['elapsed']:.1f}s)"
	)
	finally:
	try:
	env_client.__exit__(None, None, None)
	except Exception:
	pass

	pass_at_k = {}
	for k in pass_k_values:
	if k <= n:
	pass_at_k[str(k)] = round(pass_at_k_estimator(n, correct_count, k), 4)

	best_sample = max(samples, key=lambda s: s.get("total_reward", 0.0))

	return {
	"scenario": scenario.id,
	"n": n,
	"c": correct_count,
	"pass_at_k": pass_at_k,
	"samples": samples,
	"best_reward": best_sample.get("total_reward", 0.0),
	"avg_steps": sum(s.get("steps", 0) for s in samples) / max(len(samples), 1),
	"total_reward": best_sample.get("total_reward", 0.0),
	"breakdown": best_sample.get("breakdown"),
	"steps": best_sample.get("steps", 0),
	"elapsed": sum(s.get("elapsed", 0) for s in samples),
	"episode": best_sample.get("episode"),
	"outcome_results": best_sample.get("outcome_results", []),
	}


	# ── Model Workers ──


	def _run_single_model(
	model: str,
	base_url: str,
	scenarios: list,
	temperature: float,
	max_tokens: int,
	reward_mode: str,
	run_id: str,
	save: bool,
	trajectory: bool,
	verbose: bool,
	gym_version: str = "unknown",
	num_samples: int = 1,
	pass_k_values: Optional[List[int]] = None,
	pass_threshold: float = 0.5,
	parallel_scenarios: int = 1,
	resume: bool = False,
	trajectory_format: str = "native",
	) -> Dict[str, Any]:
	model_start = time.time()

	# Resume: load checkpoint
	completed_ids: Set[str] = set()
	prior_results: List[Dict] = []
	if resume:
	completed_ids, prior_results = _load_checkpoint(run_id, model)

	pending = [s for s in scenarios if s.id not in completed_ids]
	if not pending:
	print(f" [{model}] All scenarios already completed (checkpoint)")
	model_elapsed = time.time() - model_start
	return {"model": model, "results": prior_results, "elapsed": model_elapsed}

	if completed_ids:
	print(f" [{model}] Resuming: {len(pending)} remaining of {len(scenarios)} scenarios")

	model_results = list(prior_results)
	results_lock = threading.Lock()

	is_passk = num_samples > 1

	def _connect():
	client = AutoEnv.from_env(GYM_NAME, base_url=base_url)
	client.__enter__()
	xform = VisualMemoryStepTransform() if reward_mode == "openenv" else None
	rnr = AgentRunner(
	model=model,
	env_client=client,
	temperature=temperature,
	max_tokens=max_tokens,
	reward_mode=reward_mode,
	transform=xform,
	)
	return client, rnr

	def _run_one_scenario(scenario, idx, total):
	"""Run a single scenario (optionally n samples) and append to results."""
	print(f"\n [{model}] Scenario {idx}/{total}: {scenario.id}")

	if is_passk:
	result = _run_scenario_n_samples(
	scenario, n=num_samples, pass_threshold=pass_threshold,
	pass_k_values=pass_k_values or [1], model=model,
	base_url=base_url, temperature=temperature,
	max_tokens=max_tokens, reward_mode=reward_mode,
	)
	pk = result.get("pass_at_k", {})
	pk_str = ", ".join(f"pass@{k}={pk.get(str(k), 0):.2f}" for k in (pass_k_values or [1]))
	print(
	f" [{model}] {scenario.id}: {result['c']}/{result['n']} correct → {pk_str}"
	)
	else:
	env_client, runner = _connect()
	checker = VisualMemoryChecker()
	try:
	result = _run_scenario_with_retries(
	scenario, runner, checker, env_client, _connect, model,
	)
	reward_str = f"{result['total_reward']:.2f}" if result.get("breakdown") else "ERROR"
	print(
	f" [{model}] {scenario.id}: {reward_str} "
	f"({result['steps']} steps, {result['elapsed']:.1f}s)"
	)
	finally:
	try:
	env_client.__exit__(None, None, None)
	except Exception:
	pass

	with results_lock:
	model_results.append(result)
	_save_checkpoint(
	run_id, model, model_results, scenarios,
	temperature, reward_mode, gym_version,
	)

	return result

	if parallel_scenarios > 1 and len(pending) > 1:
	max_concurrent = int(os.getenv("MAX_CONCURRENT_ENVS", "8"))
	max_workers = min(parallel_scenarios, len(pending), max_concurrent)
	print(f" [{model}] Running {len(pending)} scenarios with {max_workers} parallel workers")

	with ThreadPoolExecutor(max_workers=max_workers) as executor:
	futures = {}
	for idx, scenario in enumerate(pending, len(completed_ids) + 1):
	future = executor.submit(
	_run_one_scenario, scenario, idx, len(scenarios),
	)
	futures[future] = scenario

	for future in as_completed(futures):
	scenario = futures[future]
	try:
	future.result()
	except Exception as e:
	print(f" [{model}] {scenario.id}: ERROR - {e}")
	logger.exception(f"Scenario {scenario.id} failed")
	with results_lock:
	model_results.append({
	"scenario": scenario.id,
	"total_reward": 0.0,
	"breakdown": None,
	"steps": 0,
	"elapsed": 0.0,
	"error": str(e),
	})
	else:
	if not is_passk:
	env_client, runner = _connect()
	checker = VisualMemoryChecker()
	try:
	for idx, scenario in enumerate(pending, len(completed_ids) + 1):
	print(f"\n [{model}] Scenario {idx}/{len(scenarios)}: {scenario.id}")
	result = _run_scenario_with_retries(
	scenario, runner, checker, env_client, _connect, model,
	)
	reward_str = f"{result['total_reward']:.2f}" if result.get("breakdown") else "ERROR"
	print(
	f" [{model}] {scenario.id}: {reward_str} "
	f"({result['steps']} steps, {result['elapsed']:.1f}s)"
	)
	model_results.append(result)
	_save_checkpoint(
	run_id, model, model_results, scenarios,
	temperature, reward_mode, gym_version,
	)
	finally:
	try:
	env_client.__exit__(None, None, None)
	except Exception:
	pass
	else:
	for idx, scenario in enumerate(pending, len(completed_ids) + 1):
	_run_one_scenario(scenario, idx, len(scenarios))

	model_elapsed = time.time() - model_start

	if save:
	output_path = os.path.join(OUTPUT_DIR, "results", f"{run_id}.md")
	save_results_to_markdown(
	results=model_results,
	model=model,
	output_path=output_path,
	total_elapsed=model_elapsed,
	temperature=temperature,
	run_id=run_id,
	reward_mode=reward_mode,
	gym_version=gym_version,
	num_samples=num_samples,
	pass_k_values=pass_k_values,
	)

	if trajectory:
	save_trajectory(
	results=model_results,
	scenarios=scenarios,
	model=model,
	temperature=temperature,
	total_elapsed=model_elapsed,
	run_id=run_id,
	reward_mode=reward_mode,
	gym_version=gym_version,
	num_samples=num_samples,
	pass_k_values=pass_k_values,
	)
	if trajectory_format == "atif":
	save_trajectory_atif(
	results=model_results,
	scenarios=scenarios,
	model=model,
	temperature=temperature,
	total_elapsed=model_elapsed,
	run_id=run_id,
	reward_mode=reward_mode,
	gym_version=gym_version,
	)

	return {
	"model": model,
	"results": model_results,
	"elapsed": model_elapsed,
	}


	def _run_single_model_detailed(
	model: str,
	base_url: str,
	scenarios: list,
	temperature: float,
	max_tokens: int,
	reward_mode: str,
	run_id: str,
	save: bool,
	trajectory: bool,
	gym_version: str = "unknown",
	num_samples: int = 1,
	pass_k_values: Optional[List[int]] = None,
	pass_threshold: float = 0.5,
	resume: bool = False,
	trajectory_format: str = "native",
	) -> Dict[str, Any]:
	model_start = time.time()
	results = []

	completed_ids: Set[str] = set()
	if resume:
	completed_ids, prior = _load_checkpoint(run_id, model)
	results = list(prior)

	pending = [s for s in scenarios if s.id not in completed_ids]
	if not pending:
	print(f" [{model}] All scenarios already completed (checkpoint)")
	return {"model": model, "results": results, "elapsed": time.time() - model_start}

	is_passk = num_samples > 1

	if is_passk:
	for i, scenario in enumerate(pending, len(completed_ids) + 1):
	divider(f"Scenario {i}/{len(scenarios)}: {scenario.id}")
	print(f" Prompt: {scenario.prompt[:120]}...")
	print(f" Samples: {num_samples}")
	print()

	result = _run_scenario_n_samples(
	scenario, n=num_samples, pass_threshold=pass_threshold,
	pass_k_values=pass_k_values or [1], model=model,
	base_url=base_url, temperature=temperature,
	max_tokens=max_tokens, reward_mode=reward_mode,
	)

	pk = result.get("pass_at_k", {})
	print(f"\n -- pass@k Results --")
	print(f" Correct: {result['c']}/{result['n']}")
	for k in (pass_k_values or [1]):
	print(f" pass@{k}: {pk.get(str(k), 0.0):.4f}")

	results.append(result)
	_save_checkpoint(
	run_id, model, results, scenarios,
	temperature, reward_mode, gym_version,
	)
	else:
	env_client = AutoEnv.from_env(GYM_NAME, base_url=base_url)
	env_client.__enter__()
	checker = VisualMemoryChecker()
	transform = VisualMemoryStepTransform() if reward_mode == "openenv" else None
	runner = AgentRunner(
	model=model, env_client=env_client, temperature=temperature,
	max_tokens=max_tokens, reward_mode=reward_mode, transform=transform,
	)

	try:
	for i, scenario in enumerate(pending, len(completed_ids) + 1):
	divider(f"Scenario {i}/{len(scenarios)}: {scenario.id}")
	print(f" Prompt: {scenario.prompt[:120]}...")
	print(f" Expected tools: {scenario.expected_tools}")
	print(f" Max steps: {scenario.max_steps}")
	print()

	start = time.time()
	try:
	episode, breakdown = runner.run_scenario(scenario, checker)
	elapsed = time.time() - start

	print()
	print(" -- Agent Actions --")
	for step in episode.steps:
	status = "OK" if step.success else "FAIL"
	args_str = _short_json(step.arguments)
	print(f" [{status}] {step.tool_name}({args_str})")
	print(f" Steps taken: {len(episode.steps)}")

	if hasattr(checker, "set_episode"):
	checker.set_episode(episode)

	print()
	print(" -- Ground Truth Verification --")
	outcome_results = checker.check_all(scenario.outcome_checks)
	for check, score in zip(scenario.outcome_checks, outcome_results):
	status = "PASS" if score else "FAIL"
	label = _check_label(check)
	print(f" [{status}] {check['type']}: {label}")

	print()
	print(" -- Reward Breakdown --")
	print_breakdown(breakdown)
	print(f"\n Completed in {elapsed:.1f}s")

	result = {
	"scenario": scenario.id,
	"total_reward": breakdown.total,
	"breakdown": breakdown,
	"steps": len(episode.steps),
	"elapsed": elapsed,
	"episode": episode,
	"outcome_results": outcome_results,
	}
	results.append(result)

	except Exception as e:
	elapsed = time.time() - start
	print(f"\n ERROR: {e}")
	logger.exception(f"Scenario {scenario.id} failed")
	results.append({
	"scenario": scenario.id,
	"total_reward": 0.0,
	"breakdown": None,
	"steps": 0,
	"elapsed": elapsed,
	"error": str(e),
	})

	_save_checkpoint(
	run_id, model, results, scenarios,
	temperature, reward_mode, gym_version,
	)

	finally:
	env_client.__exit__(None, None, None)
	logger.info("AutoEnv client disconnected.")

	model_elapsed = time.time() - model_start

	if save:
	output_path = os.path.join(OUTPUT_DIR, "results", f"{run_id}.md")
	save_results_to_markdown(
	results=results, model=model, output_path=output_path,
	total_elapsed=model_elapsed, temperature=temperature,
	run_id=run_id, reward_mode=reward_mode, gym_version=gym_version,
	num_samples=num_samples, pass_k_values=pass_k_values,
	)
	print(f"\n Results saved: {output_path}")

	if trajectory:
	save_trajectory(
	results=results, scenarios=scenarios, model=model,
	temperature=temperature, total_elapsed=model_elapsed,
	run_id=run_id, reward_mode=reward_mode, gym_version=gym_version,
	num_samples=num_samples, pass_k_values=pass_k_values,
	)
	if trajectory_format == "atif":
	save_trajectory_atif(
	results=results, scenarios=scenarios, model=model,
	temperature=temperature, total_elapsed=model_elapsed,
	run_id=run_id, reward_mode=reward_mode, gym_version=gym_version,
	)

	return {
	"model": model,
	"results": results,
	"elapsed": model_elapsed,
	}


	# ── Main ──


	def main():
	parser = argparse.ArgumentParser(
	description="Evaluate an LLM agent against Visual Memory gym scenarios.",
	formatter_class=argparse.RawDescriptionHelpFormatter,
	epilog="""
	Examples:
	# Basic (backward compatible)
	python run_eval.py --model gpt-5.4 --save --trajectory
	python run_eval.py --model gpt-5.4 --scenario directional_trap_8x8

	# pass@k
	python run_eval.py --model gpt-5.4 --num-samples 10 --pass-k 1,3,8 --save

	# Parallel scenarios
	python run_eval.py --model gpt-5.4 --parallel-scenarios 4 --save

	# Resume interrupted run
	python run_eval.py --model gpt-5.4 --run-id my_run --resume --save --trajectory

	# ATIF trajectory format
	python run_eval.py --model gpt-5.4 --trajectory --trajectory-format atif

	# Combined
	python run_eval.py --model gpt-5.4 --num-samples 10 --pass-k 1,3,8 \\
	--parallel-scenarios 4 --run-id bench_v1 --resume --save \\
	--trajectory --trajectory-format atif
	""",
	)
	parser.add_argument(
	"--model",
	default=os.getenv("LLM_MODEL", "gpt-4o"),
	help="LiteLLM model string, or comma-separated for parallel mode "
	"(e.g., 'gpt-5.4' or 'gpt-5.4,claude-sonnet-4-6')",
	)
	parser.add_argument(
	"--scenario",
	default=None,
	help="Run a specific scenario by ID (default: run all 10)",
	)
	parser.add_argument(
	"--temperature",
	type=float,
	default=None,
	help="LLM sampling temperature (default: 0.0, or 0.8 in pass@k mode)",
	)
	parser.add_argument(
	"--max-tokens",
	type=int,
	default=int(os.getenv("LLM_MAX_TOKENS", "1024")),
	help="Max tokens per LLM response (default: 1024)",
	)
	parser.add_argument(
	"--save",
	action="store_true",
	default=True,
	help="Save results to outputs/results/<run_id>.md (default: on)",
	)
	parser.add_argument(
	"--no-save",
	action="store_false",
	dest="save",
	help="Disable saving results markdown",
	)
	parser.add_argument(
	"--trajectory",
	action="store_true",
	default=True,
	help="Save detailed trajectory JSON to outputs/trajectories/<run_id>/ (default: on)",
	)
	parser.add_argument(
	"--no-trajectory",
	action="store_false",
	dest="trajectory",
	help="Disable saving trajectory JSON",
	)
	parser.add_argument(
	"--trajectory-format",
	default="native",
	choices=["native", "atif"],
	help="Trajectory format: 'native' (default) or 'atif' (Harbor/ATIF v1.4)",
	)
	parser.add_argument(
	"--run-id",
	default=None,
	help="Run identifier (default: auto-generated as run_YYYYMMDD_HHMM)",
	)
	parser.add_argument(
	"--reward-mode",
	default="custom",
	choices=["custom", "openenv"],
	help="Reward mode: 'custom' (episode-level) or 'openenv' (per-step). Default: custom",
	)
	parser.add_argument(
	"--parallel-models",
	type=int,
	default=1,
	help="Number of models to evaluate in parallel (default: 1)",
	)
	parser.add_argument(
	"--parallel",
	type=int,
	default=None,
	help=argparse.SUPPRESS, # hidden alias for --parallel-models
	)
	parser.add_argument(
	"--parallel-scenarios",
	type=int,
	default=1,
	help="Number of scenarios to run concurrently per model (default: 1)",
	)
	parser.add_argument(
	"--num-samples",
	type=int,
	default=1,
	help="Number of samples per scenario for pass@k (default: 1 = single run)",
	)
	parser.add_argument(
	"--pass-k",
	default="1",
	help="Comma-separated k values for pass@k (default: '1'). "
	"Requires --num-samples >= max(k).",
	)
	parser.add_argument(
	"--pass-threshold",
	type=float,
	default=0.5,
	help="Min ground_truth score to count as 'pass' for pass@k (default: 0.5)",
	)
	parser.add_argument(
	"--resume",
	action="store_true",
	help="Resume a previous run, skipping completed scenarios. Requires --run-id.",
	)
	parser.add_argument(
	"--verbose", "-v",
	action="store_true",
	help="Enable debug logging",
	)

	args = parser.parse_args()

	# Resolve --parallel alias
	parallel_models = args.parallel if args.parallel is not None else args.parallel_models

	models = [m.strip() for m in args.model.split(",") if m.strip()]
	pass_k_values = [int(k.strip()) for k in args.pass_k.split(",") if k.strip()]

	# Validate pass@k constraints
	if args.num_samples > 1:
	max_k = max(pass_k_values)
	if args.num_samples < max_k:
	print(f"Error: --num-samples ({args.num_samples}) must be >= max(--pass-k) ({max_k})")
	sys.exit(1)

	# Temperature: auto-set for pass@k mode if not explicitly provided
	if args.temperature is not None:
	temperature = args.temperature
	elif args.num_samples > 1:
	temperature = 0.8
	print(f" pass@k mode: temperature auto-set to 0.8 for diverse sampling")
	else:
	temperature = float(os.getenv("LLM_TEMPERATURE", "0.0"))

	if args.run_id:
	run_id = args.run_id
	else:
	run_id = f"run_{datetime.now(IST).strftime('%Y%m%d_%H%M')}"

	if args.resume and not args.run_id:
	print("Warning: --resume without --run-id uses auto-generated ID (no checkpoint to load)")

	log_level = logging.DEBUG if args.verbose else logging.WARNING
	logging.basicConfig(
	level=log_level,
	format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
	datefmt="%H:%M:%S",
	)
	if not args.verbose:
	logging.getLogger("LiteLLM").setLevel(logging.WARNING)
	logging.getLogger("litellm").setLevel(logging.WARNING)
	logging.getLogger("httpx").setLevel(logging.WARNING)
	logging.getLogger("openenv").setLevel(logging.WARNING)
	logging.getLogger("httpcore").setLevel(logging.WARNING)

	base_url = _resolve_base_url()

	scenarios = VISUAL_MEMORY_SCENARIOS
	if args.scenario:
	scenarios = [s for s in scenarios if s.id == args.scenario]
	if not scenarios:
	available = [s.id for s in VISUAL_MEMORY_SCENARIOS]
	print(f"Error: Scenario '{args.scenario}' not found. Available: {available}")
	sys.exit(1)

	divider("AutoEnv Discovery")
	print(f" Discovering gym '{GYM_NAME}' via AutoEnv...")
	env_info = AutoEnv.get_env_info(GYM_NAME)
	print(f" Found: {env_info['name']} (package: {env_info['package']}, v{env_info['version']})")
	print(f" Base URL: {base_url} (auto-derived from openenv.yaml)")

	gym_metadata = _fetch_gym_metadata(base_url)
	if gym_metadata:
	print(f"\n -- Environment Metadata (GET {base_url}/metadata) --")
	print(f" Name: {gym_metadata.get('name', 'N/A')}")
	print(f" Version: {gym_metadata.get('version', 'N/A')}")
	print(f" Description: {gym_metadata.get('description', 'N/A')}")
	else:
	print(f"\n Warning: Could not fetch /metadata from {base_url} (server may not be running)")

	is_parallel_models = parallel_models > 1 and len(models) > 1
	gym_version = gym_metadata.get("version", "unknown") if gym_metadata else "unknown"

	mode_parts = []
	if is_parallel_models:
	mode_parts.append(f"{parallel_models} model workers")
	if args.parallel_scenarios > 1:
	mode_parts.append(f"{args.parallel_scenarios} scenario workers/model")
	if args.num_samples > 1:
	mode_parts.append(f"pass@k (n={args.num_samples}, k={pass_k_values})")
	if args.resume:
	mode_parts.append("resume")
	mode_str = ", ".join(mode_parts) if mode_parts else "Sequential"

	divider("LLM Evaluation Run")
	print(f" Gym: {GYM_NAME} (v{gym_version})")
	print(f" Models: {', '.join(models)}")
	print(f" Run ID: {run_id}")
	print(f" Mode: {mode_str}")
	print(f" Base URL: {base_url}")
	print(f" Scenarios: {len(scenarios)} of {len(VISUAL_MEMORY_SCENARIOS)}")
	print(f" Temperature: {temperature}")
	print(f" Reward Mode: {args.reward_mode}")
	if args.num_samples > 1:
	print(f" Samples/scn: {args.num_samples}")
	print(f" pass@k: {pass_k_values}")
	print(f" Threshold: {args.pass_threshold}")
	if args.trajectory:
	print(f" Traj Format: {args.trajectory_format}")
	print(f" Output Dir: {OUTPUT_DIR}")

	total_start = time.time()
	all_model_results = []

	common_kwargs = dict(
	base_url=base_url,
	scenarios=scenarios,
	temperature=temperature,
	max_tokens=args.max_tokens,
	reward_mode=args.reward_mode,
	run_id=run_id,
	save=args.save,
	trajectory=args.trajectory,
	gym_version=gym_version,
	num_samples=args.num_samples,
	pass_k_values=pass_k_values,
	pass_threshold=args.pass_threshold,
	parallel_scenarios=args.parallel_scenarios,
	resume=args.resume,
	trajectory_format=args.trajectory_format,
	)

	if is_parallel_models:
	divider(f"Parallel Evaluation ({len(models)} models, {parallel_models} workers)")

	max_workers = min(parallel_models, len(models))
	with ThreadPoolExecutor(max_workers=max_workers) as executor:
	futures = {}
	for idx, model in enumerate(models):
	if idx > 0:
	time.sleep(3)
	future = executor.submit(
	_run_single_model,
	model=model,
	verbose=args.verbose,
	**common_kwargs,
	)
	futures[future] = model

	for future in as_completed(futures):
	model = futures[future]
	try:
	result = future.result()
	all_model_results.append(result)
	print(f"\n {model} completed in {result['elapsed']:.1f}s")
	except Exception as e:
	print(f"\n {model} FAILED: {e}")
	logger.exception(f"Model {model} failed")
	all_model_results.append({
	"model": model,
	"results": [],
	"elapsed": 0.0,
	"error": str(e),
	})
	else:
	for model in models:
	if len(models) > 1:
	divider(f"Model: {model}")

	if len(models) == 1 and args.parallel_scenarios <= 1:
	result = _run_single_model_detailed(
	model=model,
	**{k: v for k, v in common_kwargs.items()
	if k not in ("parallel_scenarios",)},
	)
	else:
	result = _run_single_model(
	model=model,
	verbose=args.verbose,
	**common_kwargs,
	)
	all_model_results.append(result)

	total_elapsed = time.time() - total_start
	is_passk = args.num_samples > 1

	divider("Evaluation Summary")

	for mr in all_model_results:
	model = mr["model"]
	results = mr.get("results", [])
	model_elapsed = mr.get("elapsed", 0.0)

	if not results:
	print(f"\n Model: {model} -- FAILED ({mr.get('error', 'unknown')})")
	continue

	print(f"\n Model: {model}")
	print(f" Time: {model_elapsed:.1f}s")

	if is_passk:
	k_headers = " ".join(f"{'pass@' + str(k):>8}" for k in pass_k_values)
	print(f" {'Scenario':<35} {'n':>4} {'c':>4} {k_headers}")
	print(f" {'-' * 35} {'-' * 4} {'-' * 4} " + " ".join("-" * 8 for _ in pass_k_values))

	all_pass_at = {str(k): [] for k in pass_k_values}
	for r in results:
	n = r.get("n", 1)
	c = r.get("c", 0)
	pk = r.get("pass_at_k", {})
	k_vals = " ".join(f"{pk.get(str(k), 0.0):>8.4f}" for k in pass_k_values)
	print(f" {r['scenario']:<35} {n:>4} {c:>4} {k_vals}")
	for k in pass_k_values:
	all_pass_at[str(k)].append(pk.get(str(k), 0.0))

	print(f" {'-' * 35} {'-' * 4} {'-' * 4} " + " ".join("-" * 8 for _ in pass_k_values))
	avg_vals = " ".join(
	f"{sum(all_pass_at[str(k)]) / len(all_pass_at[str(k)]):>8.4f}"
	if all_pass_at[str(k)] else f"{'N/A':>8}"
	for k in pass_k_values
	)
	print(f" {'AVERAGE':<35} {'':>4} {'':>4} {avg_vals}")
	else:
	print(f" {'Scenario':<35} {'Reward':>8} {'Steps':>6} {'Time':>6}")
	print(f" {'-' * 35} {'-' * 8} {'-' * 6} {'-' * 6}")

	for r in results:
	reward_str = f"{r['total_reward']:.2f}" if r.get("breakdown") else "ERROR"
	print(f" {r['scenario']:<35} {reward_str:>8} {r['steps']:>6} {r['elapsed']:>5.1f}s")

	total_reward = sum(r["total_reward"] for r in results)
	avg_reward = total_reward / len(results) if results else 0.0
	print(f" {'-' * 35} {'-' * 8} {'-' * 6} {'-' * 6}")
	print(f" {'AVERAGE':<35} {avg_reward:>8.2f}")

	if len(models) > 1:
	print(f"\n Total time (all models): {total_elapsed:.1f}s")
	if is_parallel_models:
	seq_time = sum(mr.get("elapsed", 0.0) for mr in all_model_results)
	speedup = seq_time / total_elapsed if total_elapsed > 0 else 1.0
	print(f" Sequential equivalent: {seq_time:.1f}s")
	print(f" Speedup: {speedup:.1f}x")


	if __name__ == "__main__":
	main()