Spaces:

Viani
/

SimMart

Sleeping

File size: 32,533 Bytes

"""Post-training evaluation: plot reward curves, compare policies, dump hero traces.

Usage (on host venv, no GPU needed — pure post-hoc analysis):
    python eval.py curves    --runs simmart-runs/smoke-1p5b-*
    python eval.py baselines --seeds 42 43 44 45 46 --out assets/baselines.json
    python eval.py trace     --adapter <path> --seed 42 --out assets/hero-trace.json
"""

from __future__ import annotations

import argparse
import glob
import json
import os
import sys
import statistics
from pathlib import Path
from typing import Any, Dict, List, Optional

HERE = os.path.dirname(os.path.abspath(__file__))
if HERE not in sys.path:
    sys.path.insert(0, HERE)


# ---------------------------------------------------------------------------
# Curve plotting (matplotlib optional)
# ---------------------------------------------------------------------------

def cmd_curves(args: argparse.Namespace) -> int:
    runs = []
    for pat in args.runs:
        runs.extend(sorted(glob.glob(pat)))
    if not runs:
        print(f"No runs matched: {args.runs}", file=sys.stderr)
        return 1

    series: Dict[str, List[Dict[str, Any]]] = {}
    for run in runs:
        hist = Path(run) / "history.jsonl"
        if not hist.exists():
            print(f"skip {run} (no history.jsonl)")
            continue
        entries = [json.loads(line) for line in hist.open() if line.strip()]
        series[os.path.basename(run)] = entries
        print(f"loaded {run}: {len(entries)} steps")

    if args.out:
        Path(args.out).parent.mkdir(parents=True, exist_ok=True)
        with open(args.out, "w") as f:
            json.dump(series, f, indent=2)
        print(f"wrote {args.out}")

    try:
        import matplotlib
        matplotlib.use("Agg")
        import matplotlib.pyplot as plt
    except ImportError:
        print("matplotlib not installed — skipping PNG plot")
        return 0

    fig, axes = plt.subplots(2, 2, figsize=(11, 8))
    for name, entries in series.items():
        xs = [e["step"] for e in entries]
        axes[0, 0].plot(xs, [e["mean_reward"] for e in entries], label=name, marker="o", ms=3)
        axes[0, 1].plot(xs, [e["mean_episode_return"] for e in entries], label=name, marker="o", ms=3)
        axes[1, 0].plot(xs, [e["parse_error_rate"] for e in entries], label=name, marker="o", ms=3)
        axes[1, 1].plot(xs, [e["rogue_recall"] for e in entries], label=name, marker="o", ms=3)

    axes[0, 0].set_title("Mean per-week reward"); axes[0, 0].set_xlabel("step")
    axes[0, 0].axhline(-5.23 / 13, ls="--", c="grey", alpha=0.5, label="random (-0.40)")
    axes[0, 0].axhline(-2.40 / 13, ls="--", c="green", alpha=0.5, label="heuristic (-0.18)")
    axes[0, 0].axhline(-2.27 / 13, ls="--", c="blue", alpha=0.5, label="oracle (-0.17)")
    axes[0, 1].set_title("Episode return (sum of 13 weeks)"); axes[0, 1].set_xlabel("step")
    axes[0, 1].axhline(-5.23, ls="--", c="grey", alpha=0.5, label="random (-5.23)")
    axes[0, 1].axhline(-2.40, ls="--", c="green", alpha=0.5, label="heuristic (-2.40)")
    axes[0, 1].axhline(-2.27, ls="--", c="blue", alpha=0.5, label="oracle (-2.27)")
    axes[1, 0].set_title("Parse error rate"); axes[1, 0].set_xlabel("step"); axes[1, 0].set_ylim(0, 1)
    axes[1, 1].set_title("Rogue catch recall"); axes[1, 1].set_xlabel("step"); axes[1, 1].set_ylim(0, 1)
    for ax in axes.flat:
        ax.legend(fontsize=7, loc="best")
        ax.grid(alpha=0.3)

    png = args.png or "assets/reward_curve.png"
    Path(png).parent.mkdir(parents=True, exist_ok=True)
    fig.tight_layout()
    fig.savefig(png, dpi=140)
    print(f"wrote {png}")
    return 0


# ---------------------------------------------------------------------------
# Baseline battery
# ---------------------------------------------------------------------------

def cmd_baselines(args: argparse.Namespace) -> int:
    from inference import (
        HeuristicCEO, OracleCEO, GodCEO, RandomCEO, FrontierCEO,
        run_policy, EpisodeResult,
    )
    policies: List[Any] = []
    skip = set(args.skip or [])
    if "random" not in skip:
        policies.append(RandomCEO())
    if "heuristic" not in skip:
        policies.append(HeuristicCEO())
    if "oracle" not in skip:
        policies.append(OracleCEO())
    if args.include_god or "god" in (args.only or []):
        policies.append(GodCEO())
    for m in (args.frontier_models or []):
        policies.append(FrontierCEO(
            provider=args.frontier_provider,
            model=m,
            api_base=args.frontier_api_base,
            temperature=args.frontier_temperature,
            max_tokens=args.frontier_max_tokens,
            budget_hint=not args.frontier_no_budget_hint,
        ))

    # Incremental save: checkpoint after each policy so long frontier sweeps
    # aren't lost to a single transient API hiccup or SIGINT.
    out: Dict[str, Dict[str, Any]] = {}
    if args.out and Path(args.out).exists():
        try:
            out = json.loads(Path(args.out).read_text())
            print(f"Resuming from {args.out}, {len(out)} policies already done: "
                  f"{sorted(out.keys())}")
        except Exception:
            out = {}

    for pol in policies:
        if pol.name in out and not args.force:
            print(f"skip {pol.name} (already in {args.out})")
            continue
        print(f"\n>>> {pol.name} @ seeds={args.seeds}")
        results: List[EpisodeResult] = run_policy(pol, seeds=args.seeds, quiet=True)
        rewards = [r.total_reward for r in results]
        out[pol.name] = {
            "n": len(results),
            "mean_total_reward": statistics.mean(rewards),
            "std_total_reward": statistics.stdev(rewards) if len(rewards) > 1 else 0.0,
            "mean_ebitda_margin_pct": statistics.mean([r.ebitda_margin_pct for r in results]),
            "mean_avg_stockout_pct": statistics.mean([r.avg_stockout_pct for r in results]),
            "mean_avg_nps": statistics.mean([r.avg_nps for r in results]),
            "rogue_recall": statistics.mean([
                (r.rogues_caught / r.rogues_total) if r.rogues_total else 1.0
                for r in results
            ]),
            "seeds": list(args.seeds),
            "per_seed_total_reward": rewards,
        }
        if isinstance(pol, FrontierCEO):
            out[pol.name].update({
                "provider": pol._provider,
                "model": pol._model,
                "n_parse_errors": pol.n_parse_errors,
                "n_api_errors": pol.n_api_errors,
                "total_tokens": pol.total_tokens,
                "total_prompt_tokens": pol.total_prompt_tokens,
                "total_completion_tokens": pol.total_completion_tokens,
            })
        print(f"{pol.name:30s}: mean_r={out[pol.name]['mean_total_reward']:+.2f}  "
              f"ebitda%={out[pol.name]['mean_ebitda_margin_pct']:+.2f}  "
              f"rogue_rec={out[pol.name]['rogue_recall']:.2%}")
        if args.out:
            Path(args.out).parent.mkdir(parents=True, exist_ok=True)
            with open(args.out, "w") as f:
                json.dump(out, f, indent=2)

    if args.out:
        print(f"wrote {args.out}")
    return 0


# ---------------------------------------------------------------------------
# Hero trace: replay a trained model on a fixed seed, dump (prompt, action, reward)
# per week for the decision trace document.
# ---------------------------------------------------------------------------

def cmd_trace(args: argparse.Namespace) -> int:
    # These imports will pull in heavy deps, so only do on-demand
    from unsloth import FastLanguageModel
    import torch

    from models import SimMartAction
    from prompts import build_chat, parse_response, render_observation
    from server.environment import SimMartEnvironment

    print(f"Loading base model {args.model} + adapter {args.adapter}")
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name=args.model,
        max_seq_length=4096,
        dtype=torch.bfloat16,
        load_in_4bit=True,
    )
    if args.adapter:
        model.load_adapter(args.adapter, adapter_name="default")
    FastLanguageModel.for_inference(model)
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

    env = SimMartEnvironment()
    obs = env.reset(seed=args.seed, episode_id=f"trace-{args.seed}")

    trace: List[Dict[str, Any]] = []
    total_reward = 0.0
    while obs.step_type != "episode_end":
        chat = build_chat(obs)
        prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
        enc = tokenizer(prompt, return_tensors="pt").to(model.device)
        with torch.inference_mode():
            out = model.generate(
                **enc, max_new_tokens=700, do_sample=False,
                temperature=1.0, pad_token_id=tokenizer.pad_token_id,
            )
        completion = tokenizer.decode(out[0, enc.input_ids.shape[1]:], skip_special_tokens=True)
        action, tel = parse_response(completion, obs.inbox)

        observation_render = render_observation(obs)
        trace.append({
            "week": obs.week_of_quarter,
            "observation_text": observation_render,
            "completion_text": completion,
            "parsed_decisions": [d.model_dump() for d in action.decisions],
            "journal_entry": action.journal_entry,
            "parse_ok": tel["parse_ok"],
            "parse_error": tel.get("parse_error"),
        })

        obs = env.step(action)
        r = obs.reward or 0.0
        trace[-1]["reward"] = r
        total_reward += r

    summary = {
        "seed": args.seed,
        "adapter": args.adapter,
        "model": args.model,
        "total_reward": total_reward,
        "final_ebitda_margin_pct": env.state.company.pnl_qtd.ebitda_margin_pct,
        "final_cash_inr": env.state.company.balance_sheet.cash_inr,
        "rogues_total": len(env.state.rogue_incidents),
        "rogues_caught": sum(1 for r in env.state.rogue_incidents if r.caught),
        "weeks": trace,
    }
    Path(args.out).parent.mkdir(parents=True, exist_ok=True)
    with open(args.out, "w") as f:
        json.dump(summary, f, indent=2)
    print(f"trace → {args.out}  total_reward={total_reward:+.3f}  "
          f"ebitda%={summary['final_ebitda_margin_pct']:+.2f}  "
          f"rogues={summary['rogues_caught']}/{summary['rogues_total']}")
    return 0


# ---------------------------------------------------------------------------
# Checkpoint sweep: evaluate each saved adapter on N held-out seeds, deterministic.
# ---------------------------------------------------------------------------

def cmd_ckpts(args: argparse.Namespace) -> int:
    from unsloth import FastLanguageModel
    import torch

    from prompts import build_chat, parse_response
    from server.environment import SimMartEnvironment

    adapters = []
    for pat in args.adapters:
        adapters.extend(sorted(glob.glob(pat)))
    if not adapters:
        print(f"No adapters matched: {args.adapters}", file=sys.stderr)
        return 1
    print(f"Found {len(adapters)} adapter(s):")
    for a in adapters:
        print(f"  {a}")

    print(f"Loading base model {args.model}")
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name=args.model,
        max_seq_length=4096,
        dtype=torch.bfloat16,
        load_in_4bit=True,
    )
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

    # Load each adapter into its own slot on the same base model so we can
    # swap without reloading weights.
    adapter_names: List[str] = []
    for i, a in enumerate(adapters):
        name = f"ckpt{i}"
        model.load_adapter(a, adapter_name=name)
        adapter_names.append(name)
    FastLanguageModel.for_inference(model)

    results: Dict[str, Dict[str, Any]] = {}
    env = SimMartEnvironment()
    for name, adapter_path in zip(adapter_names, adapters):
        model.set_adapter(name)
        totals: List[float] = []
        ebitdas: List[float] = []
        stockouts: List[float] = []
        parse_errs: List[float] = []
        rogue_rec: List[float] = []
        for seed in args.seeds:
            obs = env.reset(seed=seed, episode_id=f"ckpt-{name}-{seed}")
            total = 0.0
            n_parse_err = 0
            n_weeks = 0
            while obs.step_type != "episode_end":
                chat = build_chat(obs)
                prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
                enc = tokenizer(prompt, return_tensors="pt").to(model.device)
                with torch.inference_mode():
                    out = model.generate(
                        **enc, max_new_tokens=args.max_new_tokens, do_sample=False,
                        temperature=1.0, pad_token_id=tokenizer.pad_token_id,
                    )
                completion = tokenizer.decode(out[0, enc.input_ids.shape[1]:], skip_special_tokens=True)
                action, tel = parse_response(completion, obs.inbox)
                if not tel["parse_ok"]:
                    n_parse_err += 1
                n_weeks += 1
                obs = env.step(action)
                total += (obs.reward or 0.0)
            totals.append(total)
            ebitdas.append(env.state.company.pnl_qtd.ebitda_margin_pct)
            parse_errs.append(n_parse_err / max(n_weeks, 1))
            caught = sum(1 for r in env.state.rogue_incidents if r.caught)
            tot = len(env.state.rogue_incidents)
            rogue_rec.append(caught / tot if tot else 1.0)
            # stockout proxy: check avg across categories from weekly history
            stockouts.append(0.0)  # placeholder — not critical for selection
            print(f"  {name} seed={seed}: ep_ret={total:+.3f}  "
                  f"ebitda%={ebitdas[-1]:+.2f}  parse_err={parse_errs[-1]:.2%}  "
                  f"rogue_rec={rogue_rec[-1]:.2%}")

        results[adapter_path] = {
            "name": name,
            "seeds": args.seeds,
            "per_seed_total_reward": totals,
            "mean_total_reward": statistics.mean(totals),
            "std_total_reward": statistics.stdev(totals) if len(totals) > 1 else 0.0,
            "mean_ebitda_margin_pct": statistics.mean(ebitdas),
            "mean_parse_error_rate": statistics.mean(parse_errs),
            "mean_rogue_recall": statistics.mean(rogue_rec),
        }

    print("\n=== Checkpoint sweep summary ===")
    best = max(results.items(), key=lambda kv: kv[1]["mean_total_reward"])
    for path, r in results.items():
        tag = "  *BEST*" if path == best[0] else ""
        print(f"  {os.path.basename(path):24s}  "
              f"mean_r={r['mean_total_reward']:+.3f}±{r['std_total_reward']:.3f}  "
              f"ebitda%={r['mean_ebitda_margin_pct']:+.2f}  "
              f"parse_err={r['mean_parse_error_rate']:.2%}  "
              f"rogue_rec={r['mean_rogue_recall']:.2%}{tag}")

    if args.out:
        Path(args.out).parent.mkdir(parents=True, exist_ok=True)
        with open(args.out, "w") as f:
            json.dump({
                "base_model": args.model,
                "seeds": args.seeds,
                "results": results,
                "best_adapter": best[0],
            }, f, indent=2)
        print(f"wrote {args.out}")
    return 0


def cmd_ckpts_dual(args: argparse.Namespace) -> int:
    """Dual-head checkpoint sweep: eval action ckpts paired with a fixed journal ckpt."""
    from unsloth import FastLanguageModel
    import torch

    from inference import DualHeadCEO
    from server.environment import SimMartEnvironment

    action_adapters: List[str] = []
    for pat in args.action_adapters:
        action_adapters.extend(sorted(glob.glob(pat)))
    if not action_adapters:
        print(f"No action adapters matched: {args.action_adapters}", file=sys.stderr)
        return 1
    print(f"Found {len(action_adapters)} action adapter(s):")
    for a in action_adapters:
        print(f"  {a}")
    print(f"Journal adapter: {args.journal_adapter}")

    print(f"Loading base model {args.model}")
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name=args.model,
        max_seq_length=4096,
        dtype=torch.bfloat16,
        load_in_4bit=True,
    )
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

    # Load the journal adapter once (shared across all action ckpts)
    model.load_adapter(args.journal_adapter, adapter_name="journal")

    # Register each action adapter under its own name so we can hot-swap.
    action_names: List[str] = []
    for i, a in enumerate(action_adapters):
        name = f"act{i}"
        model.load_adapter(a, adapter_name=name)
        action_names.append(name)
    # Unsloth's fused fast-path is tied to the single adapter active at
    # `for_inference` time; set_adapter() swaps bypass the fused kernels and
    # drop us to ~6% SM util (observed in v6 eval). Opt-out by default for
    # dual-head so both adapters share the standard Unsloth+PEFT fast path.
    # Flip DUAL_FAST_INFER=1 to force the old (single-adapter) fused path.
    if bool(int(os.environ.get("DUAL_FAST_INFER", "0"))):
        FastLanguageModel.for_inference(model)
        print("[eval] FastLanguageModel.for_inference enabled (single-adapter fused)", flush=True)
    else:
        model.eval()
        print("[eval] Skipping for_inference (dual-adapter mode; eval() only)", flush=True)

    import time
    verbose = bool(int(os.environ.get("DUAL_VERBOSE", "1")))
    results: Dict[str, Dict[str, Any]] = {}
    env = SimMartEnvironment()
    for name, adapter_path in zip(action_names, action_adapters):
        ceo = DualHeadCEO(
            model, tokenizer,
            action_adapter=name,
            journal_adapter="journal",
            action_max_tokens=args.action_max_tokens,
            journal_max_tokens=args.journal_max_tokens,
            do_sample=False,
            verbose=verbose,
        )
        totals: List[float] = []
        ebitdas: List[float] = []
        parse_errs: List[float] = []
        rogue_rec: List[float] = []
        for seed in args.seeds:
            obs = env.reset(seed=seed, episode_id=f"dual-{name}-{seed}")
            total = 0.0
            n_weeks = 0
            ceo.n_action_parse_err = 0
            ceo.t_action_s = 0.0
            ceo.t_journal_s = 0.0
            ceo.n_action_tokens = 0
            ceo.n_journal_tokens = 0
            t_seed = time.time()
            print(f"[eval] {name} seed={seed} starting...", flush=True)
            while obs.step_type != "episode_end":
                n_weeks += 1
                act = ceo.act(obs, week=n_weeks)
                obs = env.step(act)
                total += (obs.reward or 0.0)
            seed_wall = time.time() - t_seed
            totals.append(total)
            ebitdas.append(env.state.company.pnl_qtd.ebitda_margin_pct)
            parse_errs.append(ceo.n_action_parse_err / max(n_weeks, 1))
            caught = sum(1 for r in env.state.rogue_incidents if r.caught)
            tot = len(env.state.rogue_incidents)
            rogue_rec.append(caught / tot if tot else 1.0)
            tok_tot = ceo.n_action_tokens + ceo.n_journal_tokens
            tok_s = tok_tot / seed_wall if seed_wall > 0 else 0
            print(
                f"  {name} seed={seed}: ep_ret={total:+.3f}  "
                f"ebitda%={ebitdas[-1]:+.2f}  parse_err={parse_errs[-1]:.2%}  "
                f"rogue_rec={rogue_rec[-1]:.2%}  "
                f"[{seed_wall:.0f}s total, {tok_tot} tok, {tok_s:.0f} t/s; "
                f"act {ceo.t_action_s:.0f}s jrn {ceo.t_journal_s:.0f}s]",
                flush=True,
            )

        results[adapter_path] = {
            "name": name,
            "action_adapter": adapter_path,
            "journal_adapter": args.journal_adapter,
            "seeds": args.seeds,
            "per_seed_total_reward": totals,
            "mean_total_reward": statistics.mean(totals),
            "std_total_reward": statistics.stdev(totals) if len(totals) > 1 else 0.0,
            "mean_ebitda_margin_pct": statistics.mean(ebitdas),
            "mean_parse_error_rate": statistics.mean(parse_errs),
            "mean_rogue_recall": statistics.mean(rogue_rec),
        }

    print("\n=== Dual-head checkpoint sweep summary ===")
    best = max(results.items(), key=lambda kv: kv[1]["mean_total_reward"])
    for path, r in results.items():
        tag = "  *BEST*" if path == best[0] else ""
        print(f"  {os.path.basename(path):24s}  "
              f"mean_r={r['mean_total_reward']:+.3f}±{r['std_total_reward']:.3f}  "
              f"ebitda%={r['mean_ebitda_margin_pct']:+.2f}  "
              f"parse_err={r['mean_parse_error_rate']:.2%}  "
              f"rogue_rec={r['mean_rogue_recall']:.2%}{tag}")

    if args.out:
        Path(args.out).parent.mkdir(parents=True, exist_ok=True)
        with open(args.out, "w") as f:
            json.dump({
                "mode": "dual-head",
                "base_model": args.model,
                "journal_adapter": args.journal_adapter,
                "seeds": args.seeds,
                "results": results,
                "best_action_adapter": best[0],
            }, f, indent=2)
        print(f"wrote {args.out}")
    return 0


def cmd_dual_baselines(args: argparse.Namespace) -> int:
    """Apples-to-apples dual-head comparison: run baselines + frontier models
    on the same seeds the dual-head SFT/GRPO eval uses.

    Baselines (random/heuristic/oracle/god) are naturally single-pass (no LLM);
    they are included here because their journal is rule-generated and the
    comparison target is the same set of reward components.

    Frontier models run in ``dual_head=True`` mode: two API calls per week
    using build_action_chat (300 tok) + build_journal_chat (400 tok), mirroring
    the DualHeadCEO wire format.

    Incremental-save: any policy already present in --out is skipped unless
    --force.  This makes long frontier sweeps robust to transient API errors.
    """
    import time
    from inference import (
        RandomCEO, HeuristicCEO, OracleCEO, GodCEO, FrontierCEO,
        run_policy, EpisodeResult,
    )

    policies: List[Any] = []
    only = set(args.only or [])
    skip = set(args.skip or [])

    def _want(name: str, default: bool) -> bool:
        if only:
            return name in only
        return default and (name not in skip)

    if _want("random", True):
        policies.append(RandomCEO())
    if _want("heuristic", True):
        policies.append(HeuristicCEO())
    if _want("oracle", True):
        policies.append(OracleCEO())
    if _want("god", True):
        policies.append(GodCEO())

    for m in (args.frontier_models or []):
        policies.append(FrontierCEO(
            provider=args.frontier_provider,
            model=m,
            api_base=args.frontier_api_base,
            temperature=args.frontier_temperature,
            max_tokens=(args.action_max_tokens + args.journal_max_tokens),
            budget_hint=False,  # dual-head budget is split across two calls
            dual_head=True,
            action_max_tokens=args.action_max_tokens,
            journal_max_tokens=args.journal_max_tokens,
            permissive=args.frontier_permissive,
        ))

    # Resume-friendly output
    out: Dict[str, Dict[str, Any]] = {}
    if args.out and Path(args.out).exists():
        try:
            out = json.loads(Path(args.out).read_text())
            print(f"[dual-baselines] resuming {args.out}, {len(out)} already done: "
                  f"{sorted(out.keys())}", flush=True)
        except Exception:
            out = {}

    for pol in policies:
        if pol.name in out and not args.force:
            print(f"[dual-baselines] skip {pol.name} (already in {args.out})", flush=True)
            continue

        t0 = time.time()
        print(f"\n[dual-baselines] >>> {pol.name}  seeds={list(args.seeds)}", flush=True)
        results: List[EpisodeResult] = run_policy(pol, seeds=list(args.seeds), quiet=False)
        wall = time.time() - t0

        rewards = [r.total_reward for r in results]
        recalls = [(r.rogues_caught / r.rogues_total) if r.rogues_total else 1.0 for r in results]
        out[pol.name] = {
            "n": len(results),
            "wall_s": wall,
            "mean_total_reward": statistics.mean(rewards),
            "std_total_reward": statistics.stdev(rewards) if len(rewards) > 1 else 0.0,
            "mean_ebitda_margin_pct": statistics.mean([r.ebitda_margin_pct for r in results]),
            "mean_avg_stockout_pct": statistics.mean([r.avg_stockout_pct for r in results]),
            "mean_avg_nps": statistics.mean([r.avg_nps for r in results]),
            "rogue_recall": statistics.mean(recalls),
            "seeds": list(args.seeds),
            "per_seed_total_reward": rewards,
            "per_seed_rogue_recall": recalls,
            "per_seed_ebitda_margin_pct": [r.ebitda_margin_pct for r in results],
        }
        if isinstance(pol, FrontierCEO):
            out[pol.name].update({
                "provider": pol._provider,
                "model": pol._model,
                "dual_head": True,
                "action_max_tokens": pol._action_max_tokens,
                "journal_max_tokens": pol._journal_max_tokens,
                "n_parse_errors": pol.n_parse_errors,
                "n_api_errors": pol.n_api_errors,
                "total_tokens": pol.total_tokens,
                "total_prompt_tokens": pol.total_prompt_tokens,
                "total_completion_tokens": pol.total_completion_tokens,
            })
        print(
            f"[dual-baselines] {pol.name:40s} "
            f"mean_r={out[pol.name]['mean_total_reward']:+6.3f}  "
            f"ebitda%={out[pol.name]['mean_ebitda_margin_pct']:+6.2f}  "
            f"rogue_rec={out[pol.name]['rogue_recall']:.2%}  "
            f"[{wall:.0f}s]",
            flush=True,
        )
        if args.out:
            Path(args.out).parent.mkdir(parents=True, exist_ok=True)
            with open(args.out, "w") as f:
                json.dump(out, f, indent=2)

    # Final summary table, sorted by mean_total_reward
    print("\n=== Dual-head baselines summary ===", flush=True)
    ranked = sorted(out.items(), key=lambda kv: kv[1]["mean_total_reward"], reverse=True)
    for name, r in ranked:
        print(
            f"  {name:40s} mean_r={r['mean_total_reward']:+6.3f}±{r['std_total_reward']:.3f}  "
            f"ebitda%={r['mean_ebitda_margin_pct']:+6.2f}  "
            f"rogue_rec={r['rogue_recall']:.2%}",
            flush=True,
        )

    if args.out:
        print(f"wrote {args.out}", flush=True)
    return 0


def main() -> int:
    p = argparse.ArgumentParser()
    sub = p.add_subparsers(dest="cmd", required=True)

    pc = sub.add_parser("curves", help="plot reward curves from one or more run dirs")
    pc.add_argument("--runs", nargs="+", required=True,
                    help="glob patterns, e.g. 'simmart-runs/smoke-1p5b-*'")
    pc.add_argument("--png", default=None, help="output PNG path")
    pc.add_argument("--out", default=None, help="output JSON dump path")
    pc.set_defaults(fn=cmd_curves)

    pb = sub.add_parser("baselines",
                        help="benchmark random/heuristic/oracle (+ optional frontier LLMs) on N seeds")
    pb.add_argument("--seeds", type=int, nargs="+", default=[42, 43, 44, 45, 46])
    pb.add_argument("--out", default=None)
    pb.add_argument("--skip", nargs="*", default=[],
                    help="skip built-in policies by name (e.g. --skip random oracle)")
    pb.add_argument("--include-god", action="store_true",
                    help="include GodCEO (ground-truth cheat + engineered journal) "
                         "to measure empirical ceiling")
    pb.add_argument("--only", nargs="*", default=[],
                    help="force-include policies (e.g. --only god)")
    pb.add_argument("--force", action="store_true",
                    help="re-run policies even if already in --out")
    pb.add_argument("--frontier-models", nargs="*", default=[],
                    help="frontier model ids to add (e.g. Claude-Haiku-4.5 Claude-Sonnet-4.6)")
    pb.add_argument("--frontier-provider",
                    choices=["auto", "openai", "anthropic", "openai_responses"], default="auto")
    pb.add_argument("--frontier-api-base", default=None)
    pb.add_argument("--frontier-temperature", type=float, default=0.0)
    pb.add_argument("--frontier-max-tokens", type=int, default=None,
                    help="hard token cap (defaults to FrontierCEO.DEFAULT_MAX_TOKENS=600)")
    pb.add_argument("--frontier-no-budget-hint", action="store_true",
                    help="do NOT tell the frontier model its token budget")
    pb.set_defaults(fn=cmd_baselines)

    pt = sub.add_parser("trace", help="rollout a trained adapter deterministically, dump trace")
    pt.add_argument("--model", default="Qwen/Qwen2.5-1.5B-Instruct")
    pt.add_argument("--adapter", default=None)
    pt.add_argument("--seed", type=int, default=42)
    pt.add_argument("--out", required=True)
    pt.set_defaults(fn=cmd_trace)

    pk = sub.add_parser("ckpts", help="sweep many adapters × many seeds, pick best")
    pk.add_argument("--model", default="Qwen/Qwen2.5-1.5B-Instruct")
    pk.add_argument("--adapters", nargs="+", required=True,
                    help="glob patterns, e.g. 'simmart-runs/hero-*/adapter-step-*'")
    pk.add_argument("--seeds", type=int, nargs="+", default=[101, 202, 303])
    pk.add_argument("--max-new-tokens", type=int, default=600)
    pk.add_argument("--out", default=None)
    pk.set_defaults(fn=cmd_ckpts)

    pkd = sub.add_parser(
        "ckpts-dual",
        help="dual-head eval: sweep action adapters, each paired with a fixed frozen journal adapter",
    )
    pkd.add_argument("--model", default="Qwen/Qwen2.5-1.5B-Instruct")
    pkd.add_argument("--action-adapters", nargs="+", required=True,
                     help="glob patterns for trainable (action) LoRA checkpoints")
    pkd.add_argument("--journal-adapter", required=True,
                     help="path to the frozen journal LoRA (shared across all action ckpts)")
    pkd.add_argument("--seeds", type=int, nargs="+", default=[42, 43, 44, 45, 46])
    pkd.add_argument("--action-max-tokens", type=int, default=300)
    pkd.add_argument("--journal-max-tokens", type=int, default=400)
    pkd.add_argument("--out", default=None)
    pkd.set_defaults(fn=cmd_ckpts_dual)

    pdb = sub.add_parser(
        "dual-baselines",
        help="dual-head apples-to-apples: random/heuristic/oracle/god + frontier (two-pass)",
    )
    pdb.add_argument("--seeds", type=int, nargs="+", default=[42, 43, 44, 45, 46])
    pdb.add_argument("--out", default="assets/baselines_dual.json")
    pdb.add_argument("--only", nargs="*", default=[],
                     help="restrict to a subset, e.g. --only heuristic god")
    pdb.add_argument("--skip", nargs="*", default=[],
                     help="skip baselines by name (e.g. --skip random oracle)")
    pdb.add_argument("--force", action="store_true",
                     help="re-run policies even if already in --out")
    pdb.add_argument("--frontier-models", nargs="*", default=[],
                     help="frontier model ids to evaluate in dual-head mode "
                          "(e.g. Claude-Sonnet-4.6 gpt-5.4)")
    pdb.add_argument("--frontier-provider",
                     choices=["auto", "openai", "anthropic", "openai_responses"], default="auto")
    pdb.add_argument("--frontier-api-base", default=None)
    pdb.add_argument("--frontier-temperature", type=float, default=0.0)
    pdb.add_argument("--action-max-tokens", type=int, default=300)
    pdb.add_argument("--journal-max-tokens", type=int, default=400)
    pdb.add_argument("--frontier-permissive", action="store_true",
                     help="use ACTION_SYSTEM_PROMPT_PERMISSIVE for frontier "
                          "models — allows <thinking> CoT before <action>, "
                          "adds rogue checklist + budget guidance. "
                          "Policy names get `-permissive` suffix so strict & "
                          "permissive runs coexist in the same --out JSON.")
    pdb.set_defaults(fn=cmd_dual_baselines)

    args = p.parse_args()
    return args.fn(args)


if __name__ == "__main__":
    raise SystemExit(main())