Spaces:

nirmalpratheep
/

Car-Racing-Agent

Sleeping

File size: 51,131 Bytes

27cec6c

"""

train_torchrl.py — TorchRL PPO training for the curriculum car racer.



Replaces train_sb3.py with a torchrl-based PPO. All hyperparameters are

transferred exactly from train_sb3.py (SB3 PPO defaults + our overrides):



  learning_rate      3e-4            (Adam, eps=1e-5)  — SB3 default

  rollout frames     2048 / update   (n_steps × n_envs in SB3)

  batch size         64              (minibatch size for PPO updates)

  n_epochs           10              (passes over rollout data)

  gamma              0.99

  gae_lambda         0.95

  clip_epsilon       0.2

  vf_coef            0.5

  ent_coef           0.0             (SB3 default)

  max_grad_norm      0.5

  normalize_adv      True

  target_kl          None            (no early stop)

  log_std_init       -1.0            (initial std ≈ 0.37; SB3 DiagGaussian — no clamp)

  actor mean bias    [0]=0.3         (gentle forward accel)

  ortho init         gain=0.01 (actor) / 1.0 (critic)

  features extractor RaceEncoder     (ImpalaCNN + MLP → 288 dims)

  net_arch           empty           (direct linear heads, no extra MLP)

  share features     True            (encoder params shared across heads)



W&B metrics use identical keys to train_sb3.py.



Usage

─────

  uv run python train_torchrl.py

  uv run python train_torchrl.py --num-envs 8 --total-steps 10_000_000

  uv run python train_torchrl.py --resume checkpoints/ppo_torchrl_step500000.pt

"""

import argparse
import math
import os
import random
import re
import statistics
import sys
import time
from collections import deque

# Ensure project root (parent of training/) is on sys.path so env/ and game/ are importable
sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

import numpy as np
import torch
import torch.nn as nn
import wandb

# Headless pygame — must come before any game/env import
os.environ.setdefault("SDL_VIDEODRIVER", "dummy")
os.environ.setdefault("SDL_AUDIODRIVER", "dummy")

# UTF-8 stdout so box-drawing glyphs inside tensordict/torchrl banners don't
# explode on Windows cp1252 when wandb wraps stdout.
try:
    sys.stdout.reconfigure(encoding="utf-8", errors="replace")
    sys.stderr.reconfigure(encoding="utf-8", errors="replace")
except Exception:
    pass

from tensordict import TensorDict
from tensordict.nn import TensorDictModule, TensorDictSequential
from torchrl.collectors import Collector
from torchrl.data import LazyTensorStorage, ReplayBuffer, SamplerWithoutReplacement
import multiprocessing as mp
from torchrl.envs import Compose, GymWrapper, ParallelEnv, StepCounter, TransformedEnv
from torchrl.envs.gym_like import BaseInfoDictReader
from torchrl.envs.transforms import RewardSum
from torchrl.envs.utils import ExplorationType, set_exploration_type
from torchrl.data.tensor_specs import Composite, Unbounded
from torchrl.modules import ProbabilisticActor, ValueOperator
from torchrl.modules.distributions import IndependentNormal
from torchrl.objectives import ClipPPOLoss
from torchrl.objectives.value import GAE

from env import CurriculumBuilder, DriveAction
from env.encoder import RaceEncoder
from env.gym_env import RaceGymEnv
from game.rl_splits import TRAIN, difficulty_of


# ─────────────────────────────────────────────────────────────────────────────
# Args  (same flags/defaults as train_sb3.py)
# ─────────────────────────────────────────────────────────────────────────────

def parse_args():
    p = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)

    g = p.add_argument_group("W&B")
    g.add_argument("--wandb-project",  default="curriculum-car-racer")
    g.add_argument("--wandb-run-name", default=None)
    g.add_argument("--wandb-id",       default=None)
    g.add_argument("--wandb-offline",  action="store_true")

    g = p.add_argument_group("Training budget")
    g.add_argument("--total-steps",   type=int, default=5_000_000)
    g.add_argument("--rollout-steps", type=int, default=2048,
                   help="Total frames per PPO update (across all envs)")
    g.add_argument("--num-envs",      type=int, default=4)
    g.add_argument("--batch-size",    type=int, default=64)
    g.add_argument("--ppo-epochs",    type=int, default=10)

    g = p.add_argument_group("PPO (SB3 defaults)")
    g.add_argument("--lr",            type=float, default=3e-4)
    g.add_argument("--gamma",         type=float, default=0.99)
    g.add_argument("--gae-lambda",    type=float, default=0.95)
    g.add_argument("--clip-eps",      type=float, default=0.2)
    g.add_argument("--vf-coef",       type=float, default=0.5)
    g.add_argument("--ent-coef",      type=float, default=0.01)
    g.add_argument("--max-grad-norm", type=float, default=0.5)
    g.add_argument("--target-kl",     type=float, default=0.1,
                   help="Stop PPO epochs early when approx_kl exceeds this")

    g = p.add_argument_group("Curriculum")
    g.add_argument("--threshold",           type=float, default=30.0)
    g.add_argument("--window",              type=int,   default=20)
    g.add_argument("--replay-frac",         type=float, default=0.3)
    g.add_argument("--eval-episodes",       type=int,   default=1,
                   help="Greedy eval episodes run every --eval-interval-steps for curriculum gating")
    g.add_argument("--eval-interval-steps", type=int,   default=25_000,
                   help="Run greedy curriculum eval every N global steps")

    g = p.add_argument_group("Checkpointing")
    g.add_argument("--checkpoint-interval", type=int, default=500_000)
    g.add_argument("--checkpoint-dir",      default="checkpoints")
    g.add_argument("--keep-checkpoints",    type=int, default=5)
    g.add_argument("--resume",              default=None)

    g = p.add_argument_group("Misc")
    g.add_argument("--seed",           type=int, default=42)
    g.add_argument("--device",         default="cuda" if torch.cuda.is_available() else "cpu")
    g.add_argument("--compile",        action="store_true")
    g.add_argument("--video-interval", type=int, default=25_000)
    g.add_argument("--video-dir",      default="inference_videos")

    return p.parse_args()


# ─────────────────────────────────────────────────────────────────────────────
# Shared encoder + actor/critic heads
#
# RaceEncoder (ImpalaCNN + scalar MLP → 288) is shared between the actor and
# critic, matching SB3's share_features_extractor=True. The actor and critic
# each run the encoder once per forward (torchrl's PPO evaluates them
# separately); parameter sharing gives identical gradients to SB3.
# ─────────────────────────────────────────────────────────────────────────────

def _flatten_batch_dims(image: torch.Tensor, scalars: torch.Tensor):
    """

    Collapse all leading batch dimensions into one so Conv2d gets a 4D tensor.

    Returns (img_flat, sca_flat, lead_shape) where lead_shape is used to

    restore the original batch structure on outputs.



    RaceEncoder expects image (B, 3, 64, 64) and scalars (B, 9). During PPO

    loss/GAE, torchrl hands us (N, T, 3, 64, 64) / (N, T, 9); during rollout

    collection it's (N, 3, 64, 64) / (N, 9). Flatten uniformly.

    """
    lead_shape = image.shape[:-3]       # everything except C,H,W
    img_flat = image.reshape(-1, *image.shape[-3:])
    sca_flat = scalars.reshape(-1, scalars.shape[-1])
    return img_flat, sca_flat, lead_shape


class _ActorNet(nn.Module):
    """Image + scalars → (loc, scale) for IndependentNormal."""

    def __init__(self, encoder: RaceEncoder, log_std_init: float = -1.0):
        super().__init__()
        self.encoder = encoder
        self.mean    = nn.Linear(encoder.out_features, 2)
        # log_std is a free parameter (not state-conditioned), matching SB3's
        # DiagGaussianDistribution. Unbounded — SB3 does not clamp log_std.
        self.log_std = nn.Parameter(torch.full((2,), float(log_std_init)))

        nn.init.orthogonal_(self.mean.weight, gain=0.01)
        nn.init.zeros_(self.mean.bias)
        # Gentle forward accel so the car stays moving while exploring.
        with torch.no_grad():
            self.mean.bias[0] = 0.3

    def forward(self, image: torch.Tensor, scalars: torch.Tensor):
        img_f, sca_f, lead = _flatten_batch_dims(image, scalars)
        feat  = self.encoder(img_f, sca_f)
        loc   = self.mean(feat).reshape(*lead, 2)
        scale = self.log_std.exp().expand_as(loc)
        return loc, scale


class _CriticNet(nn.Module):
    """Image + scalars → value (1,)."""

    def __init__(self, encoder: RaceEncoder):
        super().__init__()
        self.encoder = encoder
        self.value   = nn.Linear(encoder.out_features, 1)
        nn.init.orthogonal_(self.value.weight, gain=1.0)
        nn.init.zeros_(self.value.bias)

    def forward(self, image: torch.Tensor, scalars: torch.Tensor):
        img_f, sca_f, lead = _flatten_batch_dims(image, scalars)
        v = self.value(self.encoder(img_f, sca_f))
        return v.reshape(*lead, 1)


def _sb3_ortho_init(module: nn.Module, gain: float) -> None:
    """Mirror SB3's ActorCriticPolicy.init_weights(gain) via module.apply:

    orthogonal-init every Conv2d/Linear weight with the given gain and zero

    biases. SB3 applies gain=sqrt(2) to the features extractor."""
    for m in module.modules():
        if isinstance(m, (nn.Linear, nn.Conv2d)):
            nn.init.orthogonal_(m.weight, gain=gain)
            if m.bias is not None:
                nn.init.zeros_(m.bias)


def build_policy_and_value(device: torch.device):
    """Build actor + critic modules with a shared RaceEncoder (shared params)."""
    encoder = RaceEncoder()
    _sb3_ortho_init(encoder, gain=math.sqrt(2))  # SB3 ortho_init=True on features extractor
    actor_net  = _ActorNet(encoder)     # head overrides encoder-wide init on its own layers
    critic_net = _CriticNet(encoder)

    actor_tdm = TensorDictModule(
        actor_net,
        in_keys=["image", "scalars"],
        out_keys=["loc", "scale"],
    )
    policy_module = ProbabilisticActor(
        module             = actor_tdm,
        in_keys            = ["loc", "scale"],
        out_keys           = ["action"],
        distribution_class = IndependentNormal,
        return_log_prob    = True,
    ).to(device)

    value_module = ValueOperator(
        module   = critic_net,
        in_keys  = ["image", "scalars"],
        out_keys = ["state_value"],
    ).to(device)

    return policy_module, value_module, encoder


# ─────────────────────────────────────────────────────────────────────────────
# Environment factory
# ─────────────────────────────────────────────────────────────────────────────

class _EpisodeStatsReader(BaseInfoDictReader):
    """

    BaseInfoDictReader subclass so set_info_dict_reader() registers the keys in

    GymWrapper.observation_spec — required for ParallelEnv to allocate shared

    memory and transfer these values from subprocess to main process.

    """
    info_spec = Composite(
        episode_laps    = Unbounded((), dtype=torch.float32),
        episode_crashes = Unbounded((), dtype=torch.float32),
        on_track_pct    = Unbounded((), dtype=torch.float32),
        track_level     = Unbounded((), dtype=torch.float32),
    )

    def __call__(self, info, td):
        td["episode_laps"]    = torch.tensor(info.get("episode_laps",    0),   dtype=torch.float32)
        td["episode_crashes"] = torch.tensor(info.get("episode_crashes", 0),   dtype=torch.float32)
        td["on_track_pct"]    = torch.tensor(info.get("on_track_pct",    0.0), dtype=torch.float32)
        td["track_level"]     = torch.tensor(info.get("track_level",     0),   dtype=torch.float32)

    def reset(self, tensordict_reset=None):
        pass


def make_vec_env(num_envs: int, max_steps: int, laps_target: int,

                 replay_frac: float, device, shared_level: mp.Value,

                 shared_priority=None, shared_n_priority=None):
    """

    ParallelEnv of GymWrapper(RaceGymEnv) — each env runs in its own subprocess

    for parallel CPU stepping. Frontier level is shared via a multiprocessing.Value

    so curriculum advances in the main process propagate instantly to all workers.

    """
    def _factory():
        gym_env = RaceGymEnv(
            sampler           = None,
            frontier_level    = 0,
            replay_frac       = replay_frac,
            max_steps         = max_steps,
            laps_target       = laps_target,
            shared_level      = shared_level,
            shared_priority   = shared_priority,
            shared_n_priority = shared_n_priority,
        )
        wrapped = GymWrapper(gym_env, device="cpu")
        wrapped.set_info_dict_reader(_EpisodeStatsReader())
        return wrapped

    base = ParallelEnv(num_envs, _factory, mp_start_method="fork")
    return TransformedEnv(base, Compose(StepCounter(), RewardSum()))


# ─────────────────────────────────────────────────────────────────────────────
# Inference video (frontier track only — same as train_sb3.py)
# ─────────────────────────────────────────────────────────────────────────────

def _game_frame(race_env) -> np.ndarray:
    import pygame
    from game.oval_racer import draw_car, draw_headlights

    ce   = race_env._env
    surf = ce.track.surface.copy()
    draw_headlights(surf, ce._x, ce._y, ce._angle)
    draw_car(surf, ce._x, ce._y, ce._angle)
    small = pygame.transform.scale(surf, (450, 300))
    return pygame.surfarray.array3d(small).transpose(1, 0, 2).copy()


@torch.no_grad()
def log_inference_videos(

    policy_module,

    builder: CurriculumBuilder,

    device: torch.device,

    global_step: int,

    video_dir: str = "inference_videos",

    frame_skip: int = 2,

) -> None:
    import imageio.v3 as iio
    from env.environment import RaceEnvironment
    from game.rl_splits import _ensure_pygame

    _ensure_pygame()
    os.makedirs(video_dir, exist_ok=True)

    policy_module.eval()

    frontier_track = TRAIN[builder.current_level]
    track = frontier_track
    track.build()
    env     = RaceEnvironment(track, max_steps=3000, laps_target=1, use_image=True)
    raw_obs = env.reset()
    frames  = [_game_frame(env)]
    step    = 0

    while not raw_obs.done:
        img = (torch.from_numpy(raw_obs.image.copy())
               .float().div(255.0).permute(2, 0, 1).unsqueeze(0).to(device))
        scalars = torch.tensor(raw_obs.scalars, dtype=torch.float32,
                               device=device).unsqueeze(0)

        td = TensorDict({"image": img, "scalars": scalars}, batch_size=[1])
        with set_exploration_type(ExplorationType.MEAN):
            td = policy_module(td)
        action = td.get("action")[0].clamp(-1.0, 1.0).cpu().numpy()

        raw_obs = env.step(DriveAction(
            accel=float(action[0]), steer=float(action[1])
        ))
        step += 1
        if step % frame_skip == 0:
            frames.append(_game_frame(env))

    video      = np.stack(frames, axis=0)
    track_slug = track.name.replace(" ", "_")
    filename   = f"step{global_step:08d}_track{track.level:02d}_{track_slug}.mp4"
    iio.imwrite(os.path.join(video_dir, filename),
                video, fps=20, codec="libx264", plugin="pyav")

    policy_module.train()
    print(f"  [VIDEO] Saved to {os.path.join(video_dir, filename)}")


# ─────────────────────────────────────────────────────────────────────────────
# Episode iteration over a collected rollout
# ─────────────────────────────────────────────────────────────────────────────

def _iter_episodes(td):
    """

    Yield (env_idx, step_idx, episode_reward, episode_length, info_dict) for

    every terminal step in the collected rollout.



    td has shape (N, T) with the standard torchrl layout:

      td["next","done"]          → (N, T, 1)

      td["next","episode_reward"]→ (N, T, 1)   (from RewardSum)

      td["next","step_count"]    → (N, T, 1)   (from StepCounter)

      td["next","episode_laps"]  → (N, T)      (from RaceGymEnv info, if present)

    RaceGymEnv writes episode_laps/episode_crashes/on_track_pct only on done.

    """
    next_td = td.get("next")
    dones   = next_td.get("done").squeeze(-1)                # (N, T)  bool
    ep_r    = next_td.get("episode_reward").squeeze(-1)      # (N, T)  float
    ep_l    = next_td.get("step_count").squeeze(-1)          # (N, T)  int

    # Info fields from RaceGymEnv (only populated on done steps). If they were
    # never observed, these keys will not exist — tolerate that.
    def _get(key, default):
        if key in next_td.keys():
            v = next_td.get(key)
            return v.squeeze(-1) if v.dim() > dones.dim() else v
        return torch.full_like(ep_r, float(default))

    ep_crashes   = _get("episode_crashes", 0).to(torch.float32)
    ep_laps_info = _get("episode_laps",    0).to(torch.float32)
    on_track     = _get("on_track_pct",    0.0).to(torch.float32)
    track_level  = _get("track_level",     0).to(torch.float32)
    track_name   = next_td.get("track_name", None)  # may be bytes/str tensor

    N, T = dones.shape
    for n in range(N):
        for t in range(T):
            if not bool(dones[n, t]):
                continue
            yield {
                "env_idx":      n,
                "step_idx":     t,
                "ep_reward":    float(ep_r[n, t]),
                "ep_length":    int(ep_l[n, t]),
                "ep_crashes":   int(ep_crashes[n, t]),
                "ep_laps":      int(ep_laps_info[n, t]),
                "on_track_pct": float(on_track[n, t]),
                "track_level":  int(track_level[n, t]),
            }


# ─────────────────────────────────────────────────────────────────────────────
# Checkpoints
# ─────────────────────────────────────────────────────────────────────────────

def save_checkpoint(path, policy_module, value_module, optimizer,

                    global_step, builder, args, reward_window, frontier_reward_window,

                    episode_num, wandb_run_id):
    torch.save({
        "step":                    global_step,
        "curriculum_level":        builder.current_level,
        "policy":                  policy_module.state_dict(),
        "value":                   value_module.state_dict(),
        "optimizer":               optimizer.state_dict(),
        "args":                    vars(args),
        "reward_window":           list(reward_window),
        "frontier_reward_window":  list(frontier_reward_window),
        "episode_num":      episode_num,
        "sampler_idx":              builder._sampler._idx,
        "sampler_rewards":          list(builder._sampler._rewards),
        "sampler_crashes":          list(builder._sampler._crashes),
        "sampler_laps":             list(builder._sampler._laps),
        "sampler_is_frontier":      list(builder._sampler._is_frontier),
        "sampler_frontier_crashes": list(builder._sampler._frontier_crashes),
        "sampler_frontier_laps":    list(builder._sampler._frontier_laps),
        "wandb_run_id":     wandb_run_id,
    }, path)


def prune_checkpoints(checkpoint_dir: str, keep: int):
    if keep <= 0:
        return
    import glob as _glob
    pts = sorted(_glob.glob(os.path.join(checkpoint_dir, "ppo_torchrl_step*.pt")))
    for old in pts[:-keep]:
        os.remove(old)
        print(f"  [PRUNE] Removed {os.path.basename(old)}")


# ─────────────────────────────────────────────────────────────────────────────
# Greedy curriculum evaluation
# ─────────────────────────────────────────────────────────────────────────────

@torch.no_grad()
def _greedy_eval(policy_module, track, device, n_episodes, max_steps=3000):
    """

    Run n_episodes greedy (MEAN action) episodes on track.

    Returns list of dicts: {laps, crashes}.

    Uses RaceEnvironment directly — no vectorisation overhead.

    """
    from env.environment import RaceEnvironment

    policy_module.eval()
    results = []
    track.build()

    for _ in range(n_episodes):
        env     = RaceEnvironment(track, max_steps=max_steps, laps_target=1, use_image=True)
        raw_obs = env.reset()

        while not raw_obs.done:
            img = (torch.from_numpy(raw_obs.image.copy())
                   .float().div(255.0).permute(2, 0, 1).unsqueeze(0).to(device))
            scalars = torch.tensor(raw_obs.scalars, dtype=torch.float32,
                                   device=device).unsqueeze(0)
            td = TensorDict({"image": img, "scalars": scalars}, batch_size=[1])
            with set_exploration_type(ExplorationType.MEAN):
                td = policy_module(td)
            action  = td["action"][0].clamp(-1.0, 1.0).cpu().numpy()
            raw_obs = env.step(DriveAction(accel=float(action[0]), steer=float(action[1])))

        ce = env._env
        results.append({"laps": ce._laps, "crashes": ce._crash_count})

    policy_module.train()
    return results


# ─────────────────────────────────────────────────────────────────────────────
# Main
# ─────────────────────────────────────────────────────────────────────────────

def main():
    args   = parse_args()
    device = torch.device(args.device)

    # ── Seed ──────────────────────────────────────────────────────────────────
    random.seed(args.seed)
    np.random.seed(args.seed)
    torch.manual_seed(args.seed)
    if device.type == "cuda":
        torch.cuda.manual_seed_all(args.seed)
        torch.backends.cudnn.benchmark        = True
        torch.backends.cudnn.deterministic    = False
        torch.set_float32_matmul_precision("high")  # TF32 on A10 tensor cores

    # ── Auto-detect latest checkpoint when resuming a W&B run ────────────────
    if args.wandb_id and not args.resume:
        import glob as _glob
        ckpts = sorted(_glob.glob(os.path.join(args.checkpoint_dir, "ppo_torchrl_step*.pt")))
        if ckpts:
            args.resume = ckpts[-1]
            print(f"  [RESUME] Auto-detected checkpoint: {args.resume}")

    ckpt = None
    if args.resume:
        print(f"\n  [RESUME] Loading {args.resume}")
        ckpt = torch.load(args.resume, map_location="cpu", weights_only=False)
        print(f"  [RESUME] From step {ckpt['step']:,}  lvl {ckpt['curriculum_level']}")

    # ── W&B ───────────────────────────────────────────────────────────────────
    wandb_kwargs = dict(
        project          = args.wandb_project,
        name             = args.wandb_run_name,
        config           = vars(args),
        mode             = "offline" if args.wandb_offline else "online",
        sync_tensorboard = False,
    )
    if args.wandb_id:
        wandb_kwargs["id"]     = args.wandb_id
        wandb_kwargs["resume"] = "must"
    elif ckpt and ckpt.get("wandb_run_id"):
        wandb_kwargs["id"]     = ckpt["wandb_run_id"]
        wandb_kwargs["resume"] = "allow"
    run = wandb.init(**wandb_kwargs)

    wandb.define_metric("global_step")
    for prefix in ("episode", "ppo", "curriculum", "val", "system"):
        wandb.define_metric(f"{prefix}/*", step_metric="global_step")

    # ── Curriculum ────────────────────────────────────────────────────────────
    builder = CurriculumBuilder(
        threshold   = args.threshold,
        window      = args.window,
        replay_frac = args.replay_frac,
        use_image   = True,
    )
    if ckpt:
        builder._sampler._idx              = ckpt["sampler_idx"]
        builder._sampler._rewards          = deque(ckpt["sampler_rewards"],                       maxlen=args.window)
        builder._sampler._crashes          = deque(ckpt.get("sampler_crashes",          []),      maxlen=args.window)
        builder._sampler._laps             = deque(ckpt.get("sampler_laps",             []),      maxlen=args.window)
        builder._sampler._is_frontier      = deque(ckpt.get("sampler_is_frontier",      []),      maxlen=args.window)
        builder._sampler._frontier_crashes = deque(ckpt.get("sampler_frontier_crashes", []),      maxlen=args.window)
        builder._sampler._frontier_laps    = deque(ckpt.get("sampler_frontier_laps",    []),      maxlen=args.window)

    sampler = builder._sampler

    # ── Environment (torchrl) ─────────────────────────────────────────────────
    N = args.num_envs
    shared_level      = mp.Value("i", builder.current_level)
    shared_priority   = mp.Array("i", [-1] * 10)   # TRAIN indices of failing tracks
    shared_n_priority = mp.Value("i", 0)            # how many entries are valid
    vec_env = make_vec_env(
        num_envs          = N,
        max_steps         = 3000,
        laps_target       = 1,
        replay_frac       = args.replay_frac,
        device            = device,
        shared_level      = shared_level,
        shared_priority   = shared_priority,
        shared_n_priority = shared_n_priority,
    )
    vec_env.set_seed(args.seed)

    # ── Policy + value ────────────────────────────────────────────────────────
    policy_module, value_module, encoder = build_policy_and_value(device)

    if ckpt:
        def _strip_orig_mod(sd):
            if any(k.startswith("_orig_mod.") for k in sd):
                return {k.replace("_orig_mod.", "", 1): v for k, v in sd.items()}
            return sd
        policy_module.load_state_dict(_strip_orig_mod(ckpt["policy"]))
        value_module.load_state_dict(_strip_orig_mod(ckpt["value"]))

    # Sanity: run once through reset so specs match
    with torch.no_grad():
        td0 = vec_env.reset().to(device)
        policy_module(td0)
        value_module(td0)

    # ── Loss + optimiser ──────────────────────────────────────────────────────
    advantage_module = GAE(
        gamma          = args.gamma,
        lmbda          = args.gae_lambda,
        value_network  = value_module,
        average_gae    = False,
    )
    loss_module = ClipPPOLoss(
        actor_network       = policy_module,
        critic_network      = value_module,
        clip_epsilon        = args.clip_eps,
        entropy_bonus       = True,           # always compute entropy term
        entropy_coeff       = args.ent_coef,  # 0.0 ⇒ SB3 default (no bonus)
        critic_coeff        = args.vf_coef,
        loss_critic_type    = "l2",
        normalize_advantage = True,
    )
    optimizer = torch.optim.Adam(loss_module.parameters(), lr=args.lr, eps=1e-5)
    if ckpt:
        optimizer.load_state_dict(ckpt["optimizer"])

    if args.compile:
        try:
            policy_module = torch.compile(policy_module, mode="default")
            print("torch.compile enabled on policy (default)")
        except Exception as e:
            print(f"torch.compile skipped: {e}")

    total_params = (
        sum(p.numel() for p in policy_module.parameters() if p.requires_grad)
        + sum(p.numel() for p in value_module.parameters()  if p.requires_grad
              # exclude shared encoder params (already counted in policy)
              and not any(p is q for q in encoder.parameters()))
    )

    # ── Collector ─────────────────────────────────────────────────────────────
    collector = Collector(
        vec_env,
        policy_module,
        frames_per_batch = args.rollout_steps,
        total_frames     = args.total_steps,
        device           = device,
        storing_device   = device,
        reset_at_each_iter = False,
    )

    # ── Replay buffer for PPO minibatches ─────────────────────────────────────
    replay = ReplayBuffer(
        storage = LazyTensorStorage(args.rollout_steps, device=device),
        sampler = SamplerWithoutReplacement(),
        batch_size = args.batch_size,
    )

    # ── Counters ──────────────────────────────────────────────────────────────
    global_step   = ckpt["step"]         if ckpt else 0
    episode_num   = ckpt["episode_num"]  if ckpt else 0
    reward_window          = deque(ckpt["reward_window"]                    if ckpt else [], maxlen=args.window)
    frontier_reward_window = deque(ckpt.get("frontier_reward_window", []) if ckpt else [], maxlen=args.window)
    update_num    = 0
    start_time    = time.time()
    greedy_clean  = 0   # result of last greedy eval (for display)
    next_eval     = args.eval_interval_steps
    while next_eval <= global_step:
        next_eval += args.eval_interval_steps

    LOG_INTERVAL  = 25_000
    next_log      = LOG_INTERVAL
    while next_log <= global_step:
        next_log += LOG_INTERVAL
    # Accumulators for the current log window
    _log_ep_rewards:  list[float] = []
    _log_ep_lengths:  list[int]   = []

    if args.checkpoint_interval > 0:
        next_ckpt = args.checkpoint_interval
        while next_ckpt <= global_step:
            next_ckpt += args.checkpoint_interval
    else:
        next_ckpt = float("inf")

    if args.video_interval > 0:
        next_video = args.video_interval
        while next_video <= global_step:
            next_video += args.video_interval
    else:
        next_video = float("inf")

    os.makedirs(args.checkpoint_dir, exist_ok=True)

    print(f"\nModel: {total_params:,} parameters  |  Device: {device}  |  Envs: {N}")
    print(f"Rollout: {args.rollout_steps} frames per update  (batch={args.batch_size}, epochs={args.ppo_epochs})")
    print(f"PPO:     lr={args.lr}  gamma={args.gamma}  lambda={args.gae_lambda}  clip={args.clip_eps}")
    print(f"         vf={args.vf_coef}  ent={args.ent_coef}  grad={args.max_grad_norm}")
    print(f"Curriculum: threshold={args.threshold}  window={args.window}  replay={args.replay_frac}")
    print(f"Frontier  : track {sampler.frontier_track.level} '{sampler.frontier_track.name}'")
    print(f"W&B       : {run.url}\n")

    # ─────────────────────────────────────────────────────────────────────────
    # Training loop
    # ─────────────────────────────────────────────────────────────────────────
    print("Starting training loop...", flush=True)
    for td in collector:
        rollout_frames = td.numel()
        global_step   += rollout_frames
        update_num    += 1

        # ── Episode bookkeeping + curriculum advance ─────────────────────────
        for ep in _iter_episodes(td):
            episode_num += 1
            reward_window.append(ep["ep_reward"])
            _log_ep_rewards.append(ep["ep_reward"])
            _log_ep_lengths.append(ep["ep_length"])

            frontier   = sampler.frontier_track
            threshold  = args.threshold * frontier.complexity
            is_replay  = (ep["track_level"] != frontier.level)
            if not is_replay:
                frontier_reward_window.append(ep["ep_reward"])
            rolling_mean = statistics.mean(frontier_reward_window) if frontier_reward_window else 0.0

            builder.record(ep["ep_reward"], ep["ep_crashes"], ep["ep_laps"],
                           is_frontier=not is_replay)

            wandb.log({
                "global_step":              global_step,
                "episode/reward":           ep["ep_reward"],
                "episode/length":           ep["ep_length"],
                "episode/laps":             ep["ep_laps"],
                "episode/crashes":          ep["ep_crashes"],
                "episode/on_track_pct":     ep["on_track_pct"],
                "episode/number":           episode_num,
                "curriculum/level":         builder.current_level,
                "curriculum/track_level":   ep["track_level"],
                "curriculum/tier":          difficulty_of(frontier),
                "curriculum/rolling_mean":  rolling_mean,
                "curriculum/threshold":     threshold,
                "curriculum/is_replay":     int(is_replay),
            }, step=global_step)

        # ── Compute GAE advantages & targets, then flatten for PPO ───────────
        with torch.no_grad():
            advantage_module(td)

        data_flat = td.reshape(-1)
        replay.extend(data_flat)

        # ── PPO update: n_epochs × minibatches ───────────────────────────────
        pg_losses, v_losses, ent_losses = [], [], []
        approx_kls, clip_fracs, grad_norms = [], [], []

        for epoch in range(args.ppo_epochs):
            for _ in range(args.rollout_steps // args.batch_size):
                mb = replay.sample()
                loss_vals = loss_module(mb)

                loss = (
                    loss_vals["loss_objective"]
                    + loss_vals.get("loss_critic",  torch.tensor(0.0, device=device))
                    + loss_vals.get("loss_entropy", torch.tensor(0.0, device=device))
                )

                optimizer.zero_grad()
                loss.backward()
                grad_norm = torch.nn.utils.clip_grad_norm_(
                    loss_module.parameters(), args.max_grad_norm
                )
                optimizer.step()

                pg_losses.append(loss_vals["loss_objective"].detach().item())
                if "loss_critic" in loss_vals:
                    v_losses.append(loss_vals["loss_critic"].detach().item())
                if "loss_entropy" in loss_vals:
                    ent_losses.append(loss_vals["loss_entropy"].detach().item())
                if "kl_approx" in loss_vals:
                    approx_kls.append(loss_vals["kl_approx"].detach().item())
                if "clip_fraction" in loss_vals:
                    clip_fracs.append(loss_vals["clip_fraction"].detach().item())
                grad_norms.append(float(grad_norm))

            # After each epoch, re-shuffle for next epoch
            replay.empty()
            replay.extend(data_flat)

            # Early stop if policy has moved too far from rollout data
            if args.target_kl is not None and approx_kls:
                epoch_kl = float(np.mean(approx_kls))
                if epoch_kl > args.target_kl:
                    break

        replay.empty()

        # ── Explained variance ────────────────────────────────────────────────
        with torch.no_grad():
            values  = td.get("state_value").reshape(-1)
            returns = td.get(("next", "value_target")).reshape(-1) \
                if ("next", "value_target") in td.keys(include_nested=True) \
                else td.get("value_target").reshape(-1)
            var_y = torch.var(returns)
            ev = float("nan") if var_y == 0 else float(
                1.0 - torch.var(returns - values) / var_y
            )

        # ── Log PPO + system metrics ──────────────────────────────────────────
        sps = global_step / max(time.time() - start_time, 1e-6)
        _mean = lambda xs: float(np.mean(xs)) if xs else float("nan")
        wandb.log({
            "global_step":             global_step,
            "ppo/policy_loss":         _mean(pg_losses),
            "ppo/value_loss":          _mean(v_losses),
            "ppo/entropy":             _mean(ent_losses),
            "ppo/approx_kl":           _mean(approx_kls),
            "ppo/clip_fraction":       _mean(clip_fracs),
            "ppo/explained_variance":  ev,
            "ppo/learning_rate":       args.lr,
            "ppo/entropy_coef":        args.ent_coef,
            "ppo/grad_norm":           _mean(grad_norms),
            "ppo/update":              update_num,
            "system/steps_per_sec":    sps,
            "system/elapsed_hours":    (time.time() - start_time) / 3600,
        }, step=global_step)

        # ── Periodic SB3-style summary ────────────────────────────────────────
        if global_step >= next_log:
            ep_rew_mean = float(np.mean(_log_ep_rewards)) if _log_ep_rewards else float("nan")
            ep_len_mean = float(np.mean(_log_ep_lengths)) if _log_ep_lengths else float("nan")
            sps_now     = global_step / max(time.time() - start_time, 1e-6)
            frontier    = sampler.frontier_track
            win_clean   = sum(1 for l, c in zip(sampler._frontier_laps, sampler._frontier_crashes)
                              if l >= 1 and c == 0)

            def _fmt(v, fmt=".3g"):
                return ("-" if v != v else format(v, fmt))  # nan → "-"

            rows = [
                ("rollout/",             ""),
                ("   ep_len_mean",        _fmt(ep_len_mean, ".1f")),
                ("   ep_rew_mean",        _fmt(ep_rew_mean, ".3f")),
                ("   episodes",           str(episode_num)),
                ("curriculum/",          ""),
                ("   level",              f"{builder.current_level}/{len(TRAIN)-1}"),
                ("   frontier_track",     f"{frontier.level} '{frontier.name}'"),
                ("   rolling_mean",       _fmt(rolling_mean, ".2f")),
                ("   clean_wins",         f"{win_clean}/{args.window}  (stochastic)"),
                ("   greedy_clean",       f"{greedy_clean}/{args.eval_episodes}  (eval)"),
                ("time/",                ""),
                ("   fps",                _fmt(sps_now, ".0f")),
                ("   iterations",         str(update_num)),
                ("   total_timesteps",    f"{global_step:,}"),
                ("train/",               ""),
                ("   approx_kl",          _fmt(_mean(approx_kls))),
                ("   clip_fraction",      _fmt(_mean(clip_fracs))),
                ("   entropy_loss",       _fmt(_mean(ent_losses))),
                ("   explained_variance", _fmt(ev)),
                ("   learning_rate",      _fmt(args.lr)),
                ("   policy_grad_loss",   _fmt(_mean(pg_losses))),
                ("   value_loss",         _fmt(_mean(v_losses))),
                ("   grad_norm",          _fmt(_mean(grad_norms))),
            ]
            col_w = max(len(k) for k, _ in rows) + 2
            val_w = max((len(v) for _, v in rows if v), default=6) + 2
            sep   = "-" * (col_w + val_w + 5)
            print(sep)
            for k, v in rows:
                if v:
                    print(f"| {k:<{col_w}} | {v:>{val_w}} |")
                else:
                    print(f"| {k:<{col_w+val_w+3}} |")
            print(sep, flush=True)

            _log_ep_rewards.clear()
            _log_ep_lengths.clear()
            next_log += LOG_INTERVAL

        # ── Greedy curriculum eval ────────────────────────────────────────────
        if global_step >= next_eval:
            tracks_to_eval = TRAIN
            all_pass   = True
            eval_log   = {}
            n_passing  = 0
            eval_passed: dict = {}   # tr → bool, used for priority replay update
            print(f"\n  [EVAL] greedy eval — {len(tracks_to_eval)} track(s):", flush=True)

            for tr in tracks_to_eval:
                res   = _greedy_eval(policy_module, tr, device,
                                     args.eval_episodes, max_steps=3000)
                clean = sum(1 for r in res if r["laps"] >= 1 and r["crashes"] == 0)
                ok    = (clean == args.eval_episodes)
                n_passing += int(ok)
                eval_passed[tr] = ok
                if not ok:
                    all_pass = False
                print(f"         track {tr.level:02d} '{tr.name}': "
                      f"{'PASS' if ok else 'FAIL'}  ({clean}/{args.eval_episodes})",
                      flush=True)
                eval_log[f"curriculum/greedy_track{tr.level:02d}"] = int(ok)

            # Update priority replay: give failing tracks dedicated 30% of episodes.
            failing_indices = [
                i for i, tr in enumerate(tracks_to_eval) if not eval_passed[tr]
            ]
            n_fail = min(len(failing_indices), 10)
            shared_n_priority.value = n_fail
            for i, idx in enumerate(failing_indices[:10]):
                shared_priority[i] = idx
            if failing_indices:
                fail_names = ", ".join(
                    f"track {TRAIN[i].level}" for i in failing_indices[:10]
                )
                print(f"  [PRIO] priority replay set for {n_fail} failing track(s): {fail_names}",
                      flush=True)
            else:
                print(f"  [PRIO] all tracks passed — priority replay cleared", flush=True)

            wandb.log({"global_step":                  global_step,
                       "curriculum/greedy_pass":       int(all_pass),
                       "curriculum/greedy_n_pass":     n_passing,
                       "curriculum/priority_n_tracks": n_fail,
                       **eval_log}, step=global_step)

            if all_pass:
                # Every track passed simultaneously — training complete
                shared_n_priority.value = 0
                print(
                    f"\n  >>> ALL {len(TRAIN)} TRACKS PASSED — training complete "
                    f"at step {global_step:,}\n",
                    flush=True,
                )
                wandb.log({"global_step": global_step, "curriculum/complete": 1},
                          step=global_step)
                adv_path = os.path.join(
                    args.checkpoint_dir,
                    f"ppo_torchrl_complete_step{global_step:08d}.pt",
                )
                save_checkpoint(
                    adv_path, policy_module, value_module, optimizer,
                    global_step, builder, args,
                    reward_window, frontier_reward_window, episode_num, run.id,
                )
                print(f"  [CKPT] Final checkpoint: {adv_path}", flush=True)
                break
            else:
                # Advance only if every track up to and including the frontier passes
                prior_ok = all(
                    eval_passed.get(tr, False)
                    for tr in TRAIN[: builder.current_level + 1]
                )
                if prior_ok:
                    advanced = builder._sampler.advance()
                    if advanced:
                        shared_level.value = builder.current_level
                        new_frontier = sampler.frontier_track
                        print(
                            f"\n  >>> ADVANCE -> Track {new_frontier.level} "
                            f"'{new_frontier.name}'  "
                            f"[lvl {builder.current_level}/{len(TRAIN)-1}]\n",
                            flush=True,
                        )
                        wandb.log({
                            "global_step":                  global_step,
                            "curriculum/level":             builder.current_level,
                            "curriculum/advanced_to_level": new_frontier.level,
                            "curriculum/advanced_to_name":  new_frontier.name,
                        }, step=global_step)
                        adv_path = os.path.join(
                            args.checkpoint_dir,
                            f"ppo_torchrl_advance_lvl{builder.current_level:02d}"
                            f"_step{global_step:08d}.pt",
                        )
                        save_checkpoint(
                            adv_path, policy_module, value_module, optimizer,
                            global_step, builder, args,
                            reward_window, frontier_reward_window, episode_num, run.id,
                        )
                        print(f"  [CKPT] Advance checkpoint: {adv_path}", flush=True)

            next_eval += args.eval_interval_steps

        # ── Checkpoint ────────────────────────────────────────────────────────
        if global_step >= next_ckpt:
            ckpt_path = os.path.join(
                args.checkpoint_dir,
                f"ppo_torchrl_step{global_step:08d}_lvl{builder.current_level:02d}.pt",
            )
            save_checkpoint(
                ckpt_path, policy_module, value_module, optimizer,
                global_step, builder, args,
                reward_window, frontier_reward_window, episode_num, run.id,
            )
            wandb.save(ckpt_path)
            print(f"\n  [CKPT] {ckpt_path}")
            prune_checkpoints(args.checkpoint_dir, args.keep_checkpoints)
            next_ckpt += args.checkpoint_interval

        # ── Video ─────────────────────────────────────────────────────────────
        if global_step >= next_video:
            try:
                log_inference_videos(
                    policy_module = policy_module,
                    builder       = builder,
                    device        = device,
                    global_step   = global_step,
                    video_dir     = args.video_dir,
                )
            except Exception as e:
                print(f"  [VIDEO] Warning: failed to render video: {e}")
            next_video += args.video_interval

        # ── Update collector's policy weights (in case of compile) ───────────
        collector.update_policy_weights_()

    # ── Final checkpoint ──────────────────────────────────────────────────────
    final = os.path.join(args.checkpoint_dir, "ppo_torchrl_final.pt")
    save_checkpoint(
        final, policy_module, value_module, optimizer,
        global_step, builder, args,
        reward_window, frontier_reward_window, episode_num, run.id,
    )
    wandb.save(final)

    collector.shutdown()
    elapsed = time.time() - start_time
    print(f"\n{'-'*80}")
    print(f"Training complete  |  {global_step:,} steps  |  {elapsed/3600:.2f} h")
    print(f"Final model: {final}")
    print(f"W&B run:     {run.url}")
    run.finish()


if __name__ == "__main__":
    import traceback
    try:
        main()
    except Exception:
        traceback.print_exc()
        sys.exit(1)