from __future__ import annotations

from collections import deque
from concurrent.futures import ProcessPoolExecutor, as_completed
import json
from itertools import islice
import os
import random
from dataclasses import asdict, dataclass
from pathlib import Path
from time import perf_counter
from typing import Any

import numpy as np
import torch
from torch import nn
from tqdm.auto import tqdm

try:
    from torch.utils.tensorboard import SummaryWriter
except ImportError:
    SummaryWriter = None

from agents.local_policy import FixedCyclePolicy, HoldPhasePolicy, QueueGreedyPolicy, RandomPhasePolicy
from env.observation_builder import ObservationConfig
from env.reward import RewardConfig
from env.traffic_env import EnvConfig, TrafficEnv
from training.cityflow_dataset import CityFlowDataset, ScenarioSpec
from training.device import configure_torch_runtime, resolve_torch_device
from training.models import POLICY_ARCHES, RunningNormalizer, TrafficControlQNetwork
from training.rollout import evaluate_policy

_EVAL_CONTEXT: dict[str, Any] = {}


@dataclass(frozen=True)
class DQNConfig:
    policy_arch: str = "single_head_with_district_feature"
    total_updates: int = 200
    learning_rate: float = 1e-4
    gamma: float = 0.99
    n_step: int = 3
    replay_capacity: int = 500_000
    minibatch_size: int = 1024
    learning_starts: int = 10_000
    gradient_steps: int = 64
    target_tau: float = 0.01
    max_grad_norm: float = 10.0
    hidden_dim: int = 256
    hidden_layers: int = 2
    dueling: bool = True
    seed: int = 7
    eval_every: int = 40
    checkpoint_every: int = 40
    checkpoint_on_eval: bool = True
    val_scenarios_per_city: int | None = 1
    max_val_cities: int | None = 5
    max_train_cities: int | None = None
    num_rollout_workers: int = 4
    rollout_episodes_per_update: int | None = None
    train_city_id: str | None = None
    train_scenario_name: str | None = None
    overfit_val_on_train_scenario: bool = False
    rollout_decision_steps: int | None = 256
    resume_from: str | None = None
    use_observation_normalization: bool = True
    epsilon_start: float = 1.0
    epsilon_end: float = 0.05
    epsilon_decay_steps: int = 50_000
    prioritized_replay_alpha: float = 0.6
    prioritized_replay_beta_start: float = 0.4
    prioritized_replay_beta_end: float = 1.0
    prioritized_replay_beta_steps: int = 200_000
    compare_baselines: bool = True
    skip_failed_validation_episodes: bool = True
    verbose_progress: bool = False
    eval_num_workers: int = -1
    enable_tensorboard: bool = True
    tensorboard_log_dir: str | None = None
    rolling_window_size: int = 20
    use_tqdm: bool = True


@dataclass
class TrainerState:
    update_index: int = 0
    best_validation_score: float = float("-inf")
    total_decision_steps: int = 0
    total_transitions: int = 0
    gradient_steps: int = 0


@dataclass(frozen=True)
class StepRecord:
    observation: np.ndarray
    district_type_index: int
    action_mask: np.ndarray
    action: int
    reward: float
    next_observation: np.ndarray
    next_district_type_index: int
    next_action_mask: np.ndarray
    done: bool


class PrioritizedReplayBuffer:
    def __init__(
        self,
        capacity: int,
        prioritized_alpha: float = 0.6,
        epsilon: float = 1e-6,
    ):
        self.capacity = int(capacity)
        self.prioritized_alpha = float(prioritized_alpha)
        self.epsilon = float(epsilon)
        self.position = 0
        self.size = 0
        self.max_priority = 1.0

        self.observations: np.ndarray | None = None
        self.next_observations: np.ndarray | None = None
        self.district_type_indices: np.ndarray | None = None
        self.next_district_type_indices: np.ndarray | None = None
        self.action_masks: np.ndarray | None = None
        self.next_action_masks: np.ndarray | None = None
        self.actions: np.ndarray | None = None
        self.rewards: np.ndarray | None = None
        self.dones: np.ndarray | None = None
        self.discounts: np.ndarray | None = None
        self.priorities = np.zeros(self.capacity, dtype=np.float32)

    def add(
        self,
        observation: np.ndarray,
        district_type_index: int,
        action_mask: np.ndarray,
        action: int,
        reward: float,
        next_observation: np.ndarray,
        next_district_type_index: int,
        next_action_mask: np.ndarray,
        done: bool,
        discount: float,
    ) -> None:
        if self.observations is None:
            obs_dim = observation.shape[0]
            action_dim = action_mask.shape[0]
            self.observations = np.zeros((self.capacity, obs_dim), dtype=np.float32)
            self.next_observations = np.zeros((self.capacity, obs_dim), dtype=np.float32)
            self.district_type_indices = np.zeros(self.capacity, dtype=np.int64)
            self.next_district_type_indices = np.zeros(self.capacity, dtype=np.int64)
            self.action_masks = np.zeros((self.capacity, action_dim), dtype=np.float32)
            self.next_action_masks = np.zeros((self.capacity, action_dim), dtype=np.float32)
            self.actions = np.zeros(self.capacity, dtype=np.int64)
            self.rewards = np.zeros(self.capacity, dtype=np.float32)
            self.dones = np.zeros(self.capacity, dtype=np.float32)
            self.discounts = np.zeros(self.capacity, dtype=np.float32)

        index = self.position
        self.observations[index] = observation.astype(np.float32)
        self.next_observations[index] = next_observation.astype(np.float32)
        self.district_type_indices[index] = int(district_type_index)
        self.next_district_type_indices[index] = int(next_district_type_index)
        self.action_masks[index] = action_mask.astype(np.float32)
        self.next_action_masks[index] = next_action_mask.astype(np.float32)
        self.actions[index] = int(action)
        self.rewards[index] = float(reward)
        self.dones[index] = float(done)
        self.discounts[index] = float(discount)
        self.priorities[index] = self.max_priority

        self.position = (self.position + 1) % self.capacity
        self.size = min(self.size + 1, self.capacity)

    def sample(self, batch_size: int, beta: float) -> dict[str, np.ndarray]:
        if self.size <= 0:
            raise ValueError("Cannot sample from an empty replay buffer.")

        replace = self.size < batch_size
        if self.prioritized_alpha > 0.0:
            scaled_priorities = np.power(
                np.maximum(self.priorities[: self.size], self.epsilon),
                self.prioritized_alpha,
            )
            probabilities = scaled_priorities / scaled_priorities.sum()
            indices = np.random.choice(
                self.size,
                size=batch_size,
                replace=replace,
                p=probabilities,
            )
            weights = np.power(self.size * probabilities[indices], -beta).astype(np.float32)
            weights /= max(1.0, float(weights.max()))
        else:
            indices = np.random.choice(self.size, size=batch_size, replace=replace)
            weights = np.ones(batch_size, dtype=np.float32)

        return {
            "indices": indices.astype(np.int64),
            "weights": weights.astype(np.float32),
            "observations": self.observations[indices],
            "next_observations": self.next_observations[indices],
            "district_type_indices": self.district_type_indices[indices],
            "next_district_type_indices": self.next_district_type_indices[indices],
            "action_masks": self.action_masks[indices],
            "next_action_masks": self.next_action_masks[indices],
            "actions": self.actions[indices],
            "rewards": self.rewards[indices],
            "dones": self.dones[indices],
            "discounts": self.discounts[indices],
        }

    def update_priorities(self, indices: np.ndarray, td_errors: np.ndarray) -> None:
        updated_priorities = np.abs(td_errors).astype(np.float32) + self.epsilon
        self.priorities[indices] = updated_priorities
        if updated_priorities.size:
            self.max_priority = max(self.max_priority, float(updated_priorities.max()))

    def state_dict(self) -> dict[str, Any]:
        return {
            "capacity": self.capacity,
            "prioritized_alpha": self.prioritized_alpha,
            "epsilon": self.epsilon,
            "position": self.position,
            "size": self.size,
            "max_priority": self.max_priority,
            "observations": self.observations,
            "next_observations": self.next_observations,
            "district_type_indices": self.district_type_indices,
            "next_district_type_indices": self.next_district_type_indices,
            "action_masks": self.action_masks,
            "next_action_masks": self.next_action_masks,
            "actions": self.actions,
            "rewards": self.rewards,
            "dones": self.dones,
            "discounts": self.discounts,
            "priorities": self.priorities,
        }

    def load_state_dict(self, state_dict: dict[str, Any]) -> None:
        self.capacity = int(state_dict["capacity"])
        self.prioritized_alpha = float(state_dict["prioritized_alpha"])
        self.epsilon = float(state_dict["epsilon"])
        self.position = int(state_dict["position"])
        self.size = int(state_dict["size"])
        self.max_priority = float(state_dict["max_priority"])
        self.observations = state_dict["observations"]
        self.next_observations = state_dict["next_observations"]
        self.district_type_indices = state_dict["district_type_indices"]
        self.next_district_type_indices = state_dict["next_district_type_indices"]
        self.action_masks = state_dict["action_masks"]
        self.next_action_masks = state_dict["next_action_masks"]
        self.actions = state_dict["actions"]
        self.rewards = state_dict["rewards"]
        self.dones = state_dict["dones"]
        self.discounts = state_dict["discounts"]
        self.priorities = state_dict["priorities"]


class DQNTrainer:
    def __init__(
        self,
        dataset: CityFlowDataset,
        env_config: EnvConfig,
        dqn_config: DQNConfig,
        output_dir: str | Path = "artifacts/dqn_shared",
        device: str | None = None,
    ):
        self.dataset = dataset
        self.env_config = env_config
        self.dqn_config = dqn_config
        self.output_dir = Path(output_dir)
        self.output_dir.mkdir(parents=True, exist_ok=True)
        self.checkpoint_dir = self.output_dir / "checkpoints"
        self.checkpoint_dir.mkdir(parents=True, exist_ok=True)

        self.rng = random.Random(dqn_config.seed)
        np.random.seed(dqn_config.seed)
        torch.manual_seed(dqn_config.seed)
        if torch.cuda.is_available():
            torch.cuda.manual_seed_all(dqn_config.seed)

        self.device = resolve_torch_device(device)
        configure_torch_runtime(self.device)
        if self.dqn_config.policy_arch not in POLICY_ARCHES:
            raise ValueError(
                f"Unsupported policy architecture: {self.dqn_config.policy_arch}. "
                f"Expected one of {POLICY_ARCHES}."
            )

        self.train_city_ids = self.dataset.load_split("train")
        if self.dqn_config.max_train_cities is not None:
            self.train_city_ids = self.train_city_ids[: self.dqn_config.max_train_cities]
        self.fixed_train_scenario_spec = self._resolve_fixed_train_scenario()
        if not self.train_city_ids:
            raise ValueError("No training cities available for DQN training.")

        sample_spec = self._sample_train_scenario()
        sample_env = self._make_env(sample_spec)
        observation_dim = sample_env.observation_dim

        self.q_network = TrafficControlQNetwork(
            observation_dim=observation_dim,
            hidden_dim=dqn_config.hidden_dim,
            num_layers=dqn_config.hidden_layers,
            policy_arch=dqn_config.policy_arch,
            dueling=dqn_config.dueling,
        ).to(self.device)
        self.target_network = TrafficControlQNetwork(
            observation_dim=observation_dim,
            hidden_dim=dqn_config.hidden_dim,
            num_layers=dqn_config.hidden_layers,
            policy_arch=dqn_config.policy_arch,
            dueling=dqn_config.dueling,
        ).to(self.device)
        self.target_network.load_state_dict(self.q_network.state_dict())
        self.target_network.eval()
        self.optimizer = torch.optim.Adam(self.q_network.parameters(), lr=dqn_config.learning_rate)
        self.obs_normalizer = RunningNormalizer() if dqn_config.use_observation_normalization else None
        self.replay_buffer = PrioritizedReplayBuffer(
            capacity=dqn_config.replay_capacity,
            prioritized_alpha=dqn_config.prioritized_replay_alpha,
        )
        self.state = TrainerState()
        self.training_log_path = self.output_dir / "training_log.jsonl"
        self.validation_log_path = self.output_dir / "validation_log.jsonl"
        self.tensorboard_log_dir = Path(
            dqn_config.tensorboard_log_dir or (self.output_dir / "tensorboard")
        )
        self.writer = self._build_tensorboard_writer()
        self._rolling_metrics: dict[tuple[str, str], deque[float]] = {}
        self.rollout_executor: ProcessPoolExecutor | None = None
        if self.dqn_config.num_rollout_workers > 1:
            self.rollout_executor = ProcessPoolExecutor(
                max_workers=self.dqn_config.num_rollout_workers,
            )

        print(
            "[setup] "
            f"torch_device={self.device.type} "
            f"algorithm=ps_d3qn "
            f"policy_arch={self.dqn_config.policy_arch} "
            f"reward_variant={self.env_config.reward.variant} "
            f"rollout_workers={self.dqn_config.num_rollout_workers}"
        )
        if self.fixed_train_scenario_spec is not None:
            print(
                "[setup] "
                f"fixed_train_city={self.fixed_train_scenario_spec.city_id} "
                f"fixed_train_scenario={self.fixed_train_scenario_spec.scenario_name} "
                f"overfit_val_on_train_scenario={self.dqn_config.overfit_val_on_train_scenario}"
            )

        if dqn_config.resume_from:
            self.load_checkpoint(dqn_config.resume_from)

    def fit(self) -> None:
        progress_bar: tqdm | None = None
        try:
            if self.dqn_config.use_tqdm:
                progress_bar = tqdm(
                    total=self.dqn_config.total_updates,
                    initial=self.state.update_index,
                    desc="train",
                    dynamic_ncols=True,
                )
            for update_index in range(self.state.update_index, self.dqn_config.total_updates):
                rollout_start = perf_counter()
                episode_records = self._collect_rollout_batch()
                rollout_seconds = perf_counter() - rollout_start

                update_start = perf_counter()
                losses = self._optimize()
                update_seconds = perf_counter() - update_start

                self.state.update_index = update_index + 1
                validation_seconds = 0.0
                checkpoint_seconds = 0.0

                train_record = self._summarize_rollout_batch(episode_records)
                train_record.update(
                    {
                        "update": self.state.update_index,
                        "algorithm": "ps_d3qn",
                        "policy_arch": self.dqn_config.policy_arch,
                        "reward_variant": self.env_config.reward.variant,
                        "replay_size": float(self.replay_buffer.size),
                        "epsilon": float(self._epsilon()),
                        **losses,
                    }
                )
                self._attach_rolling_metrics(
                    namespace="train",
                    record=train_record,
                    keys=(
                        "episode_return",
                        "total_episode_return",
                        "mean_waiting_vehicles",
                        "throughput",
                        "td_loss",
                        "mean_q_value",
                        "mean_abs_td_error",
                    ),
                )
                self._append_jsonl(self.training_log_path, train_record)
                self._print_train_log(train_record)
                self._log_tensorboard_scalars("train", train_record, self.state.update_index)
                if progress_bar is not None:
                    progress_bar.set_postfix(
                        ret=f"{train_record['episode_return']:.3f}",
                        wait=f"{train_record['mean_waiting_vehicles']:.2f}",
                        td=f"{train_record['td_loss']:.4f}",
                        eps=f"{train_record['epsilon']:.3f}",
                    )
                    progress_bar.update(1)

                should_evaluate = self.state.update_index % self.dqn_config.eval_every == 0
                should_periodic_checkpoint = (
                    self.state.update_index % self.dqn_config.checkpoint_every == 0
                )
                if should_periodic_checkpoint and not (
                    should_evaluate and self.dqn_config.checkpoint_on_eval
                ):
                    print(f"[train] saving checkpoint at update={self.state.update_index}")
                    checkpoint_start = perf_counter()
                    self.save_checkpoint(self.checkpoint_dir / f"update_{self.state.update_index:04d}.pt")
                    checkpoint_seconds += perf_counter() - checkpoint_start
                    print(f"[train] finished checkpoint at update={self.state.update_index}")

                if should_evaluate:
                    print(f"[train] starting validation at update={self.state.update_index}")
                    validation_start = perf_counter()
                    validation_record = self.evaluate_split("val")
                    validation_seconds = perf_counter() - validation_start
                    validation_record["update"] = self.state.update_index
                    validation_record["algorithm"] = "ps_d3qn"
                    validation_record["policy_arch"] = self.dqn_config.policy_arch
                    validation_record["reward_variant"] = self.env_config.reward.variant
                    self._attach_rolling_metrics(
                        namespace="eval",
                        record=validation_record,
                        keys=(
                            "mean_episode_return",
                            "mean_total_episode_return",
                            "mean_mean_waiting_vehicles",
                            "mean_throughput",
                        ),
                    )
                    self._append_jsonl(self.validation_log_path, validation_record)
                    self._print_eval_log(validation_record)
                    self._log_tensorboard_scalars("eval", validation_record, self.state.update_index)
                    print(f"[train] finished validation at update={self.state.update_index}")

                    if self.dqn_config.checkpoint_on_eval:
                        print(f"[train] saving checkpoint at update={self.state.update_index}")
                        checkpoint_start = perf_counter()
                        self.save_checkpoint(
                            self.checkpoint_dir / f"update_{self.state.update_index:04d}.pt"
                        )
                        checkpoint_seconds += perf_counter() - checkpoint_start
                        print(f"[train] finished checkpoint at update={self.state.update_index}")

                    validation_score = float(validation_record["mean_episode_return"])
                    if validation_score > self.state.best_validation_score:
                        self.state.best_validation_score = validation_score
                        print(f"[train] saving checkpoint at update={self.state.update_index}")
                        checkpoint_start = perf_counter()
                        self.save_checkpoint(self.output_dir / "best_validation.pt")
                        checkpoint_seconds += perf_counter() - checkpoint_start
                        print(f"[train] finished checkpoint at update={self.state.update_index}")

                print(
                    "[timing] "
                    f"rollout={rollout_seconds:.2f}s "
                    f"update={update_seconds:.2f}s "
                    f"validation={validation_seconds:.2f}s "
                    f"checkpoint={checkpoint_seconds:.2f}s"
                )

            print(f"[train] saving checkpoint at update={self.state.update_index}")
            final_checkpoint_start = perf_counter()
            self.save_checkpoint(self.output_dir / "last.pt")
            final_checkpoint_seconds = perf_counter() - final_checkpoint_start
            print(f"[train] finished checkpoint at update={self.state.update_index}")
            print(f"[timing] final_checkpoint={final_checkpoint_seconds:.2f}s")
        finally:
            if progress_bar is not None:
                progress_bar.close()
            if self.rollout_executor is not None:
                self.rollout_executor.shutdown(wait=True, cancel_futures=False)
            if self.writer is not None:
                self.writer.close()

    def evaluate_split(self, split_name: str) -> dict[str, float]:
        if split_name == "val" and self.dqn_config.overfit_val_on_train_scenario:
            if self.fixed_train_scenario_spec is None:
                raise ValueError(
                    "--overfit-val-on-train-scenario requires a fixed training city/scenario."
                )
            scenario_specs = [self.fixed_train_scenario_spec]
        else:
            scenario_specs = self.dataset.iter_scenarios(
                split_name=split_name,
                scenarios_per_city=self.dqn_config.val_scenarios_per_city,
                max_cities=self.dqn_config.max_val_cities,
                diversify_single_scenario=True,
            )
        if self._resolved_eval_workers(len(scenario_specs)) > 1:
            episode_metrics = self._evaluate_policy_parallel(scenario_specs)
        else:
            episode_metrics = self._evaluate_policy_sequential(scenario_specs)
        if not episode_metrics:
            raise RuntimeError("Validation produced no successful episodes.")
        aggregate = aggregate_metrics(episode_metrics)
        aggregate.update(aggregate_metrics_by_scenario(episode_metrics))
        if self.dqn_config.compare_baselines:
            if self._resolved_eval_workers(len(scenario_specs)) > 1:
                aggregate.update(self._evaluate_baselines_parallel(scenario_specs))
            else:
                aggregate.update(self._evaluate_baselines(scenario_specs))
            if "fixed_mean_episode_return" in aggregate:
                aggregate["learner_minus_fixed_return"] = (
                    aggregate["mean_episode_return"] - aggregate["fixed_mean_episode_return"]
                )
            if "random_mean_episode_return" in aggregate:
                aggregate["learner_minus_random_return"] = (
                    aggregate["mean_episode_return"] - aggregate["random_mean_episode_return"]
                )
        return aggregate

    def save_checkpoint(self, path: str | Path) -> None:
        checkpoint = {
            "algorithm": "ps_d3qn",
            "q_network_state_dict": self.q_network.state_dict(),
            "target_network_state_dict": self.target_network.state_dict(),
            "optimizer_state_dict": self.optimizer.state_dict(),
            "trainer_state": asdict(self.state),
            "dqn_config": asdict(self.dqn_config),
            "network_architecture": {
                "observation_dim": self.q_network.observation_dim,
                "action_dim": self.q_network.action_dim,
                "district_types": self.q_network.district_types,
                "policy_arch": self.q_network.policy_arch,
                "dueling": self.q_network.dueling,
            },
            "env_config": {
                "simulator_interval": self.env_config.simulator_interval,
                "decision_interval": self.env_config.decision_interval,
                "min_green_time": self.env_config.min_green_time,
                "thread_num": self.env_config.thread_num,
                "max_episode_seconds": self.env_config.max_episode_seconds,
                "observation": asdict(self.env_config.observation),
                "reward": asdict(self.env_config.reward),
            },
            "obs_normalizer": self.obs_normalizer.state_dict() if self.obs_normalizer else None,
        }
        torch.save(checkpoint, path)

    def load_checkpoint(self, path: str | Path) -> None:
        checkpoint = torch.load(
            path,
            map_location=self.device,
            weights_only=False,
        )
        q_state_dict = checkpoint.get("q_network_state_dict") or checkpoint.get("policy_state_dict")
        if q_state_dict is None:
            raise ValueError(f"Checkpoint at {path} does not contain a Q-network state dict.")
        self.q_network.load_state_dict(q_state_dict)
        target_state_dict = checkpoint.get("target_network_state_dict") or q_state_dict
        self.target_network.load_state_dict(target_state_dict)
        self.optimizer.load_state_dict(checkpoint["optimizer_state_dict"])
        self.state = TrainerState(**checkpoint["trainer_state"])
        if self.obs_normalizer and checkpoint.get("obs_normalizer"):
            self.obs_normalizer.load_state_dict(checkpoint["obs_normalizer"])

    def _make_env(self, scenario_spec: ScenarioSpec) -> TrafficEnv:
        return TrafficEnv(
            city_id=scenario_spec.city_id,
            scenario_name=scenario_spec.scenario_name,
            city_dir=scenario_spec.city_dir,
            scenario_dir=scenario_spec.scenario_dir,
            config_path=scenario_spec.config_path,
            roadnet_path=scenario_spec.roadnet_path,
            district_map_path=scenario_spec.district_map_path,
            metadata_path=scenario_spec.metadata_path,
            env_config=self.env_config,
        )

    def _collect_rollout_batch(self) -> list[dict[str, float | str]]:
        episodes_per_update = self.dqn_config.rollout_episodes_per_update or max(
            1,
            self.dqn_config.num_rollout_workers,
        )
        scenario_specs = [self._sample_train_scenario() for _ in range(episodes_per_update)]
        if self.rollout_executor is None or episodes_per_update <= 1:
            episode_record = self._collect_episode(self._make_env(scenario_specs[0]))
            return [episode_record]
        return self._collect_rollouts_parallel(scenario_specs)

    def _sample_train_scenario(self) -> ScenarioSpec:
        if self.fixed_train_scenario_spec is not None:
            return self.fixed_train_scenario_spec
        selected_city = self.rng.choice(self.train_city_ids)
        selected_scenario = self.rng.choice(self.dataset.scenarios_for_city(selected_city))
        if self.dqn_config.verbose_progress:
            print(f"[train] sampled city={selected_city} scenario={selected_scenario}")
        return self.dataset.build_scenario_spec(selected_city, selected_scenario)

    def _resolve_fixed_train_scenario(self) -> ScenarioSpec | None:
        if self.dqn_config.train_city_id is None:
            return None

        city_id = self.dqn_config.train_city_id
        available_train_cities = set(self.dataset.load_split("train"))
        if city_id not in available_train_cities:
            raise ValueError(
                f"Fixed train city {city_id!r} is not in the train split."
            )

        scenario_names = self.dataset.scenarios_for_city(city_id)
        scenario_name = self.dqn_config.train_scenario_name
        if scenario_name is None:
            scenario_name = scenario_names[0]
        if scenario_name not in scenario_names:
            raise ValueError(
                f"Scenario {scenario_name!r} not found for train city {city_id!r}. "
                f"Available: {scenario_names}"
            )

        self.train_city_ids = [city_id]
        return self.dataset.build_scenario_spec(city_id, scenario_name)

    def _collect_rollouts_parallel(
        self,
        scenario_specs: list[ScenarioSpec],
    ) -> list[dict[str, float | str]]:
        if self.rollout_executor is None:
            raise RuntimeError("Parallel rollout collection requested without a rollout executor.")

        context = self._build_parallel_rollout_context()
        epsilon = self._epsilon()
        total_specs = len(scenario_specs)
        episode_records: list[dict[str, float | str]] = []
        futures = {
            self.rollout_executor.submit(
                _parallel_rollout_collection_worker,
                spec,
                context,
                epsilon,
                self.dqn_config.rollout_decision_steps,
                self.dqn_config.gamma,
                self.dqn_config.n_step,
            ): (index, spec)
            for index, spec in enumerate(scenario_specs, start=1)
        }
        for future in as_completed(futures):
            index, spec = futures[future]
            result = future.result()
            self._ingest_transition_batch(result["transitions"])
            self.state.total_decision_steps += int(result["episode_record"]["decision_steps"])
            self.state.total_transitions += int(result["episode_record"]["transitions"])
            episode_records.append(result["episode_record"])
            if self.dqn_config.verbose_progress:
                print(
                    f"[rollout] city={spec.city_id} scenario={spec.scenario_name} "
                    f"i={index}/{total_specs}"
                )
        return episode_records

    def _build_parallel_rollout_context(self) -> dict[str, Any]:
        return {
            "env_config": _env_config_to_payload(self.env_config),
            "network_architecture": {
                "observation_dim": self.q_network.observation_dim,
                "action_dim": self.q_network.action_dim,
                "hidden_dim": self.q_network.hidden_dim,
                "num_layers": self.q_network.num_layers,
                "district_types": self.q_network.district_types,
                "policy_arch": self.q_network.policy_arch,
                "dueling": self.q_network.dueling,
            },
            "q_network_state_dict": {
                key: value.detach().cpu()
                for key, value in self.q_network.state_dict().items()
            },
            "obs_normalizer": self.obs_normalizer.state_dict() if self.obs_normalizer else None,
        }

    def _ingest_transition_batch(self, transitions: dict[str, np.ndarray]) -> None:
        if transitions["observations"].size == 0:
            return
        if self.obs_normalizer is not None:
            self.obs_normalizer.update(transitions["observations"])
        transition_count = transitions["actions"].shape[0]
        for index in range(transition_count):
            self.replay_buffer.add(
                observation=transitions["observations"][index],
                district_type_index=int(transitions["district_type_indices"][index]),
                action_mask=transitions["action_masks"][index],
                action=int(transitions["actions"][index]),
                reward=float(transitions["rewards"][index]),
                next_observation=transitions["next_observations"][index],
                next_district_type_index=int(transitions["next_district_type_indices"][index]),
                next_action_mask=transitions["next_action_masks"][index],
                done=bool(transitions["dones"][index]),
                discount=float(transitions["discounts"][index]),
            )

    def _summarize_rollout_batch(
        self,
        episode_records: list[dict[str, float | str]],
    ) -> dict[str, float | str]:
        if len(episode_records) == 1:
            record = dict(episode_records[0])
            record["num_rollout_episodes"] = 1.0
            return record

        aggregate = aggregate_metrics(episode_records)
        city_ids = sorted({str(record["city_id"]) for record in episode_records})
        scenario_names = sorted({str(record["scenario_name"]) for record in episode_records})
        summary: dict[str, float | str] = {
            "city_id": city_ids[0] if len(city_ids) == 1 else f"{len(city_ids)}_cities",
            "scenario_name": scenario_names[0]
            if len(scenario_names) == 1
            else f"{len(scenario_names)}_scenarios",
            "num_rollout_episodes": float(len(episode_records)),
        }
        for source_key, target_key in (
            ("mean_decision_steps", "decision_steps"),
            ("mean_transitions", "transitions"),
            ("mean_episode_return", "episode_return"),
            ("mean_total_episode_return", "total_episode_return"),
            ("mean_mean_waiting_vehicles", "mean_waiting_vehicles"),
            ("mean_throughput", "throughput"),
            ("mean_mean_q_value", "mean_q_value"),
            ("mean_epsilon", "epsilon"),
            ("mean_replay_size", "replay_size"),
        ):
            if source_key in aggregate:
                summary[target_key] = aggregate[source_key]
        for key, value in aggregate.items():
            if key not in summary:
                summary[key] = value
        return summary

    def _collect_episode(self, env: TrafficEnv) -> dict[str, float | str]:
        observation_batch = env.reset()
        decision_steps = 0
        transitions_added = 0
        q_value_samples: list[float] = []
        n_step_buffers = [
            deque() for _ in range(len(observation_batch["intersection_ids"]))
        ]
        epsilon = self._epsilon()
        last_info = env.last_info

        done = False
        while not done:
            if (
                self.dqn_config.rollout_decision_steps is not None
                and decision_steps >= self.dqn_config.rollout_decision_steps
            ):
                break

            raw_obs = observation_batch["observations"].astype(np.float32)
            if self.obs_normalizer is not None:
                self.obs_normalizer.update(raw_obs)
                normalized_obs = self.obs_normalizer.normalize(raw_obs)
            else:
                normalized_obs = raw_obs

            obs_tensor = torch.as_tensor(normalized_obs, dtype=torch.float32, device=self.device)
            district_type_tensor = torch.as_tensor(
                observation_batch["district_type_indices"],
                dtype=torch.int64,
                device=self.device,
            )
            action_mask_tensor = torch.as_tensor(
                observation_batch["action_mask"],
                dtype=torch.float32,
                device=self.device,
            )
            with torch.no_grad():
                q_values = self.q_network.forward(
                    observations=obs_tensor,
                    district_type_indices=district_type_tensor,
                    action_mask=action_mask_tensor,
                )
                action_tensor = self.q_network.act(
                    observations=obs_tensor,
                    district_type_indices=district_type_tensor,
                    action_mask=action_mask_tensor,
                    deterministic=False,
                    epsilon=epsilon,
                )
            q_value_samples.append(float(q_values.max(dim=-1).values.mean().detach().cpu()))
            actions = action_tensor.detach().cpu().numpy()

            next_observation_batch, rewards, done, info = env.step(actions)
            transitions_added += self._append_step_records(
                buffers=n_step_buffers,
                observation_batch=observation_batch,
                actions=actions,
                rewards=np.asarray(rewards, dtype=np.float32),
                next_observation_batch=next_observation_batch,
                done=done,
            )
            observation_batch = next_observation_batch
            last_info = info
            decision_steps += 1
            self.state.total_decision_steps += 1
            epsilon = self._epsilon()

        transitions_added += self._flush_n_step_buffers(n_step_buffers)
        self.state.total_transitions += transitions_added

        episode_metrics = {
            key: float(value)
            for key, value in last_info["metrics"].items()
            if value is not None and isinstance(value, (int, float))
        }
        episode_metrics.update(
            {
                "city_id": env.city_id,
                "scenario_name": env.scenario_name,
                "decision_steps": decision_steps,
                "transitions": transitions_added,
                "episode_return": float(env.episode_return),
                "total_episode_return": float(env.total_episode_return),
                "epsilon": float(epsilon),
                "replay_size": float(self.replay_buffer.size),
                "mean_q_value": float(np.mean(q_value_samples)) if q_value_samples else 0.0,
            }
        )
        return episode_metrics

    def _append_step_records(
        self,
        buffers: list[deque[StepRecord]],
        observation_batch: dict[str, Any],
        actions: np.ndarray,
        rewards: np.ndarray,
        next_observation_batch: dict[str, Any],
        done: bool,
    ) -> int:
        transitions_added = 0
        for row_index, buffer in enumerate(buffers):
            record = StepRecord(
                observation=observation_batch["observations"][row_index].astype(np.float32),
                district_type_index=int(observation_batch["district_type_indices"][row_index]),
                action_mask=observation_batch["action_mask"][row_index].astype(np.float32),
                action=int(actions[row_index]),
                reward=float(rewards[row_index]),
                next_observation=next_observation_batch["observations"][row_index].astype(np.float32),
                next_district_type_index=int(next_observation_batch["district_type_indices"][row_index]),
                next_action_mask=next_observation_batch["action_mask"][row_index].astype(np.float32),
                done=bool(done),
            )
            buffer.append(record)
            if len(buffer) >= self.dqn_config.n_step:
                self._push_n_step_transition(buffer, steps=self.dqn_config.n_step)
                transitions_added += 1
        return transitions_added

    def _flush_n_step_buffers(self, buffers: list[deque[StepRecord]]) -> int:
        transitions_added = 0
        for buffer in buffers:
            while buffer:
                self._push_n_step_transition(buffer, steps=len(buffer))
                transitions_added += 1
        return transitions_added

    def _push_n_step_transition(self, buffer: deque[StepRecord], steps: int) -> None:
        records = list(islice(buffer, 0, steps))
        reward = 0.0
        for step_index, record in enumerate(records):
            reward += (self.dqn_config.gamma ** step_index) * float(record.reward)

        first_record = records[0]
        last_record = records[-1]
        discount = self.dqn_config.gamma ** len(records)
        self.replay_buffer.add(
            observation=first_record.observation,
            district_type_index=first_record.district_type_index,
            action_mask=first_record.action_mask,
            action=first_record.action,
            reward=reward,
            next_observation=last_record.next_observation,
            next_district_type_index=last_record.next_district_type_index,
            next_action_mask=last_record.next_action_mask,
            done=last_record.done,
            discount=discount,
        )
        buffer.popleft()

    def _optimize(self) -> dict[str, float]:
        minimum_replay = max(self.dqn_config.learning_starts, self.dqn_config.minibatch_size)
        if self.replay_buffer.size < minimum_replay:
            return {
                "td_loss": 0.0,
                "mean_abs_td_error": 0.0,
                "mean_target_q": 0.0,
                "mean_q_value": 0.0,
                "beta": self._beta(),
                "gradient_steps": 0.0,
            }

        batch_size = min(self.dqn_config.minibatch_size, self.replay_buffer.size)
        td_losses: list[float] = []
        td_errors: list[float] = []
        target_values: list[float] = []
        q_values: list[float] = []
        beta = self._beta()

        for _ in range(self.dqn_config.gradient_steps):
            batch = self.replay_buffer.sample(batch_size=batch_size, beta=beta)
            observations = batch["observations"]
            next_observations = batch["next_observations"]
            if self.obs_normalizer is not None:
                observations = self.obs_normalizer.normalize(observations)
                next_observations = self.obs_normalizer.normalize(next_observations)

            obs_tensor = torch.as_tensor(observations, dtype=torch.float32, device=self.device)
            next_obs_tensor = torch.as_tensor(next_observations, dtype=torch.float32, device=self.device)
            district_type_tensor = torch.as_tensor(
                batch["district_type_indices"],
                dtype=torch.int64,
                device=self.device,
            )
            next_district_type_tensor = torch.as_tensor(
                batch["next_district_type_indices"],
                dtype=torch.int64,
                device=self.device,
            )
            action_mask_tensor = torch.as_tensor(batch["action_masks"], dtype=torch.float32, device=self.device)
            next_action_mask_tensor = torch.as_tensor(
                batch["next_action_masks"],
                dtype=torch.float32,
                device=self.device,
            )
            action_tensor = torch.as_tensor(batch["actions"], dtype=torch.int64, device=self.device)
            reward_tensor = torch.as_tensor(batch["rewards"], dtype=torch.float32, device=self.device)
            done_tensor = torch.as_tensor(batch["dones"], dtype=torch.float32, device=self.device)
            discount_tensor = torch.as_tensor(batch["discounts"], dtype=torch.float32, device=self.device)
            weight_tensor = torch.as_tensor(batch["weights"], dtype=torch.float32, device=self.device)

            predicted_q = self.q_network.q_values_for_actions(
                observations=obs_tensor,
                district_type_indices=district_type_tensor,
                actions=action_tensor,
                action_mask=action_mask_tensor,
            )

            with torch.no_grad():
                next_online_q = self.q_network.forward(
                    observations=next_obs_tensor,
                    district_type_indices=next_district_type_tensor,
                    action_mask=next_action_mask_tensor,
                )
                next_actions = next_online_q.argmax(dim=-1)
                next_target_q = self.target_network.forward(
                    observations=next_obs_tensor,
                    district_type_indices=next_district_type_tensor,
                    action_mask=next_action_mask_tensor,
                ).gather(dim=1, index=next_actions.view(-1, 1)).squeeze(1)
                target_q = reward_tensor + (1.0 - done_tensor) * discount_tensor * next_target_q

            td_error = target_q - predicted_q
            per_sample_loss = nn.functional.smooth_l1_loss(
                predicted_q,
                target_q,
                reduction="none",
            )
            loss = (weight_tensor * per_sample_loss).mean()

            self.optimizer.zero_grad()
            loss.backward()
            nn.utils.clip_grad_norm_(self.q_network.parameters(), self.dqn_config.max_grad_norm)
            self.optimizer.step()

            self._soft_update_target()
            self.replay_buffer.update_priorities(
                batch["indices"],
                td_errors=np.abs(td_error.detach().cpu().numpy()),
            )
            self.state.gradient_steps += 1

            td_losses.append(float(loss.detach().cpu()))
            td_errors.append(float(torch.abs(td_error).mean().detach().cpu()))
            target_values.append(float(target_q.mean().detach().cpu()))
            q_values.append(float(predicted_q.mean().detach().cpu()))

        return {
            "td_loss": float(np.mean(td_losses)),
            "mean_abs_td_error": float(np.mean(td_errors)),
            "mean_target_q": float(np.mean(target_values)),
            "mean_q_value": float(np.mean(q_values)),
            "beta": float(beta),
            "gradient_steps": float(self.dqn_config.gradient_steps),
        }

    def _soft_update_target(self) -> None:
        tau = float(self.dqn_config.target_tau)
        with torch.no_grad():
            for target_param, online_param in zip(
                self.target_network.parameters(),
                self.q_network.parameters(),
                strict=True,
            ):
                target_param.data.mul_(1.0 - tau).add_(online_param.data, alpha=tau)

    def _epsilon(self) -> float:
        if self.dqn_config.epsilon_decay_steps <= 0:
            return float(self.dqn_config.epsilon_end)
        progress = min(1.0, self.state.total_decision_steps / float(self.dqn_config.epsilon_decay_steps))
        return float(
            self.dqn_config.epsilon_start
            + progress * (self.dqn_config.epsilon_end - self.dqn_config.epsilon_start)
        )

    def _beta(self) -> float:
        if self.dqn_config.prioritized_replay_beta_steps <= 0:
            return float(self.dqn_config.prioritized_replay_beta_end)
        progress = min(
            1.0,
            self.state.total_decision_steps / float(self.dqn_config.prioritized_replay_beta_steps),
        )
        return float(
            self.dqn_config.prioritized_replay_beta_start
            + progress
            * (
                self.dqn_config.prioritized_replay_beta_end
                - self.dqn_config.prioritized_replay_beta_start
            )
        )

    def _evaluate_policy_sequential(
        self,
        scenario_specs: list[ScenarioSpec],
    ) -> list[dict[str, float | str]]:
        episode_metrics: list[dict[str, float | str]] = []
        total_specs = len(scenario_specs)
        iterator = enumerate(scenario_specs, start=1)
        if self.dqn_config.use_tqdm:
            iterator = tqdm(
                iterator,
                total=total_specs,
                desc="eval:learned",
                leave=False,
                dynamic_ncols=True,
            )
        for index, spec in iterator:
            print(f"[eval] city={spec.city_id} scenario={spec.scenario_name} i={index}/{total_specs}")
            try:
                episode_metrics.append(
                    evaluate_policy(
                        env_factory=lambda spec=spec: self._make_env(spec),
                        actor=self.q_network,
                        device=self.device,
                        obs_normalizer=self.obs_normalizer,
                        deterministic=True,
                    )
                )
            except Exception as exc:
                self._handle_eval_failure("validation", spec, exc)
        return episode_metrics

    def _evaluate_policy_parallel(
        self,
        scenario_specs: list[ScenarioSpec],
    ) -> list[dict[str, float | str]]:
        resolved_workers = self._resolved_eval_workers(len(scenario_specs))
        print(f"[eval] learned_workers={resolved_workers}")
        return self._run_parallel_eval(
            scenario_specs=scenario_specs,
            worker_kind="learned",
            initializer=_init_parallel_learned_eval_worker,
            initargs=(self._build_parallel_learned_eval_context(),),
            max_workers=resolved_workers,
        )

    def _append_jsonl(self, path: Path, record: dict) -> None:
        with path.open("a") as handle:
            handle.write(json.dumps(record) + "\n")

    def _build_tensorboard_writer(self) -> SummaryWriter | None:
        if not self.dqn_config.enable_tensorboard:
            return None
        if SummaryWriter is None:
            print("[setup] tensorboard_disabled=torch.utils.tensorboard unavailable")
            return None
        self.tensorboard_log_dir.mkdir(parents=True, exist_ok=True)
        return SummaryWriter(log_dir=str(self.tensorboard_log_dir))

    def _log_tensorboard_scalars(
        self,
        namespace: str,
        record: dict[str, Any],
        step: int,
    ) -> None:
        if self.writer is None:
            return
        for key, value in record.items():
            if isinstance(value, (int, float)):
                self.writer.add_scalar(f"{namespace}/{key}", float(value), step)
        self.writer.flush()

    def _attach_rolling_metrics(
        self,
        namespace: str,
        record: dict[str, Any],
        keys: tuple[str, ...],
    ) -> None:
        for key in keys:
            value = record.get(key)
            if not isinstance(value, (int, float)):
                continue
            window = self._rolling_metrics.setdefault(
                (namespace, key),
                deque(maxlen=self.dqn_config.rolling_window_size),
            )
            window.append(float(value))
            record[f"rolling_{key}"] = float(np.mean(window))

    def _evaluate_baselines(self, scenario_specs: list[ScenarioSpec]) -> dict[str, float]:
        baseline_metrics: dict[str, float] = {}
        for baseline_name in ("random", "fixed"):
            metrics: list[dict[str, float | str]] = []
            total_specs = len(scenario_specs)
            for offset, spec in enumerate(scenario_specs, start=1):
                print(
                    f"[eval] baseline={baseline_name} city={spec.city_id} "
                    f"scenario={spec.scenario_name} i={offset}/{total_specs}"
                )
                try:
                    actor = (
                        RandomPhasePolicy(seed=self.dqn_config.seed + offset)
                        if baseline_name == "random"
                        else FixedCyclePolicy(green_time=max(20, self.env_config.min_green_time * 2))
                    )
                    metrics.append(
                        evaluate_policy(
                            env_factory=lambda spec=spec: self._make_env(spec),
                            actor=actor,
                        )
                    )
                except Exception as exc:
                    message = (
                        f"[warn] baseline={baseline_name} failed for city={spec.city_id} "
                        f"scenario={spec.scenario_name}: {exc}"
                    )
                    if self.dqn_config.skip_failed_validation_episodes:
                        print(message)
                        continue
                    raise RuntimeError(message) from exc
            if not metrics:
                continue
            aggregate = aggregate_metrics(metrics)
            for key, value in aggregate.items():
                baseline_metrics[f"{baseline_name}_{key}"] = value
        return baseline_metrics

    def _evaluate_baselines_parallel(self, scenario_specs: list[ScenarioSpec]) -> dict[str, float]:
        baseline_metrics: dict[str, float] = {}
        resolved_workers = self._resolved_eval_workers(len(scenario_specs))
        print(f"[eval] baseline_workers={resolved_workers}")
        for baseline_name in ("random", "fixed"):
            metrics = self._run_parallel_eval(
                scenario_specs=scenario_specs,
                worker_kind=baseline_name,
                initializer=_init_parallel_baseline_worker,
                initargs=(self._build_parallel_baseline_context(baseline_name),),
                max_workers=resolved_workers,
            )
            if not metrics:
                continue
            aggregate = aggregate_metrics(metrics)
            for key, value in aggregate.items():
                baseline_metrics[f"{baseline_name}_{key}"] = value
        return baseline_metrics

    def _run_parallel_eval(
        self,
        scenario_specs: list[ScenarioSpec],
        worker_kind: str,
        initializer,
        initargs: tuple[Any, ...],
        max_workers: int,
    ) -> list[dict[str, float | str]]:
        metrics: list[dict[str, float | str]] = []
        total_specs = len(scenario_specs)
        with ProcessPoolExecutor(
            max_workers=max_workers,
            initializer=initializer,
            initargs=initargs,
        ) as executor:
            futures = {
                executor.submit(_parallel_eval_worker, spec, index, worker_kind): (spec, index)
                for index, spec in enumerate(scenario_specs, start=1)
            }
            iterator = as_completed(futures)
            if self.dqn_config.use_tqdm:
                iterator = tqdm(
                    iterator,
                    total=total_specs,
                    desc=f"eval:{worker_kind}",
                    leave=False,
                    dynamic_ncols=True,
                )
            for future in iterator:
                spec, index = futures[future]
                try:
                    result = future.result()
                except Exception as exc:
                    self._handle_eval_failure(worker_kind, spec, exc)
                    continue
                prefix = f"[eval] baseline={worker_kind}"
                print(f"{prefix} city={spec.city_id} scenario={spec.scenario_name} i={index}/{total_specs}")
                metrics.append(result)
        return metrics

    def _handle_eval_failure(
        self,
        phase: str,
        spec: ScenarioSpec,
        exc: Exception,
    ) -> None:
        message = f"[warn] {phase} failed for city={spec.city_id} scenario={spec.scenario_name}: {exc}"
        if self.dqn_config.skip_failed_validation_episodes:
            print(message)
            return
        raise RuntimeError(message) from exc

    def _build_parallel_baseline_context(self, baseline_name: str) -> dict[str, Any]:
        return {
            "env_config": _env_config_to_payload(self.env_config),
            "baseline_name": baseline_name,
            "fixed_green_time": max(20, self.env_config.min_green_time * 2),
            "seed": self.dqn_config.seed,
        }

    def _build_parallel_learned_eval_context(self) -> dict[str, Any]:
        return {
            "env_config": _env_config_to_payload(self.env_config),
            "network_architecture": {
                "observation_dim": self.q_network.observation_dim,
                "action_dim": self.q_network.action_dim,
                "hidden_dim": self.q_network.hidden_dim,
                "num_layers": self.q_network.num_layers,
                "district_types": self.q_network.district_types,
                "policy_arch": self.q_network.policy_arch,
                "dueling": self.q_network.dueling,
            },
            "q_network_state_dict": {
                key: value.detach().cpu()
                for key, value in self.q_network.state_dict().items()
            },
            "obs_normalizer": self.obs_normalizer.state_dict() if self.obs_normalizer else None,
        }

    def _resolved_eval_workers(self, total_specs: int) -> int:
        requested = self.dqn_config.eval_num_workers
        if requested == -1:
            requested = os.cpu_count() or 1
        if requested <= 1:
            return 1
        return min(requested, total_specs)

    def _print_train_log(self, record: dict[str, float | str]) -> None:
        message = (
            "[train] "
            f"update={record['update']} algo={record['algorithm']} arch={record['policy_arch']} "
            f"reward={record['reward_variant']} episodes={int(record.get('num_rollout_episodes', 1.0))} "
            f"city={record['city_id']} scenario={record['scenario_name']} "
            f"mean_return={record['episode_return']:.3f} "
            f"(avg={record.get('rolling_episode_return', record['episode_return']):.3f}) "
            f"wait={record['mean_waiting_vehicles']:.3f} "
            f"(avg={record.get('rolling_mean_waiting_vehicles', record['mean_waiting_vehicles']):.3f}) "
            f"throughput={record['throughput']:.1f} "
            f"(avg={record.get('rolling_throughput', record['throughput']):.1f}) "
            f"epsilon={record['epsilon']:.3f} replay={int(record['replay_size'])} "
            f"td_loss={record['td_loss']:.4f} "
            f"(avg={record.get('rolling_td_loss', record['td_loss']):.4f}) "
            f"q={record['mean_q_value']:.4f} "
            f"td_err={record['mean_abs_td_error']:.4f}"
        )
        if self.dqn_config.use_tqdm:
            tqdm.write(message)
        else:
            print(message)

    def _print_eval_log(self, record: dict[str, float]) -> None:
        message = (
            "[eval] "
            f"algo={record['algorithm']} arch={record['policy_arch']} reward={record['reward_variant']} "
            f"episodes={int(record['num_episodes'])} "
            f"mean_return={record['mean_episode_return']:.3f} "
            f"(avg={record.get('rolling_mean_episode_return', record['mean_episode_return']):.3f}) "
            f"wait={record['mean_mean_waiting_vehicles']:.3f} "
            f"throughput={record['mean_throughput']:.1f} "
            f"travel_time={record.get('mean_average_travel_time', float('nan')):.3f}"
        )
        if self.dqn_config.compare_baselines:
            message += (
                f" fixed={record.get('fixed_mean_episode_return', float('nan')):.3f}"
                f" random={record.get('random_mean_episode_return', float('nan')):.3f}"
                f" vs_fixed={record.get('learner_minus_fixed_return', float('nan')):.3f}"
                f" vs_random={record.get('learner_minus_random_return', float('nan')):.3f}"
            )
        if self.dqn_config.use_tqdm:
            tqdm.write(message)
        else:
            print(message)
        scenario_summaries = []
        for scenario_name in (
            "accident",
            "construction",
            "district_overload",
            "evening_rush",
            "event_spike",
            "morning_rush",
            "normal",
        ):
            key = f"scenario_{scenario_name}_mean_episode_return"
            if key in record:
                scenario_summaries.append(f"{scenario_name}={record[key]:.3f}")
        if scenario_summaries:
            if self.dqn_config.use_tqdm:
                tqdm.write("[eval] scenario_returns " + " ".join(scenario_summaries))
            else:
                print("[eval] scenario_returns " + " ".join(scenario_summaries))


def aggregate_metrics(metrics: list[dict[str, float | str]]) -> dict[str, float]:
    numeric_keys = {
        key
        for item in metrics
        for key, value in item.items()
        if isinstance(value, (int, float))
    }
    aggregate = {"num_episodes": float(len(metrics))}
    for key in sorted(numeric_keys):
        aggregate[f"mean_{key}"] = float(
            np.mean([float(item[key]) for item in metrics if key in item])
        )
    return aggregate


def aggregate_metrics_by_scenario(metrics: list[dict[str, float | str]]) -> dict[str, float]:
    scenario_names = sorted(
        {
            str(item["scenario_name"])
            for item in metrics
            if isinstance(item.get("scenario_name"), str)
        }
    )
    aggregate: dict[str, float] = {}
    for scenario_name in scenario_names:
        scenario_metrics = [item for item in metrics if item.get("scenario_name") == scenario_name]
        if not scenario_metrics:
            continue
        scenario_aggregate = aggregate_metrics(scenario_metrics)
        for key, value in scenario_aggregate.items():
            aggregate[f"scenario_{scenario_name}_{key}"] = value
    return aggregate


def _env_config_to_payload(env_config: EnvConfig) -> dict[str, Any]:
    return {
        "simulator_interval": env_config.simulator_interval,
        "decision_interval": env_config.decision_interval,
        "min_green_time": env_config.min_green_time,
        "thread_num": env_config.thread_num,
        "max_episode_seconds": env_config.max_episode_seconds,
        "observation": asdict(env_config.observation),
        "reward": asdict(env_config.reward),
    }


def _env_config_from_payload(payload: dict[str, Any]) -> EnvConfig:
    return EnvConfig(
        simulator_interval=payload["simulator_interval"],
        decision_interval=payload["decision_interval"],
        min_green_time=payload["min_green_time"],
        thread_num=payload["thread_num"],
        max_episode_seconds=payload["max_episode_seconds"],
        observation=ObservationConfig(**payload["observation"]),
        reward=RewardConfig(**payload["reward"]),
    )


def _init_parallel_baseline_worker(context: dict[str, Any]) -> None:
    _init_parallel_eval_worker_from_context(context)


def _init_parallel_learned_eval_worker(context: dict[str, Any]) -> None:
    _init_parallel_eval_worker_from_context(context)


def _build_standalone_eval_context(
    env_config: EnvConfig,
    actor: TrafficControlQNetwork | RandomPhasePolicy | FixedCyclePolicy | HoldPhasePolicy | QueueGreedyPolicy,
    obs_normalizer: RunningNormalizer | None,
    device: torch.device,
    seed: int,
    fixed_green_time: int,
    baseline_name: str | None,
) -> dict[str, Any]:
    del device
    if baseline_name is not None:
        return {
            "env_config": _env_config_to_payload(env_config),
            "baseline_name": baseline_name,
            "fixed_green_time": fixed_green_time,
            "seed": seed,
        }

    if not isinstance(actor, TrafficControlQNetwork):
        raise ValueError("Standalone parallel learned evaluation requires a Q-network actor.")
    return {
        "env_config": _env_config_to_payload(env_config),
        "network_architecture": {
            "observation_dim": actor.observation_dim,
            "action_dim": actor.action_dim,
            "hidden_dim": actor.hidden_dim,
            "num_layers": actor.num_layers,
            "district_types": actor.district_types,
            "policy_arch": actor.policy_arch,
            "dueling": actor.dueling,
        },
        "q_network_state_dict": {
            key: value.detach().cpu()
            for key, value in actor.state_dict().items()
        },
        "obs_normalizer": obs_normalizer.state_dict() if obs_normalizer else None,
    }


def _init_parallel_eval_worker_from_context(context: dict[str, Any]) -> None:
    global _EVAL_CONTEXT
    env_config = _env_config_from_payload(context["env_config"])
    if "baseline_name" in context:
        baseline_name = context["baseline_name"]
        if baseline_name == "random":
            actor = RandomPhasePolicy(seed=context["seed"])
        elif baseline_name == "fixed":
            actor = FixedCyclePolicy(green_time=context["fixed_green_time"])
        elif baseline_name == "hold":
            actor = HoldPhasePolicy()
        elif baseline_name == "queue_greedy":
            actor = QueueGreedyPolicy()
        else:
            raise ValueError(f"Unsupported baseline worker kind: {baseline_name}")
        obs_normalizer = None
    else:
        architecture = context["network_architecture"]
        actor = TrafficControlQNetwork(
            observation_dim=architecture["observation_dim"],
            action_dim=architecture["action_dim"],
            hidden_dim=architecture["hidden_dim"],
            num_layers=architecture["num_layers"],
            district_types=tuple(architecture["district_types"]),
            policy_arch=architecture["policy_arch"],
            dueling=bool(architecture.get("dueling", True)),
        ).to(torch.device("cpu"))
        actor.load_state_dict(context["q_network_state_dict"])
        actor.eval()

        obs_normalizer = None
        if context.get("obs_normalizer"):
            obs_normalizer = RunningNormalizer()
            obs_normalizer.load_state_dict(context["obs_normalizer"])

    _EVAL_CONTEXT = {
        "env_config": env_config,
        "actor": actor,
        "obs_normalizer": obs_normalizer,
    }


def _parallel_eval_worker(
    scenario_spec: ScenarioSpec,
    index: int,
    worker_kind: str,
) -> dict[str, float | str]:
    del index, worker_kind
    env_config = _EVAL_CONTEXT["env_config"]
    actor = _EVAL_CONTEXT["actor"]
    obs_normalizer = _EVAL_CONTEXT["obs_normalizer"]

    return evaluate_policy(
        env_factory=lambda: TrafficEnv(
            city_id=scenario_spec.city_id,
            scenario_name=scenario_spec.scenario_name,
            city_dir=scenario_spec.city_dir,
            scenario_dir=scenario_spec.scenario_dir,
            config_path=scenario_spec.config_path,
            roadnet_path=scenario_spec.roadnet_path,
            district_map_path=scenario_spec.district_map_path,
            metadata_path=scenario_spec.metadata_path,
            env_config=env_config,
        ),
        actor=actor,
        device=torch.device("cpu"),
        obs_normalizer=obs_normalizer,
        deterministic=True,
    )


def _parallel_rollout_collection_worker(
    scenario_spec: ScenarioSpec,
    context: dict[str, Any],
    epsilon: float,
    max_decision_steps: int | None,
    gamma: float,
    n_step: int,
) -> dict[str, Any]:
    env_config = _env_config_from_payload(context["env_config"])
    architecture = context["network_architecture"]
    q_network = TrafficControlQNetwork(
        observation_dim=architecture["observation_dim"],
        action_dim=architecture["action_dim"],
        hidden_dim=architecture["hidden_dim"],
        num_layers=architecture["num_layers"],
        district_types=tuple(architecture["district_types"]),
        policy_arch=architecture["policy_arch"],
        dueling=bool(architecture.get("dueling", True)),
    ).to(torch.device("cpu"))
    q_network.load_state_dict(context["q_network_state_dict"])
    q_network.eval()

    obs_normalizer = None
    if context.get("obs_normalizer"):
        obs_normalizer = RunningNormalizer()
        obs_normalizer.load_state_dict(context["obs_normalizer"])

    env = TrafficEnv(
        city_id=scenario_spec.city_id,
        scenario_name=scenario_spec.scenario_name,
        city_dir=scenario_spec.city_dir,
        scenario_dir=scenario_spec.scenario_dir,
        config_path=scenario_spec.config_path,
        roadnet_path=scenario_spec.roadnet_path,
        district_map_path=scenario_spec.district_map_path,
        metadata_path=scenario_spec.metadata_path,
        env_config=env_config,
    )
    return _collect_episode_trajectory(
        env=env,
        q_network=q_network,
        obs_normalizer=obs_normalizer,
        epsilon=epsilon,
        max_decision_steps=max_decision_steps,
        gamma=gamma,
        n_step=n_step,
        device=torch.device("cpu"),
    )


def _collect_episode_trajectory(
    env: TrafficEnv,
    q_network: TrafficControlQNetwork,
    obs_normalizer: RunningNormalizer | None,
    epsilon: float,
    max_decision_steps: int | None,
    gamma: float,
    n_step: int,
    device: torch.device,
) -> dict[str, Any]:
    observation_batch = env.reset()
    n_step_buffers = [
        deque() for _ in range(len(observation_batch["intersection_ids"]))
    ]
    q_value_samples: list[float] = []
    transition_records: list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]] = []

    done = False
    decision_steps = 0
    last_info = env.last_info
    while not done:
        if max_decision_steps is not None and decision_steps >= max_decision_steps:
            break

        raw_obs = observation_batch["observations"].astype(np.float32)
        normalized_obs = obs_normalizer.normalize(raw_obs) if obs_normalizer else raw_obs
        obs_tensor = torch.as_tensor(normalized_obs, dtype=torch.float32, device=device)
        district_type_tensor = torch.as_tensor(
            observation_batch["district_type_indices"],
            dtype=torch.int64,
            device=device,
        )
        action_mask_tensor = torch.as_tensor(
            observation_batch["action_mask"],
            dtype=torch.float32,
            device=device,
        )
        with torch.no_grad():
            q_values = q_network.forward(
                observations=obs_tensor,
                district_type_indices=district_type_tensor,
                action_mask=action_mask_tensor,
            )
            actions = q_network.act(
                observations=obs_tensor,
                district_type_indices=district_type_tensor,
                action_mask=action_mask_tensor,
                deterministic=False,
                epsilon=epsilon,
            ).cpu().numpy()
        q_value_samples.append(float(q_values.max(dim=-1).values.mean().detach().cpu()))

        next_observation_batch, rewards, done, info = env.step(actions)
        transition_records.extend(
            _build_n_step_transitions(
                buffers=n_step_buffers,
                observation_batch=observation_batch,
                actions=actions,
                rewards=np.asarray(rewards, dtype=np.float32),
                next_observation_batch=next_observation_batch,
                done=done,
                gamma=gamma,
                n_step=n_step,
            )
        )
        observation_batch = next_observation_batch
        last_info = info
        decision_steps += 1

    transition_records.extend(
        _flush_n_step_transition_buffers(
            buffers=n_step_buffers,
            gamma=gamma,
        )
    )

    episode_metrics = {
        key: float(value)
        for key, value in last_info["metrics"].items()
        if value is not None and isinstance(value, (int, float))
    }
    episode_record = {
        **episode_metrics,
        "city_id": env.city_id,
        "scenario_name": env.scenario_name,
        "decision_steps": decision_steps,
        "transitions": len(transition_records),
        "episode_return": float(env.episode_return),
        "total_episode_return": float(env.total_episode_return),
        "epsilon": float(epsilon),
        "mean_q_value": float(np.mean(q_value_samples)) if q_value_samples else 0.0,
    }
    return {
        "episode_record": episode_record,
        "transitions": _pack_transition_records(transition_records, env.observation_dim),
    }


def _build_n_step_transitions(
    buffers: list[deque[StepRecord]],
    observation_batch: dict[str, Any],
    actions: np.ndarray,
    rewards: np.ndarray,
    next_observation_batch: dict[str, Any],
    done: bool,
    gamma: float,
    n_step: int,
) -> list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]]:
    transition_records: list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]] = []
    for row_index, buffer in enumerate(buffers):
        record = StepRecord(
            observation=observation_batch["observations"][row_index].astype(np.float32),
            district_type_index=int(observation_batch["district_type_indices"][row_index]),
            action_mask=observation_batch["action_mask"][row_index].astype(np.float32),
            action=int(actions[row_index]),
            reward=float(rewards[row_index]),
            next_observation=next_observation_batch["observations"][row_index].astype(np.float32),
            next_district_type_index=int(next_observation_batch["district_type_indices"][row_index]),
            next_action_mask=next_observation_batch["action_mask"][row_index].astype(np.float32),
            done=bool(done),
        )
        buffer.append(record)
        if len(buffer) >= n_step:
            transition_records.append(_make_transition_from_buffer(buffer, steps=n_step, gamma=gamma))
            buffer.popleft()
    return transition_records


def _flush_n_step_transition_buffers(
    buffers: list[deque[StepRecord]],
    gamma: float,
) -> list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]]:
    transition_records: list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]] = []
    for buffer in buffers:
        while buffer:
            transition_records.append(
                _make_transition_from_buffer(buffer, steps=len(buffer), gamma=gamma)
            )
            buffer.popleft()
    return transition_records


def _make_transition_from_buffer(
    buffer: deque[StepRecord],
    steps: int,
    gamma: float,
) -> tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]:
    records = list(islice(buffer, 0, steps))
    reward = 0.0
    for step_index, record in enumerate(records):
        reward += (gamma ** step_index) * float(record.reward)
    first_record = records[0]
    last_record = records[-1]
    discount = gamma ** len(records)
    return (
        first_record.observation,
        first_record.district_type_index,
        first_record.action_mask,
        first_record.action,
        reward,
        last_record.next_observation,
        last_record.next_district_type_index,
        last_record.next_action_mask,
        last_record.done,
        discount,
    )


def _pack_transition_records(
    transition_records: list[tuple[np.ndarray, int, np.ndarray, int, float, np.ndarray, int, np.ndarray, bool, float]],
    observation_dim: int,
) -> dict[str, np.ndarray]:
    if not transition_records:
        return {
            "observations": np.zeros((0, observation_dim), dtype=np.float32),
            "district_type_indices": np.zeros(0, dtype=np.int64),
            "action_masks": np.zeros((0, 2), dtype=np.float32),
            "actions": np.zeros(0, dtype=np.int64),
            "rewards": np.zeros(0, dtype=np.float32),
            "next_observations": np.zeros((0, observation_dim), dtype=np.float32),
            "next_district_type_indices": np.zeros(0, dtype=np.int64),
            "next_action_masks": np.zeros((0, 2), dtype=np.float32),
            "dones": np.zeros(0, dtype=np.float32),
            "discounts": np.zeros(0, dtype=np.float32),
        }

    observations = np.stack([record[0] for record in transition_records]).astype(np.float32)
    district_type_indices = np.asarray([record[1] for record in transition_records], dtype=np.int64)
    action_masks = np.stack([record[2] for record in transition_records]).astype(np.float32)
    actions = np.asarray([record[3] for record in transition_records], dtype=np.int64)
    rewards = np.asarray([record[4] for record in transition_records], dtype=np.float32)
    next_observations = np.stack([record[5] for record in transition_records]).astype(np.float32)
    next_district_type_indices = np.asarray([record[6] for record in transition_records], dtype=np.int64)
    next_action_masks = np.stack([record[7] for record in transition_records]).astype(np.float32)
    dones = np.asarray([record[8] for record in transition_records], dtype=np.float32)
    discounts = np.asarray([record[9] for record in transition_records], dtype=np.float32)
    return {
        "observations": observations,
        "district_type_indices": district_type_indices,
        "action_masks": action_masks,
        "actions": actions,
        "rewards": rewards,
        "next_observations": next_observations,
        "next_district_type_indices": next_district_type_indices,
        "next_action_masks": next_action_masks,
        "dones": dones,
        "discounts": discounts,
    }