Sync WJAD codebase

0cfefd2 verified 24 days ago

20.7 kB

	"""两阶段训练器 + 梯度监控。

	Stage 1 (Dense)：
	- MoE 全部专家加权（dense 模式）；
	- 路由温度初始 < 1（锐化），训练中线性升到 1；
	- DINOv3 冻结；
	- 中期开启运动学/内外参扰动，监督校准网络；
	- GradNorm 启用。

	Stage 2 (Sparse)：
	- MoE 切 Top-3；
	- 路由温度退火完成；
	- DINOv3 解冻并采用 1/100 主干 LR；
	- GradNorm + PCGrad 同时启用。
	"""

	from __future__ import annotations

	import logging
	import math
	from dataclasses import dataclass
	from pathlib import Path
	from typing import Sequence

	import numpy as np
	import torch
	import torch.nn as nn
	from torch.utils.data import DataLoader

	from ..losses import (
	HungarianMatcher,
	action_nll,
	calibration_regularization,
	detection_losses,
	ego_traj_nll,
	moe_load_balance_and_boundary,
	object_traj_nll,
	)
	from ..model import E2EAVModel, E2EOutput
	from .multitask import MultiTaskOptimizer, MultiTaskOptimizerConfig
	from .schedule import build_scheduler

	log = logging.getLogger(__name__)


	class _NullContext:
	"""空 context manager，用于 AMP 关闭时占位 autocast。"""

	def __enter__(self):
	return self

	def __exit__(self, exc_type, exc, tb):
	return False


	@dataclass
	class TrainerConfig:
	"""Trainer 超参数（与 ``configs/default.yaml`` 对齐）。"""

	total_steps: int = 100000
	warmup_steps: int = 1000
	base_lr: float = 2.0e-4
	min_lr: float = 1.0e-6
	weight_decay: float = 0.05
	grad_clip: float = 1.0
	log_interval: int = 20
	ckpt_interval: int = 1000
	stage1_steps: int = 60000
	stage1_perturb_start: int = 20000
	grad_monitor_threshold: float = 1e-7
	# === AMP / 混合精度 ===
	# "fp32" / "bf16" / "fp16"。默认 bf16（H100/A100 推荐，无需 GradScaler）。
	mixed_precision: str = "bf16"
	grad_accum_steps: int = 1
	# MoE
	moe_load_balance_weight: float = 0.01
	moe_boundary_weight: float = 0.001
	router_temp_init: float = 0.5
	router_temp_final: float = 1.0
	# 损失初始权重（GradNorm 自适应主任务 1-6）
	loss_giou_weight: float = 0.5
	loss_calib_weight: float = 0.1
	# MultiTask（GradNorm + PCGrad 在 Stage1/Stage2 全程启用——
	# 两阶段的 6 项主任务都存在尺度不均与梯度冲突，PCGrad 不应延迟到 Stage2）
	enable_gradnorm: bool = True
	enable_pcgrad: bool = True
	# 参数组
	dinov3_lr_mult_stage2: float = 0.01
	# 显存吃紧的设备（如 a10g-small）上可关闭 Stage2 DINOv3 解冻，保持冻结
	unfreeze_dinov3_at_stage2: bool = True
	backbone_lr_mult: float = 1.0
	calibration_lr_mult: float = 0.1
	head_lr_mult: float = 1.0
	gate_lr_mult: float = 0.1
	# 检查点：目录 + 可选同步到 Hub model repo
	output_dir: str \| None = None
	hub_repo_id: str \| None = None
	hub_repo_type: str = "model"


	def _is_gate_param(name: str) -> bool:
	return ".gate." in name or name.endswith(".gate_proj.weight") or name.endswith(".gate_proj.bias")


	def build_param_groups(model: E2EAVModel, base_lr: float, cfg: TrainerConfig, stage: int) -> list[dict]:
	"""按模块归类参数为不同 LR 组。Stage1 时 DINOv3 lr=0。"""
	groups: dict[str, list[nn.Parameter]] = {
	"dinov3": [],
	"backbone": [],
	"calibration": [],
	"head": [],
	"gate": [],
	"other": [],
	}
	for name, p in model.named_parameters():
	if not p.requires_grad and stage == 1:
	continue
	if name.startswith("dinov3."):
	groups["dinov3"].append(p)
	elif name.startswith("backbone."):
	if _is_gate_param(name):
	groups["gate"].append(p)
	else:
	groups["backbone"].append(p)
	elif name.startswith("calib."):
	if _is_gate_param(name):
	groups["gate"].append(p)
	else:
	groups["calibration"].append(p)
	elif name.startswith("det_traj_head.") or name.startswith("ctrl_head."):
	groups["head"].append(p)
	else:
	groups["other"].append(p)

	dinov3_lr = base_lr * (cfg.dinov3_lr_mult_stage2 if stage == 2 else 0.0)
	return [
	{"params": groups["dinov3"], "lr": dinov3_lr, "name": "dinov3"},
	{"params": groups["backbone"], "lr": base_lr * cfg.backbone_lr_mult, "name": "backbone"},
	{"params": groups["calibration"], "lr": base_lr * cfg.calibration_lr_mult, "name": "calibration"},
	{"params": groups["head"], "lr": base_lr * cfg.head_lr_mult, "name": "head"},
	{"params": groups["gate"], "lr": base_lr * cfg.gate_lr_mult, "name": "gate"},
	{"params": groups["other"], "lr": base_lr, "name": "other"},
	]


	def grad_norm_per_module(model: nn.Module, threshold: float) -> dict[str, float]:
	"""统计各顶层模块的 grad-norm，返回 dict（用于日志/告警）。

	跳过：
	- 没有任何 ``requires_grad=True`` 参数的模块（如冻结的 DINOv3、纯
	buffer 模块 RoPE）；
	- 空模块（参数计数为 0）。
	"""
	summary: dict[str, float] = {}
	for name, child in model.named_children():
	params = list(child.parameters())
	if not params:
	continue
	if not any(p.requires_grad for p in params):
	# 整个模块被冻结 -> 不监控
	continue
	total = 0.0
	seen = 0
	for p in params:
	if p.grad is not None:
	total += float(p.grad.detach().norm().item()) ** 2
	seen += 1
	if seen == 0:
	continue
	n = math.sqrt(total)
	summary[name] = n
	if n < threshold:
	log.warning("[grad_monitor] %s grad_norm=%.3e < %.3e", name, n, threshold)
	if not math.isfinite(n):
	log.error("[grad_monitor] %s grad_norm is %s (NaN/Inf)", name, n)
	return summary


	def compute_all_losses(
	model_out: E2EOutput,
	batch: dict,
	matcher: HungarianMatcher,
	num_classes: int,
	cfg: TrainerConfig,
	perturbation_residual: torch.Tensor \| None = None,
	) -> dict[str, torch.Tensor]:
	"""计算 8 项损失，返回字典。

	``perturbation_residual``：扰动训练时给定的 ground-truth 残差，用于额外
	监督校准网络；正常训练为 None。
	"""
	targets = batch["targets"]

	det_out = model_out.detection
	ctrl_out = model_out.control
	calib = model_out.calibration

	det_losses = detection_losses(
	cls_logits=det_out.cls_logits,
	box_mu=det_out.box3d_mu,
	box_log_sigma=det_out.box3d_log_sigma,
	isdyn_logit=det_out.is_dynamic_logit,
	targets=targets,
	matcher=matcher,
	num_classes=num_classes,
	)

	L_traj_obj = object_traj_nll(
	det_out.traj_mu,
	det_out.traj_log_sigma,
	det_losses.matched_indices,
	targets,
	)

	L_traj_ego = ego_traj_nll(
	ctrl_out.ego_traj_mu,
	ctrl_out.ego_traj_log_sigma,
	batch["ego_future"],
	valid=batch.get("ego_future_valid"),
	)

	# 全局动作 GT 通常没有；此处用 0 做占位（实际数据集需补齐）
	action_target = batch.get("action_target")
	if action_target is None:
	action_target = torch.zeros_like(ctrl_out.action_mu)
	L_ctrl = action_nll(
	ctrl_out.action_mu, ctrl_out.action_log_sigma, action_target
	) + L_traj_ego # 控制损失 = action + ego_traj 复用同一项的便利封装；trainer 视情况拆分

	# MoE / 校准正则
	L_moe = moe_load_balance_and_boundary(
	model_out.backbone_out.moe_stats,
	load_balance_weight=cfg.moe_load_balance_weight,
	boundary_weight=cfg.moe_boundary_weight,
	)
	L_calib_reg = calibration_regularization(
	calib.ego_residual, calib.intr_residual, calib.extr_residual,
	l2_weight=1.0,
	)
	if perturbation_residual is not None:
	# 扰动训练：计算校准网络应该预测的 GT 残差与实际残差的 MSE
	actual = torch.cat(
	[calib.ego_residual.flatten(1), calib.intr_residual, calib.extr_residual],
	dim=-1,
	)
	L_calib_reg = L_calib_reg + 1.0 * (actual - perturbation_residual).pow(2).mean()

	return {
	"L_cls": det_losses.cls_loss,
	"L_box": det_losses.box_nll + cfg.loss_giou_weight * det_losses.giou_loss,
	"L_isdyn": det_losses.isdyn_loss,
	"L_traj_obj": L_traj_obj,
	"L_traj_ego": L_traj_ego,
	"L_ctrl": L_ctrl,
	"L_moe": L_moe,
	"L_calib": L_calib_reg,
	}


	MAIN_TASK_KEYS = ["L_cls", "L_box", "L_isdyn", "L_traj_obj", "L_traj_ego", "L_ctrl"]
	AUX_TASK_KEYS = ["L_moe", "L_calib"]


	class Trainer:
	"""端到端训练器。"""

	def __init__(
	self,
	model: E2EAVModel,
	cfg: TrainerConfig,
	num_classes: int = 22,
	device: str = "cuda",
	) -> None:
	self.model = model.to(device)
	self.cfg = cfg
	self.num_classes = num_classes
	self.device = device
	self.matcher = HungarianMatcher()
	self.global_step = 0
	self._micro_step = 0 # 用于 grad_accum
	self._stage = 1
	self._build_optimizer()

	# === AMP 配置 ===
	# 仅在 device 为 cuda 时启用 autocast（CPU 上 bf16 也能跑但收益极小）。
	amp_dtype_map = {
	"fp32": None,
	"bf16": torch.bfloat16,
	"fp16": torch.float16,
	}
	self.amp_dtype = amp_dtype_map[cfg.mixed_precision]
	self.amp_enabled = self.amp_dtype is not None and "cuda" in str(device)
	# GradScaler 仅 fp16 需要；bf16 数值范围大无需 scaler
	self.scaler = (
	torch.amp.GradScaler("cuda")
	if (self.amp_enabled and self.amp_dtype == torch.float16)
	else None
	)

	# MoE 初始模式 = dense；Stage2 切 sparse
	self.model.backbone.set_moe_mode("dense")
	self.model.backbone.set_router_temperature(cfg.router_temp_init)

	# ---------- 优化器构建 ----------

	def _build_optimizer(self) -> None:
	cfg = self.cfg
	groups = build_param_groups(self.model, cfg.base_lr, cfg, stage=self._stage)
	self.optimizer = torch.optim.AdamW(groups, weight_decay=cfg.weight_decay, betas=(0.9, 0.95))
	self.scheduler = build_scheduler(
	self.optimizer,
	warmup_steps=cfg.warmup_steps,
	total_steps=cfg.total_steps,
	base_lr=cfg.base_lr,
	min_lr=cfg.min_lr,
	)

	# PCGrad 共享参数 = 主干最后的“共享瓶颈”：final_norm + 最后 1 层 MoE block。
	# 不把全部 DINOv3/Calib/Backbone 都纳入，否则 N 个任务 × full-grad 扁平副本会
	# 在 a10g-small 上瞬间 OOM（~600M 参数 × 6 任务 × 2 副本 ≈ 28 GB）。
	# 较前的层仍享受 GradNorm 自适应加权 + 共同求和的标准多任务训练。
	shared: list[nn.Parameter] = []
	last_moe = self.model.backbone.moe_layers[-1]
	for p in self.model.backbone.final_norm.parameters():
	if p.requires_grad:
	shared.append(p)
	for p in last_moe.parameters():
	if p.requires_grad:
	shared.append(p)
	# GradNorm 代理参数：取主干最后 LayerNorm 的 weight
	proxy = self.model.backbone.final_norm.weight
	mt_cfg = MultiTaskOptimizerConfig(
	enable_gradnorm=cfg.enable_gradnorm,
	enable_pcgrad=cfg.enable_pcgrad,
	gradnorm_alpha=1.5,
	gradnorm_lr=0.025,
	pcgrad_shuffle=True,
	)
	self.mto = MultiTaskOptimizer(
	num_main_tasks=len(MAIN_TASK_KEYS),
	shared_params=shared,
	gradnorm_proxy_param=proxy,
	cfg=mt_cfg,
	)
	# GradNormBalancer 是 nn.Module，需要把 raw_weights / initial_losses 缓冲
	# 移到 model 所在 device，否则与 losses (cuda) 设备不匹配。
	if self.mto.gradnorm is not None:
	self.mto.gradnorm.to(self.device)

	def _maybe_save_checkpoint(self) -> None:
	cfg = self.cfg
	if not cfg.output_dir or cfg.ckpt_interval <= 0:
	return
	if self.global_step <= 0 or self.global_step % cfg.ckpt_interval != 0:
	return
	od = Path(cfg.output_dir)
	od.mkdir(parents=True, exist_ok=True)
	ckpt_path = od / f"checkpoint-step{self.global_step}.pt"
	torch.save(
	{
	"step": self.global_step,
	"stage": self._stage,
	"model": self.model.state_dict(),
	"optimizer": self.optimizer.state_dict(),
	},
	ckpt_path,
	)
	log.info("[Trainer] checkpoint %s", ckpt_path)
	if not cfg.hub_repo_id:
	return
	try:
	from huggingface_hub import HfApi, create_repo

	create_repo(cfg.hub_repo_id, repo_type=cfg.hub_repo_type, exist_ok=True)
	api = HfApi()
	rel = f"checkpoints/{ckpt_path.name}"
	api.upload_file(
	path_or_fileobj=str(ckpt_path),
	path_in_repo=rel,
	repo_id=cfg.hub_repo_id,
	repo_type=cfg.hub_repo_type,
	commit_message=f"checkpoint step {self.global_step}",
	)
	log.info("[Trainer] uploaded %s -> %s", rel, cfg.hub_repo_id)
	except Exception as e:
	log.warning("[Trainer] Hub upload failed: %s", e)

	# ---------- 阶段切换 ----------

	def maybe_switch_stage(self) -> None:
	cfg = self.cfg
	if self._stage == 1 and self.global_step >= cfg.stage1_steps:
	log.info("[Trainer] -> Stage 2 (sparse MoE + DINOv3 finetune + PCGrad)")
	self._stage = 2
	# 1) MoE 切 sparse
	self.model.backbone.set_moe_mode("sparse")
	# 2) 路由温度退火完成
	self.model.backbone.set_router_temperature(cfg.router_temp_final)
	# 3) DINOv3 解冻（小显存设备可禁用）
	if cfg.unfreeze_dinov3_at_stage2:
	self.model.dinov3.unfreeze()
	# 4) 重建优化器（包含 DINOv3 参数）+ 启用 PCGrad
	self._build_optimizer()

	# ---------- 单步 ----------

	def train_step(self, batch: dict, rng: np.random.Generator) -> dict:
	cfg = self.cfg
	self.maybe_switch_stage()

	# 移到 device
	batch = {k: (v.to(self.device) if isinstance(v, torch.Tensor) else v) for k, v in batch.items()}
	# targets 是 list of dict，里面的 tensor 也移到 device
	if "targets" in batch and isinstance(batch["targets"], list):
	new_targets = []
	for t in batch["targets"]:
	new_targets.append({k: (v.to(self.device) if isinstance(v, torch.Tensor) else v) for k, v in t.items()})
	batch["targets"] = new_targets

	# 扰动注入（Stage1 中期开启）
	perturb_residual = None
	ego_input = batch["ego_6d"]
	intr_input = batch["intr_vec"]
	extr_input = batch["extr_6d"]
	if (
	self._stage == 1
	and self.global_step >= cfg.stage1_perturb_start
	and rng.uniform() < 0.5
	):
	from ..data.transforms import perturb_kinematics
	ego_input, intr_input, extr_input, delta = perturb_kinematics(
	ego_input.cpu().clone(), intr_input.cpu().clone()[0], extr_input.cpu().clone()[0],
	translation_std_m=0.1, rotation_std_deg=0.5,
	intrinsic_std=0.005, extrinsic_std=0.005,
	rng=rng,
	)
	ego_input = ego_input.to(self.device)
	# intr/extr 是 [B,...] 而 perturb_kinematics 是单样本；这里为简洁仅扰动第 0 个样本
	# 实际生产中应 batched 实现
	intr_input = batch["intr_vec"].clone()
	extr_input = batch["extr_6d"].clone()
	# GT 残差：在 symlog 空间 = -delta（symlog 是非线性，这里用线性近似）
	perturb_residual = -delta.to(self.device).unsqueeze(0).expand(ego_input.shape[0], -1)

	# 前向（AMP autocast 仅包住 forward 与匹配/损失，反传由 PyTorch
	# 在 fp32 主梯度下完成；GradNorm/PCGrad 内的 autograd.grad 也在 fp32）
	ac_ctx = (
	torch.autocast(device_type="cuda", dtype=self.amp_dtype)
	if self.amp_enabled
	else _NullContext()
	)
	with ac_ctx:
	out = self.model(
	images=batch["images"],
	ego_6d_raw=ego_input,
	intr_raw=intr_input,
	extr_6d_raw=extr_input,
	)
	losses = compute_all_losses(
	out, batch, self.matcher, self.num_classes, cfg,
	perturbation_residual=perturb_residual,
	)

	# === 把损失提升到 fp32 以保证后续 GradNorm/PCGrad 数值稳定 ===
	main = torch.stack([losses[k].float() for k in MAIN_TASK_KEYS])
	aux = sum(losses[k].float() for k in AUX_TASK_KEYS)
	# 梯度累积：对累积步数取平均
	if cfg.grad_accum_steps > 1:
	main = main / cfg.grad_accum_steps
	aux = aux / cfg.grad_accum_steps

	# === 反传 ===
	if self._micro_step == 0:
	self.optimizer.zero_grad(set_to_none=True)

	all_params = [p for p in self.model.parameters() if p.requires_grad]
	if self.scaler is not None:
	# fp16 路径：GradScaler 不直接支持 PCGrad（需手动调度）；这里
	# 退化为标准 sum-backward。bf16 推荐路径无此限制。
	total = main.sum() + aux
	self.scaler.scale(total).backward()
	weights = torch.ones_like(main)
	else:
	total, weights = self.mto.backward(main, aux, all_params)

	self._micro_step += 1
	do_step = self._micro_step >= cfg.grad_accum_steps
	if not do_step:
	info_partial = {
	"step": self.global_step,
	"stage": self._stage,
	"total_loss": float(total),
	"weights": [float(w) for w in weights],
	"grad_norms": {},
	}
	for k, v in losses.items():
	info_partial[k] = float(v.detach())
	return info_partial

	# === 梯度裁剪 + 监控 + step ===
	if self.scaler is not None:
	self.scaler.unscale_(self.optimizer)
	grad_summary = grad_norm_per_module(self.model, cfg.grad_monitor_threshold)
	torch.nn.utils.clip_grad_norm_(all_params, max_norm=cfg.grad_clip)

	if self.scaler is not None:
	self.scaler.step(self.optimizer)
	self.scaler.update()
	else:
	self.optimizer.step()
	self.scheduler.step()
	self._micro_step = 0

	# 路由温度线性退火
	if self._stage == 1:
	ratio = min(1.0, self.global_step / max(1, cfg.stage1_steps))
	t = cfg.router_temp_init + ratio * (cfg.router_temp_final - cfg.router_temp_init)
	self.model.backbone.set_router_temperature(t)

	self.global_step += 1
	self._maybe_save_checkpoint()

	info = {
	"step": self.global_step,
	"stage": self._stage,
	"total_loss": float(total),
	"weights": [float(w) for w in weights],
	"grad_norms": grad_summary,
	}
	for k, v in losses.items():
	info[k] = float(v.detach())
	return info

	def fit(self, loader: DataLoader, max_steps: int \| None = None) -> None:
	"""简化训练循环。"""
	rng = np.random.default_rng(0)
	steps = max_steps or self.cfg.total_steps
	it = iter(loader)
	for _ in range(steps):
	try:
	batch = next(it)
	except StopIteration:
	it = iter(loader)
	batch = next(it)
	info = self.train_step(batch, rng)
	if info["step"] % self.cfg.log_interval == 0:
	log.info(
	"step=%d stage=%d total=%.4f cls=%.4f box=%.4f isdyn=%.4f traj_obj=%.4f traj_ego=%.4f ctrl=%.4f moe=%.4f calib=%.4f",
	info["step"], info["stage"], info["total_loss"],
	info["L_cls"], info["L_box"], info["L_isdyn"],
	info["L_traj_obj"], info["L_traj_ego"], info["L_ctrl"],
	info["L_moe"], info["L_calib"],
	)