MVA_GenAI / train_unet.py

Upload folder using huggingface_hub

f729117 verified 18 days ago

13 kB

	#!/usr/bin/env python3
	"""
	Standalone CFM + UNet training (extracted from close_form_mva_gen_proj.ipynb).
	Logs loss and sample images to TensorBoard.
	"""

	from __future__ import annotations

	import argparse
	import os
	from dataclasses import dataclass
	from pathlib import Path
	from typing import Any

	import torch
	import torchvision
	from torch.utils.data import DataLoader, Subset
	from torch.utils.tensorboard import SummaryWriter
	from torchvision.transforms import v2

	from torchcfm.conditional_flow_matching import ConditionalFlowMatcher
	from torchcfm.models.unet.unet import UNetModelWrapper
	from torchdyn.core import NeuralODE

	try:
	import yaml # type: ignore[import-untyped]
	except ImportError as e: # pragma: no cover
	raise ImportError("Please `pip install pyyaml` to use --config.") from e


	def parse_args() -> argparse.Namespace:
	p = argparse.ArgumentParser(description="Train UNet with Conditional Flow Matching (CIFAR-10 or Imagenette)")

	# Data
	p.add_argument(
	"--dataset",
	type=str,
	default="imagenette",
	choices=["cifar10", "imagenette"],
	help="Training dataset: CIFAR-10 or Imagenette (both 10 classes, 32x32 after transforms)",
	)
	p.add_argument("--data-root", type=str, default=".", help="Root for dataset download/cache")
	p.add_argument("--cifar-split", type=str, default="train", choices=["train", "test"])
	p.add_argument("--imagenette-split", type=str, default="train", choices=["train", "val"])
	p.add_argument("--imagenette-size", type=str, default="160px", choices=["160px", "320px", "full"])
	p.add_argument(
	"--single-class",
	action="store_true",
	help="Keep only samples whose label equals --class-id (CIFAR-10 / Imagenette class index 0..9)",
	)
	p.add_argument(
	"--class-id",
	type=int,
	default=0,
	help="Label to keep when --single-class is set (0..9 for both datasets)",
	)
	p.add_argument("--batch-size", type=int, default=64)
	p.add_argument("--num-workers", type=int, default=4)

	# Training
	p.add_argument("--epochs", type=int, default=30)
	p.add_argument("--device", type=str, default=None, help="cuda \| cpu (default: auto)")
	p.add_argument("--log-interval", type=int, default=100, help="Print / log batch loss every N steps")
	p.add_argument("--seed", type=int, default=0)

	# Checkpoints
	p.add_argument("--save-dir", type=str, default="./runs/cfm_unet/checkpoints", help="Directory for .pt files")

	# TensorBoard
	p.add_argument(
	"--log-dir",
	type=str,
	default="./runs/cfm_unet/tensorboard",
	help="TensorBoard log directory (also used if --run-name is set)",
	)
	p.add_argument("--run-name", type=str, default=None, help="Subfolder under log-dir for this run")

	# UNet / CFM (YAML)
	p.add_argument(
	"--config",
	type=str,
	default=None,
	help="YAML with UNet + CFM hyperparameters (default: unet_config.yaml next to this script)",
	)

	p.add_argument(
	"--data-percent",
	type=int,
	default=100,
	choices=[10, 20, 30, 60, 80, 100],
	help="Use only this percentage of the (possibly filtered) training dataset.",
	)
	return p.parse_args()


	def _parse_int_list(s: str) -> list[int]:
	return [int(x.strip()) for x in s.split(",") if x.strip()]


	def _parse_dim(s: str) -> tuple[int, int, int]:
	parts = _parse_int_list(s)
	if len(parts) != 3:
	raise ValueError("--dim must be three integers C,H,W")
	return (parts[0], parts[1], parts[2])


	@dataclass
	class TrainConfig:
	sigma: float
	dim: tuple[int, int, int]
	lr: float
	weight_decay: float
	inference_steps: int
	vis_batch_size: int
	num_res_blocks: int
	num_channels: int
	channel_mult: list[int]
	num_heads: int
	num_head_channels: int
	attention_resolutions: str
	dropout: float


	def _dim_from_yaml(value: Any) -> tuple[int, int, int]:
	if isinstance(value, (list, tuple)) and len(value) == 3:
	return (int(value[0]), int(value[1]), int(value[2]))
	if isinstance(value, str):
	return _parse_dim(value)
	raise ValueError("YAML 'dim' must be [C,H,W] or a string like '3,32,32'")


	def _channel_mult_from_yaml(value: Any) -> list[int]:
	if isinstance(value, (list, tuple)):
	return [int(x) for x in value]
	if isinstance(value, str):
	return _parse_int_list(value)
	raise ValueError("YAML 'channel_mult' must be a list of ints or a comma-separated string")


	REQUIRED_YAML_KEYS = (
	"sigma",
	"dim",
	"lr",
	"weight_decay",
	"inference_steps",
	"vis_batch_size",
	"num_res_blocks",
	"num_channels",
	"channel_mult",
	"num_heads",
	"num_head_channels",
	"attention_resolutions",
	"dropout",
	)


	def load_unet_config_yaml(path: str \| os.PathLike[str]) -> TrainConfig:
	path = Path(path)
	if not path.is_file():
	raise FileNotFoundError(f"Config file not found: {path.resolve()}")

	with open(path, encoding="utf-8") as f:
	raw = yaml.safe_load(f)
	if raw is None or not isinstance(raw, dict):
	raise ValueError(f"Config must be a YAML mapping: {path}")

	missing = [k for k in REQUIRED_YAML_KEYS if k not in raw]
	if missing:
	raise ValueError(f"Missing keys in {path}: {missing}")

	return TrainConfig(
	sigma=float(raw["sigma"]),
	dim=_dim_from_yaml(raw["dim"]),
	lr=float(raw["lr"]),
	weight_decay=float(raw["weight_decay"]),
	inference_steps=int(raw["inference_steps"]),
	vis_batch_size=int(raw["vis_batch_size"]),
	num_res_blocks=int(raw["num_res_blocks"]),
	num_channels=int(raw["num_channels"]),
	channel_mult=_channel_mult_from_yaml(raw["channel_mult"]),
	num_heads=int(raw["num_heads"]),
	num_head_channels=int(raw["num_head_channels"]),
	attention_resolutions=str(raw["attention_resolutions"]),
	dropout=float(raw["dropout"]),
	)


	NUM_CLASSES = {"cifar10": 10, "imagenette": 10}


	def _targets_list(dataset: torch.utils.data.Dataset) -> list[int]:
	if hasattr(dataset, "targets"):
	t = dataset.targets
	return list(t) if not isinstance(t, list) else t
	return [int(dataset[i][1]) for i in range(len(dataset))]


	def _maybe_single_class(
	dataset: torch.utils.data.Dataset,
	*,
	single_class: bool,
	class_id: int,
	dataset_name: str,
	) -> torch.utils.data.Dataset:
	n_cls = NUM_CLASSES[dataset_name]
	if not single_class:
	return dataset
	if class_id < 0 or class_id >= n_cls:
	raise ValueError(f"--class-id must be in [0, {n_cls - 1}] for {dataset_name}")
	targets = _targets_list(dataset)
	indices = [i for i, y in enumerate(targets) if int(y) == class_id]
	if not indices:
	raise RuntimeError(f"No samples found for class_id={class_id}")
	print(f"Single-class filter: dataset={dataset_name}, class_id={class_id}, n_samples={len(indices)}")
	return Subset(dataset, indices)


	def load_training_dataset(args: argparse.Namespace, transforms: v2.Compose) -> torch.utils.data.Dataset:
	name = args.dataset
	if name == "cifar10":
	ds: torch.utils.data.Dataset = torchvision.datasets.CIFAR10(
	root=args.data_root,
	train=(args.cifar_split == "train"),
	download=True,
	transform=transforms,
	)
	elif name == "imagenette":
	ds = torchvision.datasets.Imagenette(
	args.data_root,
	split=args.imagenette_split,
	size=args.imagenette_size,
	download=True,
	transform=transforms,
	)
	else:
	raise ValueError(f"Unknown dataset: {name}")

	ds = _maybe_single_class(ds, single_class=args.single_class, class_id=args.class_id, dataset_name=name)
	return ds


	def main() -> None:
	args = parse_args()
	default_cfg = Path(__file__).resolve().parent / "unet_config.yaml"
	config_path = Path(args.config).resolve() if args.config else default_cfg
	cfg = load_unet_config_yaml(config_path)
	print(f"Loaded UNet config from: {config_path}")
	torch.manual_seed(args.seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(args.seed)

	device = torch.device(args.device or ("cuda" if torch.cuda.is_available() else "cpu"))
	print(f"Using device: {device}")

	os.makedirs(args.save_dir, exist_ok=True)

	tb_dir = os.path.join(args.log_dir, args.run_name) if args.run_name else args.log_dir
	os.makedirs(tb_dir, exist_ok=True)
	writer = SummaryWriter(log_dir=tb_dir)
	writer.add_text("config/args", str(vars(args)), 0)
	writer.add_text("config/unet_yaml", config_path.read_text(encoding="utf-8"), 0)

	transforms = v2.Compose(
	[
	v2.ToTensor(),
	v2.ToDtype(torch.float32, scale=True),
	v2.Resize((32,32)),
	v2.Normalize(mean=[0.0, 0.0, 0.0], std=[1.0, 1.0, 1.0]),
	]
	)
	train_dataset = load_training_dataset(args, transforms)
	print(f"Dataset: {args.dataset}, size={len(train_dataset)}")

	orig_len = len(train_dataset)
	if args.data_percent < 100:
	new_len = max(1, int(orig_len * args.data_percent / 100.0))

	g = torch.Generator()
	g.manual_seed(args.seed)

	perm = torch.randperm(orig_len, generator=g)
	indices = perm[:new_len].tolist()
	torch.save(perm[:new_len], os.path.join(args.save_dir, "indices.pt"))
	train_dataset = Subset(train_dataset, indices)
	print(f"Subsampled dataset: {args.data_percent}% -> {len(train_dataset)} samples")
	else:
	print(f"Using full dataset: {orig_len} samples")

	dummy_dataloader = DataLoader(
	train_dataset,
	batch_size=args.batch_size,
	shuffle=True,
	num_workers=args.num_workers,
	pin_memory=device.type == "cuda",
	)

	total_optimizer_steps = len(dummy_dataloader) * args.epochs

	fm = ConditionalFlowMatcher(sigma=cfg.sigma)
	net_model = UNetModelWrapper(
	dim=cfg.dim,
	num_res_blocks=cfg.num_res_blocks,
	num_channels=cfg.num_channels,
	channel_mult=cfg.channel_mult,
	num_heads=cfg.num_heads,
	num_head_channels=cfg.num_head_channels,
	attention_resolutions=cfg.attention_resolutions,
	dropout=cfg.dropout,
	).to(device)

	optim = torch.optim.AdamW(net_model.parameters(), lr=cfg.lr, weight_decay=cfg.weight_decay)
	# Match notebook: one scheduler.step() per batch; span full training (not just epochs count).
	scheduler = torch.optim.lr_scheduler.LinearLR(optim, total_iters=max(total_optimizer_steps, 1))
	t_span = torch.linspace(0, 1, cfg.inference_steps + 1, device=device)

	c, h, w = cfg.dim
	global_step = 0
	best_loss = float("inf")

	for ep in range(args.epochs):
	net_model.train()
	epoch_loss = 0.0
	num_batches = 0

	for data in dummy_dataloader:
	x1 = data[0].to(device, non_blocking=True)
	x0 = torch.randn_like(x1)
	t, xt, ut = fm.sample_location_and_conditional_flow(x0, x1)
	vt = net_model(t, xt)
	loss = torch.mean((vt - ut) ** 2)

	optim.zero_grad(set_to_none=True)
	loss.backward()
	optim.step()
	scheduler.step()

	epoch_loss += loss.item()
	num_batches += 1

	writer.add_scalar("train/loss_step", loss.item(), global_step)
	writer.add_scalar("train/lr", scheduler.get_last_lr()[0], global_step)

	if global_step % args.log_interval == 0:
	print(f"[step {global_step}] loss = {loss.item():.6f}")

	global_step += 1

	avg_epoch_loss = epoch_loss / max(num_batches, 1)
	writer.add_scalar("train/loss_epoch", avg_epoch_loss, ep)
	print(f"[epoch {ep}] avg loss = {avg_epoch_loss:.6f}")

	# Sample trajectories (NeuralODE) — log image grid to TensorBoard
	net_model.eval()
	node = NeuralODE(net_model, solver="euler")
	with torch.no_grad():
	x_vis = torch.randn(cfg.vis_batch_size, c, h, w, device=device)
	traj = node.trajectory(x_vis, t_span=t_span)
	x_final = traj[-1]
	x_final = x_final.clamp(0.0, 1.0).cpu()
	grid = torchvision.utils.make_grid(x_final, nrow=4, padding=2, normalize=False)
	writer.add_image("samples/neural_ode_final", grid, ep)

	if ep % 30 == 0:
	ckpt_path = os.path.join(args.save_dir, f"model_epoch_{ep}.pt")
	torch.save(net_model.state_dict(), ckpt_path)

	if ep == 0 or avg_epoch_loss < best_loss:
	best_loss = avg_epoch_loss
	torch.save(net_model.state_dict(), os.path.join(args.save_dir, "model_best.pt"))

	writer.close()
	print(f"Done. Checkpoints: {args.save_dir}")
	print(f"TensorBoard: tensorboard --logdir {tb_dir}")


	if __name__ == "__main__":
	main()