Upload folder using huggingface_hub

2a8536d verified 8 months ago

19 kB

	# train_mnist.py
	# ---------------------------------------------------------------------
	# FP32 training for MNIST with:
	# - Sparse W&B logging: loss, global/per-layer norms
	# - Training speed: iterations/sec and ms/iter
	# - Periodic sampling + sample speed
	# - Optional FID (clean-fid) and IS (torch-fidelity)
	# - Logs diffusion hyperparameters (T, beta schedule, sampling steps, eta)
	# ---------------------------------------------------------------------

	import os
	import time
	import math
	import yaml
	import torch
	from torch.optim import Adam
	from tqdm.auto import tqdm
	from torchvision import datasets, transforms
	from torchvision.utils import save_image
	from ema_pytorch import EMA
	import wandb
	import numpy as np
	from torchvision.utils import make_grid


	# Optional metrics: will be checked at runtime
	try:
	from cleanfid import fid as clean_fid
	HAS_CLEANFID = True
	except Exception:
	HAS_CLEANFID = False

	try:
	from torch_fidelity import calculate_metrics as tf_calculate_metrics
	HAS_TORCH_FIDELITY = True
	except Exception:
	HAS_TORCH_FIDELITY = False

	from unet import UNet
	from diffusion import GaussianDiffusion # your current file name

	# ---------------------------
	# Utility functions for making videos
	# ---------------------------


	def frames_to_wandb_video(frames, nrow=8, fps=6):
	"""
	Convert a list of [B,C,H,W] tensors (values in [0,1]) into a W&B Video.
	- For each time step: make a grid of the batch (nrow), convert to HxWxC uint8.
	- Stack along time to build a (T,H,W,C) numpy array.
	"""
	np_frames = []
	for f in frames:
	# clamp and make a grid
	f = f.clamp(0, 1)
	grid = make_grid(f, nrow=nrow) # [C,H,W]
	grid = (grid * 255.0).byte().cpu().numpy() # [C,H,W], uint8
	grid = np.transpose(grid, (1, 2, 0)) # [H,W,C]
	np_frames.append(grid)
	video = np.stack(np_frames, axis=0) # [T,H,W,C]
	return wandb.Video(video, fps=fps, format="mp4")
	# ---------------------------
	# Speedups on CUDA (still FP32)
	# ---------------------------


	def maybe_enable_cuda_speedups(cfg):
	if torch.cuda.is_available():
	if cfg.get("compute", {}).get("enable_tf32", True):
	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True
	torch.backends.cudnn.benchmark = True

	# ---------------------------
	# MNIST dataloader (32x32, float32)
	# ---------------------------


	def get_loader_mnist(bs, nw, img_size):
	tfm = transforms.Compose([
	transforms.Resize(img_size),
	transforms.ToTensor(), # [0,1], CxHxW
	transforms.ConvertImageDtype(torch.float32), # force float32
	])
	ds = datasets.MNIST(root="./data", train=True,
	download=True, transform=tfm)
	return torch.utils.data.DataLoader(ds, batch_size=bs, shuffle=True, num_workers=nw, pin_memory=True)

	# ---------------------------
	# Sparse norm logging helpers
	# ---------------------------


	def log_global_grad_norm_sparsely(model, step, every=1000):
	"""
	Logs a single scalar 'train/global_grad_norm' every `every` steps.
	"""
	if (step % every) != 0:
	return
	with torch.no_grad():
	norms = [p.grad.norm().item()
	for p in model.parameters() if p.grad is not None]
	if len(norms) == 0:
	return
	global_norm = float(torch.tensor(norms).norm().item())
	wandb.log({"train/global_grad_norm": global_norm, "step": step}, step=step)


	# ---------------------------
	# Prepare a real-image reference folder for FID (folder-vs-folder)
	# ---------------------------
	def ensure_real_ref_folder(dl, out_dir, max_images=50000, img_size=32, force_rgb=False):
	"""
	Exports up to `max_images` real images from the dataloader to `out_dir`
	in PNG format for FID reference.

	- MNIST is 1-channel; some FID/IS tools expect 3-channel -> set force_rgb=True to replicate channels.
	- Images are already [0,1] tensors from dataloader.
	"""
	os.makedirs(out_dir, exist_ok=True)
	# If already exists with enough images, skip
	existing = [f for f in os.listdir(out_dir) if f.lower().endswith(".png")]
	if len(existing) >= max_images // 10: # heuristic to avoid re-dumping fully
	return

	saved = 0
	idx = 0
	for x, _ in dl:
	# x: [B, C, H, W] in [0,1]
	if force_rgb and x.shape[1] == 1:
	x = x.repeat(1, 3, 1, 1)
	for i in range(x.size(0)):
	save_image(x[i], os.path.join(out_dir, f"{idx:06d}.png"))
	idx += 1
	saved += 1
	if saved >= max_images:
	return

	# ---------------------------
	# Generate a set of images for metrics
	# ---------------------------


	@torch.inference_mode()
	def generate_images_to_folder(model, n_images=5000, batch_size=64, out_dir="./gen_eval", force_rgb=True):
	"""
	Uses the (EMA) diffusion sampler to generate `n_images` and save as PNGs.
	Optionally tile grayscale to RGB to satisfy metric toolchains.
	"""
	os.makedirs(out_dir, exist_ok=True)
	saved = 0
	idx = 0
	while saved < n_images:
	cur = min(batch_size, n_images - saved)
	imgs = model.sample(cur) # in [0,1], shape [B, C, H, W]
	if force_rgb and imgs.shape[1] == 1:
	imgs = imgs.repeat(1, 3, 1, 1)
	for i in range(cur):
	save_image(imgs[i], os.path.join(out_dir, f"{idx:06d}.png"))
	idx += 1
	saved += cur

	# ---------------------------
	# Compute FID (clean-fid) and IS (torch-fidelity)
	# ---------------------------


	def compute_fid_cleanfid(gen_dir, real_dir):
	if not HAS_CLEANFID:
	print("[metrics] clean-fid not installed; skip FID.")
	return None
	try:
	score = clean_fid.compute_fid(gen_dir, real_dir)
	return float(score)
	except Exception as e:
	print("[metrics] clean-fid error:", e)
	return None


	def compute_inception_score_torchfidelity(gen_dir, cuda=True):
	if not HAS_TORCH_FIDELITY:
	print("[metrics] torch-fidelity not installed; skip IS.")
	return None, None
	try:
	metrics = tf_calculate_metrics(
	input1=gen_dir,
	cuda=cuda and torch.cuda.is_available(),
	isc=True, fid=False, kid=False, prc=False
	)
	# returns mean and std
	return float(metrics.get("inception_score_mean", float("nan"))), float(metrics.get("inception_score_std", float("nan")))
	except Exception as e:
	print("[metrics] torch-fidelity error:", e)
	return None, None

	# ---------------------------
	# Main training
	# ---------------------------


	def main(cfg_path="config_mnist_small.yaml", seed=42):
	torch.manual_seed(seed)

	# Load config and setup
	cfg = yaml.safe_load(open(cfg_path))
	os.makedirs(cfg["train"]["ckpt_dir"], exist_ok=True)
	os.makedirs("./samples", exist_ok=True)
	maybe_enable_cuda_speedups(cfg)

	device = "cuda" if torch.cuda.is_available() else "cpu"

	# W&B init
	run = None
	if cfg["wandb"]["enabled"]:
	if cfg["wandb"].get("mode", "online") == "offline":
	os.environ["WANDB_MODE"] = "offline"
	wandb.login()
	run = wandb.init(
	project=cfg["project"],
	name=cfg["run_name"],
	config=cfg,
	tags=cfg["wandb"].get("tags", [])
	)
	# Log diffusion hyperparameters once for visibility
	wandb.config.update({
	"hparams/T": cfg["diffusion"]["T"],
	"hparams/beta_schedule": cfg["diffusion"]["beta_schedule"],
	"hparams/sampling_steps": cfg["diffusion"]["sampling_steps"],
	"hparams/eta": cfg["diffusion"]["eta"],
	}, allow_val_change=True)

	# Data
	dl = get_loader_mnist(cfg["data"]["batch_size"],
	cfg["data"]["num_workers"], cfg["data"]["image_size"])

	# Model + Diffusion (FP32 default)
	unet = UNet(
	dim=cfg["model"]["dim"],
	dim_mults=tuple(cfg["model"]["dim_mults"]),
	channels=cfg["model"]["channels"],
	attn_heads=cfg["model"]["attn_heads"],
	attn_dim_head=cfg["model"]["attn_dim_head"],
	dropout=cfg["model"]["dropout"],
	self_condition=cfg["model"]["self_condition"],
	learned_variance=cfg["model"]["learned_variance"],
	outer_attn=cfg["model"]["outer_attn"],
	).to(device)

	diffusion = GaussianDiffusion(
	unet,
	image_size=(cfg["data"]["image_size"], cfg["data"]["image_size"]),
	timesteps=cfg["diffusion"]["T"],
	beta_schedule=cfg["diffusion"]["beta_schedule"],
	objective=cfg["diffusion"]["objective"],
	sampling_steps=cfg["diffusion"]["sampling_steps"],
	eta=cfg["diffusion"]["eta"],
	self_condition=cfg["diffusion"]["self_condition"],
	auto_normalize=True,
	clamp_x0=cfg["diffusion"]["clamp_x0"]
	).to(device)

	# Optimizer (FP32)
	opt = Adam(diffusion.parameters(),
	lr=cfg["opt"]["lr"], betas=tuple(cfg["opt"]["betas"]))

	# EMA (recommended)
	ema = None
	if cfg.get("ema", {}).get("enabled", True):
	ema = EMA(diffusion, beta=cfg["ema"]["decay"],
	update_every=cfg["ema"]["update_every"])
	ema.to(device)

	# Train loop params
	max_steps = int(cfg["train"]["max_steps"])
	log_every = int(cfg["train"]["log_every"])
	grad_accum = int(cfg["train"].get("grad_accum", 1))

	# Norm logging params (you can add into YAML under "metrics")
	global_norm_every = int(
	cfg.get("metrics", {}).get("global_norm_every", 1000))

	# Metric config (FID / IS)
	enable_fid = bool(cfg.get("metrics", {}).get("enable_fid", False))
	enable_is = bool(cfg.get("metrics", {}).get("enable_is", False))
	fid_every = int(cfg.get("metrics", {}).get("fid_every", 4000))
	is_every = int(cfg.get("metrics", {}).get("is_every", 4000))
	metric_n_gen = int(cfg.get("metrics", {}).get("metric_num_gen", 5000))
	metric_bs = int(cfg.get("metrics", {}).get("metric_batch_size", 64))

	# Speed tracking (iterations/sec)
	step = 0
	pbar = tqdm(total=max_steps, desc="training")
	opt.zero_grad(set_to_none=True)

	# For IPS calculation over logging window
	last_log_time = time.perf_counter()
	last_log_step = 0

	# Main loop
	while step < max_steps:
	for x, _ in dl:
	# Move batch to device and force float32
	x = x.to(device, non_blocking=True).float()

	# Standard FP32 forward/backward (no AMP)
	loss = diffusion(x) / grad_accum
	loss.backward()

	if ((step + 1) % grad_accum) == 0:
	# Clip gradients
	torch.nn.utils.clip_grad_norm_(
	diffusion.parameters(), cfg["opt"]["grad_clip"])
	# Optimizer update
	opt.step()
	opt.zero_grad(set_to_none=True)
	# EMA update
	if ema is not None:
	ema.update()

	step += 1
	pbar.update(1)

	# -------- sparse scalar logging --------
	if run and step % log_every == 0:
	# training speed over last window
	now = time.perf_counter()
	delta_t = max(now - last_log_time, 1e-6)
	delta_s = step - last_log_step
	ips = delta_s / delta_t
	ms_per_iter = 1000.0 / max(ips, 1e-9)

	wandb.log({
	"train/loss": float(loss.item() * grad_accum),
	"speed/iter_per_sec": ips,
	"speed/ms_per_iter": ms_per_iter,
	"step": step
	}, step=step)

	# reset window
	last_log_time = now
	last_log_step = step

	# -------- sparse norm logging --------
	if run:
	log_global_grad_norm_sparsely(
	diffusion, step, every=global_norm_every)

	# -------- periodic sampling (with speed) --------
	if step % int(cfg["diffusion"]["sample_every"]) == 0:
	diffusion.eval()
	with torch.inference_mode():
	sampler = ema.ema_model if ema is not None else diffusion
	t0 = time.perf_counter()
	samples = sampler.sample(cfg["diffusion"]["sample_n"])
	t1 = time.perf_counter()
	path = f"./samples/mnist_step_{step}.png"
	save_image(samples, path, nrow=8)

	# sampling speed: imgs/sec for this batch
	dt = max(t1 - t0, 1e-6)
	imgs_per_sec = cfg["diffusion"]["sample_n"] / dt

	if run:
	wandb.log({
	"samples_grid": wandb.Image(path),
	"speed/sampling_imgs_per_sec": imgs_per_sec,
	"speed/sampling_sec": dt,
	"step": step
	}, step=step)
	# (a) normal sample grid + timing
	t0 = time.perf_counter()
	samples = sampler.sample(cfg["diffusion"]["sample_n"])
	t1 = time.perf_counter()
	path = f"./samples/mnist_step_{step}.png"
	save_image(samples, path, nrow=8)
	dt = max(t1 - t0, 1e-6)
	imgs_per_sec = cfg["diffusion"]["sample_n"] / dt

	if run:
	wandb.log({
	"samples_grid": wandb.Image(path),
	"speed/sampling_imgs_per_sec": imgs_per_sec,
	"speed/sampling_sec": dt,
	"step": step
	}, step=step)

	# (b) reverse trajectory video (xt over denoising)
	if cfg.get("viz", {}).get("enable_reverse_traj", False) \
	and step % int(cfg["viz"]["reverse_every_steps"]) == 0:
	B = int(cfg["viz"]["reverse_batch_n"])
	C = diffusion.channels
	H = W = cfg["data"]["image_size"]
	# always use DDPM trajectory here; if you want DDIM, implement a similar function
	_, frames_xt, _ = sampler.ddpm_sample_trajectory(
	shape=(B, C, H, W),
	record_every=int(
	cfg["viz"]["reverse_record_every"]),
	return_x0=False
	)
	video = frames_to_wandb_video(
	frames_xt, nrow=min(8, B), fps=int(cfg["viz"]["video_fps"]))
	if run:
	wandb.log({"viz/reverse_xt": video,
	"step": step}, step=step)

	# (c) forward noising trajectory (q(x_t\|x0))
	if cfg.get("viz", {}).get("enable_forward_traj", False) \
	and step % int(cfg["viz"]["forward_every_steps"]) == 0:
	# take a small batch from the current batch `x`
	Bf = int(cfg["viz"]["forward_batch_n"])
	# x is in [0,1] from dataloader
	x0_vis = x[:Bf].detach().cpu()
	t_vals = cfg["viz"]["forward_t_values"] # list of ints
	frames_fwd = diffusion.forward_noising_trajectory(
	x0=x0_vis.to(device), t_values=t_vals
	)
	video_fwd = frames_to_wandb_video(
	frames_fwd, nrow=min(8, Bf), fps=int(cfg["viz"]["video_fps"]))
	if run:
	wandb.log({"viz/forward_xt": video_fwd,
	"step": step}, step=step)

	diffusion.train()

	# -------- sparse checkpointing --------
	if step % (5 * int(cfg["diffusion"]["sample_every"])) == 0:
	save_obj = {
	"step": step, "model": diffusion.state_dict(), "opt": opt.state_dict()}
	if ema is not None:
	save_obj["ema"] = ema.state_dict()
	torch.save(save_obj, os.path.join(
	cfg["train"]["ckpt_dir"], f"mnist_step_{step}.pt"))

	# -------- optional FID & IS evaluation (thưa, tốn thời gian) --------
	# Uses folder-vs-folder: generate N images -> compare to a real-image folder we export once.
	if (enable_fid or enable_is) and (step % min(fid_every if enable_fid else is_every,
	is_every if enable_is else fid_every) == 0):
	# Export real images (once) as reference
	real_ref_dir = "./metrics_ref/mnist_train_32_rgb"
	ensure_real_ref_folder(dl, real_ref_dir, max_images=50000,
	img_size=cfg["data"]["image_size"], force_rgb=True)

	# Generate a fresh set for metrics
	gen_dir = f"./metrics_gen/step_{step}"
	sampler = ema.ema_model if ema is not None else diffusion
	t0 = time.perf_counter()
	with torch.inference_mode():
	generate_images_to_folder(sampler, n_images=metric_n_gen,
	batch_size=metric_bs, out_dir=gen_dir, force_rgb=True)
	t1 = time.perf_counter()
	gen_fps = metric_n_gen / max(t1 - t0, 1e-6)

	log_payload = {"step": step,
	"metrics/gen_imgs_per_sec": gen_fps}

	if enable_fid and HAS_CLEANFID and (step % fid_every == 0):
	fid_score = compute_fid_cleanfid(gen_dir, real_ref_dir)
	if fid_score is not None:
	log_payload["metrics/FID_clean"] = fid_score

	if enable_is and HAS_TORCH_FIDELITY and (step % is_every == 0):
	is_mean, is_std = compute_inception_score_torchfidelity(
	gen_dir, cuda=True)
	if is_mean is not None:
	log_payload["metrics/IS_mean"] = is_mean
	if is_std is not None:
	log_payload["metrics/IS_std"] = is_std

	if run and len(log_payload) > 1:
	wandb.log(log_payload, step=step)

	if step >= max_steps:
	break

	pbar.close()
	if run:
	run.finish()


	if __name__ == "__main__":
	import argparse
	ap = argparse.ArgumentParser()
	ap.add_argument("--config", type=str,
	default="config_mnist_small.yaml", help="Path to YAML config")
	args = ap.parse_args()
	main(args.config)