Spaces:

NoobNovel
/

DDIM_Image_Generation

Sleeping

App Files Files Community

DDIM_Image_Generation / sample.py

NoobNovel

DDIM face generation — full project

0ca4c93 about 1 month ago

raw

history blame contribute delete

6.44 kB

	"""Inference: load a checkpoint and generate samples / trajectory / interp grid.

	Usage:
	# 16 random faces with DDIM 50 steps
	python3 sample.py --ckpt checkpoints/stage-256_best.pt --num 16 --steps 50

	# save denoising trajectory as a GIF
	python3 sample.py --ckpt checkpoints/stage-256_best.pt --trajectory \
	--num 4 --steps 50 --out samples/traj.gif

	# interpolate between two random latents (8 frames, slerp)
	python3 sample.py --ckpt checkpoints/stage-256_best.pt --interpolate 8 \
	--out samples/interp.png

	# DDPM-1000 vs DDIM-50 side-by-side
	python3 sample.py --ckpt ... --compare-ddpm --num 4
	"""
	from __future__ import annotations

	import argparse
	import os
	from typing import Optional

	os.environ.setdefault("PYTORCH_ENABLE_MPS_FALLBACK", "1")

	import torch

	from config import Config
	from models.unet import UNet
	from models.diffusion import GaussianDiffusion, EMA
	from utils.visualize import (save_image_grid, trajectory_to_gif,
	interpolate_latents, make_grid)
	from PIL import Image


	# ---------------------------------------------------------------------------
	def load_run(ckpt_path: str, device: torch.device, prefer_ema: bool = True):
	payload = torch.load(ckpt_path, map_location=device)
	cfg_dict = payload["config"]
	cfg = Config(**cfg_dict)
	model = UNet(
	image_size=cfg.image_size,
	in_channels=cfg.in_channels,
	base_channels=cfg.base_channels,
	channel_mults=cfg.channel_mults,
	num_res_blocks=cfg.num_res_blocks,
	attn_resolutions=cfg.attn_resolutions,
	time_embed_dim=cfg.time_embed_dim,
	dropout=cfg.dropout,
	).to(device)
	if prefer_ema and payload.get("ema") is not None:
	model.load_state_dict(payload["ema"], strict=True)
	print("[sample] loaded EMA weights")
	else:
	model.load_state_dict(payload["model"], strict=True)
	print("[sample] loaded raw weights")
	model.eval()
	diffusion = GaussianDiffusion(
	timesteps=cfg.timesteps, beta_start=cfg.beta_start,
	beta_end=cfg.beta_end, schedule=cfg.beta_schedule,
	).to(device)
	return cfg, model, diffusion


	# ---------------------------------------------------------------------------
	def parse_args():
	p = argparse.ArgumentParser()
	p.add_argument("--ckpt", required=True)
	p.add_argument("--num", type=int, default=16)
	p.add_argument("--steps", type=int, default=50)
	p.add_argument("--eta", type=float, default=0.0)
	p.add_argument("--seed", type=int, default=None)
	p.add_argument("--out", type=str, default=None)
	p.add_argument("--no-ema", action="store_true")
	p.add_argument("--device", type=str, default=None)
	# mode flags
	p.add_argument("--trajectory", action="store_true",
	help="save denoising trajectory as a GIF")
	p.add_argument("--interpolate", type=int, default=0,
	help="number of interpolation frames between two latents")
	p.add_argument("--compare-ddpm", action="store_true",
	help="generate DDIM-N vs DDPM-T side-by-side comparison")
	return p.parse_args()


	# ---------------------------------------------------------------------------
	def main():
	args = parse_args()
	device = torch.device(args.device or ("mps" if torch.backends.mps.is_available() else "cpu"))
	cfg, model, diffusion = load_run(args.ckpt, device, prefer_ema=not args.no_ema)
	print(f"[sample] image_size={cfg.image_size} run={cfg.run_name} device={device}")

	if args.seed is not None:
	torch.manual_seed(args.seed)

	shape = (args.num, cfg.in_channels, cfg.image_size, cfg.image_size)
	out_dir = cfg.sample_dir
	os.makedirs(out_dir, exist_ok=True)

	# ---- interpolation -------------------------------------------------
	if args.interpolate > 0:
	n = args.interpolate
	z1 = torch.randn(1, *shape[1:], device=device)
	z2 = torch.randn(1, *shape[1:], device=device)
	latents = interpolate_latents(z1.cpu(), z2.cpu(), num_steps=n).squeeze(1).to(device)
	# latents shape: (n, C, H, W). One sampling pass per frame.
	with torch.no_grad():
	samples = diffusion.ddim_sample(
	model, (n, *shape[1:]), num_steps=args.steps, eta=args.eta,
	x_T=latents, device=device,
	)
	out = args.out or os.path.join(out_dir, f"interp_{n}.png")
	save_image_grid(samples.cpu(), out, nrow=n)
	print(f"[sample] interpolation saved -> {out}")
	return

	# ---- trajectory GIF ------------------------------------------------
	if args.trajectory:
	x_T = torch.randn(shape, device=device)
	with torch.no_grad():
	_, traj = diffusion.ddim_sample(
	model, shape, num_steps=args.steps, eta=args.eta,
	x_T=x_T, device=device,
	return_trajectory=True, trajectory_stride=1,
	)
	out = args.out or os.path.join(out_dir, f"traj_{args.steps}.gif")
	trajectory_to_gif(traj, out, fps=10)
	print(f"[sample] trajectory saved -> {out}")
	return

	# ---- DDIM vs DDPM comparison --------------------------------------
	if args.compare_ddpm:
	x_T = torch.randn(shape, device=device)
	with torch.no_grad():
	ddim = diffusion.ddim_sample(model, shape, num_steps=args.steps,
	eta=args.eta, x_T=x_T.clone(), device=device)
	ddpm = diffusion.ddim_sample(model, shape, num_steps=cfg.timesteps,
	eta=1.0, x_T=x_T.clone(), device=device)
	# stack as 2 rows
	side = torch.cat([ddim.cpu(), ddpm.cpu()], dim=0)
	out = args.out or os.path.join(out_dir, f"compare_ddim{args.steps}_vs_ddpm.png")
	save_image_grid(side, out, nrow=args.num)
	print(f"[sample] comparison saved -> {out} (top: DDIM-{args.steps}, bottom: DDPM-{cfg.timesteps})")
	return

	# ---- default: simple grid -----------------------------------------
	with torch.no_grad():
	samples = diffusion.ddim_sample(
	model, shape, num_steps=args.steps, eta=args.eta, device=device,
	)
	out = args.out or os.path.join(out_dir, f"samples_n{args.num}_s{args.steps}.png")
	save_image_grid(samples.cpu(), out)
	print(f"[sample] grid saved -> {out}")


	if __name__ == "__main__":
	main()