Upload scripts/train_vae.py

44963e7 verified 6 days ago

5.75 kB

	"""Stage 1: SLAT-Interior VAE Pre-training."""

	import os
	import sys
	from pathlib import Path

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.utils.data import DataLoader
	from accelerate import Accelerator
	from omegaconf import OmegaConf
	from tqdm import tqdm


	def main():
	# Load config
	config_path = sys.argv[1] if len(sys.argv) > 1 else "configs/vae_pretrain.yaml"
	config = OmegaConf.load(config_path)

	# Initialize accelerator
	accelerator = Accelerator(
	mixed_precision="bf16",
	gradient_accumulation_steps=config.training.gradient_accumulation,
	)

	device = accelerator.device

	# Build model
	from interiorfusion.models.slat_vae import SLATInteriorVAE
	model = SLATInteriorVAE(
	latent_dim=config.model.latent_dim,
	base_resolution=config.model.base_resolution,
	)

	# Optimizer
	optimizer = torch.optim.AdamW(
	model.parameters(),
	lr=config.optimizer.lr,
	weight_decay=config.optimizer.weight_decay,
	betas=tuple(config.optimizer.betas),
	)

	# Scheduler
	scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
	optimizer,
	T_0=config.scheduler.warmup_steps,
	T_mult=2,
	)

	# Data loader
	from interiorfusion.data.dataset import InteriorFusionDataset
	dataset = InteriorFusionDataset(
	root=config.data.dataset,
	split="train",
	resolution=config.model.base_resolution,
	)
	dataloader = DataLoader(
	dataset,
	batch_size=config.training.batch_size,
	shuffle=True,
	num_workers=config.data.num_workers,
	pin_memory=config.data.pin_memory,
	)

	# Prepare with accelerator
	model, optimizer, dataloader, scheduler = accelerator.prepare(
	model, optimizer, dataloader, scheduler
	)

	# Training loop
	global_step = 0
	for epoch in range(1000):
	model.train()
	epoch_loss = 0.0

	for batch in tqdm(dataloader, desc=f"Epoch {epoch}"):
	with accelerator.accumulate(model):
	# Forward
	occupancy = batch["occupancy"] # [B, 1, N, N, N]
	materials = batch["materials"] # [B, 4, N, N, N]
	depth = batch["depth"] # [B, 1, N, N, N]
	normal = batch["normal"] # [B, 3, N, N, N]

	# Encode
	z, mu, logvar = model.encode(occupancy, materials)

	# Decode
	pred_shape, pred_material = model.decode(z)

	# Decode depth and normal from shape
	pred_depth = model.predict_depth(pred_shape)
	pred_normal = model.predict_normal(pred_shape)

	# Losses
	loss_recon = F.l1_loss(pred_shape, occupancy) + \
	F.l1_loss(pred_material, materials)

	loss_kl = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
	loss_kl = loss_kl * config.loss.kl_divergence.weight

	loss_depth = F.l1_loss(pred_depth, depth) * config.loss.depth_consistency.weight

	loss_normal = (1 - F.cosine_similarity(
	pred_normal, normal, dim=1
	).mean()) * config.loss.normal_consistency.weight

	loss = loss_recon + loss_kl + loss_depth + loss_normal

	# Backward
	accelerator.backward(loss)

	if accelerator.sync_gradients:
	accelerator.clip_grad_norm_(model.parameters(), 1.0)

	optimizer.step()
	scheduler.step()
	optimizer.zero_grad()

	global_step += 1
	epoch_loss += loss.item()

	# Logging
	if global_step % 100 == 0:
	accelerator.print(
	f"Step {global_step}: "
	f"loss={loss.item():.4f} "
	f"recon={loss_recon.item():.4f} "
	f"kl={loss_kl.item():.4f} "
	f"depth={loss_depth.item():.4f} "
	f"normal={loss_normal.item():.4f}"
	)

	# Checkpoint
	if global_step % 5000 == 0:
	accelerator.wait_for_everyone()
	if accelerator.is_main_process:
	unwrapped_model = accelerator.unwrap_model(model)
	checkpoint_path = f"checkpoints/vae_step{global_step}.pt"
	os.makedirs("checkpoints", exist_ok=True)
	torch.save({
	"model": unwrapped_model.state_dict(),
	"optimizer": optimizer.state_dict(),
	"scheduler": scheduler.state_dict(),
	"step": global_step,
	"config": OmegaConf.to_container(config),
	}, checkpoint_path)
	print(f"Saved checkpoint: {checkpoint_path}")

	# Early stopping on step limit
	if global_step >= config.training.max_steps:
	accelerator.print("Reached max steps. Training complete.")
	return

	avg_loss = epoch_loss / len(dataloader)
	accelerator.print(f"Epoch {epoch} complete. Avg loss: {avg_loss:.4f}")


	if __name__ == "__main__":
	main()