Spaces:

Rohan3
/

flickr8k-backend

Sleeping

App Files Files Community

flickr8k-backend / core /train_vae.py

Rohan3

Updated: VAE, UNet, config, text embeddings, model and main

a625e96 30 days ago

raw

history blame contribute delete

10.5 kB

	import sys, os
	sys.path.insert(0, os.path.dirname(__file__))
	os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"
	import torch
	from torch import nn, optim
	import torch.nn.functional as F
	from dataloader import image_dataloader
	from torch.optim.lr_scheduler import ReduceLROnPlateau
	from tqdm import tqdm
	from config import *
	from vae import VAE
	import matplotlib.pyplot as plt
	from seed import seed_everything
	from sample_vae import reconstruct
	import lpips
	from pytorch_msssim import SSIM


	# # Simple PatchGAN Discriminator
	# class PatchDiscriminator(nn.Module):
	# def __init__(self, in_channels=3):
	# super().__init__()
	# def block(in_c, out_c, stride=2, normalize=True):
	# layers = [nn.Conv2d(in_c, out_c, 4, stride, 1, bias=False)]
	# if normalize: layers.append(nn.GroupNorm(vae_group_size, out_c))
	# layers.append(nn.LeakyReLU(0.2, inplace=True))
	# return layers
	# self.model = nn.Sequential(
	# *block(in_channels, 64, normalize=False), # 128->64
	# *block(64, 128), # 64->32
	# *block(128, 256), # 32->16
	# *block(256, 512), # 16->8
	# nn.Conv2d(512, 1, 4, 1, 0) # output 1x1 map
	# )
	# def forward(self, x):
	# return self.model(x)

	# def vae_loss(recon_x, x, mu, logvar, discriminator=None, beta_kld=1.0):
	# # lpips_weight = 1
	# # lpips_loss = lpips_fn(x, recon_x).mean()
	# # gan_weight = 0
	# # rec_loss = F.l1_loss(recon_x, x, reduction="mean")
	# # rec_loss = torch.sum((recon_x - x) ** 2, dim=[1,2,3]).mean()
	# # kld = torch.mean(-0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp(), dim=[1,2,3]))
	# # rec_loss = F.mse_loss(recon_x, x, reduction="sum") / recon_x.size(0)
	# # rec_loss = F.mse_loss(recon_x, x, reduction="mean")
	# # kld = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp(), dim=[1,2,3]).mean() / (41616)
	# rec_loss = F.mse_loss(recon_x, x, reduction="none").view(x.size(0), -1).sum(dim=1).mean()
	# kld = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp(), dim=[1, 2, 3]).mean()
	# total_loss = (rec_loss + beta_kld * kld)
	# # gan_loss = -discriminator(recon_x).mean()
	# # total_loss = rec_loss + kld * beta_kld + tvl * vae_lambda_tvl + lpips_loss * lpips_weight + gan_loss * gan_weight
	# # return total_loss, rec_loss, kld, tvl, lpips_loss, gan_loss
	# # total_loss = rec_loss + kld * beta_kld
	# return total_loss, rec_loss, kld, 0, 0

	# def update_discriminator(discriminator, optimizer_D, real_imgs, fake_imgs):
	# optimizer_D.zero_grad()
	# real_pred = discriminator(real_imgs)
	# fake_pred = discriminator(fake_imgs.detach())
	# loss_D = torch.mean(F.relu(1.0 - real_pred)) + torch.mean(F.relu(1.0 + fake_pred)) # Hinge loss
	# loss_D.backward()
	# optimizer_D.step()
	# return loss_D.item()

	def total_variance_loss(x):
	tvl_h = torch.pow(x[:, :, 1:, :] - x[:, :, :-1, :], 2).sum() # TV-L2
	tvl_w = torch.pow(x[:, :, :, 1:] - x[:, :, :, :-1], 2).sum() # TV-L2
	return (tvl_h + tvl_w) / x.size(0)

	def get_annealed_beta(epoch, warmup_epochs=100, max_beta=1.0): return vae_beta_kld * min(max_beta, epoch / warmup_epochs)

	# def vae_loss(recon_x, x, mu, logvar, lpips_fn, ssim_fn, beta_kld=1.0):
	def vae_loss(recon_x, x, mu, logvar, beta_kld=1.0, lpips_fn=None, ssim_fn=None):
	# mse = torch.mean((recon_x - x) ** 2)
	# kld_loss = torch.mean(-0.5 * (1 + logvar - mu.pow(2) - logvar.exp()))
	# b, c, h, w = x.shape
	tvl = total_variance_loss(recon_x) if vae_lambda_tvl > 0 else 0.0
	mse = F.mse_loss(recon_x, x, reduction="sum") / recon_x.size(0)
	kld_loss = torch.sum(-0.5 * (1 + logvar - mu.pow(2) - logvar.exp())) / recon_x.size(0)
	# mse = F.mse_loss(recon_x, x, reduction="mean")
	# kld_loss = torch.mean(-0.5 * (1 + logvar - mu.pow(2) - logvar.exp())) # divides by latent_ch×H×W×B
	with torch.amp.autocast("cuda", enabled=False):
	ssim_loss = 1 - ssim_fn(recon_x.float(), x.float())
	lpips_loss = lpips_fn(recon_x.float() * 2 - 1, x.float() * 2 - 1).mean()
	total_loss = mse + (beta_kld * kld_loss) + (vae_lambda_tvl * tvl) + (vae_lpips_weight * lpips_loss) + ssim_loss * 0.1
	return total_loss, mse, kld_loss, tvl, lpips_loss, ssim_loss
	# total_loss = mse + (beta_kld * kld_loss)
	# return total_loss, mse, kld_loss, 0, 0, 0

	def train_test_vae():
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	train_loader, test_loader = image_dataloader()
	vae = VAE().to(device)
	optimizer = optim.AdamW(vae.parameters(), lr=vae_optim_lr, betas=(0.9, 0.999), weight_decay=0)
	scheduler = ReduceLROnPlateau(optimizer, mode='min', patience=3, factor=0.5)
	os.makedirs(f"{vae_checkpoint_dir}", exist_ok=True)
	early_stopping_counter = 0
	best_test_loss = float("inf")
	train_bce_loss = []
	train_kld_loss = []
	lpips_fn = lpips.LPIPS(net='vgg').to(device)
	lpips_fn.eval()
	for param in lpips_fn.parameters():
	param.requires_grad = False
	ssim_fn = SSIM(data_range=1, size_average=True, channel=3)
	scaler = torch.amp.GradScaler("cuda", enabled=torch.cuda.is_available())
	# discriminator = PatchDiscriminator().to(device)
	# optimizer_D = optim.AdamW(discriminator.parameters(), lr=vae_optim_lr, betas=(0.5, 0.999))
	# Train VAE
	for epoch in range(vae_num_epochs):
	vae.train()
	train_loss, total_rec, total_kld, total_tvl, total_lpips, total_ssim = 0, 0, 0, 0, 0, 0
	for image_gt in tqdm(train_loader, desc=f"Epoch {epoch+1}/{vae_num_epochs}", colour="#CC00FF"):
	x = image_gt.to(device)
	# discriminator.train()
	# for param in discriminator.parameters(): param.requires_grad = True
	# with torch.no_grad(): recon_x_disc, _, _ = vae(x)
	# d_loss = update_discriminator(discriminator, optimizer_D, x, recon_x_disc.detach()) # Update discriminator
	# discriminator.eval() # Optional: turn off dropout/batchnorm
	# for param in discriminator.parameters(): param.requires_grad = False
	with torch.amp.autocast("cuda", enabled=torch.cuda.is_available()):
	recon_x, mu, logvar = vae(x)
	# loss, rec, kld, tvl, lpips_loss, gan_loss = vae_loss(recon_x, x, mu, logvar, discriminator, lpips_fn, beta_kld=get_annealed_beta(epoch)) # Update VAE (generator)
	# loss, rec, kld, tvl, lpips_loss = vae_loss(recon_x, x, mu, logvar, lpips_fn, beta_kld=min(1, global_step / warmup_steps)) # Update VAE (generator)
	# loss, rec, kld, tvl, lpips_loss, ssim_loss = vae_loss(recon_x, x, mu, logvar, lpips_fn, ssim_fn, beta_kld=get_annealed_beta(epoch)) # Update VAE (generator)
	loss, rec, kld, tvl, lpips_loss, ssim_loss = vae_loss(recon_x, x, mu, logvar, beta_kld=get_annealed_beta(epoch), lpips_fn=lpips_fn, ssim_fn=ssim_fn) # Update VAE (generator)
	optimizer.zero_grad(set_to_none=True)
	scaler.scale(loss).backward()
	scaler.unscale_(optimizer)
	torch.nn.utils.clip_grad_norm_(vae.parameters(), max_norm=1.0)
	scaler.step(optimizer)
	scaler.update()
	train_loss += loss.item()
	total_rec += rec.item()
	total_kld += kld.item()
	total_tvl += tvl.item() if vae_lambda_tvl > 0 else 0.0
	total_lpips += lpips_loss.item()
	total_ssim += ssim_loss.item()
	# total_gan += gan_loss.item()
	avg_train_loss = train_loss / len(train_loader)
	avg_rec = total_rec / len(train_loader)
	avg_kld = total_kld / len(train_loader)
	train_bce_loss.append(avg_rec)
	train_kld_loss.append(avg_kld)
	print(f"🔥 Epoch {epoch+1}: Avg Train Loss={avg_train_loss:.6f} \| Recon={total_rec/len(train_loader):.6f} \| KLD={get_annealed_beta(epoch) * total_kld/len(train_loader):.6f} \| TVL={total_tvl/len(train_loader):.6f} \| LPIPS={vae_lpips_weight * total_lpips/len(train_loader):.6f} \| SSIM={total_ssim/len(train_loader):.6f}")
	# print(f"Epoch {epoch}: D_loss={d_loss:.6f}")
	# Test VAE
	vae.eval()
	# discriminator.eval()
	test_loss = 0
	with torch.no_grad():
	for image_gt in tqdm(test_loader, desc=f"Epoch {epoch+1}/{vae_num_epochs}", colour="#FFDD22"):
	x = image_gt.to(device)
	with torch.amp.autocast("cuda", enabled=torch.cuda.is_available()):
	recon_x, mu, logvar = vae(x)
	# loss, *_ = vae_loss(recon_x, x, mu, logvar, discriminator, lpips_fn, beta_kld=1.0)
	# loss, *_ = vae_loss(recon_x, x, mu, logvar, lpips_fn, ssim_fn, beta_kld=vae_beta_kld)
	loss, *_ = vae_loss(recon_x, x, mu, logvar, beta_kld=vae_beta_kld, lpips_fn=lpips_fn, ssim_fn=ssim_fn)
	test_loss += loss.item()
	avg_test_loss = test_loss / len(test_loader)
	scheduler.step(avg_test_loss)
	print(f"🧪 Test Loss = {avg_test_loss:.6f}")
	if avg_test_loss < best_test_loss:
	best_test_loss = avg_test_loss
	torch.save({
	"epoch": epoch,
	"vae": vae.state_dict(),
	"optimizer": optimizer.state_dict(),
	"test_loss": best_test_loss
	}, f"{vae_checkpoint_dir}/{vae_weight}")
	print(f"Saved best model at {epoch+1}")
	early_stopping_counter = 0
	# Generate samples every test epoch save
	vae.eval(); reconstruct(vae=vae, device=device, epoch=epoch)
	else:
	early_stopping_counter += 1
	if early_stopping_counter >= vae_stopping_patience:
	print("Early stopping triggered")
	break
	# torch.cuda.empty_cache()
	plot_recon_vs_kld(train_bce_loss[2:], train_kld_loss[2:])

	def plot_recon_vs_kld(train_bce_loss, train_kld_loss):
	epochs = list(range(len(train_bce_loss)))
	plt.figure(figsize=(10, 6))
	plt.plot(epochs, train_bce_loss, label='Reconstruction Loss (BCE)', color='blue', linewidth=2)
	plt.plot(epochs, train_kld_loss, label='KL Divergence', color='red', linewidth=2)
	plt.xlabel('Epoch')
	plt.ylabel('Loss')
	plt.title('Reconstruction Loss vs KL Divergence over Epochs')
	plt.legend()
	plt.grid(True)
	plt.tight_layout()
	plt.show()

	if __name__ == "__main__":
	seed_everything(42)
	train_test_vae()