Spaces:

APGASU
/

VibeToken

Running on Zero

App Files Files Community

VibeToken / utils /train_utils.py

APGASU

scripts

7bef20f verified 17 days ago

raw

history blame contribute delete

35.9 kB

	"""Training utils for VibeToken."""
	import json
	import os
	import time
	import math
	from pathlib import Path
	import pprint
	import glob
	from collections import defaultdict
	import random
	import gc

	from data import SimpleImageDataset, PretoeknizedDataSetJSONL, PretokenizedWebDataset
	import torch
	from torch.utils.data import DataLoader
	from omegaconf import OmegaConf
	from torch.optim import AdamW
	from utils.lr_schedulers import get_scheduler
	from modeling.modules import EMAModel, ReconstructionLoss_Single_Stage
	from modeling.vibetoken_model import VibeTokenModel, PretrainedTokenizer
	from evaluator import VQGANEvaluator

	from utils.viz_utils import make_viz_from_samples
	from torchinfo import summary
	import accelerate

	def get_config():
	"""Reads configs from a yaml file and terminal."""
	cli_conf = OmegaConf.from_cli()

	yaml_conf = OmegaConf.load(cli_conf.config)
	conf = OmegaConf.merge(yaml_conf, cli_conf)

	return conf


	class AverageMeter(object):
	"""Computes and stores the average and current value.

	This class is borrowed from
	https://github.com/pytorch/examples/blob/main/imagenet/main.py#L423
	"""

	def __init__(self):
	self.reset()

	def reset(self):
	self.val = 0
	self.avg = 0
	self.sum = 0
	self.count = 0

	def update(self, val, n=1):
	self.val = val
	self.sum += val * n
	self.count += n
	self.avg = self.sum / self.count


	def create_pretrained_tokenizer(config, accelerator=None):
	if config.model.vq_model.finetune_decoder:
	pretrianed_tokenizer = None
	else:
	pretrianed_tokenizer = PretrainedTokenizer(config.model.vq_model.pretrained_tokenizer_weight)
	if accelerator is not None:
	pretrianed_tokenizer.to(accelerator.device)
	return pretrianed_tokenizer


	def create_model_and_loss_module(config, logger, accelerator,
	model_type="vibetoken"):
	"""Creates model and loss module."""
	logger.info("Creating model and loss module.")
	if model_type == "vibetoken":
	if config.model.sub_model_type == "vibetoken":
	model_cls = VibeTokenModel
	loss_cls = ReconstructionLoss_Single_Stage
	else:
	raise ValueError(f"Unsupported sub_model_type {config.model.sub_model_type}")
	else:
	raise ValueError(f"Unsupported model_type {model_type}")
	model = model_cls(config)

	if config.experiment.get("init_weight", ""):
	model_weight = torch.load(config.experiment.init_weight, map_location="cpu")
	if config.model.vq_model.finetune_decoder:
	pretrained_tokenizer_weight = torch.load(
	config.model.vq_model.pretrained_tokenizer_weight, map_location="cpu"
	)
	pretrained_tokenizer_weight = {"pixel_" + k:v for k,v in pretrained_tokenizer_weight.items() if not "encoder." in k}
	model_weight.update(pretrained_tokenizer_weight)

	msg = model.load_state_dict(model_weight, strict=False)
	logger.info(f"loading weight from {config.experiment.init_weight}, msg: {msg}")

	# Create the EMA model.
	ema_model = None
	if config.training.use_ema:
	ema_model = EMAModel(model.parameters(), decay=0.999,
	model_cls=model_cls, config=config)
	def load_model_hook(models, input_dir):
	load_model = EMAModel.from_pretrained(os.path.join(input_dir, "ema_model"),
	model_cls=model_cls, config=config)
	ema_model.load_state_dict(load_model.state_dict())
	ema_model.to(accelerator.device)
	del load_model

	def save_model_hook(models, weights, output_dir):
	if accelerator.is_main_process:
	ema_model.save_pretrained(os.path.join(output_dir, "ema_model"))

	accelerator.register_load_state_pre_hook(load_model_hook)
	accelerator.register_save_state_pre_hook(save_model_hook)

	loss_module = loss_cls(config=config) if loss_cls is not None else None

	if accelerator.is_main_process:
	if model_type in ["vibetoken"]:
	logger.info("VibeToken model summary not implemented yet.")
	else:
	raise NotImplementedError

	return model, ema_model, loss_module


	def create_optimizer(config, logger, model, loss_module,
	model_type="vibetoken", need_discrminator=True):
	"""Creates optimizer for model and discriminator."""
	logger.info("Creating optimizers.")
	optimizer_config = config.optimizer.params
	learning_rate = optimizer_config.learning_rate

	optimizer_type = config.optimizer.name
	if optimizer_type == "adamw":
	optimizer_cls = AdamW
	else:
	raise ValueError(f"Optimizer {optimizer_type} not supported")

	exclude = (lambda n, p: p.ndim < 2 or "ln" in n or "bias" in n or 'latent_tokens' in n
	or 'mask_token' in n or 'embedding' in n or 'norm' in n or 'gamma' in n or 'embed' in n)
	include = lambda n, p: not exclude(n, p)
	named_parameters = list(model.named_parameters())
	gain_or_bias_params = [p for n, p in named_parameters if exclude(n, p) and p.requires_grad]
	rest_params = [p for n, p in named_parameters if include(n, p) and p.requires_grad]
	optimizer = optimizer_cls(
	[
	{"params": gain_or_bias_params, "weight_decay": 0.},
	{"params": rest_params, "weight_decay": optimizer_config.weight_decay},
	],
	lr=learning_rate,
	betas=(optimizer_config.beta1, optimizer_config.beta2)
	)

	if (config.model.vq_model.finetune_decoder or model_type == "vibetoken") and need_discrminator:
	discriminator_learning_rate = optimizer_config.discriminator_learning_rate
	discriminator_named_parameters = list(loss_module.named_parameters())
	discriminator_gain_or_bias_params = [p for n, p in discriminator_named_parameters if exclude(n, p) and p.requires_grad]
	discriminator_rest_params = [p for n, p in discriminator_named_parameters if include(n, p) and p.requires_grad]

	discriminator_optimizer = optimizer_cls(
	[
	{"params": discriminator_gain_or_bias_params, "weight_decay": 0.},
	{"params": discriminator_rest_params, "weight_decay": optimizer_config.weight_decay},
	],
	lr=discriminator_learning_rate,
	betas=(optimizer_config.beta1, optimizer_config.beta2)
	)
	else:
	discriminator_optimizer = None

	assert discriminator_optimizer is not None, "Discriminator optimizer is None with condition values: {config.model.vq_model.finetune_decoder} {model_type} {need_discrminator}"

	return optimizer, discriminator_optimizer


	def create_lr_scheduler(config, logger, accelerator, optimizer, discriminator_optimizer=None):
	"""Creates learning rate scheduler for model and discriminator."""
	logger.info("Creating lr_schedulers.")
	lr_scheduler = get_scheduler(
	config.lr_scheduler.scheduler,
	optimizer=optimizer,
	num_training_steps=config.training.max_train_steps * accelerator.num_processes,
	num_warmup_steps=config.lr_scheduler.params.warmup_steps * accelerator.num_processes,
	base_lr=config.lr_scheduler.params.learning_rate,
	end_lr=config.lr_scheduler.params.end_lr,
	)
	if discriminator_optimizer is not None:
	discriminator_lr_scheduler = get_scheduler(
	config.lr_scheduler.scheduler,
	optimizer=discriminator_optimizer,
	num_training_steps=config.training.max_train_steps * accelerator.num_processes - config.losses.discriminator_start,
	num_warmup_steps=config.lr_scheduler.params.warmup_steps * accelerator.num_processes,
	base_lr=config.lr_scheduler.params.learning_rate,
	end_lr=config.lr_scheduler.params.end_lr,
	)
	else:
	discriminator_lr_scheduler = None
	return lr_scheduler, discriminator_lr_scheduler


	def create_dataloader(config, logger, accelerator):
	"""Creates data loader for training and testing."""
	logger.info("Creating dataloaders.")
	total_batch_size_without_accum = config.training.per_gpu_batch_size * accelerator.num_processes
	total_batch_size = (
	config.training.per_gpu_batch_size * accelerator.num_processes * config.training.gradient_accumulation_steps
	)
	preproc_config = config.dataset.preprocessing
	dataset_config = config.dataset.params

	if dataset_config.get("pretokenization", "") and dataset_config.get("dataset_with_text_label", False) is True:
	dataset = PretokenizedWebDataset(
	train_shards_path=dataset_config.train_shards_path_or_url,
	eval_shards_path=dataset_config.eval_shards_path_or_url,
	num_train_examples=config.experiment.max_train_examples,
	per_gpu_batch_size=config.training.per_gpu_batch_size,
	global_batch_size=total_batch_size_without_accum,
	num_workers_per_gpu=dataset_config.num_workers_per_gpu,
	resize_shorter_edge=preproc_config.resize_shorter_edge,
	crop_size=preproc_config.crop_size,
	random_crop=preproc_config.random_crop,
	random_flip=preproc_config.random_flip,
	normalize_mean=preproc_config.normalize_mean,
	normalize_std=preproc_config.normalize_std,
	process_recap=preproc_config.get("preproc_recap", True),
	use_recap_prob=preproc_config.get("use_recap_prob", 0.95)
	)
	train_dataloader, eval_dataloader = dataset.train_dataloader, dataset.eval_dataloader
	elif dataset_config.get("pretokenization", "") and dataset_config.get("dataset_with_text_label", False) is False:
	dataset = SimpleImageDataset(
	train_shards_path=dataset_config.train_shards_path_or_url,
	eval_shards_path=dataset_config.eval_shards_path_or_url,
	num_train_examples=config.experiment.max_train_examples,
	per_gpu_batch_size=config.training.per_gpu_batch_size,
	global_batch_size=total_batch_size_without_accum,
	num_workers_per_gpu=dataset_config.num_workers_per_gpu,
	resize_shorter_edge=preproc_config.resize_shorter_edge,
	crop_size=preproc_config.crop_size,
	random_crop=preproc_config.random_crop,
	random_flip=preproc_config.random_flip,
	dataset_with_class_label=dataset_config.get("dataset_with_class_label", True),
	dataset_with_text_label=dataset_config.get("dataset_with_text_label", False),
	res_ratio_filtering=preproc_config.get("res_ratio_filtering", False),
	min_tokens=preproc_config.min_tokens,
	max_tokens=preproc_config.max_tokens,
	)
	train_dataloader, eval_dataloader = dataset.train_dataloader, dataset.eval_dataloader
	else:
	if dataset_config.get("pretokenization", ""):
	train_dataloader = DataLoader(
	PretoeknizedDataSetJSONL(dataset_config.pretokenization),
	batch_size=config.training.per_gpu_batch_size,
	shuffle=True, drop_last=True, pin_memory=True)
	train_dataloader.num_batches = math.ceil(
	config.experiment.max_train_examples / total_batch_size_without_accum)

	return train_dataloader, eval_dataloader


	class LazyVQGANEvaluator:
	"""A lazy-loading wrapper for VQGANEvaluator that delays inception model initialization."""

	def __init__(self, device, enable_rfid=True, enable_inception_score=True,
	enable_codebook_usage_measure=False, enable_codebook_entropy_measure=False,
	num_codebook_entries=1024, accelerator=None):
	self._device = device
	self._enable_rfid = enable_rfid
	self._enable_inception_score = enable_inception_score
	self._enable_codebook_usage_measure = enable_codebook_usage_measure
	self._enable_codebook_entropy_measure = enable_codebook_entropy_measure
	self._num_codebook_entries = num_codebook_entries
	self._accelerator = accelerator
	self._evaluator = None
	self._initialized = False

	def _ensure_initialized(self):
	"""Initialize the real evaluator only when needed."""
	if not self._initialized:
	if self._accelerator and self._accelerator.num_processes > 1:
	if self._accelerator.is_main_process:
	try:
	from evaluator.inception import get_inception_model
	_ = get_inception_model()
	except Exception as e:
	print(f"Warning: Failed to pre-load inception model: {e}")

	if self._accelerator:
	self._accelerator.wait_for_everyone()

	try:
	self._evaluator = VQGANEvaluator(
	device=self._device,
	enable_rfid=self._enable_rfid,
	enable_inception_score=self._enable_inception_score,
	enable_codebook_usage_measure=self._enable_codebook_usage_measure,
	enable_codebook_entropy_measure=self._enable_codebook_entropy_measure,
	num_codebook_entries=self._num_codebook_entries
	)
	self._initialized = True
	except Exception as e:
	print(f"Warning: Failed to create VQGANEvaluator, using dummy: {e}")
	class DummyEvaluator:
	def reset_metrics(self): pass
	def update(self, real_images, fake_images, codebook_indices=None): pass
	def result(self):
	return {"InceptionScore": 0.0, "rFID": 0.0, "CodebookUsage": 0.0, "CodebookEntropy": 0.0}
	self._evaluator = DummyEvaluator()
	self._initialized = True

	def reset_metrics(self):
	self._ensure_initialized()
	return self._evaluator.reset_metrics()

	def update(self, real_images, fake_images, codebook_indices=None):
	self._ensure_initialized()
	return self._evaluator.update(real_images, fake_images, codebook_indices)

	def result(self):
	self._ensure_initialized()
	return self._evaluator.result()


	def create_evaluator(config, logger, accelerator):
	"""Creates evaluator."""
	logger.info("Creating evaluator.")

	if config.model.vq_model.get("quantize_mode", "vq") in ["vq", "softvq", "mvq"]:
	evaluator = LazyVQGANEvaluator(
	device=accelerator.device,
	enable_rfid=True,
	enable_inception_score=True,
	enable_codebook_usage_measure=True,
	enable_codebook_entropy_measure=True,
	num_codebook_entries=config.model.vq_model.codebook_size,
	accelerator=accelerator
	)
	elif config.model.vq_model.get("quantize_mode", "vq") == "vae":
	evaluator = LazyVQGANEvaluator(
	device=accelerator.device,
	enable_rfid=True,
	enable_inception_score=True,
	enable_codebook_usage_measure=False,
	enable_codebook_entropy_measure=False,
	accelerator=accelerator
	)
	else:
	raise NotImplementedError

	logger.info("Lazy evaluator creation completed.")
	return evaluator


	def auto_resume(config, logger, accelerator, ema_model,
	num_update_steps_per_epoch, strict=True):
	"""Auto resuming the training."""
	global_step = 0
	first_epoch = 0
	if config.experiment.resume:
	accelerator.wait_for_everyone()
	if accelerator.is_main_process:
	local_ckpt_list = list(glob.glob(os.path.join(
	config.experiment.output_dir, "checkpoint*")))
	logger.info(f"All globbed checkpoints are: {local_ckpt_list}")
	else:
	local_ckpt_list = []

	if accelerator.num_processes > 1:
	checkpoint_count = torch.tensor(len(local_ckpt_list), device=accelerator.device)
	accelerate.utils.broadcast(checkpoint_count, 0)

	if checkpoint_count > 0:
	if accelerator.is_main_process:
	if len(local_ckpt_list) > 1:
	fn = lambda x: int(x.split('/')[-1].split('-')[-1])
	checkpoint_paths = sorted(local_ckpt_list, key=fn, reverse=True)
	else:
	checkpoint_paths = local_ckpt_list
	latest_checkpoint = checkpoint_paths[0]
	else:
	latest_checkpoint = ""

	if accelerator.is_main_process:
	checkpoint_path_tensor = torch.tensor([ord(c) for c in latest_checkpoint], device=accelerator.device, dtype=torch.long)
	path_length = torch.tensor(len(latest_checkpoint), device=accelerator.device)
	else:
	path_length = torch.tensor(0, device=accelerator.device)

	accelerate.utils.broadcast(path_length, 0)

	if not accelerator.is_main_process:
	checkpoint_path_tensor = torch.zeros(path_length.item(), device=accelerator.device, dtype=torch.long)

	accelerate.utils.broadcast(checkpoint_path_tensor, 0)

	if not accelerator.is_main_process:
	latest_checkpoint = ''.join([chr(c.item()) for c in checkpoint_path_tensor])

	global_step = load_checkpoint(
	Path(latest_checkpoint),
	accelerator,
	logger=logger,
	strict=strict
	)
	if config.training.use_ema:
	ema_model.set_step(global_step)
	first_epoch = global_step // num_update_steps_per_epoch
	else:
	logger.info("Training from scratch.")
	else:
	if len(local_ckpt_list) >= 1:
	if len(local_ckpt_list) > 1:
	fn = lambda x: int(x.split('/')[-1].split('-')[-1])
	checkpoint_paths = sorted(local_ckpt_list, key=fn, reverse=True)
	else:
	checkpoint_paths = local_ckpt_list
	global_step = load_checkpoint(
	Path(checkpoint_paths[0]),
	accelerator,
	logger=logger,
	strict=strict
	)
	if config.training.use_ema:
	ema_model.set_step(global_step)
	first_epoch = global_step // num_update_steps_per_epoch
	else:
	logger.info("Training from scratch.")

	accelerator.wait_for_everyone()
	return global_step, first_epoch


	def train_one_epoch(config, logger, accelerator,
	model, ema_model, loss_module,
	optimizer, discriminator_optimizer,
	lr_scheduler, discriminator_lr_scheduler,
	train_dataloader, eval_dataloader,
	evaluator,
	global_step,
	model_type="vibetoken",
	clip_tokenizer=None,
	clip_encoder=None,
	pretrained_tokenizer=None):
	"""One epoch training."""
	batch_time_meter = AverageMeter()
	data_time_meter = AverageMeter()
	end = time.time()

	model.train()

	autoencoder_logs = defaultdict(float)
	discriminator_logs = defaultdict(float)
	for i, batch in enumerate(train_dataloader):
	model.train()
	if "image" in batch:
	images = batch["image"].to(
	accelerator.device, memory_format=torch.contiguous_format, non_blocking=True
	)
	if config.training.get("variable_resolution", False):
	any2any = config.training.variable_resolution.get("any2any", True)

	dims = config.training.variable_resolution.dim
	ratios = config.training.variable_resolution.ratio
	assert len(dims) == len(ratios), "dims and ratios must have the same length"
	input_res = tuple(random.choices(dims, weights=ratios, k=1)[0])

	if any2any:
	output_res = tuple(random.choices(dims, weights=ratios, k=1)[0])
	else:
	output_res = input_res

	images = torch.nn.functional.interpolate(images, size=output_res, mode="bilinear", align_corners=False)
	input_images = torch.nn.functional.interpolate(images, size=input_res, mode="bilinear", align_corners=False)
	else:
	input_images = images
	output_res = (None, None)

	fnames = batch["__key__"]
	data_time_meter.update(time.time() - end)

	if pretrained_tokenizer is not None:
	pretrained_tokenizer.eval()
	proxy_codes = pretrained_tokenizer.encode(images)
	else:
	proxy_codes = None

	with accelerator.accumulate([model, loss_module]):
	additional_args = {}
	if config.model.get("train_with_attention", False):
	additional_args["key_attention_mask"] = batch["attention_mask"].to(
	accelerator.device, memory_format=torch.contiguous_format, non_blocking=True
	)
	reconstructed_images, extra_results_dict = model(input_images, height=output_res[0], width=output_res[1], **additional_args)
	autoencoder_loss, loss_dict = loss_module(
	images,
	reconstructed_images,
	extra_results_dict,
	global_step,
	mode="generator",
	)

	autoencoder_logs = {}
	for k, v in loss_dict.items():
	if k in ["discriminator_factor", "d_weight"]:
	if type(v) == torch.Tensor:
	autoencoder_logs["train/" + k] = v.cpu().item()
	else:
	autoencoder_logs["train/" + k] = v
	else:
	gathered_tensor = accelerator.gather(v)
	autoencoder_logs["train/" + k] = gathered_tensor.mean().item()
	del gathered_tensor

	torch.cuda.empty_cache()
	accelerator.backward(autoencoder_loss)

	if config.training.max_grad_norm is not None and accelerator.sync_gradients:
	accelerator.clip_grad_norm_(model.parameters(), config.training.max_grad_norm)

	optimizer.step()
	lr_scheduler.step()

	if (
	accelerator.sync_gradients
	and (global_step + 1) % config.experiment.log_grad_norm_every == 0
	and accelerator.is_main_process
	):
	log_grad_norm(model, accelerator, global_step + 1)

	optimizer.zero_grad(set_to_none=True)

	# Train discriminator.
	discriminator_logs = defaultdict(float)
	if (config.model.vq_model.finetune_decoder or model_type == "vibetoken") and accelerator.unwrap_model(loss_module).should_discriminator_be_trained(global_step):
	discriminator_logs = defaultdict(float)
	discriminator_loss, loss_dict_discriminator = loss_module(
	images,
	reconstructed_images,
	extra_results_dict,
	global_step=global_step,
	mode="discriminator",
	)

	for k, v in loss_dict_discriminator.items():
	if k in ["logits_real", "logits_fake"]:
	if type(v) == torch.Tensor:
	discriminator_logs["train/" + k] = v.cpu().item()
	else:
	discriminator_logs["train/" + k] = v
	else:
	gathered_tensor = accelerator.gather(v)
	discriminator_logs["train/" + k] = gathered_tensor.mean().item()
	del gathered_tensor

	torch.cuda.empty_cache()
	accelerator.backward(discriminator_loss)

	if config.training.max_grad_norm is not None and accelerator.sync_gradients:
	accelerator.clip_grad_norm_(loss_module.parameters(), config.training.max_grad_norm)

	discriminator_optimizer.step()
	discriminator_lr_scheduler.step()

	if (
	accelerator.sync_gradients
	and (global_step + 1) % config.experiment.log_grad_norm_every == 0
	and accelerator.is_main_process
	):
	log_grad_norm(loss_module, accelerator, global_step + 1)

	discriminator_optimizer.zero_grad(set_to_none=True)

	if accelerator.sync_gradients:
	if config.training.use_ema:
	ema_model.step(model.parameters())
	batch_time_meter.update(time.time() - end)
	end = time.time()

	if (global_step + 1) % config.experiment.log_every == 0:
	samples_per_second_per_gpu = (
	config.training.gradient_accumulation_steps * config.training.per_gpu_batch_size / batch_time_meter.val
	)

	lr = lr_scheduler.get_last_lr()[0]
	logger.info(
	f"Data (t): {data_time_meter.val:0.4f}, {samples_per_second_per_gpu:0.2f}/s/gpu "
	f"Batch (t): {batch_time_meter.val:0.4f} "
	f"LR: {lr:0.6f} "
	f"Step: {global_step + 1} "
	f"Total Loss: {autoencoder_logs['train/total_loss']:0.4f} "
	f"Recon Loss: {autoencoder_logs['train/reconstruction_loss']:0.4f} "
	)
	logs = {
	"lr": lr,
	"lr/generator": lr,
	"samples/sec/gpu": samples_per_second_per_gpu,
	"time/data_time": data_time_meter.val,
	"time/batch_time": batch_time_meter.val,
	}
	logs.update(autoencoder_logs)
	logs.update(discriminator_logs)
	accelerator.log(logs, step=global_step + 1)

	del autoencoder_logs, discriminator_logs, logs
	gc.collect()

	batch_time_meter.reset()
	data_time_meter.reset()

	# Save model checkpoint.
	if (global_step + 1) % config.experiment.save_every == 0:
	save_path = save_checkpoint(
	model, config.experiment.output_dir, accelerator, global_step + 1, logger=logger)
	accelerator.wait_for_everyone()

	# Generate images.
	if (global_step + 1) % config.experiment.generate_every == 0:
	if accelerator.is_main_process:
	if config.training.get("use_ema", False):
	ema_model.store(model.parameters())
	ema_model.copy_to(model.parameters())

	reconstruct_images(
	model,
	images[:config.training.num_generated_images],
	fnames[:config.training.num_generated_images],
	accelerator,
	global_step + 1,
	config.experiment.output_dir,
	logger=logger,
	config=config,
	pretrained_tokenizer=pretrained_tokenizer
	)

	if config.training.get("use_ema", False):
	ema_model.restore(model.parameters())

	accelerator.wait_for_everyone()


	# Evaluate reconstruction.
	if eval_dataloader is not None and (global_step + 1) % config.experiment.eval_every == 0:
	logger.info(f"Computing metrics on the validation set.")
	if config.training.get("use_ema", False):
	ema_model.store(model.parameters())
	ema_model.copy_to(model.parameters())
	eval_scores = eval_reconstruction(
	config,
	model,
	eval_dataloader,
	accelerator,
	evaluator,
	pretrained_tokenizer=pretrained_tokenizer
	)
	logger.info(
	f"EMA EVALUATION "
	f"Step: {global_step + 1} "
	)
	logger.info(pprint.pformat(eval_scores))
	if accelerator.is_main_process:
	eval_log = {f'ema_eval/'+k: v for k, v in eval_scores.items()}
	accelerator.log(eval_log, step=global_step + 1)
	if config.training.get("use_ema", False):
	ema_model.restore(model.parameters())
	else:
	eval_scores = eval_reconstruction(
	config,
	model,
	eval_dataloader,
	accelerator,
	evaluator,
	pretrained_tokenizer=pretrained_tokenizer
	)

	logger.info(
	f"Non-EMA EVALUATION "
	f"Step: {global_step + 1} "
	)
	logger.info(pprint.pformat(eval_scores))
	if accelerator.is_main_process:
	eval_log = {f'eval/'+k: v for k, v in eval_scores.items()}
	accelerator.log(eval_log, step=global_step + 1)

	accelerator.wait_for_everyone()

	global_step += 1

	if global_step >= config.training.max_train_steps:
	accelerator.print(
	f"Finishing training: Global step is >= Max train steps: {global_step} >= {config.training.max_train_steps}"
	)
	break


	return global_step


	@torch.no_grad()
	def eval_reconstruction(
	config,
	model,
	eval_loader,
	accelerator,
	evaluator,
	pretrained_tokenizer=None
	):
	model.eval()
	evaluator.reset_metrics()
	local_model = accelerator.unwrap_model(model)

	accelerator.wait_for_everyone()

	for batch in eval_loader:
	images = batch["image"].to(
	accelerator.device, memory_format=torch.contiguous_format, non_blocking=True
	)

	original_images = torch.clone(images)
	additional_args = {}
	if config.model.get("eval_with_attention", False):
	additional_args["key_attention_mask"] = batch["attention_mask"].to(
	accelerator.device, memory_format=torch.contiguous_format, non_blocking=True
	)
	reconstructed_images, model_dict = local_model(images, **additional_args)

	if pretrained_tokenizer is not None:
	reconstructed_images = pretrained_tokenizer.decode(reconstructed_images.argmax(1))
	reconstructed_images = torch.clamp(reconstructed_images, 0.0, 1.0)
	reconstructed_images = torch.round(reconstructed_images * 255.0) / 255.0
	original_images = torch.clamp(original_images, 0.0, 1.0)

	if isinstance(model_dict, dict):
	evaluator.update(original_images, reconstructed_images.squeeze(2), model_dict["min_encoding_indices"])
	else:
	evaluator.update(original_images, reconstructed_images.squeeze(2), None)

	accelerator.wait_for_everyone()

	local_results = evaluator.result()

	if accelerator.num_processes > 1:
	gathered_results = {}
	for key, value in local_results.items():
	if isinstance(value, (int, float)):
	value_tensor = torch.tensor(value, device=accelerator.device)
	gathered_values = accelerator.gather(value_tensor)
	gathered_results[key] = gathered_values.mean().item()
	else:
	gathered_results[key] = value

	accelerator.wait_for_everyone()
	model.train()
	return gathered_results
	else:
	model.train()
	return local_results


	@torch.no_grad()
	def reconstruct_images(model, original_images, fnames, accelerator,
	global_step, output_dir, logger, config=None,
	pretrained_tokenizer=None):
	logger.info("Reconstructing images...")
	original_images = torch.clone(original_images)
	_, _, height, width = original_images.shape
	model.eval()
	dtype = torch.float32
	if accelerator.mixed_precision == "fp16":
	dtype = torch.float16
	elif accelerator.mixed_precision == "bf16":
	dtype = torch.bfloat16

	with torch.autocast("cuda", dtype=dtype, enabled=accelerator.mixed_precision != "no"):
	enc_tokens, encoder_dict = accelerator.unwrap_model(model).encode(original_images)
	reconstructed_images = accelerator.unwrap_model(model).decode(enc_tokens, height=height, width=width)
	if pretrained_tokenizer is not None:
	reconstructed_images = pretrained_tokenizer.decode(reconstructed_images.argmax(1))

	images_for_saving, images_for_logging = make_viz_from_samples(
	original_images,
	reconstructed_images
	)
	if config.training.enable_wandb:
	accelerator.get_tracker("wandb").log_images(
	{f"Train Reconstruction": images_for_saving},
	step=global_step
	)
	else:
	accelerator.get_tracker("tensorboard").log_images(
	{"Train Reconstruction": images_for_logging}, step=global_step
	)
	root = Path(output_dir) / "train_images"
	os.makedirs(root, exist_ok=True)
	for i,img in enumerate(images_for_saving):
	filename = f"{global_step:08}_s-{i:03}-{fnames[i]}.png"
	path = os.path.join(root, filename)
	img.save(path)

	model.train()


	def save_checkpoint(model, output_dir, accelerator, global_step, logger) -> Path:
	save_path = Path(output_dir) / f"checkpoint-{global_step}"

	state_dict = accelerator.get_state_dict(model)
	if accelerator.is_main_process:
	unwrapped_model = accelerator.unwrap_model(model)
	unwrapped_model.save_pretrained_weight(
	save_path / "unwrapped_model",
	save_function=accelerator.save,
	state_dict=state_dict,
	)
	json.dump({"global_step": global_step}, (save_path / "metadata.json").open("w+"))
	logger.info(f"Saved state to {save_path}")

	accelerator.save_state(save_path)
	return save_path


	def load_checkpoint(checkpoint_path: Path, accelerator, logger, strict=True):
	logger.info(f"Load checkpoint from {checkpoint_path}")

	accelerator.load_state(checkpoint_path, strict=strict)

	with open(checkpoint_path / "metadata.json", "r") as f:
	global_step = int(json.load(f)["global_step"])

	logger.info(f"Resuming at global_step {global_step}")
	return global_step


	def log_grad_norm(model, accelerator, global_step):
	for name, param in model.named_parameters():
	if param.grad is not None:
	grads = param.grad.detach().data
	grad_norm = (grads.norm(p=2) / grads.numel()).item()
	accelerator.log({"grad_norm/" + name: grad_norm}, step=global_step)