Added models and code

39a7504 9 months ago

7.61 kB

	from torchinfo import summary
	from model import build_transformer
	from util import create_resources
	import yaml
	import torch
	from tqdm import tqdm
	import os
	import wandb
	import matplotlib.pyplot as plt
	from matplotlib import font_manager
	import re


	mangal_font_path = "Mangal.TTf"
	devanagari_font = font_manager.FontProperties(fname=mangal_font_path)


	class NoamScheduler:
	def __init__(self, optimizer, d_model, warmup_steps):
	self.optimizer = optimizer
	self.d_model = d_model
	self.warmup_steps = warmup_steps
	self.step_num = 0

	def step(self):
	self.step_num += 1
	lr = self.get_lr()
	for param_group in self.optimizer.param_groups:
	param_group["lr"] = lr
	return lr

	def get_lr(self):
	step = max(self.step_num, 1)
	arg1 = step ** (-0.5)
	arg2 = step * (self.warmup_steps ** (-1.5))
	return (self.d_model ** (-0.5)) * min(arg1, arg2)


	class Trainer:
	def __init__(
	self,
	model,
	optimizer,
	scheduler,
	criterion,
	device,
	tokenizer_src,
	tokenizer_tgt,
	seq_len,
	):
	self.model = model
	self.optimizer = optimizer
	self.scheduler = scheduler
	self.criterion = criterion
	self.device = device
	self.tgt_tokenizer = tokenizer_tgt
	self.src_tokenizer = tokenizer_src
	self.seq_len = seq_len

	def train_epoch(self, dataloader):
	self.model.train()
	torch.cuda.empty_cache()
	running_loss = 0.0
	total_tokens = 0
	progress_bar = tqdm(
	enumerate(dataloader), desc="Training", total=len(dataloader)
	)

	for batch_idx, batch in progress_bar:

	encoder_input = batch["encoder_input"].to(self.device)
	# Should be (1,seq_len) => (batch_size,seq_len)
	decoder_input = batch["decoder_input"].to(self.device)
	# Should be (1,seq_len) => (batch_size,seq_len)

	encoder_mask = batch["encoder_mask"].to(self.device)
	decoder_mask = batch["decoder_mask"].to(self.device)

	encoder_output = self.model.encode(encoder_input, encoder_mask)
	decoder_output = self.model.decode(
	decoder_input, encoder_output, encoder_mask, decoder_mask
	)
	projection_output = self.model.project(decoder_output)

	label = batch["label"].to(self.device)

	loss = self.criterion(
	projection_output.view(-1, self.tgt_tokenizer.get_vocab_size()),
	label.view(-1),
	)

	loss.backward()

	self.optimizer.step()
	current_lr = self.scheduler.step()
	self.optimizer.zero_grad()

	pad_id = 1
	with torch.no_grad():
	non_pad = label.ne(pad_id)
	num_nonpad_tokens = non_pad.sum().item()
	running_loss += loss.item() * num_nonpad_tokens
	total_tokens += num_nonpad_tokens

	if (batch_idx + 1) % 50 == 0:
	wandb.log(
	{
	"batch_loss": loss.item(),
	"learning_rate": current_lr,
	"batch": batch_idx + 1,
	}
	)

	epoch_loss = running_loss / total_tokens if total_tokens > 0 else 0.0
	return epoch_loss

	def save_checkpoint(self, epoch, output_dir):
	os.makedirs(output_dir, exist_ok=True)
	checkpoint = {
	"epoch": epoch,
	"model_state_dict": self.model.state_dict(),
	"optimizer_state_dict": self.optimizer.state_dict(),
	"scheduler_state": self.scheduler.step_num,
	}
	torch.save(checkpoint, os.path.join(output_dir, f"model_epoch_{epoch}.pth"))
	print(f"Checkpoint saved at epoch {epoch}")

	def run(self, train_loader, epochs, output_dir, start_epoch=1):
	for epoch in range(start_epoch, epochs + 1):
	train_loss = self.train_epoch(train_loader)
	current_lr = self.scheduler.get_lr()

	wandb.log(
	{"epoch": epoch, "train_loss": train_loss, "learning_rate": current_lr}
	)

	self.save_checkpoint(epoch, output_dir)


	def load_latest_checkpoint(model, optimizer, scheduler, model_directory, device):
	if not os.path.isdir(model_directory):
	return None, 1
	checkpoint_files = []
	for filename in os.listdir(model_directory):
	if filename.endswith(".pth"):
	match = re.search(r"model_epoch_(\d+)\.pth", filename)
	if match:
	epoch = int(match.group(1))
	checkpoint_files.append((epoch, filename))

	if not checkpoint_files:
	return None, 1

	# Get the checkpoint with the highest epoch number
	latest_epoch, latest_filename = max(checkpoint_files, key=lambda x: x[0])
	ckpt_path = os.path.join(model_directory, latest_filename)
	ckpt = torch.load(ckpt_path, map_location=device)

	model.load_state_dict(ckpt["model_state_dict"])
	optimizer.load_state_dict(ckpt["optimizer_state_dict"])
	scheduler.step_num = ckpt["scheduler_state"]
	start_epoch = ckpt["epoch"] + 1
	print(f"Resuming Training from epoch {ckpt['epoch']}")
	return ckpt, start_epoch


	def main():
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	(
	train_dataloader,
	valid_dataloader,
	test_dataloader,
	tokenizer_src,
	tokenizer_tgt,
	) = create_resources()
	src_vocab_size = tokenizer_src.get_vocab_size()
	tgt_vocab_size = tokenizer_tgt.get_vocab_size()

	with open("config.yaml", "r") as file:
	config = yaml.safe_load(file)

	run = wandb.init(
	entity="training-transformers-vast",
	project="AttentionTranslate-sai", config=config)

	model = build_transformer(
	src_vocab_size,
	tgt_vocab_size,
	config["seq_len"],
	config["seq_len"],
	config["num_enc_dec_blocks"],
	config["num_of_heads"],
	config["d_model"],
	)

	model = model.to(device)

	wandb.watch(model, log="all")

	criterion = torch.nn.CrossEntropyLoss(
	ignore_index=tokenizer_src.token_to_id("[PAD]"), label_smoothing=0.1
	).to(device)

	optimizer = torch.optim.AdamW(
	model.parameters(), lr=config["learning_rate"], betas=(0.9, 0.98), eps=1e-9
	)

	scheduler = NoamScheduler(optimizer, config["d_model"], config["warmup_steps"])

	start_epoch = 1

	if config["resume_training"]:
	ckpt, start_epoch = load_latest_checkpoint(
	model, optimizer, scheduler, config["model_directory"], device
	)

	if start_epoch == 1:
	print("Training from scratch.")

	trainer = Trainer(
	model,
	optimizer,
	scheduler,
	criterion,
	device,
	tokenizer_src,
	tokenizer_tgt,
	config["seq_len"],
	)

	# test_data_subset = list(test_dataloader)
	# one_percent = int(0.01 * len(test_data_subset))
	# test_data_1_percent = test_data_subset[:one_percent]

	trainer.run(
	train_dataloader, config["epochs"], config["model_directory"], start_epoch
	)

	run.finish()


	if __name__ == "__main__":
	main()