tinyvic / train.py

Upload 17 files

9299fff verified about 1 month ago

12.8 kB

	"""
	VicAI Training Script
	Distributed training with FSDP/DDP support.
	"""

	import argparse
	import os
	import time
	from contextlib import nullcontext
	from pathlib import Path

	import torch
	import torch.distributed as dist
	from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
	from torch.distributed.fsdp.wrap import transformer_auto_wrap_policy
	from torch.nn.parallel import DistributedDataParallel as DDP
	from torch.utils.data import DataLoader
	from torch.utils.data.distributed import DistributedSampler

	from model import VicAIModel, VicAIConfig, create_vicai_5b
	from tokenizer import ByteLevelBPETokenizer, BPETokenizer
	from dataset import (
	WikipediaDataset,
	TextFileDataset,
	MixedDataset,
	create_sample_corpus,
	)
	from utils import (
	get_logger,
	load_checkpoint,
	save_checkpoint,
	get_lr_scheduler,
	estimate_loss,
	configure_optimizers,
	)


	def setup_distributed():
	"""Initialize distributed training."""
	if 'RANK' in os.environ and 'WORLD_SIZE' in os.environ:
	rank = int(os.environ['RANK'])
	world_size = int(os.environ['WORLD_SIZE'])
	local_rank = int(os.environ.get('LOCAL_RANK', 0))
	else:
	rank = 0
	world_size = 1
	local_rank = 0

	if world_size > 1:
	dist.init_process_group(backend='nccl', rank=rank, world_size=world_size)
	torch.cuda.set_device(local_rank)

	return rank, world_size, local_rank


	def cleanup_distributed():
	"""Cleanup distributed training."""
	if dist.is_initialized():
	dist.destroy_process_group()


	def get_data_loader(dataset, batch_size, world_size, rank, shuffle=True):
	"""Create distributed data loader."""
	if world_size > 1:
	sampler = DistributedSampler(
	dataset,
	num_replicas=world_size,
	rank=rank,
	shuffle=shuffle,
	)
	else:
	sampler = None

	loader = DataLoader(
	dataset,
	batch_size=batch_size,
	sampler=sampler,
	num_workers=4,
	pin_memory=True,
	drop_last=True,
	)

	return loader, sampler


	def train_step(model, batch, optimizer, scaler, device, use_amp):
	"""Single training step."""
	model.train()

	input_ids = batch['input_ids'].to(device)
	labels = batch['labels'].to(device)

	optimizer.zero_grad()

	with torch.cuda.amp.autocast(enabled=use_amp):
	outputs = model(input_ids, targets=labels)
	loss = outputs['loss']

	if use_amp:
	scaler.scale(loss).backward()
	scaler.step(optimizer)
	scaler.update()
	else:
	loss.backward()
	optimizer.step()

	return loss.item()


	def train(
	model,
	train_loader,
	val_loader,
	optimizer,
	lr_scheduler,
	scaler,
	device,
	args,
	logger,
	):
	"""Main training loop."""
	best_val_loss = float('inf')
	step = 0

	model.train()
	train_iterator = iter(train_loader)

	for epoch in range(args.max_epochs):
	if hasattr(train_loader.sampler, 'set_epoch'):
	train_loader.sampler.set_epoch(epoch)

	epoch_start_time = time.time()

	while step < args.max_steps:
	try:
	batch = next(train_iterator)
	except StopIteration:
	train_iterator = iter(train_loader)
	batch = next(train_iterator)

	# Training step
	loss = train_step(model, batch, optimizer, scaler, device, args.use_amp)
	lr_scheduler.step()

	step += 1

	# Logging
	if step % args.log_interval == 0 and args.rank == 0:
	lr = optimizer.param_groups[0]['lr']
	logger.info(
	f"Step {step}/{args.max_steps} \| "
	f"Loss: {loss:.4f} \| LR: {lr:.2e}"
	)

	# Evaluation
	if step % args.eval_interval == 0:
	val_loss = evaluate(model, val_loader, device, args.use_amp)

	if args.rank == 0:
	logger.info(f"Validation loss: {val_loss:.4f}")

	# Save best model
	if val_loss < best_val_loss:
	best_val_loss = val_loss
	save_checkpoint(
	model,
	optimizer,
	scaler,
	step,
	val_loss,
	args.output_dir / 'best_model.pt',
	)
	logger.info(f"Saved best model with loss {val_loss:.4f}")

	model.train()

	# Regular checkpointing
	if step % args.save_interval == 0 and args.rank == 0:
	save_checkpoint(
	model,
	optimizer,
	scaler,
	step,
	loss,
	args.output_dir / f'checkpoint_step_{step}.pt',
	)
	logger.info(f"Saved checkpoint at step {step}")

	if step >= args.max_steps:
	break

	epoch_time = time.time() - epoch_start_time
	if args.rank == 0:
	logger.info(f"Epoch {epoch + 1} completed in {epoch_time:.2f}s")

	return step


	def evaluate(model, data_loader, device, use_amp):
	"""Evaluate model on validation set."""
	model.eval()
	total_loss = 0
	num_batches = 0

	with torch.no_grad():
	for batch in data_loader:
	input_ids = batch['input_ids'].to(device)
	labels = batch['labels'].to(device)

	with torch.cuda.amp.autocast(enabled=use_amp):
	outputs = model(input_ids, targets=labels)
	loss = outputs['loss']

	total_loss += loss.item()
	num_batches += 1

	if num_batches >= 100: # Limit eval batches
	break

	# Average across all processes
	avg_loss = total_loss / num_batches

	if dist.is_initialized():
	loss_tensor = torch.tensor([avg_loss], device=device)
	dist.all_reduce(loss_tensor, op=dist.ReduceOp.AVG)
	avg_loss = loss_tensor.item()

	return avg_loss


	def main():
	parser = argparse.ArgumentParser(description='Train VicAI')

	# Model args
	parser.add_argument('--vocab-size', type=int, default=32000)
	parser.add_argument('--dim', type=int, default=4096)
	parser.add_argument('--n-layers', type=int, default=32)
	parser.add_argument('--n-heads', type=int, default=32)
	parser.add_argument('--n-kv-heads', type=int, default=8)
	parser.add_argument('--hidden-dim', type=int, default=14336)

	# Training args
	parser.add_argument('--batch-size', type=int, default=4)
	parser.add_argument('--max-seq-len', type=int, default=2048)
	parser.add_argument('--max-steps', type=int, default=100000)
	parser.add_argument('--max-epochs', type=int, default=10)
	parser.add_argument('--learning-rate', type=float, default=3e-4)
	parser.add_argument('--min-lr', type=float, default=3e-5)
	parser.add_argument('--warmup-steps', type=int, default=2000)
	parser.add_argument('--weight-decay', type=float, default=0.1)
	parser.add_argument('--grad-clip', type=float, default=1.0)
	parser.add_argument('--beta1', type=float, default=0.9)
	parser.add_argument('--beta2', type=float, default=0.95)

	# Data args
	parser.add_argument('--train-data', type=str, default='data/train.txt')
	parser.add_argument('--val-data', type=str, default='data/val.txt')
	parser.add_argument('--tokenizer-path', type=str, default='tokenizer.pkl')

	# System args
	parser.add_argument('--output-dir', type=str, default='checkpoints')
	parser.add_argument('--resume', type=str, default=None)
	parser.add_argument('--eval-interval', type=int, default=1000)
	parser.add_argument('--save-interval', type=int, default=5000)
	parser.add_argument('--log-interval', type=int, default=100)
	parser.add_argument('--use-amp', action='store_true', default=True)
	parser.add_argument('--use-fsdp', action='store_true', default=False)
	parser.add_argument('--compile', action='store_true', default=False)

	args = parser.parse_args()

	# Setup
	args.rank, args.world_size, args.local_rank = setup_distributed()
	args.is_distributed = args.world_size > 1

	# Create output directory
	args.output_dir = Path(args.output_dir)
	if args.rank == 0:
	args.output_dir.mkdir(parents=True, exist_ok=True)

	# Logger
	logger = get_logger('vicai_train', args.output_dir / 'train.log' if args.rank == 0 else None)

	if args.rank == 0:
	logger.info(f"Starting VicAI training with {args.world_size} GPUs")
	logger.info(f"Arguments: {args}")

	# Device
	device = torch.device(f'cuda:{args.local_rank}' if torch.cuda.is_available() else 'cpu')

	# Load tokenizer
	if os.path.exists(args.tokenizer_path):
	logger.info(f"Loading tokenizer from {args.tokenizer_path}")
	tokenizer = ByteLevelBPETokenizer()
	tokenizer.load(args.tokenizer_path)
	else:
	logger.warning(f"Tokenizer not found at {args.tokenizer_path}, creating default")
	tokenizer = ByteLevelBPETokenizer(vocab_size=args.vocab_size)
	# Train on sample data
	if args.rank == 0:
	sample_file = create_sample_corpus(num_articles=100)
	with open(sample_file, 'r') as f:
	texts = f.read().split('<\|endoftext\|>')
	tokenizer.train([t for t in texts if t.strip()])
	tokenizer.save(args.tokenizer_path)

	if args.is_distributed:
	dist.barrier()

	if args.rank != 0:
	tokenizer.load(args.tokenizer_path)

	# Create model
	logger.info("Creating model...")
	config = VicAIConfig(
	vocab_size=len(tokenizer),
	dim=args.dim,
	n_layers=args.n_layers,
	n_heads=args.n_heads,
	n_kv_heads=args.n_kv_heads,
	hidden_dim=args.hidden_dim,
	max_seq_len=args.max_seq_len,
	dropout=0.0,
	)

	if args.rank == 0:
	logger.info(f"Model config: {config.__dict__}")
	logger.info(f"Model parameters: ~{config.num_parameters / 1e9:.2f}B")

	model = VicAIModel(config)

	if args.use_fsdp and args.is_distributed:
	model = FSDP(model, device_id=device)
	elif args.is_distributed:
	model = DDP(model, device_ids=[args.local_rank])
	else:
	model = model.to(device)

	if args.compile and hasattr(torch, 'compile'):
	logger.info("Compiling model...")
	model = torch.compile(model)

	# Create datasets
	logger.info("Creating datasets...")

	if os.path.exists(args.train_data):
	train_dataset = TextFileDataset(args.train_data, tokenizer, args.max_seq_len)
	val_dataset = TextFileDataset(args.val_data, tokenizer, args.max_seq_len) if os.path.exists(args.val_data) else train_dataset
	else:
	logger.warning("Training data not found, using Wikipedia streaming dataset")
	train_dataset = WikipediaDataset(tokenizer, max_length=args.max_seq_len)
	val_dataset = WikipediaDataset(tokenizer, max_length=args.max_seq_len)

	train_loader, train_sampler = get_data_loader(train_dataset, args.batch_size, args.world_size, args.rank)
	val_loader, _ = get_data_loader(val_dataset, args.batch_size, args.world_size, args.rank, shuffle=False)

	# Optimizer
	optimizer = configure_optimizers(model, args)

	# Learning rate scheduler
	lr_scheduler = get_lr_scheduler(optimizer, args)

	# Gradient scaler for AMP
	scaler = torch.cuda.amp.GradScaler(enabled=args.use_amp)

	# Resume from checkpoint
	start_step = 0
	if args.resume:
	logger.info(f"Resuming from {args.resume}")
	start_step = load_checkpoint(model, optimizer, scaler, args.resume, device)

	# Training
	logger.info("Starting training...")
	final_step = train(
	model,
	train_loader,
	val_loader,
	optimizer,
	lr_scheduler,
	scaler,
	device,
	args,
	logger,
	)

	# Save final model
	if args.rank == 0:
	save_checkpoint(
	model,
	optimizer,
	scaler,
	final_step,
	0.0,
	args.output_dir / 'final_model.pt',
	)
	logger.info("Training completed!")

	cleanup_distributed()


	if __name__ == '__main__':
	main()