llmatic / LLMatic /train.py

Upload 22 files

304789e verified over 1 year ago

10.8 kB

	import torch
	import torch.optim as optim
	import torch.nn as nn
	import torch.nn.functional as F
	import multiprocessing as mp

	from conf.config import Config
	from datasets import get_datasets
	import ray
	import time

	cfg = Config()

	@ray.remote(num_gpus=cfg.NUM_GPUS)
	def train_net_on_gpu(net, epochs=1):


	trainset, trainloader, validset, validloader = get_datasets()

	dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
	print(f"The network will train on {dev} device")
	criterion = nn.CrossEntropyLoss()
	#breakpoint()
	optimizer = optim.SGD(net.to(dev).parameters(), lr=0.001, momentum=0.9)
	print("------TRAINING------")
	#net.train()
	for epoch in range(epochs): # loop over the dataset multiple times

	running_loss = 0.0
	correct = 0.0

	for i, data in enumerate(trainloader):
	# get the inputs; data is a list of [inputs, labels]
	inputs, labels = data
	inputs, labels = inputs.to(dev), labels.to(dev)

	# zero the parameter gradients
	optimizer.zero_grad()
	outputs = net(inputs).to(dev)
	loss = criterion(outputs, labels)
	loss.backward()
	optimizer.step()

	# print statistics
	running_loss += loss.item()
	correct += (outputs == labels).float().sum()
	training_accuracy = 100 * correct / len(trainset)

	valid_loss = 0.0
	valid_correct = 0.0
	net.eval() # Optional when not using Model Specific layer
	for i, d in enumerate(validloader):
	# Transfer Data to GPU if available
	data, labels = d
	data, labels = data.to(dev), labels.to(dev)
	target = net(data).to(dev)
	# Find the Loss
	loss = criterion(target,labels)
	# Calculate Loss
	valid_loss += loss.item()
	valid_correct += (target == labels).float().sum()
	valid_accuracy = 100 * valid_correct / len(validset)
	print(f'Training Epochs: {epoch}\t\t Loss: {running_loss}\t\t Train Accuracy: {training_accuracy}')
	print(f'\t\t Valid Loss: {valid_loss}\t\t Valid Accuracy: {valid_accuracy}')

	return valid_loss

	@ray.remote(num_cpus=cfg.NUM_CPUS)
	def train_net_on_cpu(net, epochs=1):


	trainset, trainloader, validset, validloader = get_datasets()

	dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
	print(f"The network will train on {dev} device")
	criterion = nn.CrossEntropyLoss()
	#breakpoint()
	optimizer = optim.SGD(net.to(dev).parameters(), lr=0.001, momentum=0.9)
	print("------TRAINING------")
	#net.train()
	for epoch in range(epochs): # loop over the dataset multiple times

	running_loss = 0.0
	correct = 0.0
	training_loss = 0.0
	valid_loss = 0.0
	valid_correct = 0.0
	valid_running_loss = 0.0
	total = 0.0
	val_total = 0.0

	for i, data in enumerate(trainloader):
	# get the inputs; data is a list of [inputs, labels]
	inputs, labels = data
	inputs, labels = inputs.to(dev), labels.to(dev)

	# zero the parameter gradients
	optimizer.zero_grad()
	outputs = net(inputs).to(dev)
	loss = criterion(outputs, labels)
	loss.backward()
	optimizer.step()

	# print statistics
	running_loss += loss.item()
	training_loss += loss.item()
	total += labels.size(0)
	correct += (outputs == labels).float().sum()
	if i % 2000 == 1999:
	#print('[%d, %5d] loss: %.3f, accuracy: %.3f' %
	# (epoch + 1, i + 1, running_loss / 2000, correct / total))
	running_loss = 0.0
	training_accuracy = 100 * correct / total


	net.eval() # Optional when not using Model Specific layer
	for i, d in enumerate(validloader):
	# Transfer Data to GPU if available
	data, labels = d
	data, labels = data.to(dev), labels.to(dev)
	target = net(data).to(dev)
	# Find the Loss
	loss = criterion(target,labels)
	# Calculate Loss
	valid_running_loss += loss.item()
	valid_loss += loss.item()
	val_total += labels.size(0)
	valid_correct += (target == labels).float().sum()

	if i % 2000 == 1999:
	#print('[%d, %5d] loss: %.3f, accuracy: %.3f' %
	# (epoch + 1, i + 1, running_loss / 2000, valid_correct / val_total))
	valid_running_loss = 0.0
	valid_accuracy = 100 * valid_correct / val_total
	print(f'Training Epochs: {epoch}\t\t Training Loss: {training_loss / len(trainloader)}\t\t Train Accuracy: {training_accuracy}')
	print(f'\t\t Valid Loss: {valid_loss / len(validloader)}\t\t Valid Accuracy: {valid_accuracy}')

	return valid_loss / len(validloader)



	@ray.remote(num_cpus=cfg.NUM_CPUS)
	def forward_pass_on_cpu(net):
	trainset, trainloader, validset, validloader = get_datasets()

	# Define model architecture

	dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
	print(f"The network will train on {dev} device")
	print("------Forward passing------")
	# Define loss function and optimizer
	criterion = nn.CrossEntropyLoss()
	#breakpoint()
	optimizer = optim.SGD(net.to(dev).parameters(), lr=0.001, momentum=0.9)
	batches = 0
	running_loss = 0
	correct = 0.0

	start = time.time()
	# Perform forward pass
	for batch_idx, (data, target) in enumerate(trainloader):
	# Set the gradients to zero
	optimizer.zero_grad()

	# Forward pass
	output = net(data).to(dev)

	# Compute loss
	loss = criterion(output, target)
	running_loss += loss.item()
	correct += (target == output).float().sum()

	#if batches == 2:
	# break
	#batches +=1
	# Print loss every 1000 batches
	#if batch_idx % 1000 == 0:
	# print('Batch Index : {} Loss : {}'.format(batch_idx, running_loss))
	inference_time = time.time() - start
	accuracy = 100 * correct / len(trainset)
	print(f'\t\t Loss: {running_loss/len(validloader)}\t\t Accuracy: {accuracy}\t\t Inference Time: {inference_time}')

	return running_loss / len(validloader), inference_time


	@ray.remote(num_gpus=cfg.NUM_GPUS)
	def forward_pass_on_gpu(net):
	trainset, trainloader, validset, validloader = get_datasets()

	# Define model architecture

	dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
	print(f"The network will train on {dev} device")
	print("------Forward passing------")
	# Define loss function and optimizer
	criterion = nn.CrossEntropyLoss()
	#breakpoint()
	optimizer = optim.SGD(net.to(dev).parameters(), lr=0.001, momentum=0.9)
	batches = 0
	running_loss = 0
	correct = 0.0

	start = time.time()
	# Perform forward pass
	for batch_idx, (data, target) in enumerate(trainloader):
	# Set the gradients to zero
	optimizer.zero_grad()

	# Forward pass
	output = net(data).to(dev)

	# Compute loss
	loss = criterion(output, target)
	running_loss += loss.item()
	correct += (target == output).float().sum()

	#if batches == 2:
	# break
	#batches +=1
	# Print loss every 1000 batches
	#if batch_idx % 1000 == 0:
	# print('Batch Index : {} Loss : {}'.format(batch_idx, running_loss))
	inference_time = time.time() - start
	accuracy = 100 * correct / len(trainset)
	print(f'\t\t Loss: {running_loss/len(validloader)}\t\t Accuracy: {accuracy}\t\t Inference Time: {inference_time}')

	return running_loss / len(validloader), inference_time


	def multiprocess_training(training_func, num_processes, args, *kwargs):


	# Define a function to apply the training function to a set of arguments.
	#def process_training(args):
	# return training_func(*args)

	# Define a multiprocessing pool with the desired number of processes.
	pool = mp.Pool(num_processes)

	# Apply the PyTorch training function to each set of arguments using the multiprocessing pool.
	results = pool.map(training_func, zip(*args))

	# Close the multiprocessing pool and join the processes.
	pool.close()
	pool.join()

	return results



	def transfer_weights(netA, netB, layer_type):

	# Get the parameters of the two networks
	paramsA = netA.state_dict()
	paramsB = netB.state_dict()

	# Transfer the weights from the layers of the given type in netA to the corresponding layers in netB
	for name, module in netA.named_modules():
	if type(module).__name__ == layer_type:
	#print(f"paramsB[name + '.weight'].shape: {len(paramsB[name + '.bias'].shape)}")
	if len(paramsB[name + '.bias'].shape) == 5:
	paramsB[name + '.weight'][:, :, :, :, :] = paramsA[name + '.weight'][:, :, :, :, :]
	elif len(paramsB[name + '.bias'].shape) == 4:
	paramsB[name + '.weight'][:, :, :, :] = paramsA[name + '.weight'][:, :, :, :]
	elif len(paramsB[name + '.bias'].shape) == 3:
	paramsB[name + '.weight'][:, :, :] = paramsA[name + '.weight'][:, :, :]
	elif len(paramsB[name + '.bias'].shape) == 2:
	paramsB[name + '.weight'][:, :] = paramsA[name + '.weight'][:, :]
	elif len(paramsB[name + '.bias'].shape) == 1:
	paramsB[name + '.weight'][:] = paramsA[name + '.weight'][:]
	paramsB[name + '.bias'][:] = paramsA[name + '.bias'][:]

	# Set the state dict of netB to the updated parameters
	netB.load_state_dict(paramsB)

	return netB


	def detect_layers(model):
	layers = []

	def detect_layers_recursively(module):
	for child in module.children():
	if isinstance(child, nn.Sequential):
	detect_layers_recursively(child)
	elif isinstance(child, nn.Module):
	layers.append(child.__class__.__name__)
	detect_layers_recursively(child)

	detect_layers_recursively(model)

	return list(set(layers))