Create train_model.py

03012a7 verified almost 2 years ago

6.19 kB

	from transformers import AutoTokenizer, BertForSequenceClassification, BertTokenizer
	import torch
	from process_data import getDF
	from torch.utils.data import TensorDataset, random_split
	from torch.utils.data import DataLoader, SequentialSampler

	from transformers import DataCollatorForTokenClassification
	from transformers import get_linear_schedule_with_warmup
	from sampler import BalanceSampler
	NUM_CLASSES = 13
	device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

	# Load pre-trained model and tokenizer
	model = BertForSequenceClassification.from_pretrained("bert-base-uncased").to(device)
	tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

	# Modify the output layer to match the number of classes
	model.classifier = torch.nn.Linear(in_features = 768, out_features= NUM_CLASSES)
	print(model)
	data_collator = DataCollatorForTokenClassification(tokenizer)

	def get_input_id_and_attention_masks():
	df = getDF() #from process.py

	input_ids = []
	attention_masks = []
	for summ in df['summary']:
	encoded_dict = tokenizer.encode_plus(
	summ, # Sentence to encode.
	add_special_tokens = True, # Add '[CLS]' and '[SEP]'
	max_length = 512, # Pad & truncate all sentences.
	truncation=True,
	pad_to_max_length = True,
	padding='max_length',
	return_attention_mask = True, # Construct attn. masks.
	return_tensors = 'pt',# Return pytorch tensors.
	)
	input_ids.append(encoded_dict['input_ids'])

	# And its attention mask (simply differentiates padding from non-padding).
	attention_masks.append(encoded_dict['attention_mask'])
	input_ids = torch.cat(input_ids, dim=0)
	attention_masks = torch.cat(attention_masks, dim=0)


	labels = torch.from_numpy(np.array(df['genre_id'].tolist()))
	return input_ids, attention_masks, labels

	input_ids,attention_masks, labels= get_input_id_and_attention_masks()

	def createTensorDS(input_ids,attention_masks, labels):
	return TensorDataset(input_ids, attention_masks, labels)

	def split(tensorDataset):
	train_size = int(0.85 * len(tensorDataset))
	val_size = len(tensorDataset) - train_size
	train_dataset, val_dataset = random_split(tensorDataset, [train_size, val_size])
	return train_dataset, val_dataset

	def createDataloaders(train_dataset, val_dataset):

	batch_size = 16

	train_dataloader = DataLoader(
	train_dataset,
	sampler = BalanceSampler(train_dataset),
	batch_size = batch_size
	)

	valid_dataloader = DataLoader(
	val_dataset,
	sampler = SequentialSampler(val_dataset),
	batch_size = batch_size
	)
	return train_dataloader, valid_dataloader


	def calc_accuracy(logits,labels):
	label=[]
	num_ones = 0
	acc = 0
	for label_set in labels:
	labs = []
	for ind, res in enumerate(label_set):
	if res.item() == 1:
	labs.append(ind)
	label.append(labs)
	num_ones += len(labs)

	for i,log in enumerate(logits):
	top_out = (-log).argsort()[:5]

	for ind in top_out:
	if ind in label[i]:
	acc = acc+1
	return acc/num_ones

	def train(model, train, val, epochs):
	total_steps = len(train)*epochs
	optimizer = torch.optim.Adam(model.parameters(),
	lr = 2e-5, # args.learning_rate - default is 5e-5, our notebook had 2e-5
	eps = 1e-8 # args.adam_epsilon - default is 1e-8.
	)
	scheduler = get_linear_schedule_with_warmup(optimizer,
	num_warmup_steps = 0,
	num_training_steps = total_steps)
	loss_fn=torch.nn.BCEWithLogitsLoss()
	for epoch in range(3):
	total_train_loss = 0
	batch_loss = 0
	print("")
	print('======== Epoch {:} / {:} ========'.format(epoch + 1, epochs))
	print('Training...')
	model.train()
	for step, batch in enumerate(train):
	input_ids= batch[0].to(device)
	input_mask = batch[1].to(device)
	labels = batch[2].to(device)

	optimizer.zero_grad()
	out = model(input_ids, attention_mask=input_mask)

	logits =out['logits']
	loss = loss_fn(logits, labels)

	acc += calc_accuracy(logits, labels)
	total_train_loss += loss.item()
	batch_loss += loss.item()

	loss.backward()
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	scheduler.step()

	avg_train_loss = total_train_loss/len(train)
	print('train_loss: ', avg_train_loss,)
	print('train_acc: ', acc)
	print("Running Validation...")
	model.eval()
	total_eval_accuracy=0
	total_eval_loss= 0
	num_Eval_steps= 0

	for batch in val:
	input_ids= batch[0].to(device)
	input_mask=batch[1].to(device)
	labels = batch[2].to(device)
	with torch.no_grad():
	out = model(input_ids,attention_mask=input_mask)



	logits = out['logits']
	loss = loss_fn(logits, labels)
	total_eval_loss += loss.item()

	logits = logits.detach().cpu().numpy()
	label_ids = labels.cpu().numpy()


	avg_loss_Eval = total_eval_loss/len(val)
	print(
	'epoch: ', epoch,
	'train_loss: ', avg_train_loss,
	'valid loss ', avg_loss_Eval,
	)
	input_ids, attention_masks, labels=get_input_id_and_attention_masks()
	ds=createTensorDS(input_ids, attention_masks, labels)
	train_dataset, val_dataset=split(ds)
	train_dataloader, valid_dataloader=createDataloaders(train_dataset, val_dataset)
	train(model, train_dataloader, valid_dataloader, 3)