RougeBERT / test_train.py

Upload base codes

48d0053 verified 5 months ago

19.2 kB

	# test_train.py
	# For test train the RougeBERT with weights initialized
	# Consider adjusting the data and tokenizer to your use case
	# - gbyuvd

	import torch
	import torch.nn.functional as F
	from torch.utils.data import IterableDataset, DataLoader
	from tqdm import tqdm
	import pandas as pd
	from ranger21 import Ranger21
	import random
	import os
	from sklearn.model_selection import train_test_split
	from torch.nn import CrossEntropyLoss
	import json

	# -------------------------------
	# Streaming Dataset
	# -------------------------------
	from datasets import load_dataset

	class SelfiesStreamingDataset(IterableDataset):
	def __init__(self, csv_file, tokenizer, max_seq_len=512, mask_prob=0.15, global_token_ids=None):
	self.tokenizer = tokenizer
	self.max_seq_len = max_seq_len
	self.mask_prob = mask_prob
	self.global_token_ids = global_token_ids or []

	print(f"Loading dataset (streaming): {csv_file}")
	dataset = load_dataset("csv", data_files=csv_file, split="train", streaming=True)
	dataset = dataset.shuffle(seed=42, buffer_size=10000)
	self.dataset_iter = iter(dataset)

	# Special IDs
	self.mask_id = tokenizer.mask_token_id
	self.pad_id = tokenizer.pad_token_id

	def __iter__(self):
	for example in self.dataset_iter:
	smiles = example["SMILES"]
	enc = self.tokenizer(smiles, truncation=True, max_length=self.max_seq_len, return_tensors=None)

	input_ids = enc["input_ids"]
	attention_mask = enc["attention_mask"]
	labels = input_ids.copy()

	# BERT-style 3-way masking + skip global tokens
	vocab_size = len(self.tokenizer) # needed for random token sampling
	for i in range(len(input_ids)):
	# Skip masking for special/global tokens
	if input_ids[i] in self.global_token_ids:
	continue

	# Decide whether to mask this token
	if random.random() < self.mask_prob:
	rand = random.random()
	if rand < 0.8:
	# 80%: replace with [MASK]
	input_ids[i] = self.mask_id
	elif rand < 0.9:
	# 10%: replace with random token (excluding special tokens for safety)
	input_ids[i] = random.randint(0, vocab_size - 1)
	# Optional: avoid re-selecting special tokens
	while input_ids[i] in self.global_token_ids:
	input_ids[i] = random.randint(0, vocab_size - 1)
	else:
	# 10%: leave unchanged (do nothing)
	pass

	# Global token positions
	global_positions = [idx for idx, tid in enumerate(input_ids) if tid in self.global_token_ids]

	# Convert to tensors
	input_ids = torch.tensor(input_ids, dtype=torch.long)
	attention_mask = torch.tensor(attention_mask, dtype=torch.long)
	labels = torch.tensor(labels, dtype=torch.long)

	yield input_ids, attention_mask, labels, global_positions


	def collate_fn(batch):
	input_ids_list, attention_mask_list, labels_list, global_positions_list = zip(*batch)

	# Pad sequences as before
	input_ids = torch.nn.utils.rnn.pad_sequence(input_ids_list, batch_first=True, padding_value=0)
	attention_mask = torch.nn.utils.rnn.pad_sequence(attention_mask_list, batch_first=True, padding_value=0)
	labels = torch.nn.utils.rnn.pad_sequence(labels_list, batch_first=True, padding_value=-100)

	# Convert global_positions_list to padded tensor
	max_g = max(len(g) for g in global_positions_list) # find max number of global tokens in batch
	if max_g == 0:
	# If no global tokens in entire batch, create empty tensor with 0 globals
	global_positions = torch.full((len(global_positions_list), 0), -1, dtype=torch.long)
	else:
	padded_global_positions = [
	g + [-1] * (max_g - len(g)) for g in global_positions_list
	] # pad each list with -1 to max_g length
	global_positions = torch.tensor(padded_global_positions, dtype=torch.long)

	return input_ids, attention_mask, labels, global_positions


	def get_dataloader(csv_file, tokenizer, batch_size=16, max_seq_len=512, mask_prob=0.15, global_token_ids=None):
	dataset = SelfiesStreamingDataset(
	csv_file=csv_file,
	tokenizer=tokenizer,
	max_seq_len=max_seq_len,
	mask_prob=mask_prob,
	global_token_ids=global_token_ids
	)
	return DataLoader(
	dataset,
	batch_size=batch_size,
	collate_fn=collate_fn
	)


	# ----------------------------
	# Model & Tokenizer Imports
	# ----------------------------
	from RougeBERT import RougeBERT
	from FastChemTokenizer import FastChemTokenizer


	# ----------------------------
	# Auto-split CSV into train/val/test
	# ----------------------------
	def prepare_train_val_test_split(full_csv, train_csv, val_csv, test_csv, val_test_size=0.3, test_size_ratio=0.5, random_state=42):
	"""
	Splits full_csv into train, val, test.
	val_test_size: portion of data to reserve for val+test (e.g., 0.3 → 70% train, 30% val+test)
	test_size_ratio: portion of val+test to assign to test (e.g., 0.5 → 15% val, 15% test)
	"""
	if all(os.path.exists(f) for f in [train_csv, val_csv, test_csv]):
	print(f" Train/val/test splits already exist. Skipping split.")
	train_count = sum(1 for _ in open(train_csv, encoding='utf-8')) - 1
	val_count = sum(1 for _ in open(val_csv, encoding='utf-8')) - 1
	test_count = sum(1 for _ in open(test_csv, encoding='utf-8')) - 1
	return train_count, val_count, test_count

	print(f"SplitOptions not found. Loading and splitting {full_csv}...")

	df = pd.read_csv(full_csv)
	train_df, val_test_df = train_test_split(df, test_size=val_test_size, random_state=random_state)
	val_df, test_df = train_test_split(val_test_df, test_size=test_size_ratio, random_state=random_state)

	train_df.to_csv(train_csv, index=False)
	val_df.to_csv(val_csv, index=False)
	test_df.to_csv(test_csv, index=False)

	print(f" Saved {len(train_df)} rows to {train_csv}")
	print(f" Saved {len(val_df)} rows to {val_csv}")
	print(f" Saved {len(test_df)} rows to {test_csv}")

	return len(train_df), len(val_df), len(test_df)


	# ----------------------------
	# Hyperparameters / Config
	# ----------------------------
	BATCH_SIZE = 16
	GRAD_ACCUM = 4
	NUM_EPOCHS = 1
	MAX_SEQ_LEN = 512
	LEARNING_RATE = 3e-6
	MASK_PROB = 0.25

	FULL_CSV = "../data/sample_1k_smi_42.csv"
	TRAIN_CSV = "../data/train.csv"
	VAL_CSV = "../data/val.csv"
	TEST_CSV = "../data/test.csv"
	SAVE_DIR = "./trained_rougeberttest"

	# Auto-split and get counts
	TRAIN_SET_SIZE, VAL_SET_SIZE, TEST_SET_SIZE = prepare_train_val_test_split(FULL_CSV, TRAIN_CSV, VAL_CSV, TEST_CSV, val_test_size=0.2, test_size_ratio=0.5)

	# Auto-calculate steps
	train_steps_per_epoch = max(1, TRAIN_SET_SIZE // BATCH_SIZE)
	optimizer_steps_per_epoch = max(1, train_steps_per_epoch // GRAD_ACCUM)
	val_steps_total = max(1, VAL_SET_SIZE // BATCH_SIZE)
	test_steps_total = max(1, TEST_SET_SIZE // BATCH_SIZE)

	print(f" Train steps/epoch: {train_steps_per_epoch}")
	print(f" Optimizer steps/epoch: {optimizer_steps_per_epoch}")
	print(f" Val steps total: {val_steps_total}")
	print(f" Test steps total: {test_steps_total}")

	# Log every 25% of training epoch
	print_every = max(1, train_steps_per_epoch // 4)
	checkpoint_every = max(1, train_steps_per_epoch // 10) # Save every 10%
	print(f" Logging every {print_every} steps (25% of epoch)")
	print(f" Checkpoint every {checkpoint_every} steps (10% of epoch)")

	# ----------------------------
	# Prepare tokenizer
	# ----------------------------
	tokenizer = FastChemTokenizer.from_pretrained("../smitok")
	global_token_ids = [tokenizer.bos_token_id, tokenizer.eos_token_id, tokenizer.mask_token_id]

	# ----------------------------
	# Prepare model and optimizer
	# ----------------------------
	model = RougeBERT(
	vocab_size=len(tokenizer),
	max_seq=512,
	num_layers=8,
	hidden_size=320,
	intermediate_size=1204,
	num_heads=8,
	kv_groups=2,
	rotary_max_seq=512,
	window=16,
	dropout=0.1,
	)
	device = "cuda" if torch.cuda.is_available() else "cpu"
	model.to(device)

	optimizer = Ranger21(
	model.parameters(),
	lr=LEARNING_RATE,
	weight_decay=0.01,
	use_adabelief=True,
	use_warmup=True,
	use_madgrad=True,
	num_epochs=NUM_EPOCHS,
	warmdown_active=False,
	num_batches_per_epoch=optimizer_steps_per_epoch
	)

	criterion = CrossEntropyLoss(ignore_index=-100)

	# ----------------------------
	# Save Config
	# ----------------------------
	config = {
	"vocab_size": len(tokenizer),
	"max_seq": MAX_SEQ_LEN,
	"num_layers": 8,
	"hidden_size": 320,
	"intermediate_size": 1280,
	"num_heads": 8,
	"kv_groups": 2,
	"rotary_max_seq": 128,
	"window": 16,
	"dropout": 0.1,
	"pad_token_id": tokenizer.pad_token_id,
	"mask_token_id": tokenizer.mask_token_id,
	"batch_size": BATCH_SIZE,
	"grad_accum": GRAD_ACCUM,
	"learning_rate": LEARNING_RATE,
	"mask_prob": MASK_PROB,
	}
	os.makedirs(SAVE_DIR, exist_ok=True)
	with open(os.path.join(SAVE_DIR, "config.json"), "w") as f:
	json.dump(config, f, indent=2)
	print(f" Config saved to {os.path.join(SAVE_DIR, 'config.json')}")

	# ----------------------------
	# Early Stopping Setup
	# ----------------------------
	best_val_loss = float('inf')
	patience_counter = 0
	PATIENCE = 2 # Stop if no improvement for 3 evals
	print(f" Early stopping: patience = {PATIENCE} evaluations")

	# ----------------------------
	# Training + Validation Loop
	# ----------------------------
	for epoch in range(NUM_EPOCHS):
	model.train()
	running_loss = 0.0
	optimizer.zero_grad()

	train_loader = get_dataloader(
	csv_file=TRAIN_CSV,
	tokenizer=tokenizer,
	batch_size=BATCH_SIZE,
	max_seq_len=MAX_SEQ_LEN,
	mask_prob=MASK_PROB,
	global_token_ids=global_token_ids
	)

	pbar = tqdm(enumerate(train_loader), total=train_steps_per_epoch, desc=f"Epoch {epoch+1}/{NUM_EPOCHS}")
	for step, (input_ids, attention_mask, labels, global_positions) in pbar:
	input_ids = input_ids.to(device)
	attention_mask = attention_mask.to(device)
	labels = labels.to(device)

	logits = model(input_ids, attention_mask=attention_mask, global_positions=global_positions)
	loss = criterion(logits.view(-1, logits.size(-1)), labels.view(-1))
	loss = loss / GRAD_ACCUM
	loss.backward()
	running_loss += loss.item()

	if (step + 1) % GRAD_ACCUM == 0:
	optimizer.step()
	optimizer.zero_grad()

	# ----------------------------
	# Logging + Eval + Checkpoint + GPU Monitoring
	# ----------------------------
	if (step + 1) % print_every == 0:
	avg_loss = running_loss / print_every
	pbar.set_postfix({"train_loss": f"{avg_loss:.4f}"})

	# Validation
	model.eval()
	val_loss = 0.0
	correct = 0
	total = 0
	val_steps = 0

	sample_inputs = []
	sample_labels = []
	sample_preds = []

	val_loader = get_dataloader(
	csv_file=VAL_CSV,
	tokenizer=tokenizer,
	batch_size=BATCH_SIZE,
	max_seq_len=MAX_SEQ_LEN,
	mask_prob=MASK_PROB,
	global_token_ids=global_token_ids
	)

	with torch.no_grad():
	for vbatch in val_loader:
	v_input_ids, v_attention_mask, v_labels, v_global_positions = vbatch
	v_input_ids = v_input_ids.to(device)
	v_attention_mask = v_attention_mask.to(device)
	v_labels = v_labels.to(device)

	v_logits = model(v_input_ids, attention_mask=v_attention_mask, global_positions=v_global_positions)
	v_loss = criterion(v_logits.view(-1, v_logits.size(-1)), v_labels.view(-1))
	val_loss += v_loss.item()

	v_preds = torch.argmax(v_logits, dim=-1)
	mask = (v_labels != -100)
	correct += (v_preds[mask] == v_labels[mask]).sum().item()
	total += mask.sum().item()

	if val_steps == 0:
	sample_inputs.append(v_input_ids.cpu())
	sample_labels.append(v_labels.cpu())
	sample_preds.append(v_preds.cpu())

	val_steps += 1
	if val_steps >= min(50, val_steps_total // 4):
	break

	avg_val_loss = val_loss / val_steps if val_steps > 0 else float('inf')
	perplexity = torch.exp(torch.tensor(avg_val_loss)).item() if val_steps > 0 else float('inf')
	accuracy = correct / total if total > 0 else 0.0

	print(f"\n[Step {step+1}] "
	f"Train Loss: {avg_loss:.4f} \| "
	f"Val Loss: {avg_val_loss:.4f} \| "
	f"Perplexity: {perplexity:.4f} \| "
	f"MLM Acc: {accuracy:.2%}")

	# GPU Monitoring (every eval)
	if torch.cuda.is_available():
	gpu_mem_alloc = torch.cuda.memory_allocated() / 1e9
	gpu_mem_res = torch.cuda.memory_reserved() / 1e9
	print(f"GMEM: {gpu_mem_alloc:.2f}GB / {gpu_mem_res:.2f}GB")

	# Early Stopping Check
	if avg_val_loss < best_val_loss:
	best_val_loss = avg_val_loss
	patience_counter = 0
	print(" New best val loss!")
	else:
	patience_counter += 1
	print(f" No improvement. Patience: {patience_counter}/{PATIENCE}")
	if patience_counter >= PATIENCE:
	print(" Early stopping triggered!")
	break

	# Checkpoint every 10%
	if (step + 1) % checkpoint_every == 0:
	ckpt_path = os.path.join(SAVE_DIR, f"checkpoint_step_{step+1}.bin")
	torch.save(model.state_dict(), ckpt_path)
	print(f" Checkpoint saved: {ckpt_path}")

	# Reset
	running_loss = 0.0
	model.train()

	# Break if early stopping triggered inside eval block
	if patience_counter >= PATIENCE:
	break

	# If early stopped, break epoch loop too
	if patience_counter >= PATIENCE:
	print(" Stopping training early.")
	break

	# ----------------------------
	# Final Test Evaluation
	# ----------------------------
	print(f"\n{'='50}\n🔬 FINAL EPOCH TEST EVALUATION\n{'='50}")
	model.eval()
	test_loss = 0.0
	correct = 0
	total = 0
	test_steps = 0

	sample_inputs = []
	sample_labels = []
	sample_preds = []

	test_loader = get_dataloader(
	csv_file=TEST_CSV,
	tokenizer=tokenizer,
	batch_size=BATCH_SIZE,
	max_seq_len=MAX_SEQ_LEN,
	mask_prob=MASK_PROB,
	global_token_ids=global_token_ids
	)

	with torch.no_grad():
	for tbatch in test_loader:
	t_input_ids, t_attention_mask, t_labels, t_global_positions = tbatch
	t_input_ids = t_input_ids.to(device)
	t_attention_mask = t_attention_mask.to(device)
	t_labels = t_labels.to(device)

	t_logits = model(t_input_ids, attention_mask=t_attention_mask, global_positions=t_global_positions)
	t_loss = criterion(t_logits.view(-1, t_logits.size(-1)), t_labels.view(-1))
	test_loss += t_loss.item()

	t_preds = torch.argmax(t_logits, dim=-1)
	mask = (t_labels != -100)
	correct += (t_preds[mask] == t_labels[mask]).sum().item()
	total += mask.sum().item()

	if test_steps == 0:
	sample_inputs.append(t_input_ids.cpu())
	sample_labels.append(t_labels.cpu())
	sample_preds.append(t_preds.cpu())

	test_steps += 1
	if test_steps >= 100:
	break

	avg_test_loss = test_loss / test_steps if test_steps > 0 else float('inf')
	perplexity = torch.exp(torch.tensor(avg_test_loss)).item() if test_steps > 0 else float('inf')
	accuracy = correct / total if total > 0 else 0.0

	print(f" FINAL Epoch {epoch+1} \| "
	f"Test Loss: {avg_test_loss:.4f} \| "
	f"Perplexity: {perplexity:.4f} \| "
	f"MLM Acc: {accuracy:.2%}")

	# ----------------------------
	# Final Save
	# ----------------------------
	final_path = os.path.join(SAVE_DIR, "pytorch_model.bin")
	torch.save(model.state_dict(), final_path)
	print(f" Final model saved to {final_path}")

	try:
	tokenizer.save_pretrained(SAVE_DIR)
	print(f" Tokenizer saved to {SAVE_DIR}")
	except Exception as e:
	print(f" Could not save tokenizer: {e}")

	# ----------------------------
	# 🔍 Sample Predictions
	# ----------------------------
	print("\n" + "="*70)
	print(" SAMPLE PREDICTIONS (first 3 from final validation)")
	print("="*70)

	if sample_inputs and len(sample_inputs[0]) > 0:
	input_ids_sample = sample_inputs[0][:3]
	labels_sample = sample_labels[0][:3]
	preds_sample = sample_preds[0][:3]

	for i in range(len(input_ids_sample)):
	input_toks = input_ids_sample[i].tolist()
	label_toks = labels_sample[i].tolist()
	pred_toks = preds_sample[i].tolist()

	original_tokens = [t for t in label_toks if t != -100]
	original = tokenizer.decode(original_tokens, skip_special_tokens=False)

	masked_tokens = []
	for j, tok in enumerate(input_toks):
	if tok == tokenizer.mask_token_id:
	masked_tokens.append("<mask>")
	elif tok == 0:
	continue
	else:
	decoded = tokenizer.decode([tok], skip_special_tokens=False)
	masked_tokens.append(decoded)
	masked_str = "".join(masked_tokens).replace(" ", "")

	pred_filtered = [p for p, l in zip(pred_toks, label_toks) if l != -100]
	predicted = tokenizer.decode(pred_filtered, skip_special_tokens=False)

	print(f"\n Example {i+1}:")
	print(f" Original: {original}")
	print(f" Masked: {masked_str}")
	print(f" Predicted: {predicted}")
	else:
	print(" No samples captured for visualization.")


	print(f"\n Training complete! Best Val Loss: {best_val_loss:.4f}")