Spaces:

Tong314
/

Recommend_system

Sleeping

Recommend_system / train.py

tong

clear code

2180e31 about 1 month ago

10.7 kB

	import os
	import torch
	import torch.nn as nn
	import torch.optim as optim
	from torch.utils.data import DataLoader
	from tqdm import tqdm
	import torch.nn.functional as F
	import torch.distributed as dist

	from model import load_encoder_components, ProteinMoleculeDualEncoder
	from dataset import ProteinMoleculeDataset, DualTowerCollator

	def print_model_stats(model):
	total_params = sum(p.numel() for p in model.parameters())
	trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)

	# 格式化数字，例如转换为 Million (M)
	def format_params(num):
	if num >= 1e6:
	return f"{num / 1e6:.2f}M"
	elif num >= 1e3:
	return f"{num / 1e3:.2f}K"
	else:
	return str(num)

	print(f"\|" + "-"*50 + "\|")
	print(f"\| {'Model Statistics':^48} \|")
	print(f"\|" + "-"*50 + "\|")
	print(f"\| Total Parameters : {format_params(total_params):>15} \|")
	print(f"\| Trainable Parameters : {format_params(trainable_params):>15} \|")
	print(f"\| Frozen Parameters : {format_params(total_params - trainable_params):>15} \|")
	print(f"\|" + "-"*50 + "\|")

	# 分别查看两个塔的大小（可选，帮你确认 backbone 大小）
	if hasattr(model, 'protein_encoder'):
	p_params = sum(p.numel() for p in model.protein_encoder.parameters())
	print(f"\| Protein Tower : {format_params(p_params):>15} \|")

	if hasattr(model, 'molecule_encoder'):
	m_params = sum(p.numel() for p in model.molecule_encoder.parameters())
	print(f"\| Molecule Tower : {format_params(m_params):>15} \|")
	print(f"\|" + "-"*50 + "\|")

	class DualTowerTrainer:
	def __init__(
	self,
	model: nn.Module,
	train_loader: DataLoader,
	val_loader: DataLoader,
	learning_rate: float = 1e-4,
	temperature: float = 0.07,
	device: str = 'cuda' if torch.cuda.is_available() else 'cpu',
	save_dir: str = "./checkpoints",
	):
	print_model_stats(model)
	self.model = model.to(device)

	self.train_loader = train_loader
	self.val_loader = val_loader
	self.device = device
	self.temperature = temperature
	self.save_dir = save_dir

	self.optimizer = optim.AdamW(self.model.parameters(), lr=learning_rate)
	self.scheduler = optim.lr_scheduler.CosineAnnealingLR(
	self.optimizer, T_max=10, eta_min=1e-6
	)

	if not os.path.exists(save_dir):
	os.makedirs(save_dir)

	def compute_loss(self, p_vec, m_vec, labels):
	"""
	计算 Masked InfoNCE Loss。
	只对 batch 中 label=1 (Active) 的样本对计算正向损失。
	所有样本 (包括 label=0) 都会作为分母中的负例。
	"""
	# 1. 计算相似度矩阵 (Batch_Size, Batch_Size)
	# logits[i][j] 表示第 i 个蛋白和第 j 个分子的相似度
	logits = torch.matmul(p_vec, m_vec.T) / self.temperature

	# 2. 生成目标 (对角线是正例)
	batch_size = p_vec.size(0)
	targets = torch.arange(batch_size).to(self.device)

	# 3. 计算 Cross Entropy
	# 我们只关心 label=1 的行，因为 label=0 的行本身就不应该结合，
	# 如果强制 label=0 的对角线相似度最大化是错误的。

	# CrossEntropyLoss 默认是会对 logits 进行 Softmax
	# 这里的 loss 是计算每一行（每个 Protein）去匹配正确的 Molecule
	raw_loss = F.cross_entropy(logits, targets, reduction='none')

	# 4. Masking: 只取 active (label=1) 的 loss 平均
	active_mask = (labels == 1).float()

	# 防止除以 0
	num_actives = active_mask.sum()
	if num_actives > 0:
	final_loss = (raw_loss * active_mask).sum() / num_actives
	else:
	# 如果这一个 batch 全是负例，loss 为 0 (或者为了梯度流不断，设为一个很小的值)
	# final_loss = torch.tensor(0.0, device=self.device, requires_grad=True)
	final_loss = 0.0 * (p_vec.sum() + m_vec.sum())

	return final_loss

	def train_epoch(self, epoch_idx):
	self.model.train()
	total_loss = 0
	active_count = 0

	loop = tqdm(self.train_loader, desc=f"Train Epoch {epoch_idx}")

	for batch in loop:
	# 1. 数据移到 GPU
	prot_inputs = {k: v.to(self.device) for k, v in batch['protein_inputs'].items()}
	mol_inputs = {k: v.to(self.device) for k, v in batch['molecule_inputs'].items()}
	labels = batch['labels'].to(self.device) # 0 或 1

	if (labels == 1).sum() == 0:
	print("\nSkipping batch with no active samples")
	continue

	# 2. 前向传播
	self.optimizer.zero_grad()
	p_vec, m_vec = self.model(prot_inputs, mol_inputs)

	# 3. 计算 Loss
	loss = self.compute_loss(p_vec, m_vec, labels)

	# 4. 反向传播
	loss.backward()
	torch.nn.utils.clip_grad_norm_(self.model.parameters(), max_norm=1.0) # 梯度裁剪防止爆炸
	self.optimizer.step()

	total_loss += loss.item()
	if (labels == 1).sum() > 0:
	active_count += 1

	loop.set_postfix(loss=loss.item())

	avg_loss = total_loss / len(self.train_loader)
	self.scheduler.step() # 更新学习率
	return avg_loss

	@torch.no_grad()
	def evaluate(self):
	self.model.eval()
	total_loss = 0

	# 也可以统计准确率：对于 Active 的对子，Top-1 预测是不是它自己
	correct_retrieval = 0
	total_actives = 0

	for batch in tqdm(self.val_loader, desc="Evaluating"):
	prot_inputs = {k: v.to(self.device) for k, v in batch['protein_inputs'].items()}
	mol_inputs = {k: v.to(self.device) for k, v in batch['molecule_inputs'].items()}
	labels = batch['labels'].to(self.device)

	p_vec, m_vec = self.model(prot_inputs, mol_inputs)
	loss = self.compute_loss(p_vec, m_vec, labels)
	total_loss += loss.item()

	# 计算简单的 Top-1 Accuracy (仅针对 Active 样本)
	logits = torch.matmul(p_vec, m_vec.T)
	preds = torch.argmax(logits, dim=1) # 每一行预测最大的列索引
	targets = torch.arange(p_vec.size(0)).to(self.device)

	active_mask = (labels == 1)
	if active_mask.sum() > 0:
	matches = (preds[active_mask] == targets[active_mask])
	correct_retrieval += matches.sum().item()
	total_actives += active_mask.sum().item()

	avg_loss = total_loss / len(self.val_loader)
	acc = correct_retrieval / total_actives if total_actives > 0 else 0.0

	return avg_loss, acc

	# def save_checkpoint(self, epoch, metric):
	# path = os.path.join(self.save_dir, f"model_epoch_{epoch}_acc_{metric:.4f}.pt")
	# torch.save(self.model.state_dict(), path)
	# print(f"Model saved to {path}")

	def save_checkpoint(self, epoch, metric):
	path = os.path.join(self.save_dir, f"model_epoch_{epoch}_acc_{metric:.4f}.pt")

	# 检查模型是否被 DDP 或 DataParallel 包裹
	if isinstance(self.model, (torch.nn.DataParallel, torch.nn.parallel.DistributedDataParallel)):
	state_dict = self.model.module.state_dict()
	else:
	state_dict = self.model.state_dict()

	torch.save(state_dict, path)
	if dist.get_rank() == 0:
	print(f"Model saved to {path} (Clean state_dict without 'module.' prefix)")

	def train_model(
	dataset_path: str,
	model_and_tokenizers = None,
	protein_model_path: str = None,
	molecule_model_path: str = None,
	model_save_dir: str = "./output_checkpoints",
	epochs: int = 10,
	batch_size: int = 32,
	lr: float = 1e-4
	):
	# 1. 加载 Tokenizer 和 Dataset
	print("Initialize components...")

	if model_and_tokenizers is not None:
	model, p_tokenizer, m_tokenizer = model_and_tokenizers
	else:
	p_encoder, p_tokenizer, m_encoder, m_tokenizer = load_encoder_components(
	protein_model_path, molecule_model_path
	)
	model = ProteinMoleculeDualEncoder(p_encoder, m_encoder, projection_dim=256)
	full_dataset = ProteinMoleculeDataset(dataset_path)

	# 划分训练集和验证集 (80/20)
	train_size = int(0.8 * len(full_dataset))
	val_size = len(full_dataset) - train_size
	train_dataset, val_dataset = torch.utils.data.random_split(full_dataset, [train_size, val_size])

	# 3. 准备 Collator 和 DataLoader
	collator = DualTowerCollator(p_tokenizer, m_tokenizer)
	train_loader = DataLoader(
	train_dataset,
	batch_size=batch_size,
	shuffle=True,
	collate_fn=collator,
	num_workers=4, # 根据CPU核心数调整
	pin_memory=True
	)
	val_loader = DataLoader(
	val_dataset,
	batch_size=batch_size,
	shuffle=False,
	collate_fn=collator,
	num_workers=4
	)

	# 4. 初始化模型
	# model = ProteinMoleculeDualEncoder(p_encoder, m_encoder, projection_dim=256)

	# 5. 初始化 Trainer
	trainer = DualTowerTrainer(
	model=model,
	train_loader=train_loader,
	val_loader=val_loader,
	learning_rate=lr,
	save_dir=model_save_dir,
	)

	# 6. 开始循环
	print("Start Training...")
	best_acc = 0.0

	for epoch in range(epochs):
	train_loss = trainer.train_epoch(epoch)
	val_loss, val_acc = trainer.evaluate()

	print(f"Epoch {epoch} \| Train Loss: {train_loss:.4f} \| Val Loss: {val_loss:.4f} \| Val Retrieval Acc: {val_acc:.4f}")

	# 保存最好模型
	if val_acc > best_acc:
	best_acc = val_acc
	trainer.save_checkpoint(epoch, val_acc)

	if __name__ == "__main__":
	protein_model_path = "./SaProt_650M_AF2"
	molecule_model_path = "./ChemBERTa-zinc-base-v1"
	dataset_path = 'drug_target_activity/processed_train.parquet'
	model_save_dir = './Dual_Tower_Model/output_checkpoints'
	train_model(
	protein_model_path=protein_model_path,
	molecule_model_path=molecule_model_path,
	dataset_path=dataset_path,
	model_save_dir=model_save_dir
	)