MultiModal / reward_model.py

Update reward_model.py

5c5e75b verified about 1 month ago

6.72 kB

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.optim as optim
	from torch.utils.data import DataLoader
	from collections import defaultdict
	from typing import Dict, Tuple, Union, Optional
	from tqdm import tqdm
	from model import MultiModalDenseTransformer

	class RewardModel(nn.Module):
	"""奖励模型 - 用于RLHF"""
	def __init__(
	self,
	base_model: MultiModalDenseTransformer,
	use_value_head: bool = True
	):
	super().__init__()
	self.base_model = base_model
	self.use_value_head = use_value_head

	self.reward_head = nn.Sequential(
	nn.Linear(base_model.model_dim, base_model.model_dim // 2),
	nn.ReLU(),
	nn.Dropout(0.1),
	nn.Linear(base_model.model_dim // 2, 1)
	)

	if use_value_head:
	self.value_head = nn.Sequential(
	nn.Linear(base_model.model_dim, base_model.model_dim // 2),
	nn.ReLU(),
	nn.Dropout(0.1),
	nn.Linear(base_model.model_dim // 2, 1)
	)

	def forward(
	self,
	input_data: Dict,
	return_values: bool = False
	) -> Union[torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
	"""前向传播"""
	output = self.base_model(input_data, return_hidden=True)
	hidden_states = output['last_hidden_state']

	rewards = self.reward_head(hidden_states).squeeze(-1)

	if return_values and self.use_value_head:
	values = self.value_head(hidden_states).squeeze(-1)
	return rewards, values

	return rewards

	class RewardModelTrainer:
	"""奖励模型训练器"""
	def __init__(
	self,
	reward_model: RewardModel,
	learning_rate: float = 1e-5,
	margin: float = 0.0
	):
	self.reward_model = reward_model
	self.margin = margin

	self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	self.reward_model.to(self.device)

	for param in self.reward_model.base_model.parameters():
	param.requires_grad = False

	for layer in self.reward_model.base_model.layers[-2:]:
	for param in layer.parameters():
	param.requires_grad = True

	trainable_params = list(self.reward_model.reward_head.parameters())
	if self.reward_model.use_value_head:
	trainable_params += list(self.reward_model.value_head.parameters())

	self.optimizer = optim.AdamW(
	filter(lambda p: p.requires_grad, self.reward_model.parameters()),
	lr=learning_rate
	)

	def train_step(self, chosen_batch: Dict, rejected_batch: Dict) -> Dict:
	"""单步训练"""
	self.reward_model.train()
	self.optimizer.zero_grad()

	chosen_rewards = self.reward_model(chosen_batch)[:, -1]
	rejected_rewards = self.reward_model(rejected_batch)[:, -1]

	loss = -F.logsigmoid(chosen_rewards - rejected_rewards - self.margin).mean()

	loss.backward()
	torch.nn.utils.clip_grad_norm_(self.reward_model.parameters(), 1.0)
	self.optimizer.step()

	accuracy = (chosen_rewards > rejected_rewards).float().mean().item()

	return {
	'loss': loss.item(),
	'accuracy': accuracy
	}

	def train(
	self,
	dataloader: DataLoader,
	num_epochs: int = 1,
	log_interval: int = 10
	):
	"""训练循环"""
	print(f"Starting reward model training on {self.device}...")

	for epoch in range(num_epochs):
	total_stats = defaultdict(float)
	num_steps = 0
	progress_bar = tqdm(
	dataloader,
	desc=f"Reward Model Epoch {epoch+1}/{num_epochs}"
	)

	for batch_idx, (chosen_ids, rejected_ids) in enumerate(progress_bar):
	chosen_batch = {
	'segments': [{'type': 'text', 'data': chosen_ids.to(self.device), 'modality_id': 0}]
	}

	rejected_batch = {
	'segments': [{'type': 'text', 'data': rejected_ids.to(self.device), 'modality_id': 0}]
	}

	stats = self.train_step(chosen_batch, rejected_batch)

	for k, v in stats.items():
	total_stats[k] += v
	num_steps += 1

	if (batch_idx + 1) % log_interval == 0:
	avg_stats = {
	k: v / num_steps
	for k, v in total_stats.items()
	}
	progress_bar.set_postfix(avg_stats)
	total_stats = defaultdict(float)

	print("Reward model training complete!")

	def evaluate(self, dataloader: DataLoader) -> Dict[str, float]:
	"""评估奖励模型"""
	self.reward_model.eval()
	total_stats = defaultdict(float)
	num_batches = 0

	with torch.no_grad():
	for chosen_ids, rejected_ids in dataloader:
	chosen_batch = {
	'segments': [{'type': 'text', 'data': chosen_ids.to(self.device), 'modality_id': 0}]
	}

	rejected_batch = {
	'segments': [{'type': 'text', 'data': rejected_ids.to(self.device), 'modality_id': 0}]
	}

	chosen_rewards = self.reward_model(chosen_batch)[:, -1]
	rejected_rewards = self.reward_model(rejected_batch)[:, -1]

	loss = -F.logsigmoid(chosen_rewards - rejected_rewards - self.margin).mean()
	accuracy = (chosen_rewards > rejected_rewards).float().mean().item()

	total_stats['loss'] += loss.item()
	total_stats['accuracy'] += accuracy
	num_batches += 1

	return {k: v / num_batches for k, v in total_stats.items()}

	def save_checkpoint(self, path: str):
	"""保存检查点"""
	torch.save({
	'model_state_dict': self.reward_model.state_dict(),
	'optimizer_state_dict': self.optimizer.state_dict(),
	}, path)

	def load_checkpoint(self, path: str):
	"""加载检查点"""
	checkpoint = torch.load(path, map_location=self.device)
	self.reward_model.load_state_dict(checkpoint['model_state_dict'])
	self.optimizer.load_state_dict(checkpoint['optimizer_state_dict'])