Upload data/train-00000-of-00001.parquet with huggingface_hub

7cb972e about 1 month ago

35.4 kB

	# Tutorial 06: Reinforcement Learning from Human Feedback (RLHF)

	## Overview

	Reinforcement Learning from Human Feedback (RLHF) aligns language models with human preferences and values. This tutorial covers the complete RLHF pipeline using Nexuss Transformer Framework's native `RewardModel`, `PreferenceDataset`, and `RLHFPipeline` utilities.

	### What is RLHF?

	RLHF is a three-stage process:

	1. Supervised Fine-Tuning (SFT): Train on high-quality demonstrations
	2. Reward Modeling: Learn human preferences from comparisons
	3. Reinforcement Learning: Optimize policy using learned reward

	```
	┌─────────────────┐ ┌──────────────────┐ ┌─────────────────┐
	│ Pre-trained │────▶│ SFT Model │────▶│ RL Policy │
	│ Model │ │ (Instruction) │ │ (PPO) │
	└─────────────────┘ └──────────────────┘ └─────────────────┘
	│ │
	▼ ▼
	┌──────────────────┐ ┌─────────────────┐
	│ Reward Model │◀────│ Generate & │
	│ (Preferences) │ │ Score │
	└──────────────────┘ └─────────────────┘
	```

	### When to Use RLHF

	\| Scenario \| Recommendation \|
	\|----------\|---------------\|
	\| Need alignment with human values \| ✅ RLHF \|
	\| Reduce harmful outputs \| ✅ RLHF \|
	\| Improve helpfulness/honesty \| ✅ RLHF \|
	\| Simple task fine-tuning \| ❌ Use SFT only \|
	\| Limited annotation budget \| ❌ Use DPO/SimPO \|
	\| Need fast iteration \| ❌ Use DPO (simpler) \|

	---

	## Section 1: The NTF RLHF Pipeline

	### RLHF Workflow

	1. Supervised Fine-Tuning (SFT): Train on instruction-following data
	2. Reward Modeling: Train reward model on human preference data
	3. RL Optimization: Use PPO to optimize policy against reward model
	4. Evaluation: Assess alignment with human preferences

	NTF provides native components for each stage, ensuring consistency and reproducibility.

	### Complete RLHF Example with NTF

	```python
	from ntf.reward import RewardModel, PreferenceDataset, RLHFPipeline
	from ntf.models import ModelRegistry
	from ntf.config import RewardConfig

	# 1. Load base model
	registry = ModelRegistry(model_config)
	base_model, tokenizer = registry.load_model_and_tokenizer()

	# 2. Initialize NTF's RewardModel
	reward_config = RewardConfig(
	base_model_name="meta-llama/Llama-2-7b-hf",
	num_labels=1,
	pad_token_id=tokenizer.pad_token_id
	)
	reward_model = RewardModel(reward_config)
	reward_model.load_base_model(base_model)

	# 3. Load preference data with NTF utilities
	pref_dataset = PreferenceDataset(
	data_path="preferences.jsonl",
	tokenizer=tokenizer,
	max_length=512
	)

	# 4. Train reward model
	from ntf.reward.trainer import RewardTrainer
	reward_trainer = RewardTrainer(
	model=reward_model,
	dataset=pref_dataset,
	config=reward_config
	)
	reward_trainer.train()

	# 5. Use in RLHF pipeline
	pipeline = RLHFPipeline(
	policy_model=policy_model,
	reward_model=reward_model,
	reference_model=ref_model,
	tokenizer=tokenizer
	)

	pipeline.run_ppo(
	prompts=prompts,
	num_iterations=100,
	kl_coeff=0.2
	)
	```

	---

	## Section 2: Collecting Preference Data

	### Preference Data Format

	```jsonl
	# data/preference_data.jsonl
	{
	"prompt": "Write a poem about nature",
	"chosen": "Nature's beauty unfolds each day...",
	"rejected": "The natural world is nice...",
	"annotator_id": "worker_001",
	"rating_confidence": 0.9
	}

	{
	"prompt": "Explain quantum physics simply",
	"chosen": "Imagine tiny particles that can be in multiple states...",
	"rejected": "Quantum physics is the study of matter and energy...",
	"annotator_id": "worker_002",
	"rating_confidence": 0.85
	}
	```

	### Best Practices for Data Collection

	Quality Guidelines:
	- Clear preference criteria (helpfulness, honesty, harmlessness)
	- Multiple annotators per sample (3-5 recommended)
	- Resolve disagreements through adjudication
	- Include diverse prompt types

	Quantity Requirements:
	- Minimum: 1,000 preference pairs
	- Recommended: 10,000-50,000 pairs
	- High-quality > quantity

	### Data Augmentation for Preferences

	```python
	# scripts/augment_preferences.py
	import random
	from datasets import load_dataset

	def augment_preference_data(dataset, augmentation_factor=3):
	"""Augment preference data with variations"""

	augmented = []

	for sample in dataset:
	# Original
	augmented.append(sample)

	# Variation 1: Swap chosen/rejected with inverted labels
	if random.random() < 0.3: # Only sometimes to avoid bias
	augmented.append({
	'prompt': sample['prompt'],
	'chosen': sample['rejected'],
	'rejected': sample['chosen'],
	'annotator_id': f"{sample['annotator_id']}_swap"
	})

	# Variation 2: Paraphrase prompt
	if random.random() < 0.2:
	paraphrased_prompt = paraphrase(sample['prompt'])
	augmented.append({
	'prompt': paraphrased_prompt,
	'chosen': sample['chosen'],
	'rejected': sample['rejected'],
	'annotator_id': f"{sample['annotator_id']}_paraphrase"
	})

	# Add more variations as needed...

	return augmented

	def paraphrase(text):
	"""Simple paraphrasing (use LLM for better quality)"""
	# In practice, use an LLM to generate paraphrases
	synonyms = {
	'explain': 'describe',
	'write': 'compose',
	'what': 'which',
	'how': 'in what way'
	}

	words = text.split()
	paraphrased = [synonyms.get(word.lower(), word) for word in words]
	return ' '.join(paraphrased)

	# Usage
	raw_data = load_dataset('json', data_files='data/raw_preferences.jsonl', split='train')
	augmented_data = augment_preference_data(list(raw_data), augmentation_factor=2)

	# Save
	with open('data/augmented_preferences.jsonl', 'w') as f:
	for sample in augmented_data:
	f.write(json.dumps(sample) + '\n')
	```

	---

	## Section 2: Building the Reward Model

	### Reward Model Architecture

	The reward model takes a prompt-response pair and outputs a scalar score:

	```python
	# src/reward_model.py
	import torch
	import torch.nn as nn
	from transformers import AutoModelForSequenceClassification

	class RewardModel(nn.Module):
	def __init__(self, base_model_name, num_labels=1):
	super().__init__()

	# Load base model with classification head
	self.base_model = AutoModelForSequenceClassification.from_pretrained(
	base_model_name,
	num_labels=num_labels
	)

	# Get hidden size for custom head if needed
	config = self.base_model.config
	self.hidden_size = config.hidden_size

	def forward(self, input_ids, attention_mask=None, labels=None):
	"""
	Forward pass returning reward scores

	Args:
	input_ids: Token IDs [batch_size, seq_len]
	attention_mask: Attention mask [batch_size, seq_len]
	labels: Optional reward labels for training

	Returns:
	rewards: Scalar reward for each sample [batch_size]
	"""
	outputs = self.base_model(
	input_ids=input_ids,
	attention_mask=attention_mask,
	labels=labels
	)

	rewards = outputs.logits.squeeze(-1) # [batch_size]

	return {'rewards': rewards, 'loss': outputs.loss}

	def compute_reward(self, input_ids, attention_mask=None):
	"""Compute reward for generated sequences"""
	with torch.no_grad():
	outputs = self.forward(input_ids, attention_mask)
	return outputs['rewards']
	```

	### Training the Reward Model

	```yaml
	# configs/reward_model.yaml
	model:
	base_model: "meta-llama/Llama-2-7b-hf"
	model_type: "reward_model"

	data:
	preference_file: "data/preference_pairs.jsonl"
	max_seq_length: 512
	validation_split: 0.1

	training:
	learning_rate: 1.0e-5
	per_device_train_batch_size: 16
	gradient_accumulation_steps: 4
	num_train_epochs: 3

	# Reward model specific
	loss_type: "pairwise_ranking" # pairwise or regression
	margin: 0.1 # For pairwise ranking

	# Regularization
	weight_decay: 0.01
	max_grad_norm: 1.0

	fp16: true
	gradient_checkpointing: true

	output:
	output_dir: "outputs/reward_model_v1"
	run_name: "llama2-7b-reward-v1"
	```

	### Pairwise Ranking Loss Implementation

	```python
	# src/reward_trainer.py
	import torch
	import torch.nn.functional as F
	from transformers import Trainer

	class RewardTrainer(Trainer):
	def __init__(self, margin=0.1, **kwargs):
	super().__init__(**kwargs)
	self.margin = margin

	def compute_loss(self, model, inputs, return_outputs=False):
	"""
	Pairwise ranking loss for reward model

	L = -log(sigmoid(reward_chosen - reward_rejected - margin))
	"""

	# Prepare chosen and rejected inputs
	chosen_inputs = {
	'input_ids': inputs['chosen_input_ids'],
	'attention_mask': inputs['chosen_attention_mask']
	}

	rejected_inputs = {
	'input_ids': inputs['rejected_input_ids'],
	'attention_mask': inputs['rejected_attention_mask']
	}

	# Get rewards for both
	chosen_outputs = model(**chosen_inputs)
	rejected_outputs = model(**rejected_inputs)

	chosen_rewards = chosen_outputs['rewards'] # [batch_size]
	rejected_rewards = rejected_outputs['rewards'] # [batch_size]

	# Pairwise ranking loss
	# We want chosen_rewards > rejected_rewards
	diff = chosen_rewards - rejected_rewards
	loss = -F.logsigmoid(diff - self.margin).mean()

	# Calculate accuracy metric
	accuracy = (diff > 0).float().mean()

	metrics = {
	'loss': loss,
	'accuracy': accuracy,
	'chosen_reward_mean': chosen_rewards.mean(),
	'rejected_reward_mean': rejected_rewards.mean(),
	'reward_margin': diff.mean()
	}

	return (loss, metrics) if return_outputs else loss

	def log(self, logs):
	"""Enhanced logging for reward training"""
	if 'accuracy' in logs:
	print(f"Step {self.state.global_step}: "
	f"Accuracy: {logs['accuracy']:.3f}, "
	f"Loss: {logs['loss']:.4f}")
	super().log(logs)

	# Training script
	def train_reward_model():
	from transformers import AutoTokenizer

	# Load tokenizer
	tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Prepare dataset
	def preprocess(example):
	# Tokenize chosen
	chosen = tokenizer(
	example['prompt'] + example['chosen'],
	truncation=True,
	max_length=512,
	padding='max_length'
	)

	# Tokenize rejected
	rejected = tokenizer(
	example['prompt'] + example['rejected'],
	truncation=True,
	max_length=512,
	padding='max_length'
	)

	return {
	'chosen_input_ids': chosen['input_ids'],
	'chosen_attention_mask': chosen['attention_mask'],
	'rejected_input_ids': rejected['input_ids'],
	'rejected_attention_mask': rejected['attention_mask']
	}

	dataset = load_dataset('json', data_files='data/preference_pairs.jsonl', split='train')
	tokenized = dataset.map(preprocess, batched=True, remove_columns=dataset.column_names)

	# Split
	train_test = tokenized.train_test_split(test_size=0.1)

	# Initialize model
	model = RewardModel("meta-llama/Llama-2-7b-hf")

	# Training arguments
	training_args = TrainingArguments(
	output_dir="outputs/reward_model_v1",
	per_device_train_batch_size=16,
	gradient_accumulation_steps=4,
	learning_rate=1e-5,
	num_train_epochs=3,
	evaluation_strategy="steps",
	eval_steps=100,
	save_steps=500,
	logging_steps=50,
	fp16=True,
	gradient_checkpointing=True,
	)

	# Train
	trainer = RewardTrainer(
	model=model,
	args=training_args,
	train_dataset=train_test['train'],
	eval_dataset=train_test['test']
	)

	trainer.train()
	trainer.save_model("outputs/reward_model_v1")
	tokenizer.save_pretrained("outputs/reward_model_v1")
	```

	### Evaluating Reward Model

	```python
	# scripts/evaluate_reward_model.py
	import torch
	from transformers import AutoTokenizer
	from src.reward_model import RewardModel

	def evaluate_reward_model(model_path, test_examples):
	"""Evaluate reward model on held-out test set"""

	model = RewardModel.from_pretrained(model_path)
	tokenizer = AutoTokenizer.from_pretrained(model_path)
	model.eval()

	correct = 0
	total = 0

	for example in test_examples:
	# Tokenize chosen and rejected
	chosen_text = example['prompt'] + example['chosen']
	rejected_text = example['prompt'] + example['rejected']

	chosen_inputs = tokenizer(chosen_text, return_tensors='pt', truncation=True, max_length=512)
	rejected_inputs = tokenizer(rejected_text, return_tensors='pt', truncation=True, max_length=512)

	# Get rewards
	with torch.no_grad():
	chosen_reward = model.compute_reward(**chosen_inputs).item()
	rejected_reward = model.compute_reward(**rejected_inputs).item()

	# Check if model correctly prefers chosen
	if chosen_reward > rejected_reward:
	correct += 1
	total += 1

	accuracy = correct / total
	print(f"Reward Model Accuracy: {accuracy:.3f} ({correct}/{total})")

	return accuracy

	# Example usage
	test_data = load_dataset('json', data_files='data/test_preferences.jsonl', split='train')
	accuracy = evaluate_reward_model("outputs/reward_model_v1", list(test_data))
	```

	---

	## Section 3: PPO Training Loop

	### Understanding PPO for Language Models

	Proximal Policy Optimization (PPO) optimizes the policy to maximize reward while staying close to the reference model:

	Objective:
	```
	L_PPO = E[min(r_t * A_t, clip(r_t, 1-ε, 1+ε) * A_t)]
	```

	Where:
	- `r_t = π_new(a\|s) / π_old(a\|s)` (probability ratio)
	- `A_t` = Advantage estimate
	- `ε` = clipping parameter (typically 0.2)

	### PPO Configuration

	```yaml
	# configs/ppo_training.yaml
	policy:
	model: "outputs/sft_model_v1" # Start from SFT model
	ref_model: "outputs/sft_model_v1" # Reference model (frozen)

	reward:
	model: "outputs/reward_model_v1"
	kl_coeff: 0.1 # KL penalty coefficient

	data:
	prompts_file: "data/ppo_prompts.jsonl"
	max_prompt_length: 256
	max_response_length: 256

	training:
	# PPO-specific
	ppo_epochs: 4
	mini_batch_size: 4
	ppo_clip_range: 0.2
	vf_clip_range: 0.2
	gamma: 1.0
	lam: 0.95 # GAE lambda

	# Generation
	num_rollouts: 128
	temperature: 1.0
	top_k: 0
	top_p: 0.9

	# Optimization
	learning_rate: 1.0e-6
	gradient_accumulation_steps: 4

	# KL control
	init_kl_coeff: 0.1
	target_kl: 6.0 # Adaptive KL target

	fp16: true

	output:
	output_dir: "outputs/rlhf_policy_v1"
	run_name: "llama2-7b-rlhf-ppo"
	```

	### PPO Trainer Implementation

	```python
	# src/ppo_trainer.py
	import torch
	import torch.nn.functional as F
	from typing import Dict, List, Optional
	from transformers import AutoModelForCausalLM, AutoTokenizer

	class PPOTrainer:
	def __init__(
	self,
	policy_model,
	ref_model,
	reward_model,
	tokenizer,
	config
	):
	self.policy = policy_model
	self.ref_model = ref_model
	self.reward_model = reward_model
	self.tokenizer = tokenizer
	self.config = config

	# Freeze reference model
	for param in self.ref_model.parameters():
	param.requires_grad = False

	# KL coefficient
	self.kl_coeff = config.kl_coeff

	def generate_rollouts(self, prompts, num_samples_per_prompt=1):
	"""Generate responses from current policy"""

	all_responses = []
	all_log_probs = []

	for prompt in prompts:
	# Tokenize prompt
	inputs = self.tokenizer(
	prompt,
	return_tensors='pt',
	truncation=True,
	max_length=self.config.max_prompt_length
	).to(self.policy.device)

	# Generate response
	with torch.no_grad():
	outputs = self.policy.generate(
	**inputs,
	max_new_tokens=self.config.max_response_length,
	do_sample=True,
	temperature=self.config.temperature,
	top_p=self.config.top_p,
	pad_token_id=self.tokenizer.eos_token_id,
	return_dict_in_generate=True,
	output_scores=True
	)

	# Extract generated tokens and log probs
	generated_ids = outputs.sequences[0, inputs['input_ids'].shape[1]:]
	log_probs = self._extract_log_probs(outputs.scores, generated_ids)

	all_responses.append(generated_ids)
	all_log_probs.append(log_probs)

	return all_responses, all_log_probs

	def compute_rewards(self, prompts, responses):
	"""Compute rewards including KL penalty"""

	rewards = []

	for prompt, response in zip(prompts, responses):
	# Concatenate prompt + response
	full_text = prompt + self.tokenizer.decode(response, skip_special_tokens=True)
	inputs = self.tokenizer(full_text, return_tensors='pt').to(self.policy.device)

	# Get reward from reward model
	with torch.no_grad():
	reward = self.reward_model.compute_reward(**inputs).item()

	# Compute KL divergence from reference model
	kl_div = self._compute_kl_divergence(prompt, response)

	# Final reward with KL penalty
	final_reward = reward - self.kl_coeff * kl_div

	rewards.append(final_reward)

	return torch.tensor(rewards)

	def _compute_kl_divergence(self, prompt, response):
	"""Compute KL divergence between policy and reference"""

	# Get log probs from both models
	full_text = prompt + self.tokenizer.decode(response, skip_special_tokens=True)
	inputs = self.tokenizer(full_text, return_tensors='pt').to(self.policy.device)

	with torch.no_grad():
	policy_logits = self.policy(**inputs).logits
	ref_logits = self.ref_model(**inputs).logits

	policy_log_probs = F.log_softmax(policy_logits, dim=-1)
	ref_log_probs = F.log_softmax(ref_logits, dim=-1)

	# KL divergence
	kl = (ref_log_probs - policy_log_probs).exp() * (ref_log_probs - policy_log_probs)
	kl = kl.sum(dim=-1).mean()

	return kl.item()

	def ppo_update(self, rollouts, advantages):
	"""Perform PPO update on collected rollouts"""

	total_loss = 0

	for epoch in range(self.config.ppo_epochs):
	for minibatch in self._get_minibatches(rollouts, self.config.mini_batch_size):

	# Compute probability ratios
	old_log_probs = minibatch['old_log_probs']
	new_log_probs = self._get_new_log_probs(minibatch)

	ratio = (new_log_probs - old_log_probs).exp()

	# Clipped surrogate objective
	surr1 = ratio * advantages
	surr2 = torch.clamp(ratio, 1-self.config.ppo_clip_range,
	1+self.config.ppo_clip_range) * advantages

	policy_loss = -torch.min(surr1, surr2).mean()

	# Value function loss
	value_loss = self._compute_value_loss(minibatch)

	# Entropy bonus (encourages exploration)
	entropy = self._compute_entropy(minibatch)

	# Total loss
	loss = policy_loss + 0.5 * value_loss - 0.01 * entropy

	# Backward pass
	loss.backward()
	torch.nn.utils.clip_grad_norm_(
	self.policy.parameters(),
	self.config.max_grad_norm
	)

	# Optimizer step
	self.optimizer.step()
	self.optimizer.zero_grad()

	total_loss += loss.item()

	return total_loss / (self.config.ppo_epochs * len(rollouts))

	def train(self, prompts, num_iterations=100):
	"""Main PPO training loop"""

	for iteration in range(num_iterations):
	print(f"\n=== Iteration {iteration + 1}/{num_iterations} ===")

	# 1. Generate rollouts
	responses, log_probs = self.generate_rollouts(prompts)

	# 2. Compute rewards
	rewards = self.compute_rewards(prompts, responses)

	# 3. Compute advantages (GAE)
	advantages = self._compute_gae(rewards, log_probs)

	# 4. PPO update
	rollouts = {
	'responses': responses,
	'log_probs': log_probs,
	'rewards': rewards
	}
	loss = self.ppo_update(rollouts, advantages)

	# 5. Logging
	print(f"Iteration {iteration + 1}:")
	print(f" Mean Reward: {rewards.mean().item():.3f}")
	print(f" KL Divergence: {self._compute_mean_kl():.4f}")
	print(f" PPO Loss: {loss:.4f}")

	# 6. Adaptive KL coefficient
	self._update_kl_coeff()

	# 7. Save checkpoint
	if (iteration + 1) % 10 == 0:
	self.save_checkpoint(f"checkpoint_{iteration + 1}")

	def save_checkpoint(self, path):
	"""Save model checkpoint"""
	self.policy.save_pretrained(path)
	self.tokenizer.save_pretrained(path)
	print(f"✓ Checkpoint saved to {path}")
	```

	### Complete RLHF Pipeline

	```python
	# scripts/run_rlhf_pipeline.py
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from src.reward_model import RewardModel
	from src.ppo_trainer import PPOTrainer
	import yaml

	def run_complete_rlhf():
	# Load configuration
	with open('configs/ppo_training.yaml', 'r') as f:
	config = yaml.safe_load(f)

	print("=" * 80)
	print("STARTING COMPLETE RLHF PIPELINE")
	print("=" * 80)

	# Step 1: Load SFT model (already trained)
	print("\n[1/4] Loading SFT model...")
	policy_model = AutoModelForCausalLM.from_pretrained(
	config['policy']['model'],
	torch_dtype=torch.float16,
	device_map="auto"
	)

	ref_model = AutoModelForCausalLM.from_pretrained(
	config['policy']['ref_model'],
	torch_dtype=torch.float16,
	device_map="auto"
	)

	tokenizer = AutoTokenizer.from_pretrained(config['policy']['model'])
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	print(f"✓ Loaded policy model from {config['policy']['model']}")

	# Step 2: Load reward model
	print("\n[2/4] Loading reward model...")
	reward_model = RewardModel.from_pretrained(
	config['reward']['model'],
	torch_dtype=torch.float16,
	device_map="auto"
	)
	reward_model.eval()
	print(f"✓ Loaded reward model from {config['reward']['model']}")

	# Step 3: Load prompts for RLHF
	print("\n[3/4] Loading prompts...")
	prompts = load_prompts(config['data']['prompts_file'])
	print(f"✓ Loaded {len(prompts)} prompts")

	# Step 4: Initialize PPO trainer
	print("\n[4/4] Initializing PPO trainer...")
	trainer = PPOTrainer(
	policy_model=policy_model,
	ref_model=ref_model,
	reward_model=reward_model,
	tokenizer=tokenizer,
	config=config['training']
	)

	# Step 5: Run PPO training
	print("\n" + "=" * 80)
	print("STARTING PPO TRAINING")
	print("=" * 80)

	trainer.train(
	prompts=prompts,
	num_iterations=config['training']['num_iterations']
	)

	# Step 6: Save final model
	print("\n" + "=" * 80)
	print("SAVING FINAL MODEL")
	print("=" * 80)

	trainer.save_checkpoint(config['output']['output_dir'])
	print(f"\n✓ RLHF complete! Model saved to {config['output']['output_dir']}")

	if __name__ == "__main__":
	run_complete_rlhf()
	```

	---

	## Section 4: Monitoring and Debugging RLHF

	### Key Metrics to Track

	```python
	# src/rlhf_monitor.py
	class RLHFMonitor:
	def __init__(self):
	self.metrics_history = {
	'rewards': [],
	'kl_divergence': [],
	'policy_loss': [],
	'value_loss': [],
	'entropy': [],
	'generation_length': []
	}

	def log_iteration(self, iteration, metrics):
	"""Log metrics for each iteration"""

	for key in self.metrics_history:
	if key in metrics:
	self.metrics_history[key].append({
	'iteration': iteration,
	'value': metrics[key]
	})

	# Print summary
	print(f"\nIteration {iteration}:")
	print(f" Reward: {metrics.get('reward', 0):.3f}")
	print(f" KL Div: {metrics.get('kl_divergence', 0):.4f}")
	print(f" Policy Loss: {metrics.get('policy_loss', 0):.4f}")
	print(f" Entropy: {metrics.get('entropy', 0):.4f}")

	def check_for_issues(self, metrics):
	"""Detect common RLHF issues"""
	issues = []

	# KL divergence too high
	if metrics.get('kl_divergence', 0) > 10.0:
	issues.append("⚠️ High KL divergence - policy drifting too far")

	# Reward hacking (high reward but low quality)
	if metrics.get('reward', 0) > 5.0 and metrics.get('kl_divergence', 0) > 5.0:
	issues.append("⚠️ Possible reward hacking detected")

	# Collapsing entropy
	if metrics.get('entropy', 0) < 0.1:
	issues.append("⚠️ Low entropy - policy may be collapsing")

	# Negative rewards
	if metrics.get('reward', 0) < 0:
	issues.append("⚠️ Negative rewards - check reward model")

	return issues

	# Usage in training loop
	monitor = RLHFMonitor()

	for iteration in range(num_iterations):
	# ... training code ...

	metrics = {
	'reward': rewards.mean().item(),
	'kl_divergence': kl_div,
	'policy_loss': loss,
	'entropy': entropy.item()
	}

	monitor.log_iteration(iteration, metrics)

	issues = monitor.check_for_issues(metrics)
	for issue in issues:
	print(issue)
	```

	### Common RLHF Issues and Solutions

	#### Issue 1: KL Divergence Too High

	Symptoms:
	- KL > 10 nats
	- Generated text becomes nonsensical
	- Reward increases but quality decreases

	Solutions:
	```yaml
	# Increase KL penalty
	kl_coeff: 0.2 # Increase from 0.1

	# Use adaptive KL
	target_kl: 6.0
	adaptive_kl: true

	# Lower learning rate
	learning_rate: 5.0e-7 # Reduce from 1e-6
	```

	#### Issue 2: Reward Hacking

	Symptoms:
	- Rewards increase rapidly
	- Generated text exploits reward model quirks
	- Human evaluators rate outputs poorly

	Solutions:
	```yaml
	# Stronger KL penalty
	kl_coeff: 0.5

	# Better reward model
	# Retrain with more diverse examples
	# Add adversarial examples

	# Limit generation length
	max_response_length: 128 # Prevent verbose exploitation

	# Ensemble reward models
	# Use multiple reward models and average
	```

	#### Issue 3: Policy Collapse

	Symptoms:
	- Entropy drops to near zero
	- Model generates same response repeatedly
	- No diversity in outputs

	Solutions:
	```yaml
	# Add entropy bonus
	entropy_coefficient: 0.05 # Increase exploration

	# Lower KL penalty temporarily
	kl_coeff: 0.05

	# Restart from earlier checkpoint
	# Reduce learning rate
	learning_rate: 5.0e-7
	```

	---

	## Section 5: Evaluation After RLHF

	### Comprehensive Evaluation Suite

	```python
	# scripts/evaluate_rlhf.py
	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer

	class RLHFEvaluator:
	def __init__(self, model_path, baseline_path=None):
	self.model = AutoModelForCausalLM.from_pretrained(
	model_path,
	torch_dtype=torch.float16,
	device_map="auto"
	)
	self.tokenizer = AutoTokenizer.from_pretrained(model_path)

	if baseline_path:
	self.baseline = AutoModelForCausalLM.from_pretrained(
	baseline_path,
	torch_dtype=torch.float16,
	device_map="auto"
	)
	else:
	self.baseline = None

	def evaluate_helpfulness(self, test_prompts):
	"""Evaluate helpfulness on standard benchmarks"""

	results = []

	for prompt in test_prompts:
	response = self.generate(prompt, max_new_tokens=256)

	# Rate helpfulness (in practice, use human eval or LLM judge)
	helpfulness_score = self._rate_helpfulness(prompt, response)

	results.append({
	'prompt': prompt,
	'response': response,
	'helpfulness': helpfulness_score
	})

	avg_helpfulness = sum(r['helpfulness'] for r in results) / len(results)
	return {'avg_helpfulness': avg_helpfulness, 'samples': results}

	def evaluate_safety(self, safety_prompts):
	"""Evaluate safety on adversarial prompts"""

	safe_count = 0

	for prompt in safety_prompts:
	response = self.generate(prompt, max_new_tokens=256)

	# Check for harmful content
	is_safe = self._check_safety(response)

	if is_safe:
	safe_count += 1

	safety_rate = safe_count / len(safety_prompts)
	return {'safety_rate': safety_rate}

	def compare_with_baseline(self, comparison_prompts):
	"""Compare RLHF model with baseline"""

	wins = 0
	losses = 0
	ties = 0

	for prompt in comparison_prompts:
	rlhf_response = self.generate(prompt)
	baseline_response = self.generate(prompt, model=self.baseline)

	# Compare (use human eval or LLM judge)
	result = self._compare_responses(rlhf_response, baseline_response)

	if result == 'rlhf_wins':
	wins += 1
	elif result == 'baseline_wins':
	losses += 1
	else:
	ties += 1

	return {
	'wins': wins,
	'losses': losses,
	'ties': ties,
	'win_rate': wins / len(comparison_prompts)
	}

	def generate(self, prompt, max_new_tokens=256, model=None):
	"""Generate response"""
	if model is None:
	model = self.model

	inputs = self.tokenizer(prompt, return_tensors='pt').to(model.device)

	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=max_new_tokens,
	do_sample=True,
	temperature=0.7,
	top_p=0.9,
	pad_token_id=self.tokenizer.eos_token_id
	)

	return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

	def _rate_helpfulness(self, prompt, response):
	"""Rate helpfulness (placeholder - use LLM judge in practice)"""
	# In production, use trained judge or human evaluation
	return 0.8 # Placeholder

	def _check_safety(self, response):
	"""Check if response is safe"""
	# In production, use safety classifier
	harmful_keywords = ['hate', 'violence', 'illegal']
	return not any(word in response.lower() for word in harmful_keywords)

	def _compare_responses(self, response1, response2):
	"""Compare two responses"""
	# In production, use pairwise comparison
	return 'rlhf_wins' # Placeholder

	# Usage
	evaluator = RLHFEvaluator(
	model_path="outputs/rlhf_policy_v1",
	baseline_path="outputs/sft_model_v1"
	)

	# Evaluate
	helpfulness = evaluator.evaluate_helpfulness(test_prompts)
	safety = evaluator.evaluate_safety(safety_prompts)
	comparison = evaluator.compare_with_baseline(eval_prompts)

	print(f"Helpfulness: {helpfulness['avg_helpfulness']:.3f}")
	print(f"Safety: {safety['safety_rate']:.3f}")
	print(f"Win Rate vs Baseline: {comparison['win_rate']:.3f}")
	```

	---

	## Summary

	RLHF pipeline consists of:

	1. Collect preference data: High-quality human comparisons
	2. Train reward model: Learn to predict human preferences
	3. PPO training: Optimize policy with reward + KL constraint
	4. Evaluate: Comprehensive testing for helpfulness and safety

	### RLHF vs Alternatives

	\| Method \| Complexity \| Data Needed \| Performance \| Best For \|
	\|--------\|-----------\|-------------\|-------------\|----------\|
	\| SFT only \| Low \| Demonstrations \| Good \| Basic tasks \|
	\| RLHF (PPO) \| High \| Preferences \| Best \| Production alignment \|
	\| DPO \| Medium \| Preferences \| Very Good \| Fast iteration \|
	\| SimPO \| Medium \| Preferences \| Very Good \| Resource-constrained \|

	---

	## Exercises

	### Beginner
	1. Train reward model on 1000 preference pairs
	2. Evaluate reward model accuracy
	3. Generate samples and manually inspect quality

	### Intermediate
	1. Implement complete PPO training loop
	2. Tune KL coefficient for stable training
	3. Compare RLHF vs SFT-only on evaluation set

	### Advanced
	1. Implement adaptive KL coefficient
	2. Build ensemble of reward models
	3. Deploy RLHF model with monitoring
	4. Experiment with different PPO hyperparameters

	---

	## Next Steps

	- Tutorial 07: Advanced Reward Modeling Techniques
	- Tutorial 08: Continual Learning and Catastrophic Forgetting
	- Tutorial 09: Production Deployment and Scaling
	- Tutorial 10: Multi-Modal Training and Extensions