File size: 7,437 Bytes

9b970dd

"""AAM Diffusion LLM — DAPO Training

Decoupled Clip & Dynamic Sampling Policy Optimization (Yu et al., 2025).
Four improvements over GRPO:
1. Decoupled Clip (asymmetric epsilon)
2. Dynamic Sampling (filter zero-variance groups)
3. Token-Level Policy Gradient Loss
4. Overlong Filtering
"""

from __future__ import annotations

import copy
import logging
from dataclasses import dataclass
from typing import Any, Callable, Dict, List, Optional, Tuple, Union

import torch
import torch.nn as nn
import torch.nn.functional as F

logger = logging.getLogger(__name__)


@dataclass
class DAPOConfig:
    clip_ratio_low: float = 0.2
    clip_ratio_high: float = 0.28
    dynamic_sampling: bool = True
    token_level_loss: bool = True
    overlong_filter: bool = True
    max_response_length: int = 2048
    num_responses_per_prompt: int = 8
    kl_coefficient: float = 0.1
    discount_factor: float = 1.0
    use_reward_normalization: bool = True
    use_advantage_normalization: bool = True
    learning_rate: float = 1e-6
    reference_model_freeze: bool = True
    entropy_coefficient: float = 0.01
    max_grad_norm: float = 1.0
    temperature: float = 0.7
    reward_shaping: str = "centered"

    def __post_init__(self) -> None:
        if self.clip_ratio_low <= 0:
            raise ValueError(f"clip_ratio_low must be positive, got {self.clip_ratio_low}")
        if self.clip_ratio_high <= 0:
            raise ValueError(f"clip_ratio_high must be positive, got {self.clip_ratio_high}")
        if self.num_responses_per_prompt < 2:
            raise ValueError(f"num_responses_per_prompt must be >= 2, got {self.num_responses_per_prompt}")


class DAPOTrainer:
    """DAPO Trainer for AAM Diffusion LLM."""

    def __init__(
        self,
        config: DAPOConfig,
        policy_model: nn.Module,
        reference_model: Optional[nn.Module] = None,
        reward_fn: Optional[Callable] = None,
        optimizer: Optional[torch.optim.Optimizer] = None,
    ) -> None:
        self.config = config
        self.policy_model = policy_model
        self.reward_fn = reward_fn

        if reference_model is not None:
            self.reference_model = reference_model
        elif config.kl_coefficient > 0:
            self.reference_model = copy.deepcopy(policy_model)
        else:
            self.reference_model = None

        if self.reference_model is not None and config.reference_model_freeze:
            for param in self.reference_model.parameters():
                param.requires_grad = False

        trainable_params = [p for p in policy_model.parameters() if p.requires_grad]
        self.optimizer = optimizer or torch.optim.AdamW(
            trainable_params, lr=config.learning_rate, betas=(0.9, 0.95), weight_decay=0.01,
        )

        self.device = next(policy_model.parameters()).device

    def compute_dapo_loss(
        self,
        log_probs: torch.Tensor,
        old_log_probs: torch.Tensor,
        ref_log_probs: torch.Tensor,
        rewards: torch.Tensor,
        attention_mask: torch.Tensor,
    ) -> Tuple[torch.Tensor, Dict[str, float]]:
        cfg = self.config

        log_ratio = log_probs - old_log_probs
        ratio = torch.exp(log_ratio)

        advantages = self._compute_advantages(rewards)
        advantages_expanded = advantages.unsqueeze(-1).expand_as(log_probs) if advantages.dim() == 1 else advantages

        clipped_ratio = torch.clamp(ratio, 1.0 - cfg.clip_ratio_low, 1.0 + cfg.clip_ratio_high)

        surr1 = ratio * advantages_expanded
        surr2 = clipped_ratio * advantages_expanded

        if cfg.token_level_loss:
            per_token_loss = -torch.min(surr1, surr2) * attention_mask
            num_valid_tokens = attention_mask.sum(dim=-1, keepdim=True).clamp(min=1)
            policy_loss = (per_token_loss.sum(dim=-1) / num_valid_tokens.squeeze(-1)).mean()
        else:
            per_token_loss = -torch.min(surr1, surr2) * attention_mask
            seq_loss = per_token_loss.sum(dim=-1) / attention_mask.sum(dim=-1).clamp(min=1)
            policy_loss = seq_loss.mean()

        kl_penalty = torch.tensor(0.0, device=log_probs.device)
        if ref_log_probs is not None and cfg.kl_coefficient > 0:
            kl_per_token = torch.exp(log_probs) * (log_probs - ref_log_probs) * attention_mask
            kl_penalty = cfg.kl_coefficient * (kl_per_token.sum(dim=-1) / attention_mask.sum(dim=-1).clamp(min=1)).mean()

        entropy = torch.tensor(0.0, device=log_probs.device)
        if cfg.entropy_coefficient > 0:
            per_token_entropy = -torch.exp(log_probs) * log_probs * attention_mask
            entropy = (per_token_entropy.sum(dim=-1) / attention_mask.sum(dim=-1).clamp(min=1)).mean()

        loss = policy_loss + kl_penalty - cfg.entropy_coefficient * entropy

        with torch.no_grad():
            metrics = {
                "dapo/policy_loss": policy_loss.item(),
                "dapo/kl_penalty": kl_penalty.item() if isinstance(kl_penalty, torch.Tensor) else kl_penalty,
                "dapo/entropy": entropy.item() if isinstance(entropy, torch.Tensor) else entropy,
                "dapo/loss": loss.item(),
                "dapo/mean_reward": rewards.mean().item(),
            }

        return loss, metrics

    def _compute_advantages(self, rewards: torch.Tensor) -> torch.Tensor:
        cfg = self.config
        if cfg.use_reward_normalization and rewards.numel() > 1:
            rewards = self._shape_rewards(rewards, cfg.reward_shaping)
        advantages = rewards.clone()
        if cfg.use_advantage_normalization and advantages.numel() > 1:
            adv_std = advantages.std()
            if adv_std > 1e-8:
                advantages = (advantages - advantages.mean()) / (adv_std + 1e-8)
        return advantages

    def _shape_rewards(self, rewards: torch.Tensor, strategy: str) -> torch.Tensor:
        if strategy == "raw":
            return rewards
        if strategy == "centered":
            return rewards - rewards.mean()
        if strategy == "rank_based":
            sorted_indices = rewards.argsort()
            ranks = torch.zeros_like(rewards, dtype=torch.float32)
            ranks[sorted_indices] = torch.arange(len(rewards), dtype=torch.float32, device=rewards.device) / max(len(rewards) - 1, 1)
            return 2.0 * ranks - 1.0
        return rewards

    def filter_prompts(
        self,
        prompts: List[str],
        responses: List[List[str]],
        rewards: torch.Tensor,
    ) -> Tuple[List[str], List[List[str]], torch.Tensor, Dict[str, int]]:
        if not self.config.dynamic_sampling:
            return prompts, responses, rewards, {"filtered": 0, "total": len(prompts)}

        if rewards.dim() == 1:
            has_variance = rewards > 1e-6
        else:
            reward_std_per_prompt = rewards.std(dim=-1)
            has_variance = reward_std_per_prompt > 1e-6

        valid_indices = has_variance.nonzero(as_tuple=True)[0]
        if len(valid_indices) == 0:
            return prompts, responses, rewards, {"filtered": len(prompts), "total": len(prompts)}

        filtered_prompts = [prompts[i] for i in valid_indices]
        filtered_responses = [responses[i] for i in valid_indices]
        filtered_rewards = rewards[valid_indices]
        num_filtered = len(prompts) - len(valid_indices)

        return filtered_prompts, filtered_responses, filtered_rewards, {"filtered": num_filtered, "total": len(prompts)}