File size: 17,629 Bytes

6ddf8d6

"""
Adafactor Optimizer for BitTransformerLM Extensions
===================================================

Implementation of the Adafactor optimizer with memory-efficient factorization.
Based on "Adafactor: Adaptive Learning Rates with Sublinear Memory Cost" research.

Key features:
- Factorized second moment estimates for memory efficiency
- Automatic scaling of learning rates
- Relative step size and clip threshold
- Compatible with BitTransformerLM's training infrastructure
"""

import math
import torch
from torch.optim.optimizer import Optimizer
from typing import Any, Dict, List, Optional, Tuple, Union


class Adafactor(Optimizer):
    """
    Adafactor optimizer implementation.
    
    Adafactor reduces memory usage by factorizing the second moment estimates
    for parameters with 2 or more dimensions, making it highly memory efficient
    for large transformer models.
    
    Args:
        params: Iterable of parameters to optimize
        lr: External learning rate (default: None, uses automatic scaling)
        eps2: Regularization constant for second moment (default: 1e-30)
        cliping_threshold: Threshold for adaptive clipping (default: 1.0)
        decay_rate: Coefficient used for computing running averages (default: -0.8)
        beta1: Coefficient used for computing running averages of gradient (default: None)
        weight_decay: Weight decay coefficient (default: 0.0)
        scale_parameter: If True, learning rate is scaled by root mean square of parameter (default: True)
        relative_step_size: If True, use relative step size (default: True)
        warmup_init: If True, warmup learning rate (default: False)
    """
    
    def __init__(
        self,
        params,
        lr: Optional[float] = None,
        eps2: float = 1e-30,
        cliping_threshold: float = 1.0,
        decay_rate: float = -0.8,
        beta1: Optional[float] = None,
        weight_decay: float = 0.0,
        scale_parameter: bool = True,
        relative_step_size: bool = True,
        warmup_init: bool = False,
    ):
        if lr is not None and lr <= 0.0:
            raise ValueError(f"Invalid learning rate: {lr}")
        if weight_decay < 0.0:
            raise ValueError(f"Invalid weight_decay value: {weight_decay}")
            
        defaults = dict(
            lr=lr,
            eps2=eps2,
            cliping_threshold=cliping_threshold,
            decay_rate=decay_rate,
            beta1=beta1,
            weight_decay=weight_decay,
            scale_parameter=scale_parameter,
            relative_step_size=relative_step_size,
            warmup_init=warmup_init,
        )
        super().__init__(params, defaults)
    
    def _get_lr(self, param_group, param_state):
        """Compute learning rate for parameter group."""
        min_step = 1e-6 * param_state["step"] if param_group["warmup_init"] else 1e-2
        rel_step_sz = min(min_step, 1.0 / math.sqrt(param_state["step"]))
        param_scale = 1.0
        if param_group["scale_parameter"]:
            param_scale = max(param_group["eps2"], param_state["RMS"])
        return param_scale * rel_step_sz
    
    def _get_options(self, param_group, param_shape):
        """Get optimization options for parameter."""
        factored = len(param_shape) >= 2
        use_first_moment = param_group["beta1"] is not None
        return factored, use_first_moment
    
    def _rms(self, tensor):
        """Root mean square."""
        return tensor.norm(2) / (tensor.numel() ** 0.5)
    
    def _approx_sq_grad(self, exp_avg_sq_row, exp_avg_sq_col):
        """Approximation of exponential moving average of square of gradient."""
        r_factor = ((exp_avg_sq_row / exp_avg_sq_row.mean(dim=-1, keepdim=True))
                   .rsqrt_())
        c_factor = ((exp_avg_sq_col).rsqrt())
        return torch.mul(r_factor.unsqueeze(-1), c_factor.unsqueeze(0))
    
    @torch.no_grad()
    def step(self, closure=None):
        """Perform a single optimization step."""
        loss = None
        if closure is not None:
            with torch.enable_grad():
                loss = closure()
                
        for group in self.param_groups:
            for p in group["params"]:
                if p.grad is None:
                    continue
                    
                grad = p.grad
                if grad.dtype in {torch.float16, torch.bfloat16}:
                    grad = grad.float()
                    
                state = self.state[p]
                grad_shape = grad.shape
                
                factored, use_first_moment = self._get_options(group, grad_shape)
                
                # State Initialization
                if len(state) == 0:
                    state["step"] = 0
                    
                    if use_first_moment:
                        # Exponential moving average of gradient values
                        state["exp_avg"] = torch.zeros_like(grad).float()
                    if factored:
                        state["exp_avg_sq_row"] = torch.zeros(grad_shape[:-1]).float()
                        state["exp_avg_sq_col"] = torch.zeros(
                            grad_shape[:-2] + grad_shape[-1:]).float()
                    else:
                        state["exp_avg_sq"] = torch.zeros_like(grad).float()
                        
                    state["RMS"] = 0
                    
                p_data_fp32 = p.data
                if p.data.dtype in {torch.float16, torch.bfloat16}:
                    p_data_fp32 = p_data_fp32.float()
                    
                state["step"] += 1
                state["RMS"] = self._rms(p_data_fp32)
                
                lr = group["lr"]
                if group["lr"] is None:
                    lr = self._get_lr(group, state)
                    
                beta2t = 1.0 - math.pow(state["step"], group["decay_rate"])
                update = grad**2 + group["eps2"]
                
                if factored:
                    exp_avg_sq_row = state["exp_avg_sq_row"]
                    exp_avg_sq_col = state["exp_avg_sq_col"]
                    
                    exp_avg_sq_row.mul_(beta2t).add_(
                        update.mean(dim=-1), alpha=1.0 - beta2t)
                    exp_avg_sq_col.mul_(beta2t).add_(
                        update.mean(dim=-2), alpha=1.0 - beta2t)
                    
                    update = self._approx_sq_grad(exp_avg_sq_row, exp_avg_sq_col)
                    update.mul_(grad)
                else:
                    exp_avg_sq = state["exp_avg_sq"]
                    exp_avg_sq.mul_(beta2t).add_(update, alpha=1.0 - beta2t)
                    update = exp_avg_sq.rsqrt().mul_(grad)
                
                update.div_(max(1.0, self._rms(update) / group["cliping_threshold"]))
                
                if use_first_moment:
                    exp_avg = state["exp_avg"]
                    exp_avg.mul_(group["beta1"]).add_(update, alpha=1 - group["beta1"])
                    update = exp_avg
                
                if group["weight_decay"] != 0:
                    p_data_fp32.mul_(1 - group["weight_decay"] * lr)
                
                p_data_fp32.add_(update, alpha=-lr)
                
                if p.data.dtype in {torch.float16, torch.bfloat16}:
                    p.data.copy_(p_data_fp32)
                    
        return loss


def configure_adafactor_optimizer(
    model: torch.nn.Module,
    lr: Optional[float] = None,
    weight_decay: float = 0.0,
    total_steps: Optional[int] = None,
    warmup_ratio: float = 0.1,
    scale_parameter: bool = True,
    relative_step_size: bool = True,
    warmup_init: bool = False,
    cliping_threshold: float = 1.0,
    decay_rate: float = -0.8,
    beta1: Optional[float] = None,
    eps2: float = 1e-30,
    **adafactor_kwargs
) -> Tuple[Adafactor, Optional[torch.optim.lr_scheduler._LRScheduler]]:
    """
    Configure Adafactor optimizer with optional learning rate scheduling.
    
    This function provides a drop-in replacement for BitTransformerLM's
    configure_optimizer function, using Adafactor instead of AdamW.
    
    Args:
        model: PyTorch model to optimize
        lr: External learning rate (None for automatic scaling)
        weight_decay: Weight decay coefficient
        total_steps: Total training steps for scheduling
        warmup_ratio: Fraction of steps for warmup
        scale_parameter: Whether to scale learning rate by parameter RMS
        relative_step_size: Whether to use relative step size
        warmup_init: Whether to use warmup initialization
        cliping_threshold: Threshold for adaptive clipping
        decay_rate: Decay rate for second moment estimates
        beta1: Coefficient for first moment (None to disable)
        eps2: Regularization constant
        **adafactor_kwargs: Additional arguments for Adafactor
        
    Returns:
        Tuple of (optimizer, scheduler)
    """
    # Adafactor can handle all parameters in one group efficiently
    params = [p for p in model.parameters() if p.requires_grad]
    
    optimizer = Adafactor(
        params,
        lr=lr,
        weight_decay=weight_decay,
        scale_parameter=scale_parameter,
        relative_step_size=relative_step_size,
        warmup_init=warmup_init,
        cliping_threshold=cliping_threshold,
        decay_rate=decay_rate,
        beta1=beta1,
        eps2=eps2,
        **adafactor_kwargs
    )
    
    scheduler = None
    # Adafactor has built-in learning rate scaling, but we can still use OneCycle
    if total_steps is not None and total_steps > 0 and lr is not None:
        scheduler = torch.optim.lr_scheduler.OneCycleLR(
            optimizer,
            max_lr=lr,
            total_steps=total_steps,
            pct_start=warmup_ratio,
            anneal_strategy='cos',
            cycle_momentum=False,  # Adafactor doesn't use momentum cycling
            div_factor=25.0,
            final_div_factor=1e4,
        )
    
    return optimizer, scheduler


class AdafactorScheduler(torch.optim.lr_scheduler._LRScheduler):
    """
    Custom scheduler for Adafactor with warmup and polynomial decay.
    
    This scheduler is specifically designed to work with Adafactor's
    relative step size feature.
    """
    
    def __init__(
        self,
        optimizer: Adafactor,
        warmup_steps: int = 1000,
        total_steps: Optional[int] = None,
        min_lr_ratio: float = 0.1,
        polynomial_power: float = 1.0,
        last_epoch: int = -1,
    ):
        self.warmup_steps = warmup_steps
        self.total_steps = total_steps
        self.min_lr_ratio = min_lr_ratio
        self.polynomial_power = polynomial_power
        super().__init__(optimizer, last_epoch)
    
    def get_lr(self):
        step = self.last_epoch + 1
        
        if step < self.warmup_steps:
            # Linear warmup
            return [base_lr * step / self.warmup_steps for base_lr in self.base_lrs]
        
        if self.total_steps is None:
            # No decay after warmup
            return self.base_lrs
        
        # Polynomial decay
        progress = (step - self.warmup_steps) / (self.total_steps - self.warmup_steps)
        progress = min(progress, 1.0)
        decay_factor = (1 - progress) ** self.polynomial_power
        decay_factor = max(decay_factor, self.min_lr_ratio)
        
        return [base_lr * decay_factor for base_lr in self.base_lrs]


def configure_adafactor_with_scheduler(
    model: torch.nn.Module,
    lr: float = 1e-3,
    warmup_steps: int = 1000,
    total_steps: Optional[int] = None,
    weight_decay: float = 0.0,
    **kwargs
) -> Tuple[Adafactor, AdafactorScheduler]:
    """
    Configure Adafactor optimizer with custom Adafactor scheduler.
    
    Args:
        model: PyTorch model to optimize
        lr: Base learning rate
        warmup_steps: Number of warmup steps
        total_steps: Total training steps
        weight_decay: Weight decay coefficient
        **kwargs: Additional arguments for Adafactor
        
    Returns:
        Tuple of (optimizer, scheduler)
    """
    params = [p for p in model.parameters() if p.requires_grad]
    
    optimizer = Adafactor(
        params,
        lr=lr,
        weight_decay=weight_decay,
        relative_step_size=False,  # We'll use external scheduler
        **kwargs
    )
    
    scheduler = AdafactorScheduler(
        optimizer,
        warmup_steps=warmup_steps,
        total_steps=total_steps,
    )
    
    return optimizer, scheduler


def create_adafactor_training_config(
    lr: Optional[float] = None,
    weight_decay: float = 0.0,
    scale_parameter: bool = True,
    relative_step_size: bool = True,
    warmup_init: bool = False,
    **kwargs
) -> Dict[str, Any]:
    """
    Create a training configuration dictionary for Adafactor optimizer.
    
    Args:
        lr: External learning rate (None for automatic)
        weight_decay: Weight decay coefficient
        scale_parameter: Whether to scale by parameter RMS
        relative_step_size: Whether to use relative step size
        warmup_init: Whether to use warmup initialization
        **kwargs: Additional configuration options
        
    Returns:
        Dictionary containing training configuration
    """
    config = {
        "optimizer_type": "adafactor",
        "optimizer_config": {
            "lr": lr,
            "weight_decay": weight_decay,
            "scale_parameter": scale_parameter,
            "relative_step_size": relative_step_size,
            "warmup_init": warmup_init,
            **kwargs
        },
        "scheduler_type": "adafactor_custom" if lr is None else "onecycle",
    }
    
    return config


# Example usage and integration helpers
def integrate_with_bittransformerlm():
    """
    Example of how to integrate Adafactor optimizer with BitTransformerLM training.
    
    Usage:
        from BTLM_Extensions.adafactor_optimizer import configure_adafactor_optimizer
        
        # Option 1: Use Adafactor with automatic learning rate scaling
        optimizer, scheduler = configure_adafactor_optimizer(
            model, lr=None, total_steps=1000  # lr=None enables auto-scaling
        )
        
        # Option 2: Use Adafactor with fixed learning rate
        optimizer, scheduler = configure_adafactor_optimizer(
            model, lr=1e-3, total_steps=1000
        )
        
        # Option 3: Use Adafactor with custom scheduler
        from BTLM_Extensions.adafactor_optimizer import configure_adafactor_with_scheduler
        
        optimizer, scheduler = configure_adafactor_with_scheduler(
            model, lr=1e-3, warmup_steps=100, total_steps=1000
        )
        
        # Use in training loop
        train_loop(model, data, optimizer=optimizer, scheduler=scheduler)
    """
    pass


def analyze_memory_usage(model: torch.nn.Module) -> Dict[str, float]:
    """
    Analyze memory usage comparison between optimizers.
    
    Args:
        model: PyTorch model to analyze
        
    Returns:
        Dictionary with memory usage estimates in MB
    """
    param_count = sum(p.numel() for p in model.parameters() if p.requires_grad)
    param_bytes = param_count * 4  # Assume float32
    
    # AdamW memory: parameters + gradients + 2 momentum states
    adamw_memory = param_bytes * 4
    
    # Adafactor memory estimation
    adafactor_memory = param_bytes  # parameters
    adafactor_memory += param_bytes  # gradients
    
    # For factored parameters (2D), Adafactor stores row and column means
    factored_params = 0
    unfactored_params = 0
    
    for p in model.parameters():
        if p.requires_grad:
            if len(p.shape) >= 2:
                factored_params += p.shape[0] + p.shape[1]  # row + col means
            else:
                unfactored_params += p.numel()
    
    adafactor_memory += (factored_params + unfactored_params) * 4  # second moments
    
    return {
        "adamw_mb": adamw_memory / (1024 * 1024),
        "adafactor_mb": adafactor_memory / (1024 * 1024),
        "savings_mb": (adamw_memory - adafactor_memory) / (1024 * 1024),
        "savings_percent": ((adamw_memory - adafactor_memory) / adamw_memory) * 100,
    }


if __name__ == "__main__":
    # Simple test of the optimizer
    import torch.nn as nn
    
    model = nn.Sequential(
        nn.Linear(100, 200),
        nn.ReLU(),
        nn.Linear(200, 50),
        nn.ReLU(), 
        nn.Linear(50, 1)
    )
    
    print("Testing Adafactor optimizer...")
    
    # Test with automatic learning rate
    optimizer, scheduler = configure_adafactor_optimizer(
        model, lr=None, total_steps=100
    )
    
    # Simple training step
    x = torch.randn(32, 100)
    y = torch.randn(32, 1)
    
    pred = model(x)
    loss = nn.functional.mse_loss(pred, y)
    initial_loss = loss.item()
    loss.backward()
    
    optimizer.step()
    if scheduler:
        scheduler.step()
    
    # Test with fixed learning rate
    optimizer2, scheduler2 = configure_adafactor_optimizer(
        model, lr=1e-3, total_steps=100
    )
    
    pred = model(x)
    loss = nn.functional.mse_loss(pred, y)
    loss.backward()
    optimizer2.step()
    if scheduler2:
        scheduler2.step()
    
    # Analyze memory usage
    memory_analysis = analyze_memory_usage(model)
    
    print("Adafactor optimizer test completed successfully!")
    print(f"Initial loss: {initial_loss:.4f}")
    print(f"Final loss: {loss.item():.4f}")
    print(f"Memory analysis: {memory_analysis}")