File size: 10,676 Bytes

d580d32

"""
BTLM_Extensions: Extensions Package for BitTransformerLM
=======================================================

This package provides advanced optimizers and compression techniques
as extensions for BitTransformerLM, allowing easy experimentation with
different training configurations.

Available Extensions:

Optimizers:
- Muon: Orthogonal momentum optimizer with Newton-Schulz iterations
- Lion: EvoLved Sign Momentum optimizer for memory efficiency  
- Adafactor: Memory-efficient factorized optimizer

Compression:
- RLE: Advanced Run-Length Encoding with multiple schemes

Usage:
    from BTLM_Extensions import configure_muon_optimizer, RLEEncoder
    
    # Use Muon optimizer
    optimizer, scheduler = configure_muon_optimizer(model, lr=1e-3)
    
    # Use RLE compression
    encoder = RLEEncoder(scheme="adaptive")
    compressed, metadata = encoder.encode(data)
"""

__version__ = "1.0.0"
__author__ = "BitTransformerLM Extensions"
__email__ = "extensions@bittransformerlm.ai"

# Import all optimizers
from .muon_optimizer import (
    Muon,
    configure_muon_optimizer,
    create_muon_training_config,
)

from .lion_optimizer import (
    Lion,
    AdaptiveLion,
    configure_lion_optimizer,
    configure_adaptive_lion_optimizer,
    create_lion_training_config,
)

from .adafactor_optimizer import (
    Adafactor,
    AdafactorScheduler,
    configure_adafactor_optimizer,
    configure_adafactor_with_scheduler,
    create_adafactor_training_config,
    analyze_memory_usage,
)

# Import compression utilities
from .rle_compression import (
    RLEEncoder,
    CompressedBitDataset,
    create_compression_aware_loss,
    integrate_rle_with_training,
    benchmark_compression_schemes,
    create_rle_training_config,
)

# Convenience functions for easy optimizer swapping
def get_optimizer_config(optimizer_type: str, **kwargs):
    """
    Get configuration for specified optimizer type.
    
    Args:
        optimizer_type: Type of optimizer ('muon', 'lion', 'adafactor')
        **kwargs: Optimizer-specific parameters
        
    Returns:
        Dictionary with optimizer configuration
    """
    if optimizer_type.lower() == "muon":
        return create_muon_training_config(**kwargs)
    elif optimizer_type.lower() == "lion":
        return create_lion_training_config(**kwargs)
    elif optimizer_type.lower() == "adafactor":
        return create_adafactor_training_config(**kwargs)
    else:
        raise ValueError(f"Unknown optimizer type: {optimizer_type}")


def configure_optimizer(optimizer_type: str, model, **kwargs):
    """
    Configure optimizer based on type string.
    
    Args:
        optimizer_type: Type of optimizer ('muon', 'lion', 'adafactor')
        model: PyTorch model to optimize
        **kwargs: Optimizer-specific parameters
        
    Returns:
        Tuple of (optimizer, scheduler)
    """
    if optimizer_type.lower() == "muon":
        return configure_muon_optimizer(model, **kwargs)
    elif optimizer_type.lower() == "lion":
        return configure_lion_optimizer(model, **kwargs)
    elif optimizer_type.lower() == "adafactor":
        return configure_adafactor_optimizer(model, **kwargs)
    else:
        raise ValueError(f"Unknown optimizer type: {optimizer_type}")


# Integration helpers for BitTransformerLM
class ExtensionManager:
    """
    Manager class for easy integration with BitTransformerLM.
    
    Provides unified interface for switching between optimizers
    and compression schemes.
    """
    
    SUPPORTED_OPTIMIZERS = ["muon", "lion", "adafactor"]
    SUPPORTED_COMPRESSION = ["rle"]
    
    def __init__(self):
        self.current_optimizer = None
        self.current_compression = None
        
    def setup_optimizer(self, optimizer_type: str, model, **kwargs):
        """Setup optimizer for training."""
        if optimizer_type not in self.SUPPORTED_OPTIMIZERS:
            raise ValueError(f"Unsupported optimizer: {optimizer_type}")
            
        optimizer, scheduler = configure_optimizer(optimizer_type, model, **kwargs)
        self.current_optimizer = optimizer_type
        return optimizer, scheduler
    
    def setup_compression(self, compression_type: str, **kwargs):
        """Setup compression scheme."""
        if compression_type not in self.SUPPORTED_COMPRESSION:
            raise ValueError(f"Unsupported compression: {compression_type}")
            
        if compression_type == "rle":
            encoder = RLEEncoder(**kwargs)
            self.current_compression = compression_type
            return encoder
        
    def create_training_config(self, optimizer_type: str = "muon", compression_type: str = "rle", **kwargs):
        """Create comprehensive training configuration."""
        config = {
            "optimizer": get_optimizer_config(optimizer_type, **kwargs),
            "compression": create_rle_training_config(**kwargs) if compression_type == "rle" else None,
            "extensions": {
                "optimizer_type": optimizer_type,
                "compression_type": compression_type,
                "version": __version__,
            }
        }
        return config
    
    def benchmark_optimizers(self, model, test_data, epochs: int = 5):
        """Benchmark all available optimizers on test data."""
        import torch
        import torch.nn.functional as F
        import time
        
        results = {}
        
        for opt_type in self.SUPPORTED_OPTIMIZERS:
            print(f"Benchmarking {opt_type} optimizer...")
            
            # Create fresh model copy
            model_copy = type(model)(**model._current_params())
            model_copy.load_state_dict(model.state_dict())
            
            try:
                # Setup optimizer
                optimizer, scheduler = self.setup_optimizer(opt_type, model_copy, lr=1e-3)
                
                # Training loop
                start_time = time.time()
                losses = []
                
                for epoch in range(epochs):
                    optimizer.zero_grad()
                    
                    # Simple forward pass
                    logits, _ = model_copy(test_data)
                    pred = logits[:, :-1, :].reshape(-1, 2)
                    target = test_data[:, 1:].reshape(-1)
                    loss = F.cross_entropy(pred, target)
                    
                    loss.backward()
                    optimizer.step()
                    if scheduler:
                        scheduler.step()
                    
                    losses.append(loss.item())
                
                end_time = time.time()
                
                results[opt_type] = {
                    "final_loss": losses[-1],
                    "avg_loss": sum(losses) / len(losses),
                    "training_time": end_time - start_time,
                    "convergence": losses[0] - losses[-1],
                    "success": True,
                }
                
            except Exception as e:
                results[opt_type] = {
                    "final_loss": float('inf'),
                    "avg_loss": float('inf'),
                    "training_time": 0,
                    "convergence": 0,
                    "success": False,
                    "error": str(e),
                }
        
        return results


# Create global extension manager instance
extension_manager = ExtensionManager()

# Export all important symbols
__all__ = [
    # Optimizers
    "Muon",
    "Lion", 
    "AdaptiveLion",
    "Adafactor",
    "AdafactorScheduler",
    
    # Optimizer configuration functions
    "configure_muon_optimizer",
    "configure_lion_optimizer",
    "configure_adaptive_lion_optimizer", 
    "configure_adafactor_optimizer",
    "configure_adafactor_with_scheduler",
    
    # Training configuration creators
    "create_muon_training_config",
    "create_lion_training_config",
    "create_adafactor_training_config",
    
    # Compression
    "RLEEncoder",
    "CompressedBitDataset",
    "create_compression_aware_loss",
    "integrate_rle_with_training",
    "benchmark_compression_schemes",
    "create_rle_training_config",
    
    # Convenience functions
    "get_optimizer_config",
    "configure_optimizer",
    "ExtensionManager",
    "extension_manager",
    "analyze_memory_usage",
]

# Package information
def get_version():
    """Get package version."""
    return __version__

def list_optimizers():
    """List all available optimizers."""
    return ExtensionManager.SUPPORTED_OPTIMIZERS.copy()

def list_compression_schemes():
    """List all available compression schemes."""
    return ExtensionManager.SUPPORTED_COMPRESSION.copy()

def get_package_info():
    """Get package information."""
    return {
        "name": "BTLM_Extensions",
        "version": __version__,
        "author": __author__,
        "email": __email__,
        "optimizers": list_optimizers(),
        "compression": list_compression_schemes(),
        "description": "Advanced optimizers and compression for BitTransformerLM",
    }

# Print welcome message when imported
def _welcome_message():
    """Print welcome message with available extensions."""
    print(f"🚀 BTLM_Extensions v{__version__} loaded!")
    print(f"📊 Available optimizers: {', '.join(list_optimizers())}")  
    print(f"🗜️  Available compression: {', '.join(list_compression_schemes())}")
    print("📖 Use help(BTLM_Extensions) for detailed documentation")

# Uncomment the line below if you want the welcome message on import
# _welcome_message()

# Demonstrate usage example in docstring
def demo_usage():
    """
    Demonstration of BTLM_Extensions usage:
    
    # Quick optimizer swap
    from BTLM_Extensions import configure_optimizer
    
    # Try different optimizers
    muon_opt, muon_sched = configure_optimizer("muon", model, lr=1e-3)
    lion_opt, lion_sched = configure_optimizer("lion", model, lr=1e-4)  
    adafactor_opt, adafactor_sched = configure_optimizer("adafactor", model)
    
    # Use with BitTransformerLM training
    from bit_transformer.training import train_loop
    
    train_loop(model, data, optimizer=muon_opt, scheduler=muon_sched)
    
    # Advanced compression
    from BTLM_Extensions import RLEEncoder, integrate_rle_with_training
    
    # Setup compression-aware training
    dataset, loss_fn = integrate_rle_with_training(model, data)
    
    # Benchmark optimizers
    from BTLM_Extensions import extension_manager
    
    results = extension_manager.benchmark_optimizers(model, test_data)
    print("Benchmark results:", results)
    """
    pass