🚀 Refined BitTransformerLM: Organized codebase with best practices

d1e4760 verified 7 months ago

23.2 kB

	"""
	RLE Compression Extension for BitTransformerLM
	==============================================

	Advanced Run-Length Encoding compression module with multiple encoding schemes,
	adaptive compression, and training integration for BitTransformerLM.

	Key features:
	- Multiple RLE encoding schemes (basic, delta, hierarchical)
	- Adaptive compression with quality thresholds
	- Training integration with compression-aware loss
	- Batch processing and vectorized operations
	- Compatible with BitTransformerLM's training infrastructure
	"""

	import torch
	import torch.nn.functional as F
	from typing import List, Tuple, Optional, Dict, Any, Union
	import warnings
	import math
	from collections import defaultdict
	import numpy as np


	class RLEEncoder:
	"""
	Advanced Run-Length Encoder with multiple encoding schemes.

	Supports:
	- Basic RLE: (value, count) pairs
	- Delta RLE: Differences between consecutive runs
	- Hierarchical RLE: Multi-level compression
	- Adaptive RLE: Chooses best scheme based on data
	"""

	def __init__(
	self,
	scheme: str = "adaptive",
	min_run_length: int = 2,
	max_value: int = 255,
	delta_threshold: float = 0.7,
	hierarchical_levels: int = 2,
	):
	"""
	Args:
	scheme: Encoding scheme ('basic', 'delta', 'hierarchical', 'adaptive')
	min_run_length: Minimum run length to compress
	max_value: Maximum value for encoding
	delta_threshold: Compression ratio threshold for delta encoding
	hierarchical_levels: Number of levels for hierarchical encoding
	"""
	self.scheme = scheme
	self.min_run_length = min_run_length
	self.max_value = max_value
	self.delta_threshold = delta_threshold
	self.hierarchical_levels = hierarchical_levels

	self.stats = {
	"total_compressions": 0,
	"total_original_size": 0,
	"total_compressed_size": 0,
	"scheme_usage": defaultdict(int),
	}

	def encode_basic_rle(self, data: torch.Tensor) -> torch.Tensor:
	"""Basic run-length encoding: (value, count) pairs."""
	if data.numel() == 0:
	return torch.tensor([], dtype=torch.uint8)

	data_flat = data.flatten()
	encoded = []

	current_val = data_flat[0].item()
	current_count = 1

	for i in range(1, len(data_flat)):
	val = data_flat[i].item()
	if val == current_val and current_count < 255:
	current_count += 1
	else:
	if current_count >= self.min_run_length:
	encoded.extend([current_val, current_count])
	else:
	# Store individual values for short runs
	for _ in range(current_count):
	encoded.append(current_val)
	current_val = val
	current_count = 1

	# Handle last run
	if current_count >= self.min_run_length:
	encoded.extend([current_val, current_count])
	else:
	for _ in range(current_count):
	encoded.append(current_val)

	return torch.tensor(encoded, dtype=torch.uint8)

	def decode_basic_rle(self, encoded: torch.Tensor, target_length: Optional[int] = None) -> torch.Tensor:
	"""Decode basic run-length encoded data."""
	if encoded.numel() == 0:
	return torch.tensor([], dtype=torch.long)

	decoded = []
	i = 0

	while i < len(encoded):
	if i + 1 < len(encoded):
	val = encoded[i].item()
	count = encoded[i + 1].item()

	# Check if this looks like a (value, count) pair
	if count > 1 and count <= 255:
	decoded.extend([val] * count)
	i += 2
	else:
	# Individual value
	decoded.append(val)
	i += 1
	else:
	decoded.append(encoded[i].item())
	i += 1

	result = torch.tensor(decoded, dtype=torch.long)

	# Trim or pad to target length if specified
	if target_length is not None:
	if len(result) > target_length:
	result = result[:target_length]
	elif len(result) < target_length:
	result = F.pad(result, (0, target_length - len(result)))

	return result

	def encode_delta_rle(self, data: torch.Tensor) -> torch.Tensor:
	"""Delta run-length encoding: encode differences between values."""
	if data.numel() <= 1:
	return self.encode_basic_rle(data)

	data_flat = data.flatten()

	# Compute deltas
	deltas = torch.diff(data_flat, prepend=data_flat[0:1])

	# Apply basic RLE to deltas (shifted to handle negatives)
	shifted_deltas = deltas + 128 # Shift to 0-255 range
	shifted_deltas = torch.clamp(shifted_deltas, 0, 255)

	delta_encoded = self.encode_basic_rle(shifted_deltas)

	# Prepend original first value
	result = torch.cat([data_flat[0:1].to(torch.uint8), delta_encoded])
	return result

	def decode_delta_rle(self, encoded: torch.Tensor, target_length: Optional[int] = None) -> torch.Tensor:
	"""Decode delta run-length encoded data."""
	if encoded.numel() <= 1:
	return self.decode_basic_rle(encoded, target_length)

	# First value is the original value
	first_val = encoded[0].item()
	delta_encoded = encoded[1:]

	# Decode deltas
	deltas = self.decode_basic_rle(delta_encoded)

	# Unshift deltas
	deltas = deltas.float() - 128

	# Reconstruct original sequence
	if deltas.numel() > 0:
	deltas[0] = first_val # Replace first delta with original value
	result = torch.cumsum(deltas, dim=0).long()
	else:
	result = torch.tensor([first_val], dtype=torch.long)

	# Trim or pad to target length
	if target_length is not None:
	if len(result) > target_length:
	result = result[:target_length]
	elif len(result) < target_length:
	result = F.pad(result, (0, target_length - len(result)))

	return result

	def encode_hierarchical_rle(self, data: torch.Tensor) -> torch.Tensor:
	"""Hierarchical RLE: Apply RLE recursively for better compression."""
	current_data = data.clone()

	for level in range(self.hierarchical_levels):
	encoded = self.encode_basic_rle(current_data)

	# Check if compression is beneficial
	if encoded.numel() >= current_data.numel() * 0.9:
	# Compression not beneficial, return previous level
	break

	current_data = encoded

	return current_data

	def decode_hierarchical_rle(self, encoded: torch.Tensor, target_length: Optional[int] = None, levels: int = None) -> torch.Tensor:
	"""Decode hierarchical RLE data."""
	if levels is None:
	levels = self.hierarchical_levels

	current_data = encoded.clone()

	for level in range(levels):
	try:
	current_data = self.decode_basic_rle(current_data)
	except Exception:
	# If decoding fails, return current state
	break

	# Final length adjustment
	if target_length is not None and current_data.numel() != target_length:
	if current_data.numel() > target_length:
	current_data = current_data[:target_length]
	else:
	current_data = F.pad(current_data, (0, target_length - current_data.numel()))

	return current_data

	def encode(self, data: torch.Tensor) -> Tuple[torch.Tensor, Dict[str, Any]]:
	"""
	Encode data using the configured scheme.

	Args:
	data: Input tensor to compress

	Returns:
	Tuple of (encoded_data, metadata)
	"""
	original_shape = data.shape
	original_size = data.numel()

	if self.scheme == "basic":
	encoded = self.encode_basic_rle(data)
	scheme_used = "basic"
	elif self.scheme == "delta":
	encoded = self.encode_delta_rle(data)
	scheme_used = "delta"
	elif self.scheme == "hierarchical":
	encoded = self.encode_hierarchical_rle(data)
	scheme_used = "hierarchical"
	elif self.scheme == "adaptive":
	# Try all schemes and pick the best one
	basic_encoded = self.encode_basic_rle(data)
	delta_encoded = self.encode_delta_rle(data)
	hierarchical_encoded = self.encode_hierarchical_rle(data)

	candidates = {
	"basic": basic_encoded,
	"delta": delta_encoded,
	"hierarchical": hierarchical_encoded,
	}

	# Choose scheme with best compression ratio
	best_scheme = min(candidates.keys(), key=lambda k: candidates[k].numel())
	encoded = candidates[best_scheme]
	scheme_used = best_scheme
	else:
	raise ValueError(f"Unknown encoding scheme: {self.scheme}")

	# Update statistics
	self.stats["total_compressions"] += 1
	self.stats["total_original_size"] += original_size
	self.stats["total_compressed_size"] += encoded.numel()
	self.stats["scheme_usage"][scheme_used] += 1

	metadata = {
	"scheme": scheme_used,
	"original_shape": original_shape,
	"original_size": original_size,
	"compressed_size": encoded.numel(),
	"compression_ratio": encoded.numel() / original_size if original_size > 0 else 1.0,
	}

	return encoded, metadata

	def decode(self, encoded: torch.Tensor, metadata: Dict[str, Any]) -> torch.Tensor:
	"""
	Decode compressed data using metadata.

	Args:
	encoded: Compressed data
	metadata: Metadata from encoding

	Returns:
	Decoded tensor
	"""
	scheme = metadata["scheme"]
	original_shape = metadata["original_shape"]
	target_length = math.prod(original_shape) if original_shape else None

	if scheme == "basic":
	decoded = self.decode_basic_rle(encoded, target_length)
	elif scheme == "delta":
	decoded = self.decode_delta_rle(encoded, target_length)
	elif scheme == "hierarchical":
	decoded = self.decode_hierarchical_rle(encoded, target_length)
	else:
	raise ValueError(f"Unknown decoding scheme: {scheme}")

	# Reshape to original shape
	if original_shape and decoded.numel() >= math.prod(original_shape):
	decoded = decoded[:math.prod(original_shape)].reshape(original_shape)

	return decoded

	def get_compression_stats(self) -> Dict[str, float]:
	"""Get compression statistics."""
	if self.stats["total_original_size"] == 0:
	return {"average_compression_ratio": 1.0, "total_savings": 0.0}

	avg_ratio = self.stats["total_compressed_size"] / self.stats["total_original_size"]
	total_savings = self.stats["total_original_size"] - self.stats["total_compressed_size"]

	return {
	"average_compression_ratio": avg_ratio,
	"total_savings": total_savings,
	"total_compressions": self.stats["total_compressions"],
	"scheme_usage": dict(self.stats["scheme_usage"]),
	}


	class CompressedBitDataset(torch.utils.data.Dataset):
	"""
	Dataset wrapper that applies RLE compression on-the-fly during training.

	This allows for memory-efficient storage of large bit sequences while
	maintaining fast access during training.
	"""

	def __init__(
	self,
	data: torch.Tensor,
	encoder: RLEEncoder,
	compress_probability: float = 0.5,
	cache_size: int = 1000,
	):
	"""
	Args:
	data: Original bit sequence data
	encoder: RLE encoder instance
	compress_probability: Probability of returning compressed data
	cache_size: Number of compressed items to cache
	"""
	self.data = data
	self.encoder = encoder
	self.compress_probability = compress_probability
	self.cache_size = cache_size
	self.cache = {}
	self.access_count = defaultdict(int)

	def __len__(self):
	return len(self.data)

	def __getitem__(self, idx: int) -> Tuple[torch.Tensor, Dict[str, Any]]:
	"""
	Get item with optional compression.

	Returns:
	Tuple of (data, metadata) where metadata indicates if compressed
	"""
	original_item = self.data[idx]

	# Randomly decide whether to compress
	if torch.rand(1).item() < self.compress_probability:
	# Check cache first
	if idx in self.cache:
	compressed, metadata = self.cache[idx]
	self.access_count[idx] += 1
	metadata["from_cache"] = True
	return compressed, metadata

	# Compress item
	compressed, metadata = self.encoder.encode(original_item)

	# Add to cache if there's room
	if len(self.cache) < self.cache_size:
	self.cache[idx] = (compressed, metadata)
	elif self.access_count:
	# Replace least accessed item
	least_accessed = min(self.cache.keys(), key=lambda k: self.access_count[k])
	del self.cache[least_accessed]
	del self.access_count[least_accessed]
	self.cache[idx] = (compressed, metadata)

	metadata["from_cache"] = False
	return compressed, metadata
	else:
	# Return original data
	metadata = {
	"scheme": "uncompressed",
	"original_shape": original_item.shape,
	"compressed": False,
	"from_cache": False,
	}
	return original_item, metadata


	def create_compression_aware_loss(
	base_loss_fn,
	compression_penalty: float = 0.01,
	quality_threshold: float = 0.8,
	) -> callable:
	"""
	Create a loss function that penalizes poor compression quality.

	Args:
	base_loss_fn: Base loss function (e.g., CrossEntropyLoss)
	compression_penalty: Penalty weight for compression artifacts
	quality_threshold: Minimum compression quality threshold

	Returns:
	Compression-aware loss function
	"""
	def compression_aware_loss(
	logits: torch.Tensor,
	targets: torch.Tensor,
	metadata_batch: Optional[List[Dict[str, Any]]] = None,
	) -> torch.Tensor:
	"""
	Compute loss with compression quality penalty.

	Args:
	logits: Model output logits
	targets: Target labels
	metadata_batch: Batch of compression metadata

	Returns:
	Adjusted loss tensor
	"""
	base_loss = base_loss_fn(logits, targets)

	if metadata_batch is None:
	return base_loss

	# Compute compression quality penalty
	penalty = 0.0
	compressed_items = 0

	for metadata in metadata_batch:
	if metadata.get("compressed", False):
	compressed_items += 1
	compression_ratio = metadata.get("compression_ratio", 1.0)

	# Penalty for poor compression
	if compression_ratio > quality_threshold:
	quality_penalty = (compression_ratio - quality_threshold) ** 2
	penalty += quality_penalty

	if compressed_items > 0:
	penalty = penalty / compressed_items # Average penalty
	total_loss = base_loss + compression_penalty * penalty
	else:
	total_loss = base_loss

	return total_loss

	return compression_aware_loss


	def integrate_rle_with_training(
	model,
	data: torch.Tensor,
	encoder_config: Optional[Dict[str, Any]] = None,
	compression_config: Optional[Dict[str, Any]] = None,
	) -> Tuple[CompressedBitDataset, callable]:
	"""
	Integrate RLE compression with BitTransformerLM training.

	Args:
	model: BitTransformerLM model
	data: Training data tensor
	encoder_config: Configuration for RLE encoder
	compression_config: Configuration for compression-aware training

	Returns:
	Tuple of (compressed_dataset, compression_aware_loss_fn)
	"""
	# Default configurations
	if encoder_config is None:
	encoder_config = {
	"scheme": "adaptive",
	"min_run_length": 2,
	"delta_threshold": 0.7,
	}

	if compression_config is None:
	compression_config = {
	"compress_probability": 0.3,
	"compression_penalty": 0.01,
	"quality_threshold": 0.8,
	"cache_size": 1000,
	}

	# Create encoder and dataset
	encoder = RLEEncoder(**encoder_config)
	dataset = CompressedBitDataset(
	data,
	encoder,
	compress_probability=compression_config["compress_probability"],
	cache_size=compression_config["cache_size"],
	)

	# Create compression-aware loss
	base_loss = torch.nn.CrossEntropyLoss()
	loss_fn = create_compression_aware_loss(
	base_loss,
	compression_penalty=compression_config["compression_penalty"],
	quality_threshold=compression_config["quality_threshold"],
	)

	return dataset, loss_fn


	def benchmark_compression_schemes(
	test_data: torch.Tensor,
	schemes: List[str] = ["basic", "delta", "hierarchical", "adaptive"],
	) -> Dict[str, Dict[str, float]]:
	"""
	Benchmark different compression schemes on test data.

	Args:
	test_data: Test data tensor
	schemes: List of schemes to test

	Returns:
	Dictionary with benchmark results for each scheme
	"""
	results = {}

	for scheme in schemes:
	encoder = RLEEncoder(scheme=scheme)

	# Test compression/decompression
	try:
	compressed, metadata = encoder.encode(test_data)
	reconstructed = encoder.decode(compressed, metadata)

	# Compute metrics
	compression_ratio = compressed.numel() / test_data.numel()
	reconstruction_error = torch.mean((test_data.float() - reconstructed.float()) ** 2).item()

	results[scheme] = {
	"compression_ratio": compression_ratio,
	"reconstruction_error": reconstruction_error,
	"compressed_size": compressed.numel(),
	"original_size": test_data.numel(),
	"success": True,
	}
	except Exception as e:
	results[scheme] = {
	"compression_ratio": 1.0,
	"reconstruction_error": float("inf"),
	"compressed_size": test_data.numel(),
	"original_size": test_data.numel(),
	"success": False,
	"error": str(e),
	}

	return results


	# Example usage and utilities
	def create_rle_training_config(
	scheme: str = "adaptive",
	compress_probability: float = 0.3,
	compression_penalty: float = 0.01,
	**kwargs
	) -> Dict[str, Any]:
	"""
	Create configuration for RLE-enhanced training.

	Args:
	scheme: RLE encoding scheme
	compress_probability: Probability of compression during training
	compression_penalty: Loss penalty for compression artifacts
	**kwargs: Additional configuration options

	Returns:
	Dictionary with RLE training configuration
	"""
	config = {
	"compression_type": "rle",
	"encoder_config": {
	"scheme": scheme,
	"min_run_length": kwargs.get("min_run_length", 2),
	"delta_threshold": kwargs.get("delta_threshold", 0.7),
	"hierarchical_levels": kwargs.get("hierarchical_levels", 2),
	},
	"training_config": {
	"compress_probability": compress_probability,
	"compression_penalty": compression_penalty,
	"quality_threshold": kwargs.get("quality_threshold", 0.8),
	"cache_size": kwargs.get("cache_size", 1000),
	},
	}

	return config


	if __name__ == "__main__":
	# Test the RLE compression module
	print("Testing RLE Compression Module...")

	# Create test data
	test_data = torch.randint(0, 2, (100,))

	# Add some runs for better compression
	test_data[20:30] = 1
	test_data[50:70] = 0
	test_data[80:90] = 1

	print(f"Original data shape: {test_data.shape}")
	print(f"Original data: {test_data[:20]}...")

	# Test different encoding schemes
	schemes = ["basic", "delta", "hierarchical", "adaptive"]

	for scheme in schemes:
	print(f"\nTesting {scheme} scheme:")
	encoder = RLEEncoder(scheme=scheme)

	try:
	# Encode
	compressed, metadata = encoder.encode(test_data)
	print(f" Compressed size: {compressed.numel()}")
	print(f" Compression ratio: {metadata['compression_ratio']:.3f}")

	# Decode
	reconstructed = encoder.decode(compressed, metadata)

	# Check reconstruction quality
	error = torch.mean((test_data.float() - reconstructed.float()) ** 2)
	print(f" Reconstruction error: {error.item():.6f}")

	if error.item() < 1e-6:
	print(" ✅ Perfect reconstruction")
	else:
	print(" ❌ Reconstruction error detected")

	except Exception as e:
	print(f" ❌ Error: {e}")

	# Benchmark all schemes
	print("\nBenchmarking compression schemes...")
	benchmark_results = benchmark_compression_schemes(test_data)

	for scheme, results in benchmark_results.items():
	if results["success"]:
	print(f"{scheme:12}: ratio={results['compression_ratio']:.3f}, "
	f"error={results['reconstruction_error']:.6f}")
	else:
	print(f"{scheme:12}: FAILED - {results.get('error', 'Unknown error')}")

	print("\nRLE Compression Module test completed!")