Buckets:

hf-doc-build
/

doc

Files

xet

hf-doc-build/doc / bitsandbytes /main /en /reference /optim /optim_overview.md

HuggingFaceDocBuilder

2 days ago

preview code

download

raw

10.6 kB

Overview

8-bit optimizers reduce the memory footprint of 32-bit optimizers without any performance degradation which means you can train large models with many parameters faster. At the core of 8-bit optimizers is block-wise quantization which enables quantization accuracy, computational efficiency, and stability.

bitsandbytes provides 8-bit optimizers through the base Optimizer8bit class, and additionally provides Optimizer2State and Optimizer1State for 2-state (for example, Adam) and 1-state (for example, Adagrad) optimizers respectively. To provide custom optimizer hyperparameters, use the GlobalOptimManager class to configure the optimizer.

Optimizer8bit[[bitsandbytes.optim.optimizer.Optimizer8bit]]

bitsandbytes.optim.optimizer.Optimizer8bit[[bitsandbytes.optim.optimizer.Optimizer8bit]]

Source

__init__bitsandbytes.optim.optimizer.Optimizer8bit.__init__https://github.com/bitsandbytes-foundation/bitsandbytes/blob/main/bitsandbytes/optim/optimizer.py#L120[{"name": "params", "val": ""}, {"name": "defaults", "val": ""}, {"name": "optim_bits", "val": " = 32"}, {"name": "is_paged", "val": " = False"}]- params (torch.Tensor) -- The input parameters to optimize.

optim_bits (int, defaults to 32) -- The number of bits of the optimizer state.
is_paged (bool, defaults to False) -- Whether the optimizer is a paged optimizer or not.0

Base 8-bit optimizer class.

Parameters:

params (torch.Tensor) : The input parameters to optimize.

optim_bits (int, defaults to 32) : The number of bits of the optimizer state.

is_paged (bool, defaults to False) : Whether the optimizer is a paged optimizer or not.

Optimizer2State[[bitsandbytes.optim.optimizer.Optimizer2State]]

bitsandbytes.optim.optimizer.Optimizer2State[[bitsandbytes.optim.optimizer.Optimizer2State]]

Source

__init__bitsandbytes.optim.optimizer.Optimizer2State.__init__https://github.com/bitsandbytes-foundation/bitsandbytes/blob/main/bitsandbytes/optim/optimizer.py#L404[{"name": "optimizer_name", "val": ""}, {"name": "params", "val": ""}, {"name": "lr", "val": " = 0.001"}, {"name": "betas", "val": " = (0.9, 0.999)"}, {"name": "eps", "val": " = 1e-08"}, {"name": "weight_decay", "val": " = 0.0"}, {"name": "optim_bits", "val": " = 32"}, {"name": "args", "val": " = None"}, {"name": "min_8bit_size", "val": " = 4096"}, {"name": "max_unorm", "val": " = 0.0"}, {"name": "skip_zeros", "val": " = False"}, {"name": "is_paged", "val": " = False"}, {"name": "alpha", "val": " = 0.0"}, {"name": "t_alpha", "val": ": typing.Optional[int] = None"}, {"name": "t_beta3", "val": ": typing.Optional[int] = None"}]- optimizer_name (str) -- The name of the optimizer.

params (torch.Tensor) -- The input parameters to optimize.
lr (float, defaults to 1e-3) -- The learning rate.
betas (tuple, defaults to (0.9, 0.999)) -- The beta values for the optimizer.
eps (float, defaults to 1e-8) -- The epsilon value for the optimizer.
weight_decay (float, defaults to 0.0) -- The weight decay value for the optimizer.
optim_bits (int, defaults to 32) -- The number of bits of the optimizer state.
args (object, defaults to None) -- An object with additional arguments.
min_8bit_size (int, defaults to 4096) -- The minimum number of elements of the parameter tensors for 8-bit optimization.
max_unorm (float, defaults to 0.0) -- The maximum value to normalize each block with.
skip_zeros (bool, defaults to False) -- Whether to skip zero values for sparse gradients and models to ensure correct updates.
is_paged (bool, defaults to False) -- Whether the optimizer is a paged optimizer or not.
alpha (float, defaults to 0.0) -- The alpha value for the AdEMAMix optimizer.
t_alpha (Optional[int], defaults to None) -- Number of iterations for alpha scheduling with AdEMAMix.
t_beta3 (Optional[int], defaults to None) -- Number of iterations for beta scheduling with AdEMAMix.0

Base 2-state update optimizer class.

Parameters:

optimizer_name (str) : The name of the optimizer.

params (torch.Tensor) : The input parameters to optimize.

lr (float, defaults to 1e-3) : The learning rate.

betas (tuple, defaults to (0.9, 0.999)) : The beta values for the optimizer.

eps (float, defaults to 1e-8) : The epsilon value for the optimizer.

weight_decay (float, defaults to 0.0) : The weight decay value for the optimizer.

optim_bits (int, defaults to 32) : The number of bits of the optimizer state.

args (object, defaults to None) : An object with additional arguments.

min_8bit_size (int, defaults to 4096) : The minimum number of elements of the parameter tensors for 8-bit optimization.

max_unorm (float, defaults to 0.0) : The maximum value to normalize each block with.

skip_zeros (bool, defaults to False) : Whether to skip zero values for sparse gradients and models to ensure correct updates.

is_paged (bool, defaults to False) : Whether the optimizer is a paged optimizer or not.

alpha (float, defaults to 0.0) : The alpha value for the AdEMAMix optimizer.

t_alpha (Optional[int], defaults to None) : Number of iterations for alpha scheduling with AdEMAMix.

t_beta3 (Optional[int], defaults to None) : Number of iterations for beta scheduling with AdEMAMix.

Optimizer1State[[bitsandbytes.optim.optimizer.Optimizer1State]]

bitsandbytes.optim.optimizer.Optimizer1State[[bitsandbytes.optim.optimizer.Optimizer1State]]

Source

__init__bitsandbytes.optim.optimizer.Optimizer1State.__init__https://github.com/bitsandbytes-foundation/bitsandbytes/blob/main/bitsandbytes/optim/optimizer.py#L594[{"name": "optimizer_name", "val": ""}, {"name": "params", "val": ""}, {"name": "lr", "val": " = 0.001"}, {"name": "betas", "val": " = (0.9, 0.0)"}, {"name": "eps", "val": " = 1e-08"}, {"name": "weight_decay", "val": " = 0.0"}, {"name": "optim_bits", "val": " = 32"}, {"name": "args", "val": " = None"}, {"name": "min_8bit_size", "val": " = 4096"}, {"name": "max_unorm", "val": " = 0.0"}, {"name": "skip_zeros", "val": " = False"}, {"name": "is_paged", "val": " = False"}]- optimizer_name (str) -- The name of the optimizer.

params (torch.Tensor) -- The input parameters to optimize.
lr (float, defaults to 1e-3) -- The learning rate.
betas (tuple, defaults to (0.9, 0.0)) -- The beta values for the optimizer.
eps (float, defaults to 1e-8) -- The epsilon value for the optimizer.
weight_decay (float, defaults to 0.0) -- The weight decay value for the optimizer.
optim_bits (int, defaults to 32) -- The number of bits of the optimizer state.
args (object, defaults to None) -- An object with additional arguments.
min_8bit_size (int, defaults to 4096) -- The minimum number of elements of the parameter tensors for 8-bit optimization.
max_unorm (float, defaults to 0.0) -- The maximum value to normalize each block with.
skip_zeros (bool, defaults to False) -- Whether to skip zero values for sparse gradients and models to ensure correct updates.
is_paged (bool, defaults to False) -- Whether the optimizer is a paged optimizer or not.0

Base 1-state update optimizer class.

Parameters:

optimizer_name (str) : The name of the optimizer.

params (torch.Tensor) : The input parameters to optimize.

lr (float, defaults to 1e-3) : The learning rate.

betas (tuple, defaults to (0.9, 0.0)) : The beta values for the optimizer.