WavTokenizer / configuration_wavtokenizer.py

Update configuration_wavtokenizer.py

3592734 verified about 1 month ago

6.05 kB

	"""
	WavTokenizer Configuration for HuggingFace Transformers

	This configuration class defines all the hyperparameters for WavTokenizer,
	an acoustic discrete codec tokenizer for audio language modeling.
	"""

	from transformers import PretrainedConfig


	class WavTokenizerConfig(PretrainedConfig):
	"""
	Configuration class for WavTokenizer model.

	WavTokenizer is a SOTA discrete acoustic codec model that compresses audio
	into discrete tokens (40 or 75 tokens per second) while maintaining high
	reconstruction quality.

	Args:
	sample_rate (`int`, optional, defaults to 24000):
	The sample rate of input audio.
	n_fft (`int`, optional, defaults to 1280):
	FFT size for STFT.
	hop_length (`int`, optional, defaults to 320):
	Hop length for STFT (determines frame rate: 24000/320 = 75 fps).
	n_mels (`int`, optional, defaults to 128):
	Number of mel filterbank channels.
	padding (`str`, optional, defaults to "center"):
	Padding mode for STFT ("center" or "same").

	feature_dim (`int`, optional, defaults to 512):
	Dimension of the feature backbone.
	encoder_dim (`int`, optional, defaults to 64):
	Dimension of encoder output.
	encoder_rates (`list[int]`, optional, defaults to [8, 5, 4, 2]):
	Downsampling rates for the encoder.
	latent_dim (`int`, optional):
	Dimension of the latent space (defaults to feature_dim).

	codebook_size (`int`, optional, defaults to 4096):
	Size of the VQ codebook.
	codebook_dim (`int`, optional, defaults to 8):
	Dimension of codebook vectors.
	num_quantizers (`int`, optional, defaults to 1):
	Number of residual vector quantizers.

	backbone_type (`str`, optional, defaults to "vocos"):
	Type of decoder backbone ("vocos").
	backbone_dim (`int`, optional, defaults to 512):
	Dimension of the decoder backbone.
	backbone_num_blocks (`int`, optional, defaults to 8):
	Number of ConvNeXt blocks in the backbone.
	backbone_intermediate_dim (`int`, optional, defaults to 1536):
	Intermediate dimension in ConvNeXt blocks.
	backbone_kernel_size (`int`, optional, defaults to 7):
	Kernel size for depthwise convolutions.
	backbone_layer_scale_init_value (`float`, optional, defaults to 1e-6):
	Initial value for layer scale.

	head_type (`str`, optional, defaults to "istft"):
	Type of waveform synthesis head ("istft").
	head_dim (`int`, optional, defaults to 1025):
	Output dimension for the head (n_fft // 2 + 1).

	use_attention (`bool`, optional, defaults to True):
	Whether to use attention in the decoder.
	attention_dim (`int`, optional, defaults to 512):
	Dimension for attention layers.
	attention_heads (`int`, optional, defaults to 8):
	Number of attention heads.
	attention_layers (`int`, optional, defaults to 1):
	Number of attention layers.
	"""

	model_type = "wavtokenizer"

	def __init__(
	self,
	# Audio parameters
	sample_rate: int = 24000,
	n_fft: int = 1280,
	hop_length: int = 320,
	n_mels: int = 128,
	padding: str = "center",

	# Feature dimensions
	feature_dim: int = 512,
	encoder_dim: int = 32,
	encoder_rates: list = None,
	latent_dim: int = None,

	# Quantizer parameters
	codebook_size: int = 4096,
	codebook_dim: int = 512,
	num_quantizers: int = 1,

	# Backbone parameters
	backbone_type: str = "vocos",
	backbone_dim: int = 768,
	backbone_num_blocks: int = 12,
	backbone_intermediate_dim: int = 2304,
	backbone_kernel_size: int = 7,
	backbone_layer_scale_init_value: float = 1e-6,

	# Head parameters
	head_type: str = "istft",
	head_dim: int = 1025,

	# Attention parameters
	use_attention: bool = True,
	attention_dim: int = 512,
	attention_heads: int = 8,
	attention_layers: int = 1,

	**kwargs
	):
	super().__init__(**kwargs)

	# Audio
	self.sample_rate = sample_rate
	self.n_fft = n_fft
	self.hop_length = hop_length
	self.n_mels = n_mels
	self.padding = padding

	# Feature dimensions
	self.feature_dim = feature_dim
	self.encoder_dim = encoder_dim
	self.encoder_rates = encoder_rates if encoder_rates is not None else [2, 4, 5, 8]
	self.latent_dim = latent_dim if latent_dim is not None else feature_dim

	# Quantizer
	self.codebook_size = codebook_size
	self.codebook_dim = codebook_dim
	self.num_quantizers = num_quantizers

	# Backbone
	self.backbone_type = backbone_type
	self.backbone_dim = backbone_dim
	self.backbone_num_blocks = backbone_num_blocks
	self.backbone_intermediate_dim = backbone_intermediate_dim
	self.backbone_kernel_size = backbone_kernel_size
	self.backbone_layer_scale_init_value = backbone_layer_scale_init_value

	# Head
	self.head_type = head_type
	self.head_dim = head_dim

	# Attention
	self.use_attention = use_attention
	self.attention_dim = attention_dim
	self.attention_heads = attention_heads
	self.attention_layers = attention_layers

	@property
	def vocab_size(self) -> int:
	"""Returns the vocabulary size (codebook size)."""
	return self.codebook_size

	@property
	def frame_rate(self) -> float:
	"""Returns the frame rate (tokens per second)."""
	return self.sample_rate / self.hop_length