Add MLX KittenTTS Micro 0.8 (selective 8-bit)

Browse files

Files changed (5) hide show

README.md +34 -0
config.json +78 -0
model.safetensors +3 -0
model.safetensors.index.json +542 -0
voices.npz +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+---
+license: apache-2.0
+---
+# Kitten TTS Micro 0.8 (MLX, 8-bit selective)
+This is a selectively quantized 8-bit MLX version of the KittenTTS Micro 0.8 model.
+## Source
+- Original model: `KittenML/kitten-tts-micro-0.8`
+- License: Apache-2.0
+## Usage
+````python
+from mlx_audio.tts.utils import load_model
+import soundfile as sf
+model = load_model("mlx-community/kitten-tts-micro-0.8-8bit")
+for out in model.generate("This model runs with MLX.", voice="Jasper"):
+    sf.write("out.wav", out.audio, model.sample_rate)
+````
+Notes:
+- `phonemizer` (espeak backend) is required for `generate()`.
+- Available voices: Bella, Jasper, Luna, Bruno, Rosie, Hugo, Kiki, Leo.
+## Quantization
+- Group size: 64
+- Bits: 8
+- Mode: affine
+- Decoder/ISTFT generator kept in fp32 to avoid audio artifacts.

config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+    "asr_res_dim": 64,
+    "hidden_dim": 512,
+    "istftnet": {
+        "resblock_kernel_sizes": [
+            3,
+            3
+        ],
+        "upsample_rates": [
+            10,
+            6
+        ],
+        "upsample_initial_channel": 256,
+        "resblock_dilation_sizes": [
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ]
+        ],
+        "upsample_kernel_sizes": [
+            20,
+            12
+        ],
+        "gen_istft_n_fft": 20,
+        "gen_istft_hop_size": 5
+    },
+    "max_conv_dim": 256,
+    "max_dur": 50,
+    "model_type": "kitten_tts",
+    "n_layer": 3,
+    "n_mels": 80,
+    "n_token": 178,
+    "plbert": {
+        "num_hidden_layers": 12,
+        "num_attention_heads": 12,
+        "hidden_size": 768,
+        "intermediate_size": 2048,
+        "max_position_embeddings": 512,
+        "embedding_size": 128,
+        "inner_group_num": 1,
+        "num_hidden_groups": 1,
+        "hidden_dropout_prob": 0.0,
+        "attention_probs_dropout_prob": 0.0,
+        "type_vocab_size": 2,
+        "layer_norm_eps": 1e-12
+    },
+    "quantization": {
+        "group_size": 64,
+        "bits": 8,
+        "mode": "affine"
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 8,
+        "mode": "affine"
+    },
+    "sample_rate": 24000,
+    "speed_priors": {},
+    "style_dim": 128,
+    "text_encoder_kernel_size": 5,
+    "voice_aliases": {
+        "Bella": "expr-voice-2-f",
+        "Jasper": "expr-voice-2-m",
+        "Luna": "expr-voice-3-f",
+        "Bruno": "expr-voice-3-m",
+        "Rosie": "expr-voice-4-f",
+        "Hugo": "expr-voice-4-m",
+        "Kiki": "expr-voice-5-f",
+        "Leo": "expr-voice-5-m"
+    },
+    "voices_path": "voices.npz"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bb2cac60548d8ba1edab7dfe7c8d1ec873e816e9e28573fac665f7ba5fe127a
+size 116444028

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,542 @@

+{
+    "metadata": {
+        "total_size": 116385908,
+        "total_parameters": 35545426
+    },
+    "weight_map": {
+        "bert.embeddings.LayerNorm.bias": "model.safetensors",
+        "bert.embeddings.LayerNorm.weight": "model.safetensors",
+        "bert.embeddings.position_embeddings.biases": "model.safetensors",
+        "bert.embeddings.position_embeddings.scales": "model.safetensors",
+        "bert.embeddings.position_embeddings.weight": "model.safetensors",
+        "bert.embeddings.token_type_embeddings.biases": "model.safetensors",
+        "bert.embeddings.token_type_embeddings.scales": "model.safetensors",
+        "bert.embeddings.token_type_embeddings.weight": "model.safetensors",
+        "bert.embeddings.word_embeddings.biases": "model.safetensors",
+        "bert.embeddings.word_embeddings.scales": "model.safetensors",
+        "bert.embeddings.word_embeddings.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.LayerNorm.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.LayerNorm.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.dense.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.dense.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.dense.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.dense.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.key.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.key.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.key.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.key.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.query.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.query.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.query.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.query.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.value.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.value.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.value.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.attention.value.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn_output.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn_output.biases": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn_output.scales": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.ffn_output.weight": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.full_layer_layer_norm.bias": "model.safetensors",
+        "bert.encoder.albert_layer_groups.0.albert_layers.0.full_layer_layer_norm.weight": "model.safetensors",
+        "bert.encoder.embedding_hidden_mapping_in.bias": "model.safetensors",
+        "bert.encoder.embedding_hidden_mapping_in.biases": "model.safetensors",
+        "bert.encoder.embedding_hidden_mapping_in.scales": "model.safetensors",
+        "bert.encoder.embedding_hidden_mapping_in.weight": "model.safetensors",
+        "bert.pooler.bias": "model.safetensors",
+        "bert.pooler.biases": "model.safetensors",
+        "bert.pooler.scales": "model.safetensors",
+        "bert.pooler.weight": "model.safetensors",
+        "bert_encoder.bias": "model.safetensors",
+        "bert_encoder.biases": "model.safetensors",
+        "bert_encoder.scales": "model.safetensors",
+        "bert_encoder.weight": "model.safetensors",
+        "decoder.F0_conv.bias": "model.safetensors",
+        "decoder.F0_conv.weight_g": "model.safetensors",
+        "decoder.F0_conv.weight_v": "model.safetensors",
+        "decoder.N_conv.bias": "model.safetensors",
+        "decoder.N_conv.weight_g": "model.safetensors",
+        "decoder.N_conv.weight_v": "model.safetensors",
+        "decoder.asr_res.0.bias": "model.safetensors",
+        "decoder.asr_res.0.weight_g": "model.safetensors",
+        "decoder.asr_res.0.weight_v": "model.safetensors",
+        "decoder.decode.0.conv1.bias": "model.safetensors",
+        "decoder.decode.0.conv1.weight_g": "model.safetensors",
+        "decoder.decode.0.conv1.weight_v": "model.safetensors",
+        "decoder.decode.0.conv1x1.weight_g": "model.safetensors",
+        "decoder.decode.0.conv1x1.weight_v": "model.safetensors",
+        "decoder.decode.0.conv2.bias": "model.safetensors",
+        "decoder.decode.0.conv2.weight_g": "model.safetensors",
+        "decoder.decode.0.conv2.weight_v": "model.safetensors",
+        "decoder.decode.0.norm1.fc.bias": "model.safetensors",
+        "decoder.decode.0.norm1.fc.weight": "model.safetensors",
+        "decoder.decode.0.norm2.fc.bias": "model.safetensors",
+        "decoder.decode.0.norm2.fc.weight": "model.safetensors",
+        "decoder.decode.1.conv1.bias": "model.safetensors",
+        "decoder.decode.1.conv1.weight_g": "model.safetensors",
+        "decoder.decode.1.conv1.weight_v": "model.safetensors",
+        "decoder.decode.1.conv1x1.weight_g": "model.safetensors",
+        "decoder.decode.1.conv1x1.weight_v": "model.safetensors",
+        "decoder.decode.1.conv2.bias": "model.safetensors",
+        "decoder.decode.1.conv2.weight_g": "model.safetensors",
+        "decoder.decode.1.conv2.weight_v": "model.safetensors",
+        "decoder.decode.1.norm1.fc.bias": "model.safetensors",
+        "decoder.decode.1.norm1.fc.weight": "model.safetensors",
+        "decoder.decode.1.norm2.fc.bias": "model.safetensors",
+        "decoder.decode.1.norm2.fc.weight": "model.safetensors",
+        "decoder.decode.2.conv1.bias": "model.safetensors",
+        "decoder.decode.2.conv1.weight_g": "model.safetensors",
+        "decoder.decode.2.conv1.weight_v": "model.safetensors",
+        "decoder.decode.2.conv1x1.weight_g": "model.safetensors",
+        "decoder.decode.2.conv1x1.weight_v": "model.safetensors",
+        "decoder.decode.2.conv2.bias": "model.safetensors",
+        "decoder.decode.2.conv2.weight_g": "model.safetensors",
+        "decoder.decode.2.conv2.weight_v": "model.safetensors",
+        "decoder.decode.2.norm1.fc.bias": "model.safetensors",
+        "decoder.decode.2.norm1.fc.weight": "model.safetensors",
+        "decoder.decode.2.norm2.fc.bias": "model.safetensors",
+        "decoder.decode.2.norm2.fc.weight": "model.safetensors",
+        "decoder.decode.3.conv1.bias": "model.safetensors",
+        "decoder.decode.3.conv1.weight_g": "model.safetensors",
+        "decoder.decode.3.conv1.weight_v": "model.safetensors",
+        "decoder.decode.3.conv1x1.weight_g": "model.safetensors",
+        "decoder.decode.3.conv1x1.weight_v": "model.safetensors",
+        "decoder.decode.3.conv2.bias": "model.safetensors",
+        "decoder.decode.3.conv2.weight_g": "model.safetensors",
+        "decoder.decode.3.conv2.weight_v": "model.safetensors",
+        "decoder.decode.3.norm1.fc.bias": "model.safetensors",
+        "decoder.decode.3.norm1.fc.weight": "model.safetensors",
+        "decoder.decode.3.norm2.fc.bias": "model.safetensors",
+        "decoder.decode.3.norm2.fc.weight": "model.safetensors",
+        "decoder.decode.3.pool.bias": "model.safetensors",
+        "decoder.decode.3.pool.weight_g": "model.safetensors",
+        "decoder.decode.3.pool.weight_v": "model.safetensors",
+        "decoder.encode.conv1.bias": "model.safetensors",
+        "decoder.encode.conv1.weight_g": "model.safetensors",
+        "decoder.encode.conv1.weight_v": "model.safetensors",
+        "decoder.encode.conv1x1.weight_g": "model.safetensors",
+        "decoder.encode.conv1x1.weight_v": "model.safetensors",
+        "decoder.encode.conv2.bias": "model.safetensors",
+        "decoder.encode.conv2.weight_g": "model.safetensors",
+        "decoder.encode.conv2.weight_v": "model.safetensors",
+        "decoder.encode.norm1.fc.bias": "model.safetensors",
+        "decoder.encode.norm1.fc.weight": "model.safetensors",
+        "decoder.encode.norm2.fc.bias": "model.safetensors",
+        "decoder.encode.norm2.fc.weight": "model.safetensors",
+        "decoder.generator.conv_post.bias": "model.safetensors",
+        "decoder.generator.conv_post.weight_g": "model.safetensors",
+        "decoder.generator.conv_post.weight_v": "model.safetensors",
+        "decoder.generator.m_source.l_linear.bias": "model.safetensors",
+        "decoder.generator.m_source.l_linear.weight": "model.safetensors",
+        "decoder.generator.noise_convs.0.bias": "model.safetensors",
+        "decoder.generator.noise_convs.0.weight": "model.safetensors",
+        "decoder.generator.noise_convs.1.bias": "model.safetensors",
+        "decoder.generator.noise_convs.1.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha1.0": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha1.1": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha1.2": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha2.0": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha2.1": "model.safetensors",
+        "decoder.generator.noise_res.0.alpha2.2": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.0.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.1.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.2.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.0.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.1.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.2.bias": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.0.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha1.0": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha1.1": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha1.2": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha2.0": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha2.1": "model.safetensors",
+        "decoder.generator.noise_res.1.alpha2.2": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.0.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.1.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.2.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.0.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.1.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.2.bias": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.noise_res.1.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha1.0": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha1.1": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha1.2": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha2.0": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha2.1": "model.safetensors",
+        "decoder.generator.resblocks.0.alpha2.2": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.0.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha1.0": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha1.1": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha1.2": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha2.0": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha2.1": "model.safetensors",
+        "decoder.generator.resblocks.1.alpha2.2": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.1.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha1.0": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha1.1": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha1.2": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha2.0": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha2.1": "model.safetensors",
+        "decoder.generator.resblocks.2.alpha2.2": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.2.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain1.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.0.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.0.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.1.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.1.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.2.fc.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.adain2.2.fc.weight": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha1.0": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha1.1": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha1.2": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha2.0": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha2.1": "model.safetensors",
+        "decoder.generator.resblocks.3.alpha2.2": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs1.2.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.0.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.0.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.0.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.1.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.1.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.1.weight_v": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.2.bias": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.2.weight_g": "model.safetensors",
+        "decoder.generator.resblocks.3.convs2.2.weight_v": "model.safetensors",
+        "decoder.generator.ups.0.bias": "model.safetensors",
+        "decoder.generator.ups.0.weight_g": "model.safetensors",
+        "decoder.generator.ups.0.weight_v": "model.safetensors",
+        "decoder.generator.ups.1.bias": "model.safetensors",
+        "decoder.generator.ups.1.weight_g": "model.safetensors",
+        "decoder.generator.ups.1.weight_v": "model.safetensors",
+        "predictor.F0.0.conv1.bias": "model.safetensors",
+        "predictor.F0.0.conv1.weight_g": "model.safetensors",
+        "predictor.F0.0.conv1.weight_v": "model.safetensors",
+        "predictor.F0.0.conv2.bias": "model.safetensors",
+        "predictor.F0.0.conv2.weight_g": "model.safetensors",
+        "predictor.F0.0.conv2.weight_v": "model.safetensors",
+        "predictor.F0.0.norm1.fc.bias": "model.safetensors",
+        "predictor.F0.0.norm1.fc.biases": "model.safetensors",
+        "predictor.F0.0.norm1.fc.scales": "model.safetensors",
+        "predictor.F0.0.norm1.fc.weight": "model.safetensors",
+        "predictor.F0.0.norm2.fc.bias": "model.safetensors",
+        "predictor.F0.0.norm2.fc.biases": "model.safetensors",
+        "predictor.F0.0.norm2.fc.scales": "model.safetensors",
+        "predictor.F0.0.norm2.fc.weight": "model.safetensors",
+        "predictor.F0.1.conv1.bias": "model.safetensors",
+        "predictor.F0.1.conv1.weight_g": "model.safetensors",
+        "predictor.F0.1.conv1.weight_v": "model.safetensors",
+        "predictor.F0.1.conv1x1.weight_g": "model.safetensors",
+        "predictor.F0.1.conv1x1.weight_v": "model.safetensors",
+        "predictor.F0.1.conv2.bias": "model.safetensors",
+        "predictor.F0.1.conv2.weight_g": "model.safetensors",
+        "predictor.F0.1.conv2.weight_v": "model.safetensors",
+        "predictor.F0.1.norm1.fc.bias": "model.safetensors",
+        "predictor.F0.1.norm1.fc.biases": "model.safetensors",
+        "predictor.F0.1.norm1.fc.scales": "model.safetensors",
+        "predictor.F0.1.norm1.fc.weight": "model.safetensors",
+        "predictor.F0.1.norm2.fc.bias": "model.safetensors",
+        "predictor.F0.1.norm2.fc.biases": "model.safetensors",
+        "predictor.F0.1.norm2.fc.scales": "model.safetensors",
+        "predictor.F0.1.norm2.fc.weight": "model.safetensors",
+        "predictor.F0.1.pool.bias": "model.safetensors",
+        "predictor.F0.1.pool.weight_g": "model.safetensors",
+        "predictor.F0.1.pool.weight_v": "model.safetensors",
+        "predictor.F0.2.conv1.bias": "model.safetensors",
+        "predictor.F0.2.conv1.weight_g": "model.safetensors",
+        "predictor.F0.2.conv1.weight_v": "model.safetensors",
+        "predictor.F0.2.conv2.bias": "model.safetensors",
+        "predictor.F0.2.conv2.weight_g": "model.safetensors",
+        "predictor.F0.2.conv2.weight_v": "model.safetensors",
+        "predictor.F0.2.norm1.fc.bias": "model.safetensors",
+        "predictor.F0.2.norm1.fc.biases": "model.safetensors",
+        "predictor.F0.2.norm1.fc.scales": "model.safetensors",
+        "predictor.F0.2.norm1.fc.weight": "model.safetensors",
+        "predictor.F0.2.norm2.fc.bias": "model.safetensors",
+        "predictor.F0.2.norm2.fc.biases": "model.safetensors",
+        "predictor.F0.2.norm2.fc.scales": "model.safetensors",
+        "predictor.F0.2.norm2.fc.weight": "model.safetensors",
+        "predictor.F0_proj.bias": "model.safetensors",
+        "predictor.F0_proj.weight": "model.safetensors",
+        "predictor.N.0.conv1.bias": "model.safetensors",
+        "predictor.N.0.conv1.weight_g": "model.safetensors",
+        "predictor.N.0.conv1.weight_v": "model.safetensors",
+        "predictor.N.0.conv2.bias": "model.safetensors",
+        "predictor.N.0.conv2.weight_g": "model.safetensors",
+        "predictor.N.0.conv2.weight_v": "model.safetensors",
+        "predictor.N.0.norm1.fc.bias": "model.safetensors",
+        "predictor.N.0.norm1.fc.biases": "model.safetensors",
+        "predictor.N.0.norm1.fc.scales": "model.safetensors",
+        "predictor.N.0.norm1.fc.weight": "model.safetensors",
+        "predictor.N.0.norm2.fc.bias": "model.safetensors",
+        "predictor.N.0.norm2.fc.biases": "model.safetensors",
+        "predictor.N.0.norm2.fc.scales": "model.safetensors",
+        "predictor.N.0.norm2.fc.weight": "model.safetensors",
+        "predictor.N.1.conv1.bias": "model.safetensors",
+        "predictor.N.1.conv1.weight_g": "model.safetensors",
+        "predictor.N.1.conv1.weight_v": "model.safetensors",
+        "predictor.N.1.conv1x1.weight_g": "model.safetensors",
+        "predictor.N.1.conv1x1.weight_v": "model.safetensors",
+        "predictor.N.1.conv2.bias": "model.safetensors",
+        "predictor.N.1.conv2.weight_g": "model.safetensors",
+        "predictor.N.1.conv2.weight_v": "model.safetensors",
+        "predictor.N.1.norm1.fc.bias": "model.safetensors",
+        "predictor.N.1.norm1.fc.biases": "model.safetensors",
+        "predictor.N.1.norm1.fc.scales": "model.safetensors",
+        "predictor.N.1.norm1.fc.weight": "model.safetensors",
+        "predictor.N.1.norm2.fc.bias": "model.safetensors",
+        "predictor.N.1.norm2.fc.biases": "model.safetensors",
+        "predictor.N.1.norm2.fc.scales": "model.safetensors",
+        "predictor.N.1.norm2.fc.weight": "model.safetensors",
+        "predictor.N.1.pool.bias": "model.safetensors",
+        "predictor.N.1.pool.weight_g": "model.safetensors",
+        "predictor.N.1.pool.weight_v": "model.safetensors",
+        "predictor.N.2.conv1.bias": "model.safetensors",
+        "predictor.N.2.conv1.weight_g": "model.safetensors",
+        "predictor.N.2.conv1.weight_v": "model.safetensors",
+        "predictor.N.2.conv2.bias": "model.safetensors",
+        "predictor.N.2.conv2.weight_g": "model.safetensors",
+        "predictor.N.2.conv2.weight_v": "model.safetensors",
+        "predictor.N.2.norm1.fc.bias": "model.safetensors",
+        "predictor.N.2.norm1.fc.biases": "model.safetensors",
+        "predictor.N.2.norm1.fc.scales": "model.safetensors",
+        "predictor.N.2.norm1.fc.weight": "model.safetensors",
+        "predictor.N.2.norm2.fc.bias": "model.safetensors",
+        "predictor.N.2.norm2.fc.biases": "model.safetensors",
+        "predictor.N.2.norm2.fc.scales": "model.safetensors",
+        "predictor.N.2.norm2.fc.weight": "model.safetensors",
+        "predictor.N_proj.bias": "model.safetensors",
+        "predictor.N_proj.weight": "model.safetensors",
+        "predictor.duration_proj.linear_layer.bias": "model.safetensors",
+        "predictor.duration_proj.linear_layer.biases": "model.safetensors",
+        "predictor.duration_proj.linear_layer.scales": "model.safetensors",
+        "predictor.duration_proj.linear_layer.weight": "model.safetensors",
+        "predictor.lstm.Wh_backward": "model.safetensors",
+        "predictor.lstm.Wh_forward": "model.safetensors",
+        "predictor.lstm.Wx_backward": "model.safetensors",
+        "predictor.lstm.Wx_forward": "model.safetensors",
+        "predictor.lstm.bias_hh_backward": "model.safetensors",
+        "predictor.lstm.bias_hh_forward": "model.safetensors",
+        "predictor.lstm.bias_ih_backward": "model.safetensors",
+        "predictor.lstm.bias_ih_forward": "model.safetensors",
+        "predictor.shared.Wh_backward": "model.safetensors",
+        "predictor.shared.Wh_forward": "model.safetensors",
+        "predictor.shared.Wx_backward": "model.safetensors",
+        "predictor.shared.Wx_forward": "model.safetensors",
+        "predictor.shared.bias_hh_backward": "model.safetensors",
+        "predictor.shared.bias_hh_forward": "model.safetensors",
+        "predictor.shared.bias_ih_backward": "model.safetensors",
+        "predictor.shared.bias_ih_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.Wh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.Wh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.Wx_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.Wx_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.bias_hh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.bias_hh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.bias_ih_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.0.bias_ih_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.1.fc.bias": "model.safetensors",
+        "predictor.text_encoder.lstms.1.fc.biases": "model.safetensors",
+        "predictor.text_encoder.lstms.1.fc.scales": "model.safetensors",
+        "predictor.text_encoder.lstms.1.fc.weight": "model.safetensors",
+        "predictor.text_encoder.lstms.2.Wh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.Wh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.Wx_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.Wx_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.bias_hh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.bias_hh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.bias_ih_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.2.bias_ih_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.3.fc.bias": "model.safetensors",
+        "predictor.text_encoder.lstms.3.fc.biases": "model.safetensors",
+        "predictor.text_encoder.lstms.3.fc.scales": "model.safetensors",
+        "predictor.text_encoder.lstms.3.fc.weight": "model.safetensors",
+        "predictor.text_encoder.lstms.4.Wh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.Wh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.Wx_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.Wx_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.bias_hh_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.bias_hh_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.bias_ih_backward": "model.safetensors",
+        "predictor.text_encoder.lstms.4.bias_ih_forward": "model.safetensors",
+        "predictor.text_encoder.lstms.5.fc.bias": "model.safetensors",
+        "predictor.text_encoder.lstms.5.fc.biases": "model.safetensors",
+        "predictor.text_encoder.lstms.5.fc.scales": "model.safetensors",
+        "predictor.text_encoder.lstms.5.fc.weight": "model.safetensors",
+        "text_encoder.cnn.0.0.bias": "model.safetensors",
+        "text_encoder.cnn.0.0.weight_g": "model.safetensors",
+        "text_encoder.cnn.0.0.weight_v": "model.safetensors",
+        "text_encoder.cnn.0.1.bias": "model.safetensors",
+        "text_encoder.cnn.0.1.weight": "model.safetensors",
+        "text_encoder.cnn.1.0.bias": "model.safetensors",
+        "text_encoder.cnn.1.0.weight_g": "model.safetensors",
+        "text_encoder.cnn.1.0.weight_v": "model.safetensors",
+        "text_encoder.cnn.1.1.bias": "model.safetensors",
+        "text_encoder.cnn.1.1.weight": "model.safetensors",
+        "text_encoder.cnn.2.0.bias": "model.safetensors",
+        "text_encoder.cnn.2.0.weight_g": "model.safetensors",
+        "text_encoder.cnn.2.0.weight_v": "model.safetensors",
+        "text_encoder.cnn.2.1.bias": "model.safetensors",
+        "text_encoder.cnn.2.1.weight": "model.safetensors",
+        "text_encoder.embedding.biases": "model.safetensors",
+        "text_encoder.embedding.scales": "model.safetensors",
+        "text_encoder.embedding.weight": "model.safetensors",
+        "text_encoder.lstm.Wh_backward": "model.safetensors",
+        "text_encoder.lstm.Wh_forward": "model.safetensors",
+        "text_encoder.lstm.Wx_backward": "model.safetensors",
+        "text_encoder.lstm.Wx_forward": "model.safetensors",
+        "text_encoder.lstm.bias_hh_backward": "model.safetensors",
+        "text_encoder.lstm.bias_hh_forward": "model.safetensors",
+        "text_encoder.lstm.bias_ih_backward": "model.safetensors",
+        "text_encoder.lstm.bias_ih_forward": "model.safetensors"
+    }
+}

voices.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:112710c1be8ad0e967c190fb0fd95cbe5848ec4791b93209f20b28b7da20dac1
+size 3278902