Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +47 -0
config.json +78 -0
model.safetensors +3 -0
model.safetensors.index.json +355 -0

README.md ADDED Viewed

	@@ -0,0 +1,47 @@

+---
+license: cc-by-4.0
+language:
+- en
+base_model:
+- kyutai/pocket-tts
+tags:
+- mlx
+- text-to-speech
+- speech
+- speech generation
+- voice cloning
+- tts
+- mlx-audio
+library_name: mlx-audio
+---
+# mlx-community/pocket-tts-8bit
+This model was converted to MLX format from [`mlx-community/pocket-tts`](https://huggingface.co/mlx-community/pocket-tts) using mlx-audio version **0.3.0rc1**.
+Refer to the [original model card](https://huggingface.co/mlx-community/pocket-tts) for more details on the model.
+## Use with mlx-audio
+```bash
+pip install -U mlx-audio
+```
+### CLI Example:
+```bash
+python -m mlx_audio.tts.generate --model mlx-community/pocket-tts-8bit --text "Hello, this is a test."
+```
+### Python Example:
+```python
+from mlx_audio.tts.utils import load_model
+from mlx_audio.tts.generate import generate_audio
+model = load_model("mlx-community/pocket-tts-8bit")
+generate_audio(
+    model=model,
+    text="Hello, this is a test.",
+    ref_audio="path_to_audio.wav",
+    file_prefix="test_audio",
+)
+```

config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+    "flow_lm": {
+        "dtype": "float32",
+        "flow": {
+            "dim": 512,
+            "depth": 6
+        },
+        "transformer": {
+            "hidden_scale": 4,
+            "max_period": 10000,
+            "d_model": 1024,
+            "num_heads": 16,
+            "num_layers": 6
+        },
+        "lookup_table": {
+            "dim": 1024,
+            "n_bins": 4000,
+            "tokenizer": "sentencepiece",
+            "tokenizer_path": "hf://kyutai/pocket-tts-without-voice-cloning/tokenizer.model@d4fdd22ae8c8e1cb3634e150ebeff1dab2d16df3"
+        },
+        "weights_path": null
+    },
+    "mimi": {
+        "dtype": "float32",
+        "sample_rate": 24000,
+        "channels": 1,
+        "frame_rate": 12.5,
+        "seanet": {
+            "dimension": 512,
+            "channels": 1,
+            "n_filters": 64,
+            "n_residual_layers": 1,
+            "ratios": [
+                6,
+                5,
+                4
+            ],
+            "kernel_size": 7,
+            "residual_kernel_size": 3,
+            "last_kernel_size": 3,
+            "dilation_base": 2,
+            "pad_mode": "constant",
+            "compress": 2
+        },
+        "transformer": {
+            "d_model": 512,
+            "input_dimension": 512,
+            "output_dimensions": [
+                512
+            ],
+            "num_heads": 8,
+            "num_layers": 2,
+            "layer_scale": 0.01,
+            "context": 250,
+            "dim_feedforward": 2048,
+            "max_period": 10000.0
+        },
+        "quantizer": {
+            "dimension": 32,
+            "output_dimension": 512
+        },
+        "weights_path": null
+    },
+    "model_path": null,
+    "model_type": "pocket_tts",
+    "quantization": {
+        "group_size": 64,
+        "bits": 4,
+        "mode": "affine"
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 4,
+        "mode": "affine"
+    },
+    "weights_path": "hf://kyutai/pocket-tts/tts_b6369a24.safetensors@427e3d61b276ed69fdd03de0d185fa8a8d97fc5b",
+    "weights_path_without_voice_cloning": "hf://kyutai/pocket-tts-without-voice-cloning/tts_b6369a24.safetensors@d4fdd22ae8c8e1cb3634e150ebeff1dab2d16df3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6f9704274f1929a0d09fd3f31ca153a7b6bc4cf4efd8d26408c78dce1813c20
+size 89282784

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,355 @@

+{
+    "metadata": {
+        "total_size": 89241092,
+        "total_parameters": 117332322
+    },
+    "weight_map": {
+        "flow_lm.bos_emb": "model.safetensors",
+        "flow_lm.conditioner.embed.biases": "model.safetensors",
+        "flow_lm.conditioner.embed.scales": "model.safetensors",
+        "flow_lm.conditioner.embed.weight": "model.safetensors",
+        "flow_lm.emb_mean": "model.safetensors",
+        "flow_lm.emb_std": "model.safetensors",
+        "flow_lm.flow_net.cond_embed.bias": "model.safetensors",
+        "flow_lm.flow_net.cond_embed.biases": "model.safetensors",
+        "flow_lm.flow_net.cond_embed.scales": "model.safetensors",
+        "flow_lm.flow_net.cond_embed.weight": "model.safetensors",
+        "flow_lm.flow_net.final_layer.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.final_layer.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.final_layer.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.final_layer.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.final_layer.linear.bias": "model.safetensors",
+        "flow_lm.flow_net.final_layer.linear.biases": "model.safetensors",
+        "flow_lm.flow_net.final_layer.linear.scales": "model.safetensors",
+        "flow_lm.flow_net.final_layer.linear.weight": "model.safetensors",
+        "flow_lm.flow_net.input_proj.bias": "model.safetensors",
+        "flow_lm.flow_net.input_proj.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.0.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.1.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.2.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.3.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.4.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.adaLN_modulation.1.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.adaLN_modulation.1.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.adaLN_modulation.1.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.adaLN_modulation.1.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.in_ln.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.in_ln.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.res_blocks.5.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.freqs": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.time_embed.0.mlp.3.alpha": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.freqs": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.0.bias": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.0.biases": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.0.scales": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.0.weight": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.2.bias": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.2.biases": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.2.scales": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.2.weight": "model.safetensors",
+        "flow_lm.flow_net.time_embed.1.mlp.3.alpha": "model.safetensors",
+        "flow_lm.input_linear.weight": "model.safetensors",
+        "flow_lm.out_eos.bias": "model.safetensors",
+        "flow_lm.out_eos.biases": "model.safetensors",
+        "flow_lm.out_eos.scales": "model.safetensors",
+        "flow_lm.out_eos.weight": "model.safetensors",
+        "flow_lm.out_norm.bias": "model.safetensors",
+        "flow_lm.out_norm.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.0.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.0.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.0.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.0.self_attn.out_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.1.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.1.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.1.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.1.self_attn.out_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.2.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.2.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.2.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.2.self_attn.out_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.3.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.3.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.3.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.3.self_attn.out_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.4.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.4.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.4.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.4.self_attn.out_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear1.biases": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear1.scales": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear2.biases": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear2.scales": "model.safetensors",
+        "flow_lm.transformer.layers.5.linear2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.norm1.bias": "model.safetensors",
+        "flow_lm.transformer.layers.5.norm1.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.norm2.bias": "model.safetensors",
+        "flow_lm.transformer.layers.5.norm2.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.in_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.in_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.in_proj.weight": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.out_proj.biases": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.out_proj.scales": "model.safetensors",
+        "flow_lm.transformer.layers.5.self_attn.out_proj.weight": "model.safetensors",
+        "mimi.decoder.final_conv1d.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.final_conv1d.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.init_conv1d.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.init_conv1d.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.0.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.0.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.0.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.0.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.0.upsample.convtr.convtr.bias": "model.safetensors",
+        "mimi.decoder.layers.0.upsample.convtr.convtr.weight": "model.safetensors",
+        "mimi.decoder.layers.1.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.1.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.1.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.1.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.1.upsample.convtr.convtr.bias": "model.safetensors",
+        "mimi.decoder.layers.1.upsample.convtr.convtr.weight": "model.safetensors",
+        "mimi.decoder.layers.2.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.2.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.2.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.decoder.layers.2.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.decoder.layers.2.upsample.convtr.convtr.bias": "model.safetensors",
+        "mimi.decoder.layers.2.upsample.convtr.convtr.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear1.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear1.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear1.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear2.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear2.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.gating.linear2.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.layer_scale_1.scale": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.layer_scale_2.scale": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.norm1.bias": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.norm1.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.norm2.bias": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.norm2.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.in_proj.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.in_proj.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.in_proj.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.out_proj.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.out_proj.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.0.self_attn.out_proj.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear1.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear1.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear1.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear2.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear2.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.gating.linear2.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.layer_scale_1.scale": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.layer_scale_2.scale": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.norm1.bias": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.norm1.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.norm2.bias": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.norm2.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.in_proj.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.in_proj.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.in_proj.weight": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.out_proj.biases": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.out_proj.scales": "model.safetensors",
+        "mimi.decoder_transformer.transformer.layers.1.self_attn.out_proj.weight": "model.safetensors",
+        "mimi.downsample.conv.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.final_conv1d.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.final_conv1d.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.init_conv1d.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.init_conv1d.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.0.downsample.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.0.downsample.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.0.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.0.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.0.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.0.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.1.downsample.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.1.downsample.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.1.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.1.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.1.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.1.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.2.downsample.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.2.downsample.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.2.residuals.0.block.0.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.2.residuals.0.block.0.conv.conv.weight": "model.safetensors",
+        "mimi.encoder.layers.2.residuals.0.block.1.conv.conv.bias": "model.safetensors",
+        "mimi.encoder.layers.2.residuals.0.block.1.conv.conv.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear1.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear1.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear1.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear2.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear2.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.gating.linear2.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.layer_scale_1.scale": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.layer_scale_2.scale": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.norm1.bias": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.norm1.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.norm2.bias": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.norm2.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.in_proj.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.in_proj.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.in_proj.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.out_proj.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.out_proj.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.0.self_attn.out_proj.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear1.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear1.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear1.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear2.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear2.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.gating.linear2.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.layer_scale_1.scale": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.layer_scale_2.scale": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.norm1.bias": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.norm1.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.norm2.bias": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.norm2.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.in_proj.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.in_proj.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.in_proj.weight": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.out_proj.biases": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.out_proj.scales": "model.safetensors",
+        "mimi.encoder_transformer.transformer.layers.1.self_attn.out_proj.weight": "model.safetensors",
+        "mimi.quantizer.output_proj.weight": "model.safetensors",
+        "mimi.upsample.convtr.convtr.convtr.weight": "model.safetensors",
+        "speaker_proj_weight": "model.safetensors"
+    }
+}