Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +54 -0
aligner/weights.safetensors +3 -0
config.json +49 -0
decoder/weights.safetensors +3 -0
encoder/weights.safetensors +3 -0
model.safetensors +3 -0
model.safetensors.index.json +360 -0
model/config.json +49 -0
model/weights.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,54 @@

+---
+license: llama3.2
+library_name: mlx-audio
+language:
+- en
+tags:
+- mlx
+- tts
+- text-to-speech
+- speech-synthesis
+- tada
+- apple-silicon
+- mlx
+- text-to-speech
+- speech
+- speech generation
+- voice cloning
+- tts
+- mlx-audio
+pipeline_tag: text-to-speech
+base_model: meta-llama/Llama-3.2-1B
+arxiv: 2602.23068
+---
+# mlx-community/tada-tts
+This model was converted to MLX format from [`HumeAI/mlx-tada-1b`](https://huggingface.co/HumeAI/mlx-tada-1b) using mlx-audio version **0.2.8**.
+Refer to the [original model card](https://huggingface.co/HumeAI/mlx-tada-1b) for more details on the model.
+## Use with mlx-audio
+```bash
+pip install -U mlx-audio
+```
+### CLI Example:
+```bash
+python -m mlx_audio.tts.generate --model mlx-community/tada-tts --text "Hello, this is a test."
+```
+### Python Example:
+```python
+from mlx_audio.tts.utils import load_model
+from mlx_audio.tts.generate import generate_audio
+model = load_model("mlx-community/tada-tts")
+generate_audio(
+    model=model,
+    text="Hello, this is a test.",
+    ref_audio="path_to_audio.wav",
+    file_prefix="test_audio",
+)
+```

aligner/weights.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2e603bd1f76bf33dbaf0ebe1d65f7024641d28e2887c703eadb7a3cda1316e
+size 893830649

config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+    "acoustic_dim": 512,
+    "acoustic_from_nth_hidden_state": -1,
+    "acoustic_mean": 0.0,
+    "acoustic_std": 1.5,
+    "add_semantic_to_condition": 0.0,
+    "architectures": [
+        "TadaForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 128000,
+    "bottleneck_dim": null,
+    "context_window": 8,
+    "diffusion_head_type": "vibevoice",
+    "dist_type": "fixed",
+    "dtype": "bfloat16",
+    "eos_token_id": 128001,
+    "head_dim": 64,
+    "head_ffn_ratio": 4.0,
+    "head_layers": 6,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 8192,
+    "latent_dropout": 0.0,
+    "max_position_embeddings": 131072,
+    "mlp_bias": false,
+    "model_type": "tada",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 16,
+    "num_key_value_heads": 8,
+    "num_time_classes": 256,
+    "pretraining_tp": 1,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": {
+        "factor": 32.0,
+        "high_freq_factor": 4.0,
+        "low_freq_factor": 1.0,
+        "original_max_position_embeddings": 8192,
+        "rope_type": "llama3"
+    },
+    "rope_theta": 500000.0,
+    "shift_acoustic": 5,
+    "tie_word_embeddings": true,
+    "transformers_version": "4.57.3",
+    "use_cache": true,
+    "vocab_size": 128256
+}

decoder/weights.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40310d1e93460f2bea9b77b83dfafe11a5ffbf5dc36224b4ca89db20c1776fcb
+size 237407562

encoder/weights.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5732c5a73f42475f620a6a8dba36f404e58fc3b4bae1f1766503a1448e062970
+size 186606332

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b52f59e40505f5c8bde0de70bcf0a8164102c6c5288a636bac6af75f90ba8176
+size 3592372707

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,360 @@

+{
+    "metadata": {
+        "total_size": 3592330628,
+        "total_parameters": 1753575777
+    },
+    "weight_map": {
+        "acoustic_mask_emb.weight": "model.safetensors",
+        "acoustic_proj.bias": "model.safetensors",
+        "acoustic_proj.weight": "model.safetensors",
+        "decoder.decoder_proj.bias": "model.safetensors",
+        "decoder.decoder_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.final_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.final_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.0.self_attn.qkv.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.1.self_attn.qkv.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.2.self_attn.qkv.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.3.self_attn.qkv.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.4.self_attn.qkv.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.linear1.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.linear1.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.linear2.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.linear2.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.layer_norm.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.layer_norm.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.out_proj.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.out_proj.weight": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.qkv.bias": "model.safetensors",
+        "decoder.local_attention_decoder.layers.5.self_attn.qkv.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.conv_transpose.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.conv_transpose.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res1.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res2.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.res3.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.0.snake.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.conv_transpose.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.conv_transpose.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res1.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res2.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.res3.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.1.snake.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.conv_transpose.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.conv_transpose.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res1.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res2.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.res3.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.2.snake.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.conv_transpose.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.conv_transpose.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res1.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res2.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.conv1.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.conv1.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.conv2.bias": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.conv2.weight": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.snake1.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.res3.snake2.alpha": "model.safetensors",
+        "decoder.wav_decoder.blocks.3.snake.alpha": "model.safetensors",
+        "decoder.wav_decoder.final_conv.bias": "model.safetensors",
+        "decoder.wav_decoder.final_conv.weight": "model.safetensors",
+        "decoder.wav_decoder.final_snake.alpha": "model.safetensors",
+        "decoder.wav_decoder.initial_conv.bias": "model.safetensors",
+        "decoder.wav_decoder.initial_conv.weight": "model.safetensors",
+        "model.embed_tokens.weight": "model.safetensors",
+        "model.layers.0.input_layernorm.weight": "model.safetensors",
+        "model.layers.0.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.0.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.0.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.0.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.0.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.0.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.0.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.0.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.1.input_layernorm.weight": "model.safetensors",
+        "model.layers.1.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.1.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.1.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.1.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.1.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.1.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.1.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.1.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.10.input_layernorm.weight": "model.safetensors",
+        "model.layers.10.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.10.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.10.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.10.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.10.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.10.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.10.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.10.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.11.input_layernorm.weight": "model.safetensors",
+        "model.layers.11.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.11.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.11.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.11.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.11.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.11.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.11.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.11.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.12.input_layernorm.weight": "model.safetensors",
+        "model.layers.12.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.12.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.12.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.13.input_layernorm.weight": "model.safetensors",
+        "model.layers.13.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.13.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.13.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.13.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.13.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.13.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.13.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.13.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.14.input_layernorm.weight": "model.safetensors",
+        "model.layers.14.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.14.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.14.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.14.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.14.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.14.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.14.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.14.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.15.input_layernorm.weight": "model.safetensors",
+        "model.layers.15.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.15.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.15.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.15.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.15.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.15.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.15.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.15.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.2.input_layernorm.weight": "model.safetensors",
+        "model.layers.2.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.2.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.2.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.2.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.2.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.2.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.2.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.2.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.3.input_layernorm.weight": "model.safetensors",
+        "model.layers.3.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.3.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.3.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.3.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.3.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.3.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.3.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.3.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.4.input_layernorm.weight": "model.safetensors",
+        "model.layers.4.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.4.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.4.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.4.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.4.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.4.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.4.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.4.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.5.input_layernorm.weight": "model.safetensors",
+        "model.layers.5.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.5.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.5.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.5.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.5.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.5.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.5.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.5.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.6.input_layernorm.weight": "model.safetensors",
+        "model.layers.6.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.6.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.6.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.6.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.6.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.6.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.6.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.6.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.7.input_layernorm.weight": "model.safetensors",
+        "model.layers.7.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.7.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.7.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.7.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.7.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.7.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.7.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.7.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.8.input_layernorm.weight": "model.safetensors",
+        "model.layers.8.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.8.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.8.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.8.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.8.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.8.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.8.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.8.self_attn.v_proj.weight": "model.safetensors",
+        "model.layers.9.input_layernorm.weight": "model.safetensors",
+        "model.layers.9.mlp.down_proj.weight": "model.safetensors",
+        "model.layers.9.mlp.gate_proj.weight": "model.safetensors",
+        "model.layers.9.mlp.up_proj.weight": "model.safetensors",
+        "model.layers.9.post_attention_layernorm.weight": "model.safetensors",
+        "model.layers.9.self_attn.k_proj.weight": "model.safetensors",
+        "model.layers.9.self_attn.o_proj.weight": "model.safetensors",
+        "model.layers.9.self_attn.q_proj.weight": "model.safetensors",
+        "model.layers.9.self_attn.v_proj.weight": "model.safetensors",
+        "model.norm.weight": "model.safetensors",
+        "prediction_head.cond_proj.weight": "model.safetensors",
+        "prediction_head.final_layer.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.final_layer.linear.weight": "model.safetensors",
+        "prediction_head.layers.0.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.0.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.0.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.0.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.0.norm.weight": "model.safetensors",
+        "prediction_head.layers.1.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.1.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.1.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.1.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.1.norm.weight": "model.safetensors",
+        "prediction_head.layers.2.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.2.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.2.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.2.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.2.norm.weight": "model.safetensors",
+        "prediction_head.layers.3.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.3.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.3.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.3.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.3.norm.weight": "model.safetensors",
+        "prediction_head.layers.4.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.4.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.4.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.4.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.4.norm.weight": "model.safetensors",
+        "prediction_head.layers.5.adaLN_modulation.layers.1.weight": "model.safetensors",
+        "prediction_head.layers.5.ffn.down_proj.weight": "model.safetensors",
+        "prediction_head.layers.5.ffn.gate_proj.weight": "model.safetensors",
+        "prediction_head.layers.5.ffn.up_proj.weight": "model.safetensors",
+        "prediction_head.layers.5.norm.weight": "model.safetensors",
+        "prediction_head.noisy_images_proj.weight": "model.safetensors",
+        "prediction_head.t_embedder.mlp.layers.0.weight": "model.safetensors",
+        "prediction_head.t_embedder.mlp.layers.2.weight": "model.safetensors",
+        "time_end_embed.weight": "model.safetensors",
+        "time_start_embed.weight": "model.safetensors"
+    }
+}

model/config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "acoustic_dim": 512,
+  "acoustic_from_nth_hidden_state": -1,
+  "acoustic_mean": 0.0,
+  "acoustic_std": 1.5,
+  "add_semantic_to_condition": 0.0,
+  "architectures": [
+    "TadaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "bottleneck_dim": null,
+  "context_window": 8,
+  "diffusion_head_type": "vibevoice",
+  "dist_type": "fixed",
+  "dtype": "bfloat16",
+  "eos_token_id": 128001,
+  "head_dim": 64,
+  "head_ffn_ratio": 4.0,
+  "head_layers": 6,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "latent_dropout": 0.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "num_time_classes": 256,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "shift_acoustic": 5,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "vocab_size": 128256
+}

model/weights.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45b45dcbc3faa9efa11c6aa6a6a84290f26a1c6944b860521526be4dc30d4e4b
+size 3269784687