Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +71 -0
config.json +92 -0
model.safetensors +3 -0
model.safetensors.index.json +563 -0

README.md ADDED Viewed

	@@ -0,0 +1,71 @@

+---
+language:
+- en
+base_model:
+- facebook/sam-audio-large
+pipeline_tag: speech-to-speech
+library_name: mlx-audio
+tags:
+- speech-to-speech
+- speech
+- speech generation
+- voice isolation
+- mlx
+---
+# mlx-community/sam-audio-large
+This model was converted to MLX format from [`facebook/sam-audio-large`](https://huggingface.co/facebook/sam-audio-large) using mlx-audio version **0.2.10**.
+Refer to the [original model card](https://huggingface.co/facebook/sam-audio-large) for more details on the model.
+## Use with mlx
+```bash
+pip install -U mlx-audio
+```
+## Voice Isolation:
+```python
+from mlx_audio.sts import SAMAudio, SAMAudioProcessor, save_audio
+import mlx.core as mx
+# Load model and processor
+processor = SAMAudioProcessor.from_pretrained("facebook/sam-audio-large")
+model = SAMAudio.from_pretrained("facebook/sam-audio-large")
+# Process inputs
+batch = processor(
+    descriptions=["speech"],
+    audios=["path/to/audio.mp3"],
+    # anchors=[[("+", 0.2, 0.5)]],  # Optional: temporal
+)
+# Separate audio
+result = model.separate(
+    audios=batch.audios,
+    descriptions=batch.descriptions,
+    sizes=batch.sizes,
+    anchor_ids=batch.anchor_ids,
+    anchor_alignment=batch.anchor_alignment,
+    ode_decode_chunk_size=50,  # Chunked decoding for memory efficiency
+)
+# For long audio files, use separate_long().
+# Note: This is slower than separate() but it is more memory efficient.
+# result = model.separate_long(
+#     audios=batch.audios,
+#     descriptions=batch.descriptions,
+#     chunk_seconds=10.0,
+#     overlap_seconds=3.0,
+#     anchor_ids=batch.anchor_ids,
+#     anchor_alignment=batch.anchor_alignment,
+#     ode_decode_chunk_size=50,  # Chunked decoding for memory efficiency
+# )
+# Save output
+## Isolated speech
+save_audio(result.target[0], "separated.wav", sample_rate=model.sample_rate)
+## Residual audio (background music/noise/other sounds)
+save_audio(result.residual[0], "residual.wav", sample_rate=model.sample_rate)
+# Check memory usage
+print(f"Peak memory: {result.peak_memory:.2f} GB")
+```

config.json ADDED Viewed

	@@ -0,0 +1,92 @@

+{
+    "in_channels": 768,
+    "audio_codec": {
+        "encoder_dim": 64,
+        "encoder_rates": [
+            2,
+            8,
+            10,
+            12
+        ],
+        "latent_dim": 1024,
+        "decoder_dim": 1536,
+        "decoder_rates": [
+            12,
+            10,
+            8,
+            2
+        ],
+        "n_codebooks": 16,
+        "codebook_size": 1024,
+        "codebook_dim": 128,
+        "quantizer_dropout": false,
+        "sample_rate": 48000,
+        "mean": 0.0,
+        "std": 1.0
+    },
+    "text_encoder": {
+        "dim": 768,
+        "name": "t5-base",
+        "max_length": 512,
+        "pad_mode": "longest"
+    },
+    "vision_encoder": {
+        "dim": 1024,
+        "batch_size": 300,
+        "name": "PE-Core-L14-336",
+        "normalize_feature": true,
+        "interpolation_mode": "BICUBIC",
+        "image_size": 336
+    },
+    "transformer": {
+        "dim": 1536,
+        "n_heads": 12,
+        "n_layers": 12,
+        "dropout": 0.1,
+        "norm_eps": 1e-05,
+        "qk_norm": true,
+        "fc_bias": false,
+        "ffn_exp": 4,
+        "ffn_dim_multiplier": 1,
+        "multiple_of": 64,
+        "non_linearity": "swiglu",
+        "use_rope": true,
+        "max_positions": 10000,
+        "frequency_embedding_dim": 256,
+        "timestep_non_linearity": "swiglu",
+        "t_block_non_linearity": "silu",
+        "t_block_bias": true,
+        "context_dim": 1536,
+        "context_non_linearity": "swiglu",
+        "context_embedder_dropout": 0.0,
+        "context_norm": false,
+        "out_channels": 256,
+        "in_channels": null
+    },
+    "num_anchors": 3,
+    "anchor_embedding_dim": 128,
+    "visual_ranker": {
+        "checkpoint": null,
+        "kind": "imagebind"
+    },
+    "text_ranker": {
+        "rankers": {
+            "clap": [
+                {
+                    "checkpoint": null,
+                    "kind": "clap"
+                },
+                5.0
+            ],
+            "judge": [
+                {
+                    "checkpoint_or_model_id": "facebook/sam-audio-judge",
+                    "kind": "judge"
+                },
+                1.0
+            ]
+        },
+        "kind": "ensemble"
+    },
+    "span_predictor": "pe-a-frame-large"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae851c17699821e4a7a7c6b0aae44be61c190ceb3c9a603b2a2e5b327d2509f8
+size 2409315890

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,563 @@

+{
+    "metadata": {
+        "total_size": 2409249296,
+        "total_parameters": 602199429
+    },
+    "weight_map": {
+        "audio_codec.decoder.blocks.0.block_0.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_11.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_11.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_3.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_3.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_4.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_5.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_6.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_6.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_6.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_6.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_7.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_7.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_7.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_7.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.0.block_8.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_0.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_11.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_11.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_3.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_3.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_4.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_5.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_6.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_6.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_6.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_6.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_7.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_7.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_7.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_7.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.1.block_8.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_0.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_11.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_11.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_3.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_3.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_4.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_5.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_6.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_6.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_6.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_6.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_7.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_7.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_7.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_7.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.2.block_8.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_0.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_11.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_11.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_3.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_3.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_4.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_5.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_6.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_6.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_6.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_6.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_7.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_7.conv1.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_7.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_7.conv2.weight": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.act1.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.act2.alpha": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv1.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv1.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv1.weight_v": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv2.bias": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv2.weight_g": "model.safetensors",
+        "audio_codec.decoder.blocks.3.block_8.conv2.weight_v": "model.safetensors",
+        "audio_codec.decoder.conv_in.bias": "model.safetensors",
+        "audio_codec.decoder.conv_in.weight_g": "model.safetensors",
+        "audio_codec.decoder.conv_in.weight_v": "model.safetensors",
+        "audio_codec.decoder.conv_out.bias": "model.safetensors",
+        "audio_codec.decoder.conv_out.weight_g": "model.safetensors",
+        "audio_codec.decoder.conv_out.weight_v": "model.safetensors",
+        "audio_codec.decoder.snake_out.alpha": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.post_1.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.post_1.weight": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_0.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_0.weight": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.0.Wh": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.0.Wx": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.0.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.1.Wh": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.1.Wx": "model.safetensors",
+        "audio_codec.decoder.wm_model.decoder_block.pre_1.lstm.layers.1.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.0.Wh": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.0.Wx": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.0.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.1.Wh": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.1.Wx": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_0.lstm.layers.1.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_2.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.post_2.weight": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.pre_3.bias": "model.safetensors",
+        "audio_codec.decoder.wm_model.encoder_block.pre_3.weight": "model.safetensors",
+        "audio_codec.decoder.wm_model.msg_processor.msg_processor.weight": "model.safetensors",
+        "audio_codec.encoder.blocks.0.conv.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.conv.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.conv.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res1.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res2.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.0.res3.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.0.snake.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.conv.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.conv.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.conv.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res1.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res2.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.1.res3.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.1.snake.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.conv.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.conv.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.conv.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res1.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res2.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.2.res3.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.2.snake.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.conv.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.conv.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.conv.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res1.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res2.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.act1.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.act2.alpha": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv1.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv1.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv1.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv2.bias": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv2.weight_g": "model.safetensors",
+        "audio_codec.encoder.blocks.3.res3.conv2.weight_v": "model.safetensors",
+        "audio_codec.encoder.blocks.3.snake.alpha": "model.safetensors",
+        "audio_codec.encoder.conv_in.bias": "model.safetensors",
+        "audio_codec.encoder.conv_in.weight_g": "model.safetensors",
+        "audio_codec.encoder.conv_in.weight_v": "model.safetensors",
+        "audio_codec.encoder.conv_out.bias": "model.safetensors",
+        "audio_codec.encoder.conv_out.weight_g": "model.safetensors",
+        "audio_codec.encoder.conv_out.weight_v": "model.safetensors",
+        "audio_codec.encoder.snake_out.alpha": "model.safetensors",
+        "audio_codec.quantizer_in_proj.bias": "model.safetensors",
+        "audio_codec.quantizer_in_proj.weight_g": "model.safetensors",
+        "audio_codec.quantizer_in_proj.weight_v": "model.safetensors",
+        "audio_codec.quantizer_out_proj.bias": "model.safetensors",
+        "audio_codec.quantizer_out_proj.weight_g": "model.safetensors",
+        "audio_codec.quantizer_out_proj.weight_v": "model.safetensors",
+        "embed_anchors.embed.weight": "model.safetensors",
+        "embed_anchors.gate": "model.safetensors",
+        "embed_anchors.proj.weight": "model.safetensors",
+        "memory_proj.bias": "model.safetensors",
+        "memory_proj.weight": "model.safetensors",
+        "proj.bias": "model.safetensors",
+        "proj.weight": "model.safetensors",
+        "transformer.final_layer_scale_shift_table": "model.safetensors",
+        "transformer.layers.0.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.0.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.0.attention.wk.weight": "model.safetensors",
+        "transformer.layers.0.attention.wo.weight": "model.safetensors",
+        "transformer.layers.0.attention.wq.weight": "model.safetensors",
+        "transformer.layers.0.attention.wv.weight": "model.safetensors",
+        "transformer.layers.0.attention_norm.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.0.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.0.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.0.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.0.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.0.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.0.scale_shift_table": "model.safetensors",
+        "transformer.layers.1.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.1.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.1.attention.wk.weight": "model.safetensors",
+        "transformer.layers.1.attention.wo.weight": "model.safetensors",
+        "transformer.layers.1.attention.wq.weight": "model.safetensors",
+        "transformer.layers.1.attention.wv.weight": "model.safetensors",
+        "transformer.layers.1.attention_norm.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.1.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.1.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.1.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.1.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.1.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.1.scale_shift_table": "model.safetensors",
+        "transformer.layers.10.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.10.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.10.attention.wk.weight": "model.safetensors",
+        "transformer.layers.10.attention.wo.weight": "model.safetensors",
+        "transformer.layers.10.attention.wq.weight": "model.safetensors",
+        "transformer.layers.10.attention.wv.weight": "model.safetensors",
+        "transformer.layers.10.attention_norm.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.10.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.10.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.10.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.10.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.10.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.10.scale_shift_table": "model.safetensors",
+        "transformer.layers.11.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.11.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.11.attention.wk.weight": "model.safetensors",
+        "transformer.layers.11.attention.wo.weight": "model.safetensors",
+        "transformer.layers.11.attention.wq.weight": "model.safetensors",
+        "transformer.layers.11.attention.wv.weight": "model.safetensors",
+        "transformer.layers.11.attention_norm.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.11.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.11.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.11.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.11.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.11.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.11.scale_shift_table": "model.safetensors",
+        "transformer.layers.2.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.2.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.2.attention.wk.weight": "model.safetensors",
+        "transformer.layers.2.attention.wo.weight": "model.safetensors",
+        "transformer.layers.2.attention.wq.weight": "model.safetensors",
+        "transformer.layers.2.attention.wv.weight": "model.safetensors",
+        "transformer.layers.2.attention_norm.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.2.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.2.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.2.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.2.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.2.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.2.scale_shift_table": "model.safetensors",
+        "transformer.layers.3.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.3.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.3.attention.wk.weight": "model.safetensors",
+        "transformer.layers.3.attention.wo.weight": "model.safetensors",
+        "transformer.layers.3.attention.wq.weight": "model.safetensors",
+        "transformer.layers.3.attention.wv.weight": "model.safetensors",
+        "transformer.layers.3.attention_norm.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.3.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.3.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.3.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.3.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.3.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.3.scale_shift_table": "model.safetensors",
+        "transformer.layers.4.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.4.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.4.attention.wk.weight": "model.safetensors",
+        "transformer.layers.4.attention.wo.weight": "model.safetensors",
+        "transformer.layers.4.attention.wq.weight": "model.safetensors",
+        "transformer.layers.4.attention.wv.weight": "model.safetensors",
+        "transformer.layers.4.attention_norm.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.4.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.4.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.4.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.4.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.4.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.4.scale_shift_table": "model.safetensors",
+        "transformer.layers.5.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.5.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.5.attention.wk.weight": "model.safetensors",
+        "transformer.layers.5.attention.wo.weight": "model.safetensors",
+        "transformer.layers.5.attention.wq.weight": "model.safetensors",
+        "transformer.layers.5.attention.wv.weight": "model.safetensors",
+        "transformer.layers.5.attention_norm.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.5.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.5.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.5.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.5.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.5.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.5.scale_shift_table": "model.safetensors",
+        "transformer.layers.6.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.6.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.6.attention.wk.weight": "model.safetensors",
+        "transformer.layers.6.attention.wo.weight": "model.safetensors",
+        "transformer.layers.6.attention.wq.weight": "model.safetensors",
+        "transformer.layers.6.attention.wv.weight": "model.safetensors",
+        "transformer.layers.6.attention_norm.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.6.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.6.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.6.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.6.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.6.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.6.scale_shift_table": "model.safetensors",
+        "transformer.layers.7.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.7.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.7.attention.wk.weight": "model.safetensors",
+        "transformer.layers.7.attention.wo.weight": "model.safetensors",
+        "transformer.layers.7.attention.wq.weight": "model.safetensors",
+        "transformer.layers.7.attention.wv.weight": "model.safetensors",
+        "transformer.layers.7.attention_norm.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.7.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.7.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.7.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.7.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.7.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.7.scale_shift_table": "model.safetensors",
+        "transformer.layers.8.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.8.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.8.attention.wk.weight": "model.safetensors",
+        "transformer.layers.8.attention.wo.weight": "model.safetensors",
+        "transformer.layers.8.attention.wq.weight": "model.safetensors",
+        "transformer.layers.8.attention.wv.weight": "model.safetensors",
+        "transformer.layers.8.attention_norm.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.8.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.8.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.8.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.8.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.8.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.8.scale_shift_table": "model.safetensors",
+        "transformer.layers.9.attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.9.attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.9.attention.wk.weight": "model.safetensors",
+        "transformer.layers.9.attention.wo.weight": "model.safetensors",
+        "transformer.layers.9.attention.wq.weight": "model.safetensors",
+        "transformer.layers.9.attention.wv.weight": "model.safetensors",
+        "transformer.layers.9.attention_norm.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.k_norm.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.q_norm.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.wk.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.wo.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.wq.weight": "model.safetensors",
+        "transformer.layers.9.cross_attention.wv.weight": "model.safetensors",
+        "transformer.layers.9.feed_forward.w1.weight": "model.safetensors",
+        "transformer.layers.9.feed_forward.w2.weight": "model.safetensors",
+        "transformer.layers.9.feed_forward.w3.weight": "model.safetensors",
+        "transformer.layers.9.ffn_norm.weight": "model.safetensors",
+        "transformer.layers.9.scale_shift_table": "model.safetensors",
+        "transformer.norm.weight": "model.safetensors",
+        "transformer.output.weight": "model.safetensors",
+        "transformer.t_block.bias": "model.safetensors",
+        "transformer.t_block.weight": "model.safetensors",
+        "transformer.t_embedder.projection.w1.weight": "model.safetensors",
+        "transformer.t_embedder.projection.w2.weight": "model.safetensors",
+        "transformer.t_embedder.projection.w3.weight": "model.safetensors",
+        "transformer.x_embedder.block.block1.groupnorm.bias": "model.safetensors",
+        "transformer.x_embedder.block.block1.groupnorm.weight": "model.safetensors",
+        "transformer.x_embedder.block.block1.project.bias": "model.safetensors",
+        "transformer.x_embedder.block.block1.project.weight": "model.safetensors",
+        "transformer.x_embedder.block.block2.groupnorm.bias": "model.safetensors",
+        "transformer.x_embedder.block.block2.groupnorm.weight": "model.safetensors",
+        "transformer.x_embedder.block.block2.project.bias": "model.safetensors",
+        "transformer.x_embedder.block.block2.project.weight": "model.safetensors",
+        "transformer.y_embedder.projection.w1.weight": "model.safetensors",
+        "transformer.y_embedder.projection.w2.weight": "model.safetensors",
+        "transformer.y_embedder.projection.w3.weight": "model.safetensors"
+    }
+}