Upload folder using huggingface_hub

by evilsocket - opened Mar 18

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+1395

-0

Files changed (7) hide show

README.md +43 -0
config.json +50 -0
model.safetensors +3 -0
model.safetensors.index.json +897 -0
tokens.txt +360 -0
vocoder_config.yaml +39 -0
vocos.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,43 @@

+---
+language:
+  - en
+tags:
+  - tts
+  - text-to-speech
+  - safetensors
+  - cake
+license: apache-2.0
+base_model: YatharthS/LuxTTS
+---
+# LuxTTS (Safetensors / FP16)
+This is a converted version of [YatharthS/LuxTTS](https://huggingface.co/YatharthS/LuxTTS), a flow-matching based text-to-speech model. All credit for the original model, training, and research goes to the original authors.
+## What changed
+The original PyTorch checkpoint (`model.pt` and `vocoder/vocos.bin`) has been converted to **safetensors** format in **float16** precision for use with [Cake](https://github.com/evilsocket/cake). The conversion applies the following transformations:
+- **Format**: `.pt` / `.bin` → `.safetensors` (safer, faster loading, memory-mappable).
+- **Precision**: FP32 → FP16, reducing total size from ~530 MB to ~266 MB.
+- **Key remapping**: The nested `fm_decoder.encoders.{stack}.layers.{layer}` hierarchy is flattened to `fm_decoder.layers.{flat_index}` using the stack sizes `[2, 2, 4, 4, 4]` (16 layers total). Similarly, `text_encoder.encoders.0.layers` is flattened to `text_encoder.layers`. Per-stack components (`time_emb`, `downsample`, `out_combiner`) are reorganized under `fm_decoder.stack_time_emb`, `fm_decoder.downsample`, and `fm_decoder.out_combiner` respectively.
+- **Config**: `architectures` field and feature extraction parameters (`n_fft`, `hop_length`, `n_mels`, `sample_rate`) are added to `config.json`.
+No weights were retrained or fine-tuned — this is a lossless format conversion (modulo FP32→FP16 quantization).
+## Model details
+| Component | File | Size |
+|---|---|---|
+| Main model (flow-matching decoder + text encoder) | `model.safetensors` | 235 MB |
+| Vocoder (Vocos) | `vocos.safetensors` | 31 MB |
+- **Architecture**: Flow-matching TTS with conformer-based decoder (16 layers across 5 stacks) and 4-layer text encoder
+- **Vocoder**: Vocos (iSTFT-based, 8 layers, 512 dim)
+- **Sample rate**: 24 kHz (with 48 kHz upsampler head)
+- **Vocabulary**: 360 tokens (characters + punctuation)
+## Original project
+- **Model**: [YatharthS/LuxTTS](https://huggingface.co/YatharthS/LuxTTS)
+- **License**: Apache 2.0

config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "model": {
+    "fm_decoder_downsampling_factor": [
+      1,
+      2,
+      4,
+      2,
+      1
+    ],
+    "fm_decoder_num_layers": [
+      2,
+      2,
+      4,
+      4,
+      4
+    ],
+    "fm_decoder_cnn_module_kernel": [
+      31,
+      15,
+      7,
+      15,
+      31
+    ],
+    "fm_decoder_feedforward_dim": 1536,
+    "fm_decoder_num_heads": 4,
+    "fm_decoder_dim": 512,
+    "text_encoder_num_layers": 4,
+    "text_encoder_feedforward_dim": 512,
+    "text_encoder_cnn_module_kernel": 9,
+    "text_encoder_num_heads": 4,
+    "text_encoder_dim": 192,
+    "query_head_dim": 32,
+    "value_head_dim": 12,
+    "pos_head_dim": 4,
+    "pos_dim": 48,
+    "time_embed_dim": 192,
+    "text_embed_dim": 192,
+    "feat_dim": 100
+  },
+  "feature": {
+    "type": "vocos",
+    "n_fft": 1024,
+    "hop_length": 256,
+    "n_mels": 100,
+    "sample_rate": 24000
+  },
+  "architectures": [
+    "LuxTTSForTextToSpeech"
+  ]
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1478863e12be4149f73cfae88bcda62eb06bd512b964006d7aef76b3b236be06
+size 245508488

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,897 @@

+{
+  "metadata": {
+    "total_size": 245508488
+  },
+  "weight_map": {
+    "embed.weight": "model.safetensors",
+    "fm_decoder.downsample.1.bias": "model.safetensors",
+    "fm_decoder.downsample.2.bias": "model.safetensors",
+    "fm_decoder.downsample.3.bias": "model.safetensors",
+    "fm_decoder.guidance_scale_embed.weight": "model.safetensors",
+    "fm_decoder.in_proj.bias": "model.safetensors",
+    "fm_decoder.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.0.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.norm.bias": "model.safetensors",
+    "fm_decoder.layers.0.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.0.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.0.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.0.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.1.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.1.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.norm.bias": "model.safetensors",
+    "fm_decoder.layers.1.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.1.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.1.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.1.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.10.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.10.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.norm.bias": "model.safetensors",
+    "fm_decoder.layers.10.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.10.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.10.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.10.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.11.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.11.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.norm.bias": "model.safetensors",
+    "fm_decoder.layers.11.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.11.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.11.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.11.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.12.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.12.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.norm.bias": "model.safetensors",
+    "fm_decoder.layers.12.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.12.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.12.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.12.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.13.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.13.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.norm.bias": "model.safetensors",
+    "fm_decoder.layers.13.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.13.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.13.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.13.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.14.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.14.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.norm.bias": "model.safetensors",
+    "fm_decoder.layers.14.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.14.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.14.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.14.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.15.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.15.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.norm.bias": "model.safetensors",
+    "fm_decoder.layers.15.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.15.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.15.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.15.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.2.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.2.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.norm.bias": "model.safetensors",
+    "fm_decoder.layers.2.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.2.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.2.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.2.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.3.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.3.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.norm.bias": "model.safetensors",
+    "fm_decoder.layers.3.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.3.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.3.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.3.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.4.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.4.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.norm.bias": "model.safetensors",
+    "fm_decoder.layers.4.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.4.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.4.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.4.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.5.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.5.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.norm.bias": "model.safetensors",
+    "fm_decoder.layers.5.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.5.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.5.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.5.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.6.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.6.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.norm.bias": "model.safetensors",
+    "fm_decoder.layers.6.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.6.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.6.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.6.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.7.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.7.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.norm.bias": "model.safetensors",
+    "fm_decoder.layers.7.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.7.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.7.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.7.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.8.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.8.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.norm.bias": "model.safetensors",
+    "fm_decoder.layers.8.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.8.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.8.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.8.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.layers.9.bypass.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.9.bypass_mid.bypass_scale": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.conv_module2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward3.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward3.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward3.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.feed_forward3.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.nonlin_attention.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.nonlin_attention.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.nonlin_attention.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.nonlin_attention.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.norm.bias": "model.safetensors",
+    "fm_decoder.layers.9.norm.log_scale": "model.safetensors",
+    "fm_decoder.layers.9.self_attn1.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.self_attn1.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.self_attn1.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.self_attn1.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.self_attn2.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.self_attn2.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.self_attn2.out_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.self_attn2.out_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.self_attn_weights.in_proj.bias": "model.safetensors",
+    "fm_decoder.layers.9.self_attn_weights.in_proj.weight": "model.safetensors",
+    "fm_decoder.layers.9.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "fm_decoder.out_combiner.1.bypass_scale": "model.safetensors",
+    "fm_decoder.out_combiner.2.bypass_scale": "model.safetensors",
+    "fm_decoder.out_combiner.3.bypass_scale": "model.safetensors",
+    "fm_decoder.out_proj.bias": "model.safetensors",
+    "fm_decoder.out_proj.weight": "model.safetensors",
+    "fm_decoder.stack_time_emb.0.1.bias": "model.safetensors",
+    "fm_decoder.stack_time_emb.0.1.weight": "model.safetensors",
+    "fm_decoder.stack_time_emb.1.1.bias": "model.safetensors",
+    "fm_decoder.stack_time_emb.1.1.weight": "model.safetensors",
+    "fm_decoder.stack_time_emb.2.1.bias": "model.safetensors",
+    "fm_decoder.stack_time_emb.2.1.weight": "model.safetensors",
+    "fm_decoder.stack_time_emb.3.1.bias": "model.safetensors",
+    "fm_decoder.stack_time_emb.3.1.weight": "model.safetensors",
+    "fm_decoder.stack_time_emb.4.1.bias": "model.safetensors",
+    "fm_decoder.stack_time_emb.4.1.weight": "model.safetensors",
+    "fm_decoder.time_embed.0.bias": "model.safetensors",
+    "fm_decoder.time_embed.0.weight": "model.safetensors",
+    "fm_decoder.time_embed.2.bias": "model.safetensors",
+    "fm_decoder.time_embed.2.weight": "model.safetensors",
+    "text_encoder.in_proj.bias": "model.safetensors",
+    "text_encoder.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.bypass.bypass_scale": "model.safetensors",
+    "text_encoder.layers.0.bypass_mid.bypass_scale": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.conv_module2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward3.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward3.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.feed_forward3.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.feed_forward3.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.nonlin_attention.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.nonlin_attention.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.nonlin_attention.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.nonlin_attention.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.norm.bias": "model.safetensors",
+    "text_encoder.layers.0.norm.log_scale": "model.safetensors",
+    "text_encoder.layers.0.self_attn1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.self_attn1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.self_attn1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.self_attn1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.self_attn2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.self_attn2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.self_attn2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.self_attn2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.self_attn_weights.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.0.self_attn_weights.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.0.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "text_encoder.layers.1.bypass.bypass_scale": "model.safetensors",
+    "text_encoder.layers.1.bypass_mid.bypass_scale": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.conv_module2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward3.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward3.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.feed_forward3.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.feed_forward3.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.nonlin_attention.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.nonlin_attention.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.nonlin_attention.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.nonlin_attention.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.norm.bias": "model.safetensors",
+    "text_encoder.layers.1.norm.log_scale": "model.safetensors",
+    "text_encoder.layers.1.self_attn1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.self_attn1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.self_attn1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.self_attn1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.self_attn2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.self_attn2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.self_attn2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.self_attn2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.self_attn_weights.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.1.self_attn_weights.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.1.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "text_encoder.layers.2.bypass.bypass_scale": "model.safetensors",
+    "text_encoder.layers.2.bypass_mid.bypass_scale": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.conv_module2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward3.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward3.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.feed_forward3.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.feed_forward3.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.nonlin_attention.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.nonlin_attention.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.nonlin_attention.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.nonlin_attention.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.norm.bias": "model.safetensors",
+    "text_encoder.layers.2.norm.log_scale": "model.safetensors",
+    "text_encoder.layers.2.self_attn1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.self_attn1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.self_attn1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.self_attn1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.self_attn2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.self_attn2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.self_attn2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.self_attn2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.self_attn_weights.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.2.self_attn_weights.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.2.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "text_encoder.layers.3.bypass.bypass_scale": "model.safetensors",
+    "text_encoder.layers.3.bypass_mid.bypass_scale": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.depthwise_conv.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.depthwise_conv.weight": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.conv_module2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward3.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward3.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.feed_forward3.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.feed_forward3.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.nonlin_attention.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.nonlin_attention.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.nonlin_attention.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.nonlin_attention.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.norm.bias": "model.safetensors",
+    "text_encoder.layers.3.norm.log_scale": "model.safetensors",
+    "text_encoder.layers.3.self_attn1.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.self_attn1.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.self_attn1.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.self_attn1.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.self_attn2.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.self_attn2.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.self_attn2.out_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.self_attn2.out_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.self_attn_weights.in_proj.bias": "model.safetensors",
+    "text_encoder.layers.3.self_attn_weights.in_proj.weight": "model.safetensors",
+    "text_encoder.layers.3.self_attn_weights.linear_pos.weight": "model.safetensors",
+    "text_encoder.out_proj.bias": "model.safetensors",
+    "text_encoder.out_proj.weight": "model.safetensors"
+  }
+}

tokens.txt ADDED Viewed

	@@ -0,0 +1,360 @@

+_	0
+^	1
+$	2
+ 	3
+!	4
+'	5
+(	6
+)	7
+,	8
+-	9
+.	10
+:	11
+;	12
+?	13
+a	14
+b	15
+c	16
+d	17
+e	18
+f	19
+h	20
+i	21
+j	22
+k	23
+l	24
+m	25
+n	26
+o	27
+p	28
+q	29
+r	30
+s	31
+t	32
+u	33
+v	34
+w	35
+x	36
+y	37
+z	38
+æ	39
+ç	40
+ð	41
+ø	42
+ħ	43
+ŋ	44
+œ	45
+ǀ	46
+ǁ	47
+ǂ	48
+ǃ	49
+ɐ	50
+ɑ	51
+ɒ	52
+ɓ	53
+ɔ	54
+ɕ	55
+ɖ	56
+ɗ	57
+ɘ	58
+ə	59
+ɚ	60
+ɛ	61
+ɜ	62
+ɞ	63
+ɟ	64
+ɠ	65
+ɡ	66
+ɢ	67
+ɣ	68
+ɤ	69
+ɥ	70
+ɦ	71
+ɧ	72
+ɨ	73
+ɪ	74
+ɫ	75
+ɬ	76
+ɭ	77
+ɮ	78
+ɯ	79
+ɰ	80
+ɱ	81
+ɲ	82
+ɳ	83
+ɴ	84
+ɵ	85
+ɶ	86
+ɸ	87
+ɹ	88
+ɺ	89
+ɻ	90
+ɽ	91
+ɾ	92
+ʀ	93
+ʁ	94
+ʂ	95
+ʃ	96
+ʄ	97
+ʈ	98
+ʉ	99
+ʊ	100
+ʋ	101
+ʌ	102
+ʍ	103
+ʎ	104
+ʏ	105
+ʐ	106
+ʑ	107
+ʒ	108
+ʔ	109
+ʕ	110
+ʘ	111
+ʙ	112
+ʛ	113
+ʜ	114
+ʝ	115
+ʟ	116
+ʡ	117
+ʢ	118
+ʲ	119
+ˈ	120
+ˌ	121
+ː	122
+ˑ	123
+˞	124
+β	125
+θ	126
+χ	127
+ᵻ	128
+ⱱ	129
+0	130
+1	131
+2	132
+3	133
+4	134
+5	135
+6	136
+7	137
+8	138
+9	139
+̧	140
+̃	141
+̪	142
+̯	143
+̩	144
+ʰ	145
+ˤ	146
+ε	147
+↓	148
+#	149
+"	150
+↑	151
+̺	152
+̻	153
+g	154
+ʦ	155
+X	156
+̝	157
+̊	158
+a1	159
+a2	160
+a3	161
+a4	162
+a5	163
+ai1	164
+ai2	165
+ai3	166
+ai4	167
+ai5	168
+an1	169
+an2	170
+an3	171
+an4	172
+an5	173
+ang1	174
+ang2	175
+ang3	176
+ang4	177
+ang5	178
+ao1	179
+ao2	180
+ao3	181
+ao4	182
+ao5	183
+b0	184
+c0	185
+ch0	186
+d0	187
+e1	188
+e2	189
+e3	190
+e4	191
+e5	192
+ei1	193
+ei2	194
+ei3	195
+ei4	196
+ei5	197
+en1	198
+en2	199
+en3	200
+en4	201
+en5	202
+eng1	203
+eng2	204
+eng3	205
+eng4	206
+eng5	207
+er2	208
+er3	209
+er4	210
+er5	211
+f0	212
+g0	213
+g2	214
+g3	215
+g4	216
+g5	217
+h0	218
+i1	219
+i2	220
+i3	221
+i4	222
+i5	223
+ia1	224
+ia2	225
+ia3	226
+ia4	227
+ia5	228
+ian1	229
+ian2	230
+ian3	231
+ian4	232
+ian5	233
+iang1	234
+iang2	235
+iang3	236
+iang4	237
+iang5	238
+iao1	239
+iao2	240
+iao3	241
+iao4	242
+iao5	243
+ie1	244
+ie2	245
+ie3	246
+ie4	247
+ie5	248
+in1	249
+in2	250
+in3	251
+in4	252
+in5	253
+ing1	254
+ing2	255
+ing3	256
+ing4	257
+ing5	258
+iong1	259
+iong2	260
+iong3	261
+iong4	262
+iu1	263
+iu2	264
+iu3	265
+iu4	266
+iu5	267
+j0	268
+k0	269
+l0	270
+m0	271
+m1	272
+m2	273
+m4	274
+m5	275
+n0	276
+n2	277
+n3	278
+n4	279
+n5	280
+ng5	281
+o1	282
+o2	283
+o3	284
+o4	285
+o5	286
+ong1	287
+ong2	288
+ong3	289
+ong4	290
+ong5	291
+ou1	292
+ou2	293
+ou3	294
+ou4	295
+ou5	296
+p0	297
+q0	298
+r0	299
+s0	300
+sh0	301
+t0	302
+u1	303
+u2	304
+u3	305
+u4	306
+u5	307
+ua1	308
+ua2	309
+ua3	310
+ua4	311
+uai1	312
+uai2	313
+uai3	314
+uai4	315
+uai5	316
+uan1	317
+uan2	318
+uan3	319
+uan4	320
+uan5	321
+uang1	322
+uang2	323
+uang3	324
+uang4	325
+uang5	326
+ue1	327
+ue2	328
+ue3	329
+ue4	330
+ui1	331
+ui2	332
+ui3	333
+ui4	334
+ui5	335
+un1	336
+un2	337
+un3	338
+un4	339
+un5	340
+uo1	341
+uo2	342
+uo3	343
+uo4	344
+uo5	345
+v2	346
+v3	347
+v4	348
+ve3	349
+ve4	350
+w0	351
+x0	352
+y0	353
+z0	354
+zh0	355
+ê1	356
+ê2	357
+ê3	358
+ê4	359

vocoder_config.yaml ADDED Viewed

	@@ -0,0 +1,39 @@

+feature_extractor:
+  class_path: vocos.feature_extractors.MelSpectrogramFeatures
+  init_args:
+    sample_rate: 24000
+    n_fft: 1024
+    hop_length: 256
+    n_mels: 100
+    padding: center
+backbone:
+  class_path: vocos.models.VocosBackbone
+  init_args:
+    input_channels: 100
+    dim: 512
+    intermediate_dim: 1536
+    num_layers: 8
+head:
+  class_path: vocos.heads.ISTFTHead
+  init_args:
+    dim: 512
+    n_fft: 1024
+    hop_length: 256
+    padding: center
+head_48k:
+  class_path: vocos.heads.ISTFTHead
+  init_args:
+    dim: 512
+    n_fft: 1024
+    hop_length: 256
+    padding: center
+upsampler:
+  class_path: linacodec.vocoder.upsampler_block.UpSamplerBlock
+  init_args:
+    in_channels: 512
+    upsample_factors: [2, 1]
+    kernel_sizes: [8, 8]

vocos.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2427596b2d4766b510227efc846eee12fba53b5e43a9c60acc79ada52012efd0
+size 31980552