upload Musci-ASR-2.4B

Browse files

Files changed (16) hide show

.gitattributes +1 -2
README.md +71 -0
added_tokens.json +28 -0
chat_template.jinja +89 -0
chat_template_default.py +56 -0
config.json +144 -0
generation_config.json +4 -0
merges.txt +0 -0
model-00000-of-00001.safetensors +3 -0
model.safetensors.index.json +845 -0
modeling_Musci.py +333 -0
processing_Musci.py +219 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -3,12 +3,10 @@
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
@@ -33,3 +31,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.npy filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,71 @@

+---
+language: en
+library_name: transformers
+pipeline_tag: automatic-speech-recognition
+tags:
+  - asr
+  - speech
+  - english
+license: apache-2.0
+---
+# Musci-ASR-2.4B
+An English speech-to-text model that pairs a Qwen3 language-model backbone with a
+Qwen3-Omni-MoE audio encoder. Trained on public English ASR corpora and tuned with
+reinforcement learning on the Open ASR Leaderboard training splits. Total ~2.4B parameters,
+distributed as a single `bfloat16` safetensors shard (~4.84 GB).
+Submitted to the
+[Open ASR Leaderboard](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard).
+## Inference
+```python
+import librosa
+import torch
+from huggingface_hub import hf_hub_download
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from transformers.dynamic_module_utils import get_class_from_dynamic_module
+REPO = "Musci-research/Musci-ASR-2.4B"
+DEVICE = "cuda:0"
+model = AutoModelForCausalLM.from_pretrained(
+    REPO, torch_dtype=torch.bfloat16, trust_remote_code=True
+).to(DEVICE).eval()
+tokenizer = AutoTokenizer.from_pretrained(REPO, trust_remote_code=True)
+MusciProcessor = get_class_from_dynamic_module("processing_Musci.MusciProcessor", REPO)
+MelConfig      = get_class_from_dynamic_module("processing_Musci.MelConfig", REPO)
+mel_cfg = MelConfig(mel_sr=16000, mel_dim=128, mel_n_fft=400, mel_hop_length=160)
+processor = MusciProcessor(tokenizer, config=mel_cfg, enable_time_marker=False)
+processor.load_template(hf_hub_download(REPO, "chat_template_default.py"))
+waveform, _ = librosa.load("your_audio.wav", sr=16000)
+inputs = processor(audio=waveform, return_tensors="pt").to(DEVICE)
+inputs["audio_data"] = inputs["audio_data"].to(model.dtype)
+with torch.no_grad():
+    out_ids = model.generate(
+        **inputs,
+        max_new_tokens=512,
+        do_sample=False,
+        num_beams=1,
+        use_cache=True,
+        eos_token_id=[processor.end_token_id],
+    )
+new_ids = out_ids[:, inputs["input_ids"].shape[1]:]
+transcript = processor.batch_decode(new_ids, skip_special_tokens=True)[0].strip()
+print(transcript)
+```
+## Audio frontend
+- Sample rate: **16 kHz**
+- Features: Whisper log-mel filterbank — `n_mels=128`, `n_fft=400`, `hop_length=160`
+## License
+apache-2.0.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

chat_template_default.py ADDED Viewed

	@@ -0,0 +1,56 @@

+from dataclasses import dataclass
+from typing import Literal, Optional
+import numpy
+@dataclass
+class MusciChatTemplateSegment:
+    type: Literal["constant_text_token", "text_token", "audio_token", "audio_contiguous"]
+    add_loss: bool = True
+    text_ids: Optional[numpy.ndarray] = None
+    text_token_idx: Optional[int] = None
+    text_token_key: Optional[str] = None
+    def __post_init__(self) -> None:
+        if self.type == "constant_text_token":
+            assert self.text_ids is not None
+        elif self.type == "text_token":
+            assert self.text_token_key is not None and self.text_token_idx is not None
+        elif self.type in ("audio_token", "audio_contiguous"):
+            assert not self.add_loss
+STYLE_CONTROL_TEXT = ""
+chat_template = [
+    # <|im_start|>user\n<|audio_start|>
+    MusciChatTemplateSegment(
+        type="constant_text_token",
+        text_ids=numpy.array([151644, 872, 198, 151669]),
+        add_loss=False,
+    ),
+    MusciChatTemplateSegment(
+        type="audio_contiguous",
+        add_loss=False,
+    ),
+    # <|audio_end|><|im_end|>\n<|im_start|>assistant\n
+    MusciChatTemplateSegment(
+        type="constant_text_token",
+        text_ids=numpy.array([151670, 151645, 198, 151644, 77091, 198]),
+        add_loss=False,
+    ),
+    MusciChatTemplateSegment(
+        type="text_token",
+        text_token_key="text_token_transcript",
+        text_token_idx=0,
+        add_loss=True,
+    ),
+    # <|im_end|>
+    MusciChatTemplateSegment(
+        type="constant_text_token",
+        text_ids=numpy.array([151645]),
+        add_loss=True,
+    ),
+]
+__all__ = ["MusciChatTemplateSegment", "STYLE_CONTROL_TEXT", "chat_template"]

config.json ADDED Viewed

	@@ -0,0 +1,144 @@

+{
+  "adapter_hidden_size": 8192,
+  "architectures": [
+    "MusciForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "audio_config": {
+    "activation_dropout": 0,
+    "activation_function": "gelu",
+    "attention_dropout": 0,
+    "conv_chunksize": 500,
+    "d_model": 1280,
+    "downsample_hidden_size": 480,
+    "dropout": 0,
+    "encoder_attention_heads": 20,
+    "encoder_ffn_dim": 5120,
+    "encoder_layers": 32,
+    "initializer_range": 0.02,
+    "max_source_positions": 1500,
+    "model_type": "qwen3_omni_moe_audio_encoder",
+    "n_window": 50,
+    "n_window_infer": 800,
+    "num_hidden_layers": 32,
+    "num_mel_bins": 128,
+    "output_dim": 2048,
+    "scale_embedding": false
+  },
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "initializer_range": 0.02,
+  "intermediate_size": 22016,
+  "language_config": {
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 6144,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 40960,
+    "max_window_layers": 28,
+    "model_type": "qwen3",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "sliding_window": null,
+    "tie_word_embeddings": true,
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+  },
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "musci",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 32,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936,
+  "auto_map": {
+    "AutoConfig": "modeling_Musci.MusciConfig",
+    "AutoModelForCausalLM": "modeling_Musci.MusciForCausalLM"
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00000-of-00001.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7927b459a2c3132883a29252d7f0464fe352cf5abb3c35d2d887a1b5b9d7adae
+size 4837771952

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,845 @@

+{
+  "metadata": {
+    "total_size": 4837667584
+  },
+  "weight_map": {
+    "model.audio_adapter.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_adapter.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_adapter.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d3.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv2d3.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.conv_out.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.0.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.1.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.10.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.11.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.12.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.13.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.14.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.15.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.16.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.17.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.18.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.19.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.2.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.20.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.21.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.22.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.23.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.24.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.25.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.26.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.27.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.28.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.29.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.3.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.30.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.31.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.4.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.5.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.6.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.7.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.8.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.fc1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.fc1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.fc2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.fc2.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.final_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.final_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.k_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.out_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.out_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.q_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.v_proj.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn_layer_norm.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.layers.9.self_attn_layer_norm.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.ln_post.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.ln_post.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.proj1.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.proj1.weight": "model-00000-of-00001.safetensors",
+    "model.audio_model.proj2.bias": "model-00000-of-00001.safetensors",
+    "model.audio_model.proj2.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.0.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.1.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.10.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.12.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.13.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.14.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.16.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.17.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.18.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.2.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.20.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.21.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.22.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.24.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.25.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.26.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.4.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.5.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.6.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.8.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.mlp.gate_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.mlp.up_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.mlp.down_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.k_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.o_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.q_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.k_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.v_proj.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.layers.9.self_attn.q_norm.weight": "model-00000-of-00001.safetensors",
+    "model.language_model.embed_tokens.weight": "model-00000-of-00001.safetensors"
+  }
+}

modeling_Musci.py ADDED Viewed

	@@ -0,0 +1,333 @@

+from typing import Optional, List, Union, Tuple
+import torch
+import torch.nn as nn
+from transformers.modeling_outputs import CausalLMOutputWithPast, BaseModelOutputWithPast
+from transformers.utils import logging
+from transformers.models.qwen3.modeling_qwen3 import Qwen3Model, Qwen3PreTrainedModel, Qwen3DecoderLayer
+from transformers.models.qwen3_omni_moe.modeling_qwen3_omni_moe import Qwen3OmniMoeAudioEncoder
+from transformers.models.qwen3_omni_moe.configuration_qwen3_omni_moe import Qwen3OmniMoeAudioEncoderConfig
+from transformers.models.qwen3.configuration_qwen3 import Qwen3Config
+from transformers.utils.auto_docstring import auto_docstring
+from transformers.modeling_utils import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
+class MusciConfig(Qwen3Config):
+    model_type = "musci"
+    is_composition = True
+    # Make the architecture discoverable by Megatron-Bridge's AutoBridge
+    # when loading configs from disk.
+    architectures = ["MusciForCausalLM"]
+    def __init__(
+        self,
+        audio_config=None,
+        language_config=None,
+        adapter_hidden_size=8192,
+        ignore_index=-100,
+        **kwargs
+    ):
+        num_hidden_layers = None
+        if language_config is not None:
+            if isinstance(language_config, dict):
+                num_hidden_layers = language_config.get("num_hidden_layers", None)
+            elif isinstance(language_config, Qwen3Config):
+                num_hidden_layers = language_config.num_hidden_layers
+        if num_hidden_layers is not None:
+            kwargs.update({"num_hidden_layers": num_hidden_layers})
+        # Initialize parent Qwen3Config with kwargs to handle standard config params
+        super().__init__(**kwargs)
+        if isinstance(audio_config, dict):
+            audio_config = Qwen3OmniMoeAudioEncoderConfig(**audio_config)
+        if isinstance(audio_config, Qwen3OmniMoeAudioEncoderConfig):
+            audio_config = audio_config
+        elif audio_config is None:
+            audio_config = Qwen3OmniMoeAudioEncoderConfig()
+        if isinstance(language_config, dict):
+            language_config = Qwen3Config(**language_config)
+        elif isinstance(language_config, Qwen3Config):
+            language_config = language_config
+        elif language_config is None:
+            language_config = Qwen3Config()
+        self.audio_config = audio_config
+        self.language_config = language_config
+        self.adapter_hidden_size = adapter_hidden_size
+        self.ignore_index = ignore_index
+        self.dtype = language_config.dtype
+    def to_dict(self):
+        output = super().to_dict()
+        if self.audio_config is not None:
+            if hasattr(self.audio_config, "to_dict"):
+                 output["audio_config"] = self.audio_config.to_dict()
+            else:
+                 output["audio_config"] = self.audio_config
+        if self.language_config is not None:
+            if hasattr(self.language_config, "to_dict"):
+                output["language_config"] = self.language_config.to_dict()
+            else:
+                output["language_config"] = self.language_config
+        return output
+class MusciGatedMLP(nn.Module):
+    def __init__(self, input_size, hidden_size, output_size):
+        super().__init__()
+        self.gate_proj = nn.Linear(input_size, hidden_size, bias=False)
+        self.up_proj = nn.Linear(input_size, hidden_size, bias=False)
+        self.down_proj = nn.Linear(hidden_size, output_size, bias=False)
+        self.act_fn = nn.SiLU()
+    def forward(self, x):
+        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+@auto_docstring
+class MusciPreTrainedModel(PreTrainedModel):
+    config: MusciConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["Qwen3DecoderLayer"]
+    _skip_keys_device_placement = ["past_key_values"]
+    _supports_flash_attn = True
+    _supports_sdpa = True
+    _supports_flex_attn = True
+    _can_compile_fullgraph = False
+    _supports_attention_backend = True
+    _can_record_outputs = {
+        "hidden_states": Qwen3DecoderLayer,
+    }
+class MusciModel(MusciPreTrainedModel):
+    config_class = MusciConfig
+    def __init__(self, config: MusciConfig):
+        super().__init__(config)
+        self.audio_model = Qwen3OmniMoeAudioEncoder(config.audio_config)
+        self.language_model = Qwen3Model(config.language_config)
+        self.audio_adapter = MusciGatedMLP(
+            input_size=config.audio_config.output_dim,
+            hidden_size=config.adapter_hidden_size,
+            output_size=config.language_config.hidden_size
+        )
+        # Initialize weights and apply final processing
+        self.post_init()
+    def get_input_embeddings(self):
+        return self.language_model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.language_model.set_input_embeddings(value)
+    def get_audio_features(self, input_features, feature_lens):
+        audio_outputs = self.audio_model(
+            input_features=input_features,
+            feature_lens=feature_lens,
+        )
+        return audio_outputs.last_hidden_state
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        audio_data: Optional[torch.FloatTensor] = None,
+        audio_data_seqlens: Optional[torch.Tensor] = None,
+        audio_input_mask: Optional[torch.Tensor] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        # 1. Get text embeddings
+        if inputs_embeds is None:
+            inputs_embeds = self.get_input_embeddings()(input_ids)
+        # 2. Process audio and merge embeddings if audio is present
+        if audio_data is not None:
+            # [B, Audio_Len, D]
+            audio_embeds = self.get_audio_features(audio_data, audio_data_seqlens)
+            audio_embeds = self.audio_adapter(audio_embeds)
+            # audio_input_mask: [B, L] -> [B, L, 1] -> [B, L, D]
+            # D elements will be replaced by audio embeddings
+            mask_expanded = audio_input_mask.unsqueeze(-1).expand_as(inputs_embeds)
+            inputs_embeds.masked_scatter_(mask_expanded, audio_embeds)
+        # 3. Forward pass through language model
+        return self.language_model(
+            input_ids=None, # We pass inputs_embeds
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            cache_position=cache_position,
+        )
+class MusciForCausalLM(MusciPreTrainedModel, GenerationMixin):
+    config_class = MusciConfig
+    _tied_weights_keys = ["lm_head.weight"]
+    _keys_to_ignore_on_save = ["lm_head.weight"]
+    def __init__(self, config: MusciConfig):
+        super().__init__(config)
+        self.model = MusciModel(config)
+        self.vocab_size = config.language_config.vocab_size
+        self.lm_head = nn.Linear(config.language_config.hidden_size, self.vocab_size, bias=False)
+        # Initialize weights and apply final processing
+        self.post_init()
+    def tie_weights(self):
+        super().tie_weights()
+        # tie lm_head to input embeddings
+        self.lm_head.weight = self.model.language_model.embed_tokens.weight
+    def get_input_embeddings(self):
+        return self.model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.model.set_input_embeddings(value)
+    def get_output_embeddings(self):
+        return self.lm_head
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        audio_data: Optional[torch.FloatTensor] = None,
+        audio_data_seqlens: Optional[torch.Tensor] = None,
+        audio_input_mask: Optional[torch.Tensor] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        outputs = self.model(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            audio_data=audio_data,
+            audio_data_seqlens=audio_data_seqlens,
+            audio_input_mask=audio_input_mask,
+            cache_position=cache_position,
+        )
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states)
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = nn.CrossEntropyLoss(ignore_index=self.config.ignore_index)
+            shift_logits = shift_logits.view(-1, self.config.language_config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return ((loss,) + output) if loss is not None else output
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        past_key_values=None,
+        attention_mask=None,
+        inputs_embeds=None,
+        cache_position=None,
+        **kwargs
+    ):
+        # decoding step (KV cache present) keeps only the last token and drops audio inputs;
+        # prefill step pulls audio inputs from kwargs.
+        position_ids = kwargs.get("position_ids", None)
+        if cache_position is not None and cache_position[0] > 0:
+            input_ids = input_ids[:, -1:]
+            if position_ids is not None:
+                position_ids = position_ids[:, -1:]
+            audio_data = None
+            audio_input_mask = None
+            audio_data_seqlens = None
+        else:
+            audio_data = kwargs.get("audio_data", None)
+            audio_input_mask = kwargs.get("audio_input_mask", None)
+            audio_data_seqlens = kwargs.get("audio_data_seqlens", None)
+        # prefer inputs_embeds at the first step when present
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+        model_inputs.update({
+            "past_key_values": past_key_values,
+            "use_cache": kwargs.get("use_cache"),
+            "attention_mask": attention_mask,
+            "position_ids": position_ids,
+            "audio_data": audio_data,
+            "audio_input_mask": audio_input_mask,
+            "audio_data_seqlens": audio_data_seqlens,
+        })
+        return model_inputs
+__all__ = [
+    "MusciConfig",
+    "MusciModel",
+    "MusciForCausalLM",
+]

processing_Musci.py ADDED Viewed

	@@ -0,0 +1,219 @@

+from dataclasses import dataclass
+from typing import Optional, Union, List
+import torch
+import numpy as np
+from transformers import BatchEncoding
+from transformers.models.whisper.feature_extraction_whisper import WhisperFeatureExtractor
+import importlib.util
+import sys
+@dataclass
+class MelConfig:
+    mel_sr: int = 16000
+    mel_dim: int = 80
+    mel_n_fft: int = 640
+    mel_hop_length: int = 160
+    mel_dtype: torch.dtype = torch.bfloat16
+def load_chat_template(template_path: str, package_path: Optional[str] = None) -> List:
+    """Dynamically import a chat template module by file path and return its `chat_template`."""
+    import os
+    if package_path and package_path not in sys.path:
+        sys.path.insert(0, package_path)
+    spec = importlib.util.spec_from_file_location("chat_template_module", template_path)
+    module = importlib.util.module_from_spec(spec)
+    sys.modules["chat_template_module"] = module
+    spec.loader.exec_module(module)
+    return module.chat_template
+class MusciProcessor:
+    """Audio processor for Musci ASR: mel-spectrogram + chat-template-driven token layout."""
+    def __init__(
+        self,
+        tokenizer,
+        config: Optional[MelConfig] = None,
+        template_path: Optional[str] = None,
+        enable_time_marker: bool = False,
+    ):
+        self.tokenizer = tokenizer
+        self.config = config or MelConfig()
+        # Whisper log-mel frontend — matches the front-end the model was trained with.
+        self.feature_extractor = WhisperFeatureExtractor(
+            feature_size=int(self.config.mel_dim),
+            sampling_rate=int(self.config.mel_sr),
+            hop_length=int(self.config.mel_hop_length),
+            n_fft=int(self.config.mel_n_fft),
+        )
+        # Special token ids (Qwen3 tokenizer).
+        self.start_token_id = 151644
+        self.end_token_id = 151645
+        self.audio_start_token_id = 151669
+        self.audio_end_token_id = 151670
+        self.audio_placeholder_id = 0
+        self.chat_template = None if template_path is None else load_chat_template(template_path)
+        self.enable_time_marker = enable_time_marker
+        # Digit tokens 0-9 in the Qwen3 tokenizer, used for time markers.
+        self._digit_token_ids = {str(d): 15 + d for d in range(10)}
+        self.audio_tokens_per_second = 12.5
+        self.time_marker_every_seconds = 2
+        self.time_marker_every_audio_tokens = int(
+            self.audio_tokens_per_second * self.time_marker_every_seconds
+        )
+    def load_template(self, template_path: str):
+        self.chat_template = load_chat_template(template_path)
+        print(f"Loaded chat template from {template_path}")
+        return self
+    def _get_feat_extract_output_lengths(self, input_lengths):
+        """Map raw mel-frame count to number of audio tokens after the encoder downsample."""
+        input_lengths_leave = input_lengths % 100
+        feat_lengths = (input_lengths_leave - 1) // 2 + 1
+        output_lengths = (
+            ((feat_lengths - 1) // 2 + 1 - 1) // 2 + 1 + (input_lengths // 100) * 13
+        )
+        return output_lengths
+    def _get_time_marker_token_ids(self, second: int) -> List[int]:
+        return [self._digit_token_ids[c] for c in str(second)]
+    def _build_audio_tokens_with_time_markers(self, audio_seq_len: int) -> List[int]:
+        """Interleave time markers every `time_marker_every_seconds` seconds of audio tokens."""
+        num_full_seconds = int(audio_seq_len / self.audio_tokens_per_second)
+        tokens_list: List[int] = []
+        audio_tokens_consumed = 0
+        for second in range(
+            self.time_marker_every_seconds, num_full_seconds + 1, self.time_marker_every_seconds
+        ):
+            marker_pos = (
+                (second // self.time_marker_every_seconds) * self.time_marker_every_audio_tokens
+            )
+            segment_len = marker_pos - audio_tokens_consumed
+            if segment_len > 0:
+                tokens_list.extend([self.audio_placeholder_id] * segment_len)
+                audio_tokens_consumed += segment_len
+            tokens_list.extend(self._get_time_marker_token_ids(second))
+        remaining = audio_seq_len - audio_tokens_consumed
+        if remaining > 0:
+            tokens_list.extend([self.audio_placeholder_id] * remaining)
+        return tokens_list
+    def _build_input_from_template(self, num_audio_tokens: int) -> tuple:
+        """Walk the loaded chat_template and emit (input_ids, audio_input_mask) for inference."""
+        if self.chat_template is None:
+            raise ValueError("Chat template not loaded. Call load_template() first.")
+        input_ids: List[int] = []
+        audio_mask: List[bool] = []
+        for segment in self.chat_template:
+            seg_type = segment.type
+            if seg_type == "constant_text_token":
+                text_ids = segment.text_ids.tolist()
+                input_ids.extend(text_ids)
+                audio_mask.extend([False] * len(text_ids))
+            elif seg_type in ("audio_contiguous", "audio_token"):
+                if self.enable_time_marker:
+                    audio_ids = self._build_audio_tokens_with_time_markers(num_audio_tokens)
+                    input_ids.extend(audio_ids)
+                    audio_mask.extend(
+                        [tok == self.audio_placeholder_id for tok in audio_ids]
+                    )
+                else:
+                    input_ids.extend([self.audio_placeholder_id] * num_audio_tokens)
+                    audio_mask.extend([True] * num_audio_tokens)
+            elif seg_type == "text_token":
+                # Generation starts here at inference time.
+                break
+        return input_ids, audio_mask
+    def _build_input_legacy(self, num_audio_tokens: int) -> tuple:
+        """Hardcoded [start, audio_start, audio*, audio_end] layout, used when no template is loaded."""
+        if self.enable_time_marker:
+            audio_ids = self._build_audio_tokens_with_time_markers(num_audio_tokens)
+            ids = (
+                [self.start_token_id, self.audio_start_token_id]
+                + audio_ids
+                + [self.audio_end_token_id]
+            )
+            audio_mask = [tok == self.audio_placeholder_id for tok in audio_ids]
+            mask = [False, False] + audio_mask + [False]
+        else:
+            ids = (
+                [self.start_token_id, self.audio_start_token_id]
+                + [self.audio_placeholder_id] * num_audio_tokens
+                + [self.audio_end_token_id]
+            )
+            mask = [False, False] + [True] * num_audio_tokens + [False]
+        return ids, mask
+    def __call__(
+        self,
+        audio: Union[np.ndarray, torch.Tensor],
+        return_tensors: str = "pt",
+        **kwargs,
+    ):
+        if audio is None:
+            raise ValueError("Audio input is required.")
+        if isinstance(audio, torch.Tensor):
+            waveform = audio.detach().to(dtype=torch.float32).cpu().numpy()
+        else:
+            waveform = np.asarray(audio, dtype=np.float32)
+        if waveform.ndim == 2:
+            waveform = waveform[0]
+        try:
+            mel = self.feature_extractor._np_extract_fbank_features(
+                waveform[None, ...], device="cpu"
+            )[0]
+        except TypeError:
+            mel = self.feature_extractor._np_extract_fbank_features(waveform[None, ...])[0]
+        input_features = torch.from_numpy(mel).to(self.config.mel_dtype)
+        if input_features.dim() == 3:
+            input_features = input_features.squeeze(0)
+        raw_mel_len = input_features.shape[-1]
+        num_audio_tokens = self._get_feat_extract_output_lengths(raw_mel_len)
+        if self.chat_template is not None:
+            ids, mask = self._build_input_from_template(num_audio_tokens)
+        else:
+            ids, mask = self._build_input_legacy(num_audio_tokens)
+        input_ids_tensor = torch.tensor([ids], dtype=torch.long)
+        audio_mask_tensor = torch.tensor([mask], dtype=torch.bool)
+        attention_mask_tensor = torch.ones_like(input_ids_tensor)
+        seq_lens_tensor = torch.tensor([raw_mel_len], dtype=torch.long)
+        data = {
+            "input_ids": input_ids_tensor,
+            "attention_mask": attention_mask_tensor,
+            "audio_data": input_features,
+            "audio_data_seqlens": seq_lens_tensor,
+            "audio_input_mask": audio_mask_tensor,
+        }
+        return BatchEncoding(data=data, tensor_type=return_tensors)
+    def batch_decode(self, *args, **kwargs):
+        return self.tokenizer.batch_decode(*args, **kwargs)
+    def decode(self, *args, **kwargs):
+        return self.tokenizer.decode(*args, **kwargs)

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff