xu-jj24 commited on Mar 16

Commit

8b5398f

verified ·

1 Parent(s): 58027d0

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

.gitattributes +2 -0
README.md +119 -0
added_tokens.json +30 -0
assets/covoaudio-results-overview.png +3 -0
assets/mel_filters.npz +3 -0
chat_template.jinja +54 -0
config.json +121 -0
configuration_covo_audio.py +164 -0
generation_config.json +4 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +852 -0
modeling_covo_audio.py +406 -0
special_tokens_map.json +24 -0
token2wav/global_mean_var.npy +3 -0
token2wav/model.pt +3 -0
tokenizer.json +3 -0
tokenizer_config.json +248 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/covoaudio-results-overview.png filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,119 @@

+# Covo-Audio
+<div align="center">
+<h1>
+Covo-Audio Technical Report
+</h1>
+[![arXiv](https://img.shields.io/badge/arXiv-2602.09823-red)](https://arxiv.org/abs/2602.09823)
+[![GitHub](https://img.shields.io/badge/GitHub-Repo-blue)](https://github.com/Tencent/Covo-Audio)
+[![HuggingFace](https://img.shields.io/badge/HuggingFace-Model-yellow)](https://huggingface.co/tencent/Covo-Audio-Chat)
+</div>
+## 📖 Overview
+Covo-Audio is a 7B-parameter end-to-end large audio language model that directly processes continuous audio inputs and generates audio outputs within a single unified architecture, which is presented in the paper [Covo-Audio Technical Report](https://arxiv.org/abs/2602.09823). The report introduces Covo-Audio-Chat and its variant, Covo-Audio-Chat-FD, with the former being released in this repository.
+<div align="center">
+    <figure>
+        <img src="assets/covoaudio-results-overview.png" alt="Covo-Audio-Chat Results" width="75%">
+        <br> <figcaption><em>An Overview of Comprehensive Performance Comparison.</em></figcaption>
+    </figure>
+</div>
+### Key Features
+- **Hierarchical Tri-modal Speech-Text Interleaving**:  We propose a framework designed to achieve deep alignment and fusion across modalities and scales. The Tri-modal aspect integrates continuous acoustic features, discrete speech tokens, and natural language text within a unified sequence, effectively bridging the gap between high-fidelity prosodic nuances and robust semantic structures.
+- **Mitigating Intelligence-Speaker Coupling**: We propose a intelligence-speaker decoupling technique that decouples speaker from dialogue intelligence via multi-speaker training, then develop a contextual adaptation method to transfer and share high-quality TTS voice.
+- **Native Full-Duplex Voice Interaction**: We evolve Covo-Audio into Covo-Audio-Chat-FD, a variant with native, low-latency full-duplex capability.
+- **Comprehensive State-of-the-Art Performance**: Achieving state-of-the-art or competitive performance among models of comparable scale across a broad spectrum of tasks, including spoken dialogue, speech understanding, audio understanding, and full-duplex voice interaction.
+## 🔧 Installation
+### 1. Requirements
+Recommends Python >= 3.11
+```bash
+conda create -n covoaudio python=3.11
+conda activate covoaudio
+pip install -r requirements.txt
+```
+### 2. Clone Repository
+```bash
+git clone https://github.com/Tencent/Covo-Audio.git
+cd Covo-Audio
+```
+### 3. Download Pretrained Models
+**Using HuggingFace:**
+```bash
+pip install huggingface-hub
+hf download tencent/Covo-Audio-Chat --local-dir ./covoaudio
+```
+By running the above script, you can use the model downloaded from huggingface to override the directory of the same name in this repository. Or you can specify your own directory to store the model by modifying the `local-dir` argument (In this case, you need to edit the arguments `model_dir` and `decode_load_path` in `example.sh` accordingly before running the inference script).
+## 🚀 Usage
+### Run Inference Scripts
+After completeing the configuration and model downloading, you can perform one-click inference by running the script:
+```bash
+bash example.sh
+```
+To perform interaction with our model, just replace the paths in `example.py` with your own audio files.
+---
+## 🙏 Acknowledgments
+Part of the code for this project is based on the following open-source projects:
+- [**Transformers**](https://github.com/huggingface/transformers)
+- [**BigVGAN**](https://github.com/NVIDIA/BigVGAN)
+The llm backbone and audio encoder of Covo-Audio are initialized respectively with the weights from:
+- [**Qwen2.5-7B**](https://huggingface.co/Qwen/Qwen2.5-7B)
+- [**Whisper**](https://huggingface.co/openai/whisper-large-v3)
+---
+## 🔗 Citation
+If you find this model useful, please cite our paper:
+```bibtex
+@misc{wang2026covoaudiotechnicalreport,
+      title={Covo-Audio Technical Report},
+      author={Wenfu Wang and Chenxing Li and Liqiang Zhang and Yiyang Zhao and Yuxiang Zou and Hanzhao Li and Mingyu Cui and Hao Zhang and Kun Wei and Le Xu and Zikang Huang and Jiajun Xu and Jiliang Hu and Xiang He and Zeyu Xie and Jiawen Kang and Youjun Chen and Meng Yu and Dong Yu and Rilin Chen and Linlin Di and Shulin Feng and Na Hu and Yang Liu and Bang Wang and Shan Yang},
+      year={2026},
+      eprint={2602.09823},
+      archivePrefix={arXiv},
+      primaryClass={cs.SD},
+      url={https://arxiv.org/abs/2602.09823},
+}
+```
+## 📄 License
+Our model and code are licensed under [Apache 2.0](LICENSE) License.
+## ✉️ Contact
+If you have any questions or suggestions, feel free to contact us:
+[![Email](https://img.shields.io/badge/Tencent-wenfuwang-blue)](mailto:wenfuwang@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-chenxingli-blue)](mailto:chenxingli@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-tatelqzhang-blue)](mailto:tatelqzhang@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-yyangyzhao-blue)](mailto:yyangyzhao@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-yuxiangzou-blue)](mailto:yuxiangzou@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-ericmycui-blue)](mailto:ericmycui@tencent.com)
+[![Email](https://img.shields.io/badge/Tencent-draymondxu-blue)](mailto:draymondxu@tencent.com)
+## 📔 Disclaimer
+Covo-Audio-Chat is for research and experimental purposes only. It may occasionally produce inaccurate, inappropriate, biased, outdated, or factually incorrect content. Users should independently verify critical information, and are solely responsible for their use of the model and any consequences thereof.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|begofcAUDIO|>": 151665,
+  "<|begofdAUDIO|>": 151668,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|cAUDIO|>": 151666,
+  "<|dAUDIO|>": 151669,
+  "<|endofcAUDIO|>": 151667,
+  "<|endofdAUDIO|>": 151670,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

assets/covoaudio-results-overview.png ADDED Viewed

Git LFS Details

SHA256: 4b8a1d569e6a0bda367c7b84ffb79037723d38a49537e40a34d506ff8db5e6a8
Pointer size: 131 Bytes
Size of remote file: 805 kB

assets/mel_filters.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7450ae70723a5ef9d341e3cee628c7cb0177f36ce42c44b7ed2bf3325f0f6d4c
+size 4271

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "_encoder_config_type": "whisper",
+  "_llm_config_type": "qwen2",
+  "adapter_downsample": 8,
+  "architectures": [
+    "CovoAudioForCausalLM"
+  ],
+  "audio_token_index": 151671,
+  "auto_map": {
+    "AutoConfig": "configuration_covo_audio.CovoAudioConfig",
+    "AutoModel": "modeling_covo_audio.CovoAudioForCausalLM"
+  },
+  "dtype": "bfloat16",
+  "encoder_config": {
+    "_name_or_path": "openai/whisper-large-v3",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "apply_spec_augment": false,
+    "architectures": [
+      "WhisperForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "begin_suppress_tokens": [
+      220,
+      50257
+    ],
+    "bos_token_id": 50257,
+    "classifier_proj_size": 256,
+    "d_model": 1280,
+    "decoder_attention_heads": 20,
+    "decoder_ffn_dim": 5120,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 32,
+    "decoder_start_token_id": 50258,
+    "dropout": 0.0,
+    "dtype": "float16",
+    "encoder_attention_heads": 20,
+    "encoder_ffn_dim": 5120,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 32,
+    "eos_token_id": 50257,
+    "init_std": 0.02,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.05,
+    "max_length": 448,
+    "max_source_positions": 1500,
+    "max_target_positions": 448,
+    "median_filter_width": 7,
+    "model_type": "whisper",
+    "num_hidden_layers": 32,
+    "num_mel_bins": 128,
+    "scale_embedding": false,
+    "use_cache": true,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 51866
+  },
+  "llm_config": {
+    "architectures": [
+      "Qwen2ForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151643,
+    "hidden_act": "silu",
+    "hidden_size": 3584,
+    "initializer_range": 0.02,
+    "intermediate_size": 18944,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "max_window_layers": 28,
+    "model_type": "qwen2",
+    "num_attention_heads": 28,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "use_cache": true,
+    "use_mrope": false,
+    "use_sliding_window": false,
+    "vocab_size": 168055
+  },
+  "model_type": "covo_audio",
+  "transformers_version": "4.57.1",
+  "whisper_feats_dim": 1280
+}

configuration_covo_audio.py ADDED Viewed

	@@ -0,0 +1,164 @@

+from typing import Optional
+from transformers import Qwen2Config, WhisperConfig
+from transformers.configuration_utils import PretrainedConfig
+class CovoAudioConfig(PretrainedConfig):
+    model_type = "covo_audio"
+    sub_configs = {"llm_config": Qwen2Config, "encoder_config": WhisperConfig} # type: ignore
+    has_no_defaults_at_init = True
+    def __init__(self,
+                 llm_config:Optional[Qwen2Config]=None,
+                 encoder_config:Optional[WhisperConfig]=None,
+                 audio_token_index=151671,
+                 adapter_downsample=8,
+                 **kwargs):
+        if llm_config is None:
+            llm_config = Qwen2Config(
+                architectures=[
+                    "Qwen2ForCausalLM"
+                ],
+                attention_dropout=0.0,
+                bos_token_id=151643,
+                eos_token_id=151643,
+                hidden_act="silu",
+                hidden_size=3584,
+                initializer_range=0.02,
+                intermediate_size=18944,
+                max_position_embeddings=131072,
+                max_window_layers=28,
+                model_type="qwen2",
+                num_attention_heads=28,
+                num_hidden_layers=28,
+                num_key_value_heads=4,
+                rms_norm_eps=1e-06,
+                rope_scaling=None,
+                rope_theta=1000000.0,
+                sliding_window=131072,
+                torch_dtype="bfloat16",
+                use_cache=True,
+                use_mrope=False,
+                use_sliding_window=False,
+                vocab_size=168055
+            )
+        if encoder_config is None:
+            encoder_config = WhisperConfig(
+                _name_or_path="openai/whisper-large-v3",
+                activation_dropout=0.0,
+                activation_function="gelu",
+                apply_spec_augment=False,
+                architectures=[
+                    "WhisperForConditionalGeneration"
+                ],
+                attention_dropout=0.0,
+                begin_suppress_tokens=[
+                    220,
+                    50257
+                ],
+                bos_token_id=50257,
+                classifier_proj_size=256,
+                d_model=1280,
+                decoder_attention_heads=20,
+                decoder_ffn_dim=5120,
+                decoder_layerdrop=0.0,
+                decoder_layers=32,
+                decoder_start_token_id=50258,
+                dropout=0.0,
+                encoder_attention_heads=20,
+                encoder_ffn_dim=5120,
+                encoder_layerdrop=0.0,
+                encoder_layers=32,
+                eos_token_id=50257,
+                init_std=0.02,
+                mask_feature_length=10,
+                mask_feature_min_masks=0,
+                mask_feature_prob=0.0,
+                mask_time_length=10,
+                mask_time_min_masks=2,
+                mask_time_prob=0.05,
+                max_length=448,
+                max_source_positions=1500,
+                max_target_positions=448,
+                median_filter_width=7,
+                model_type="whisper",
+                num_hidden_layers=32,
+                num_mel_bins=128,
+                scale_embedding=False,
+                torch_dtype="float16",
+                use_cache=True,
+                use_weighted_layer_sum=False,
+                vocab_size=51866
+            )
+        self.audio_token_index = audio_token_index
+        self.adapter_downsample = adapter_downsample
+        self.llm_config = llm_config
+        self.encoder_config = encoder_config
+        self.whisper_feats_dim = encoder_config.d_model
+        if "dtype" not in kwargs:
+            kwargs["dtype"] = "bfloat16"
+        self.dtype = kwargs["dtype"]
+        super().__init__(**kwargs)
+    @property
+    def num_hidden_layers(self):
+        return self.llm_config.num_hidden_layers
+    @property
+    def hidden_size(self):
+        return self.llm_config.hidden_size
+    def to_dict(self):
+        """Serializes this instance to a Python dictionary, ensuring nested
+        PretrainedConfig objects are serialized via their own to_dict().
+        """
+        output = super().to_dict()
+        # replace nested config objects with their dict representation
+        if hasattr(self, "llm_config") and isinstance(self.llm_config, PretrainedConfig):
+            output["llm_config"] = self.llm_config.to_dict()
+            output["_llm_config_type"] = getattr(self.llm_config, "model_type", None)
+        if hasattr(self, "encoder_config") and isinstance(self.encoder_config, PretrainedConfig):
+            output["encoder_config"] = self.encoder_config.to_dict()
+            output["_encoder_config_type"] = getattr(self.encoder_config, "model_type", None)
+        return output
+    @classmethod
+    def from_dict(cls, config_dict: dict, **kwargs):
+        """Create an CovoAudioConfig from a dict, reconstructing nested config
+        objects (llm_config, encoder_config) using the classes declared in
+        `sub_configs` if available.
+        """
+        # Make a shallow copy to avoid mutating input
+        data = dict(config_dict)
+        llm_conf = None
+        enc_conf = None
+        if "llm_config" in data and data["llm_config"] is not None:
+            llm_cls = cls.sub_configs.get("llm_config") if hasattr(cls, "sub_configs") else None
+            if llm_cls is not None:
+                # use the sub-config class to reconstruct
+                llm_conf = llm_cls.from_dict(data.pop("llm_config"))
+            else:
+                # fallback to raw dict
+                llm_conf = data.pop("llm_config")
+        if "encoder_config" in data and data["encoder_config"] is not None:
+            enc_cls = cls.sub_configs.get("encoder_config") if hasattr(cls, "sub_configs") else None
+            if enc_cls is not None:
+                enc_conf = enc_cls.from_dict(data.pop("encoder_config"))
+            else:
+                enc_conf = data.pop("encoder_config")
+                # ensure HF-compatible fields reflect the underlying decoder (LLM）
+        # remove internal helper keys if present
+        data.pop("_llm_config_type", None)
+        data.pop("_encoder_config_type", None)
+        # now construct instance using reconstructed nested configs
+        return cls(llm_config=llm_conf, encoder_config=enc_conf, **data)

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93e9dbb69e5484a5568667adf73f62407bd2a22d27c0564942736aada7afeda0
+size 4992284680

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52f0e2ce2b1323bb26979de09d964747e6f1626d553c1f719802f605800b6731
+size 4932751496

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96ff2a30bf7b2247bc59fc43d1455aea7a5bb150211944efc7942ec873835e86
+size 4330865648

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3c843610053d528de9c129d20a6804c7c09396f91a98c1198e2b4dfed087e1e
+size 2549030600

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,852 @@

+{
+  "metadata": {
+    "total_parameters": 8402417920,
+    "total_size": 16804835840
+  },
+  "weight_map": {
+    "audio_adapter.downsample_layers.0.conv1d.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.0.conv1d.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.0.linear1.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.0.linear1.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.0.linear2.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.0.linear2.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.conv1d.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.conv1d.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.linear1.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.linear1.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.linear2.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.1.linear2.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.conv1d.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.conv1d.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.linear1.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.linear1.weight": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.linear2.bias": "model-00004-of-00004.safetensors",
+    "audio_adapter.downsample_layers.2.linear2.weight": "model-00004-of-00004.safetensors",
+    "encoder.conv1.bias": "model-00004-of-00004.safetensors",
+    "encoder.conv1.weight": "model-00004-of-00004.safetensors",
+    "encoder.conv2.bias": "model-00004-of-00004.safetensors",
+    "encoder.conv2.weight": "model-00004-of-00004.safetensors",
+    "encoder.embed_positions.weight": "model-00004-of-00004.safetensors",
+    "encoder.layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.0.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.1.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.10.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.11.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.12.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.13.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.14.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.15.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.16.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.17.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.18.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.19.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.2.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.20.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.21.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.22.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.23.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.24.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.25.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.26.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.27.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.28.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.29.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.3.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.30.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.31.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.4.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.5.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.6.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.7.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.8.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.fc1.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.fc1.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.fc2.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.fc2.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "encoder.layers.9.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "llm.lm_head.weight": "model-00004-of-00004.safetensors",
+    "llm.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "llm.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "llm.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "llm.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "llm.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "llm.model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "llm.model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

modeling_covo_audio.py ADDED Viewed

	@@ -0,0 +1,406 @@

+import torch
+import torchaudio
+from transformers.modeling_utils import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
+from transformers.models.qwen2 import Qwen2ForCausalLM
+from transformers.models.whisper.modeling_whisper import WhisperEncoder
+from transformers.generation.logits_process import LogitsProcessor, LogitsProcessorList
+from .configuration_covo_audio import CovoAudioConfig
+from torch import nn
+import numpy as np
+import torch.nn.functional as F
+import os
+from functools import lru_cache
+from typing import Optional, Union
+@torch.no_grad()
+def get_dialog_prompt(audio, tokenizer, device, first_round=True):
+    begofcAUDIO_id, cAUDIO_id, endofcAUDIO_id = tokenizer.convert_tokens_to_ids(["<|begofcAUDIO|>", "<|cAUDIO|>", "<|endofcAUDIO|>"])
+    wav, sr = torchaudio.load(audio)
+    if wav.shape[0] == 2:  # stereo to mono
+        wav = wav.mean(dim=0, keepdim=True)
+    wav = wav.squeeze(0)
+    # hyperparameters
+    sample_rate = 24000
+    pad_multiple = True
+    multiple_of = 480
+    if sr != sample_rate:
+        wav = torchaudio.functional.resample(wav, orig_freq=sr, new_freq=sample_rate)
+    hop_size = sample_rate // 100
+    wav = wav[: len(wav) // hop_size * hop_size]
+    # pad wav
+    if pad_multiple and multiple_of is not None:
+        d = (wav.shape[0] + multiple_of - 1) // multiple_of * multiple_of - wav.shape[0]
+        if d > 0:
+            wav = F.pad(wav, (0, d), value=0)
+    num_token = calc_seq_len(len(wav) * 100 // sample_rate)
+    # first round dialog
+    if first_round:
+        sys_prompt = """你是"小腾"，英文名是"Covo"，由腾讯开发的AI助手。
+1、请使用简洁、口语化的语言和用户聊天，你的态度积极、耐心，像一位值得信赖的朋友。
+2、不要使用列表或编号，避免输出网址、表情符号和复杂的公式。
+3、不评价竞争对手，不发表主观政治观点，针对色情类、政治类、恐怖类、歧视类、暴力类的用户问题，你要妥善应对潜在的安全风险，并给出幽默，情绪安抚以及安全的劝导。
+请用文本和音频进行对话，交替生成5个文本token和15个音频token，音频部分使用发音人：default_female"""
+        interleave_text = "<|begofcAUDIO|>" + "<|cAUDIO|>" * num_token + "<|endofcAUDIO|>"
+        sys_prompt = "<|im_start|>system\n" + sys_prompt + "<|im_end|>\n"
+        prompt = sys_prompt + "<|im_start|>user\n" + interleave_text + "<|im_end|>\n<|im_start|>assistant\n"
+    # multi-round dialog
+    else:
+        interleave_text = "<|begofcAUDIO|>" + "<|cAUDIO|>" * num_token + "<|endofcAUDIO|>"
+        prompt = "\n<|im_start|>user\n" + interleave_text + "<|im_end|>\n<|im_start|>assistant\n"
+    text_inputs = tokenizer(prompt, padding=True, return_tensors="pt").to(device)
+    input_ids = text_inputs.input_ids
+    attention_mask = text_inputs.attention_mask
+    wav = wav.to(device)
+    # long audio (>30s) processing support
+    segment_length = 720000  # 30s * 24000Hz
+    # calculate total number of segments
+    total_length = wav.shape[0]
+    num_segments = (total_length + segment_length - 1) // segment_length
+    wav_segments = []
+    # split into 30s segments and collect
+    for i in range(num_segments):
+        start_idx = i * segment_length
+        end_idx = min((i + 1) * segment_length, total_length)
+        # extract current segment
+        segment = wav[start_idx:end_idx]
+        wav_segments.append(segment)
+    return wav_segments, input_ids, attention_mask
+def sequence_mask(lengths, max_len=None, dtype=torch.bool):
+    if max_len is None:
+        max_len = lengths.max()
+    #mask = ~(torch.ones((len(lengths), max_len)).to(lengths.device).cumsum(dim=1).t() > lengths).t()
+    mask = ~(torch.ones((len(lengths), max_len)).to(lengths.device).cumsum(dim=1) > lengths.unsqueeze(1))
+    mask = mask.to(dtype)
+    return mask
+def calc_seq_len(seq_len):
+    strides = [2, 2, 2, 2]
+    for s in strides:
+        seq_len = (seq_len + s - 1) // s
+    return seq_len
+class DownsampleLayer(nn.Module):
+    """
+    Downsample layer with 1D convolution and linear layers.
+    """
+    def __init__(self, input_dim, output_dim, hidden_dim=2048):
+        super().__init__()
+        self.conv1d = nn.Conv1d(in_channels=input_dim, out_channels=input_dim, kernel_size=3, stride=2, padding=1)
+        self.linear1 = nn.Linear(input_dim, hidden_dim)
+        self.relu1 = nn.ReLU()
+        self.linear2 = nn.Linear(hidden_dim, output_dim)
+        self.relu2 = nn.ReLU()
+    def forward(self, x):
+        # x: (B, T, C)
+        x = x.transpose(1, 2)  # -> (B, C, T)
+        x = self.conv1d(x)     # -> (B, C, T // 2)
+        x = x.transpose(1, 2)  # -> (B, T // 2, C)
+        x = self.relu1(x)
+        x = self.linear1(x)    # -> (B, T // 2, hidden_dim)
+        x = self.relu2(x)
+        x = self.linear2(x)    # -> (B, T // 2, output_dim)
+        return x
+class AudioAdapter(nn.Module):
+    """
+    Audio adapter with downsample layers.
+    """
+    def __init__(self, input_dim, output_dim, downsample=8):
+        """
+        Args:
+            input_dim (int): input feature dimension (number of channels)
+            output_dim (int): output feature dimension
+            downsample (int): total downsampling factor, must be a power of 2
+        """
+        super(AudioAdapter, self).__init__()
+        assert downsample % 2 == 0 and downsample >= 2, "downsample must be even"
+        num_layers = downsample.bit_length() - 1  # calculate how many downsampling steps are needed to reach the target factor
+        layers = []
+        in_dim = input_dim
+        for i in range(num_layers):
+            is_last = (i == num_layers - 1)
+            out_dim = output_dim if is_last else input_dim
+            layers.append(DownsampleLayer(in_dim, out_dim))
+            in_dim = out_dim
+        self.downsample_layers = nn.ModuleList(layers)
+    def forward(self, x):
+        """
+        Args:
+            x (Tensor): shape (B, T, C),C=input_dim
+        Returns:
+            Tensor: shape (B, T // downsample, output_dim)
+        """
+        for layer in self.downsample_layers:
+            x = layer(x)
+        return x
+# from openai-whisper
+# hard-coded audio hyperparameters
+SAMPLE_RATE = 16000
+N_FFT = 400
+HOP_LENGTH = 160
+CHUNK_LENGTH = 30
+N_SAMPLES = CHUNK_LENGTH * SAMPLE_RATE  # 480000 samples in a 30-second chunk
+def pad_or_trim(array, length: int = N_SAMPLES, *, axis: int = -1):
+    """
+    Pad or trim the audio array to N_SAMPLES, as expected by the encoder.
+    """
+    if torch.is_tensor(array):
+        if array.shape[axis] > length:
+            array = array.index_select(
+                dim=axis, index=torch.arange(length, device=array.device)
+            )
+        if array.shape[axis] < length:
+            pad_widths = [(0, 0)] * array.ndim
+            pad_widths[axis] = (0, length - array.shape[axis])
+            array = F.pad(array, [pad for sizes in pad_widths[::-1] for pad in sizes])
+    else:
+        if array.shape[axis] > length:
+            array = array.take(indices=range(length), axis=axis)
+        if array.shape[axis] < length:
+            pad_widths = [(0, 0)] * array.ndim
+            pad_widths[axis] = (0, length - array.shape[axis])
+            array = np.pad(array, pad_widths)
+    return array
+@lru_cache(maxsize=None)
+def mel_filters(device, n_mels: int) -> torch.Tensor:
+    """
+    load the mel filterbank matrix for projecting STFT into a Mel spectrogram.
+    Allows decoupling librosa dependency; saved using:
+        np.savez_compressed(
+            "mel_filters.npz",
+            mel_80=librosa.filters.mel(sr=16000, n_fft=400, n_mels=80),
+            mel_128=librosa.filters.mel(sr=16000, n_fft=400, n_mels=128),
+        )
+    """
+    assert n_mels in {80, 128}, f"Unsupported n_mels: {n_mels}"
+    filters_path = os.path.join(os.path.dirname(__file__), "assets", "mel_filters.npz")
+    with np.load(filters_path, allow_pickle=False) as f:
+        return torch.from_numpy(f[f"mel_{n_mels}"]).to(device)
+def log_mel_spectrogram(
+    audio: torch.Tensor,
+    n_mels: int = 80,
+    padding: int = 0,
+    device: Optional[Union[str, torch.device]] = None,
+):
+    """
+    Compute the log-Mel spectrogram
+    Parameters
+    ----------
+    audio: Union[str, np.ndarray, torch.Tensor], shape = (*)
+        The path to audio or either a NumPy array or Tensor containing the audio waveform in 16 kHz
+    n_mels: int
+        The number of Mel-frequency filters, only 80 is supported
+    padding: int
+        Number of zero samples to pad to the right
+    device: Optional[Union[str, torch.device]]
+        If given, the audio tensor is moved to this device before STFT
+    Returns
+    -------
+    torch.Tensor, shape = (80, n_frames)
+        A Tensor that contains the Mel spectrogram
+    """
+    dtype = audio.dtype
+    if device is not None:
+        audio = audio.to(device)
+    if padding > 0:
+        audio = F.pad(audio, (0, padding))
+    window = torch.hann_window(N_FFT).to(audio.device)
+    stft = torch.stft(audio, N_FFT, HOP_LENGTH, window=window, return_complex=True)
+    magnitudes = stft[..., :-1].abs() ** 2
+    filters = mel_filters(audio.device, n_mels)
+    mel_spec = filters @ magnitudes
+    log_spec = torch.clamp(mel_spec, min=1e-10).log10()
+    log_spec = torch.maximum(log_spec, log_spec.max() - 8.0)
+    log_spec = (log_spec + 4.0) / 4.0
+    log_spec = log_spec.to(dtype)
+    return log_spec
+class WindowedRepetitionPenaltyLogitsProcessor(LogitsProcessor):
+    def __init__(self, penalty: float, window_size: int):
+        self.penalty = penalty
+        self.window_size = window_size
+    def __call__(self, input_ids, scores):
+        for batch_idx, input_seq in enumerate(input_ids):
+            window = input_seq[-self.window_size:] if self.window_size > 0 else input_seq  # get last 'window_size' tokens
+            for token_id in set(window.tolist()):
+                if scores[batch_idx, token_id] < 0:
+                    scores[batch_idx, token_id] *= self.penalty
+                else:
+                    scores[batch_idx, token_id] /= self.penalty
+        return scores
+class CovoAudioForCausalLM(PreTrainedModel, GenerationMixin):
+    config_class = CovoAudioConfig
+    def __init__(self, config: CovoAudioConfig, **kwargs):
+        super().__init__(config, **kwargs)
+        self.llm = Qwen2ForCausalLM(config.llm_config)
+        self.encoder = WhisperEncoder(config.encoder_config)
+        self.audio_adapter = AudioAdapter(config.whisper_feats_dim,
+                                          config.llm_config.hidden_size,
+                                          config.adapter_downsample)
+        self.post_init()
+    #NOTE Force 'tie_weights' function to do nothing to
+    # avoid the memory sharing between input and output embeddings of llm
+    def tie_weights(self, **kwargs):
+        pass
+    def audio_encoder(self, wavs, device):
+        """
+        Extract features from input waveform
+        """
+        # move resampler to the correct device
+        resampler16k = torchaudio.transforms.Resample(24000, 16000).to(device)
+        mel_features_list = []
+        for wav in wavs:
+            wav = resampler16k(wav)
+            audio = pad_or_trim(wav)
+            # [B, 80, 3000] 30s 100hz
+            mel_features = log_mel_spectrogram(audio, n_mels=128).to(torch.bfloat16)
+            mel_features_list.append(mel_features)
+        mel_features = torch.stack(mel_features_list)
+        feats = self.encoder(mel_features).last_hidden_state
+        features = self.audio_adapter(feats)
+        features = features.view(1, -1, features.shape[2])
+        return features
+    def forward(
+        self,
+        input_ids=None,
+        inputs_embeds=None,
+        wavs=None,
+        attention_mask=None,
+        past_key_values=None,
+        labels=None,
+        position_ids=None,
+        **kwargs
+    ):
+        outputs = self.llm(
+            inputs_embeds=inputs_embeds,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            labels=labels,
+            position_ids=position_ids,
+            **kwargs
+        )
+        return outputs
+    def get_input_embeddings(self):
+        """
+        Return the model's input embeddings - required for GenerationMixin
+        """
+        return self.llm.get_input_embeddings()
+    def get_output_embeddings(self):
+        """
+        Return the model's output embeddings - required for GenerationMixin
+        """
+        # return self.llm.get_output_embeddings()
+        return self.llm.lm_head
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        attention_mask=None,
+        **kwargs
+    ):
+        wavs = kwargs.get("wavs", None)
+        is_first_iteration = kwargs.get("is_first_iteration", False)
+        past_key_values = kwargs.get("past_key_values", None)
+        if is_first_iteration:      # First generation step, include audio processing
+            inputs_embeds = self.llm.get_input_embeddings()(input_ids)
+            cAUDIO_id = 151666    # tokenizer.convert_tokens_to_ids("<|cAUDIO|>")
+            audio_features = self.audio_encoder(wavs, inputs_embeds.device)
+            feature_lengths = (input_ids == cAUDIO_id).sum(1)
+            feature_seq_mask = sequence_mask(feature_lengths, max_len=audio_features.size(1), dtype=torch.bool)
+            audio_features = audio_features.to(inputs_embeds.device, inputs_embeds.dtype)
+            audio_features = audio_features[feature_seq_mask]
+            audio_mask = input_ids == cAUDIO_id
+            audio_mask = audio_mask.unsqueeze(-1)
+            inputs_embeds = inputs_embeds.masked_scatter(audio_mask, audio_features)
+            return {
+                "inputs_embeds": inputs_embeds,
+                "attention_mask": attention_mask,
+                "past_key_values": past_key_values,
+            }
+        else:                       # We're in a generation step, no need to process audio again
+            input_ids = input_ids[:, -1:]
+            inputs_embeds = self.llm.get_input_embeddings()(input_ids)
+            return {
+                "inputs_embeds": inputs_embeds,
+                "attention_mask": attention_mask,
+                "past_key_values": past_key_values,
+            }
+    def _set_gradient_checkpointing(self, module, value=False):
+        # For Qwen2
+        if hasattr(self.llm, 'gradient_checkpointing'):
+            self.llm.gradient_checkpointing = value
+            # Add the missing _gradient_checkpointing_func method to Qwen2Model
+            if value and not hasattr(self.llm, '_gradient_checkpointing_func'):
+                def _gradient_checkpointing_func(module_to_run, *args, **kwargs):
+                    return torch.utils.checkpoint.checkpoint(module_to_run, *args, **kwargs)
+                self.llm._gradient_checkpointing_func = _gradient_checkpointing_func
+        # For custom encoder and adapter
+        if hasattr(self.encoder, 'gradient_checkpointing'):
+            self.encoder.gradient_checkpointing = value
+        if hasattr(self.audio_adapter, 'gradient_checkpointing'):
+            self.audio_adapter.gradient_checkpointing = value

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "additional_special_tokens": [
+    "<|begofcAUDIO|>",
+    "<|cAUDIO|>",
+    "<|endofcAUDIO|>",
+    "<|begofdAUDIO|>",
+    "<|dAUDIO|>",
+    "<|endofdAUDIO|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

token2wav/global_mean_var.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91968d1064eff334fd218e1ba6764e66c760f2af4ac28ea453265d740f7bcae5
+size 640

token2wav/model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92f98f7be0a24913b48d58ef7dbd85c3a306727a929a7e9c912140433f5f7fcc
+size 1861521759

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25daf65a8df9d4f2c3d73bf6a6930a5cacd45ea66572fbf8a7fd5b46927fce72
+size 11423038

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,248 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<|begofcAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151666": {
+      "content": "<|cAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151667": {
+      "content": "<|endofcAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151668": {
+      "content": "<|begofdAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151669": {
+      "content": "<|dAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151670": {
+      "content": "<|endofdAUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|begofcAUDIO|>",
+    "<|cAUDIO|>",
+    "<|endofcAUDIO|>",
+    "<|begofdAUDIO|>",
+    "<|dAUDIO|>",
+    "<|endofdAUDIO|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff