Duplicate from ibm-granite/granite-speech-4.1-2b-plus

Browse files

Co-authored-by: Madison Lee <kristunlee@users.noreply.huggingface.co>

Files changed (13) hide show

.gitattributes +35 -0
README.md +307 -0
chat_template.jinja +121 -0
config.json +87 -0
generation_config.json +10 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +961 -0
model.sig +1 -0
processor_config.json +17 -0
tokenizer.json +0 -0
tokenizer_config.json +20 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,307 @@

+---
+license: apache-2.0
+language:
+  - multilingual
+  - en
+  - fr
+  - de
+  - es
+  - pt
+base_model:
+  - ibm-granite/granite-4.0-1b-base
+library_name: transformers
+---
+# Granite-Speech-4.1-2B-Plus
+## Model Summary
+Granite-Speech-4.1-2B-Plus has similar capabilities to the [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b) model. The plus model adds two new community-requested rich transcription features that can be activated with a simple prompt change: speaker-attributed ASR (speaker labels and word transcripts) and word-level timing information. Unlike the base mode, the plus model doesn't provide punctuation and capitalization.
+The model was trained on corpora similar to the [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b) model which were augmented with speaker turns and word-level timestamp tags. This allows the model to provide different modes of functionality controlled by different prompts.
+Two additional model variants explore different capabilities and inference optimization:
+- [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b) for applications where accuracy is the primary concern with support for punctuated, capitalized transcripts, AST and keyword-biased recognition, and includes Japanese.
+- [Granite-Speech-4.1-2B-NAR](https://huggingface.co/ibm-granite/granite-speech-4.1-2b-nar) introduces a novel non-autoregressive architecture for higher throughput
+### ASR only mode
+In this mode the model generates only the text transcript similar to the [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b) model.
+### Speaker attributed ASR (SAA)
+In this mode, the model adds speaker tags in the format of `[Speaker N]:` where $N$ is the speaker number, before each speaker turn. The speakers are numbered by their order of appearance so the first speaker will always be marked with `[Speaker 1]:` and the second with `[Speaker 2]:`, etc. For example: `"[Speaker 1]: Hello how are you [Speaker 2]: I'm fine and how are you feeling [Speaker 1]: I feel wonderful"`.
+See [Resources](#resources) for more information about SAA.
+### Word-level timestamps
+In this mode, the model adds timestamp tags after each word indicating the end of the word in the audio. Silences are transcribed as `_` and a timestamp tag also indicates their end. The format of the tag is `[T:N]` where $N$ is an integer number indicating the time in centiseconds (1/100th of a second). To reduce the amount of generated tokens, only the last three digits of $N$ are provided. This causes a rollover after 10 seconds.
+The conversion from time $t$ in seconds to timestamp is $N = round(t*100) \mod 1000$. To convert back to seconds, use $t = N/100 + 10R$ where $R$ is the rollover counter. See code below for example implementation in Python.
+See [Resources](#resources) for more information about timestamps.
+### Incremental decoding
+There are cases where we want to transcribe a new audio segment along with previous segments that we've already transcribed. This can be useful for providing longer context for the model in order to improve transcription accuracy or to maintain the speaker numbering in SAA mode. To avoid re-decoding the previous segments, we can provide the previous transcription in the `prefix_text` field of the conversation template. The model will decode the parts after that. See the code below for examples.
+### Keyword list biasing (KWB)
+Keyword list biasing capability is available to enhance the recognition of keywords, such as names and technical terms.
+This is particularly useful in tasks where complex terms may otherwise be misrecognized.
+Keyword biasing can be applied by including the keywords directly in the prompt; for example, in ASR mode: `Can you transcribe the speech into a written format? Keywords: …`
+Users may provide either a single keyword or a list of keywords, which may also include terms that do not appear in the input audio, making them well suited for batch processing or recurring domain-specific use cases.
+See [Resources](#resources) for more information about keyword list biasing.
+## Evaluations
+Our evaluations showed that this model works well with audio segments up to 9 minutes long for ASR and SAA, and up to 5 minutes for timestamps.
+### ASR
+**Performance on** [**HuggingFace Open ASR leaderboard**](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard)**:**
+| **model**                                  | **Average WER** | **AMI** | **Earnings22** | **Gigaspeech** | **LS Clean** | **LS Other** | **SPGISpeech** | **Tedlium** | **Voxpopuli** |
+| :----------------------------------------- | :-------------: | :-----: | :------------: | :------------: | :----------: | :----------: | :------------: | :---------: | :-----------: |
+| **ibm-granite/granite-speech-4.1-2b-plus** |      5.71       |  8.63   |      8.68      |     10.38      |     1.44     |     3.06     |      3.72      |    3.89     |      5.9      |
+| ibm-granite/granite-speech-4.1-2b          |      5.33       |  8.09   |      8.37      |      9.8       |     1.33     |     2.5      |      3.78      |    3.07     |      5.7      |
+| ibm-granite/granite-speech-4.1-2b-nar      |      5.44       |  8.03   |      8.44      |     10.16      |     1.28     |     2.77     |      3.33      |    3.62     |     5.86      |
+(Using [speculative decoding](https://github.com/huggingface/open_asr_leaderboard/blob/main/granite/run_eval_speculative.py))
+**Keyword list biasing accuracy - Keyword F1 score (%, ↑ higher is better):**
+| Mode        | Gigaspeech | LS-C     | LS-O     | SPGISpeech | VOX      | TED_LIUM | Earnings22 | CV-en    | CV-de    | CV-es    | CV-fr    | CV-pt    |
+| ----------- | ---------- | -------- | -------- | ---------- | -------- | -------- | ---------- | -------- | -------- | -------- | -------- | -------- |
+| Without KWB | 74.2       | 89.1     | 78.2     | 80.8       | 93.9     | 87.9     | 68.8       | 74.6     | 78.5     | 83.1     | 74.5     | 90.0     |
+| With KWB    | **84.1**   | **96.1** | **93.0** | **92.5**   | **96.3** | **94.9** | **81.5**   | **91.5** | **92.9** | **93.9** | **90.6** | **95.0** |
+### Speaker Attributed ASR
+**Speaker Attributed ASR performance - WDER (%, ↓ lower is better):**
+| **Model**                      | **FISHER** | **CALLHOME English** | **AMI-SDM** | **GALE** |
+| :----------------------------- | :--------: | :------------------: | :---------: | :------: |
+| VibeVoice ASR [1]              |    2.8     |         7.1          |    27.4     |   44.8   |
+| **Granite-speech-4.1-2b-plus** |  **0.9**   |       **2.2**        |  **14.6**   | **30.2** |
+The results are averaged over 2-5 minute speech segments.
+(The evaluation metric: Word Diarization Error Rate [WDER] is the percentage of words attributed to the wrong speaker)
+### Timestamps
+**Word-level timestamp accuracy - AAS (ms, ↓ lower is better):**
+| **Model**                      | **AMI-I** | **AMI-S** | **LS-C** | **LS-O** | **VOX**  |  **CV**  | **MLS**  | **TMT**  | **En Avg** | **MLS-fr** | **MLS-es** | **MLS-de** | **MLS-pt** | **CV-fr** | **CV-es** | **CV-de** | **CV-pt** | **ML Avg** |
+| :----------------------------- | :-------: | :-------: | :------: | :------: | :------: | :------: | :------: | :------: | :--------: | :--------: | :--------: | :--------: | :--------: | :-------: | :-------: | :-------: | :-------: | :--------: |
+| Qwen3-FA [2]                   |   48.1    |   82.5    |   27.8   |   29.3   | **41.0** |   48.4   |   34.3   |   29.9   |    42.7    |  **38.1**  |    27.0    |  **31.2**  |  **26.3**  |   30.3    |   40.0    |   29.4    |   34.2    |    33.3    |
+| CrisperWhisper [3]             |   55.7    | **64.3**  |   35.9   |   40.1   |   47.2   |   97.4   |   46.4   |   42.7   |    53.7    |    35.6    |    28.0    |  **31.2**  |    36.8    |   62.9    |   58.9    |   60.9    |   83.8    |    50.1    |
+| Canary-v2 [4]                  |   127.8   |   129.7   |   92.5   |   89.2   |  109.9   |  110.3   |   94.3   |   86.1   |   105.0    |    85.0    |    81.1    |    80.2    |     –      |   86.8    |   88.5    |   91.5    |     –     |     –      |
+| WhisperX [5]                   |   107.1   |   150.2   |   71.7   |   72.0   |   78.8   |   91.2   |   79.2   |   63.6   |    89.2    |   117.3    |    84.7    |   132.2    |    75.0    |   104.2   |   88.1    |   126.8   |   79.5    |   101.0    |
+| **Granite-speech-4.1-2b-plus** | **43.4**  |   69.0    | **11.4** | **14.6** |   80.2   | **43.3** | **24.3** | **24.5** |  **38.8**  |    45.4    |  **23.0**  |    41.3    |    47.1    | **18.6**  | **19.3**  | **19.5**  | **24.2**  |  **29.8**  |
+(The evaluation metric:  Accumulated Averaging Shift [AAS] is measuring the average time shift of each word)
+## Release Date
+April 28, 2026
+## License
+[Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
+## Supported Languages
+English, French, German, Spanish, Portuguese
+## Intended Use
+The model is intended to be used in enterprise applications that involve processing of speech input especially when a rich transcript adding speaker turns and time stamps is desired. In particular, the model is well-suited for English, French, German, Spanish, and Portuguese speech-to-text.
+## Usage
+The Granite Speech model is supported natively in `transformers>=5.8`. Below is a simple example of how to use the different modes of the model.
+### Usage with `transformers`
+First [install pytorch](https://pytorch.org/get-started/locally/).
+Install [transformers](https://huggingface.co/docs/transformers/installation). The code for the granite-speech-plus model was added recently so you might need to install from the sources until the PyPI package is updated.
+```shell
+pip install torchaudio datasets accelerate torchcodec
+```
+**Setup** — load the model and a test audio clip:
+```python
+import re
+import torch
+from datasets import Audio, load_dataset
+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
+```
+Load the model and define a general function for decoding the audio:
+```python
+MODEL_NAME = "ibm-granite/granite-speech-4.1-2b-plus"
+device = "cuda" if torch.cuda.is_available() else "cpu"
+processor = AutoProcessor.from_pretrained(MODEL_NAME)
+tokenizer = processor.tokenizer
+model = AutoModelForSpeechSeq2Seq.from_pretrained(MODEL_NAME, device_map=device, dtype=torch.bfloat16)
+model.eval()
+SYSTEM_PROMPT = "Knowledge Cutoff Date: April 2024.\nToday's Date: December 19, 2024.\nYou are Granite, developed by IBM. You are a helpful AI assistant"
+@torch.inference_mode()
+def transcribe(audio, prompt, max_new_tokens=2000, prefix_text=None):
+    chat = [{"role": "system", "content": SYSTEM_PROMPT}, {"role": "user", "content": prompt}]
+    extra = {"prefix_text": prefix_text} if prefix_text is not None else {}
+    prompt_text = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True, **extra)
+    inputs = processor(prompt_text, audio, device=device, return_tensors="pt").to(device)
+    outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, do_sample=False, num_beams=1)
+    new_tokens = outputs[0, inputs["input_ids"].shape[-1]:]
+    output_text = tokenizer.decode(new_tokens, add_special_tokens=False, skip_special_tokens=True)
+    return output_text
+```
+Load some example audio data from the AMI dataset
+```python
+SAMPLE_RATE = 16000
+ds = load_dataset("diarizers-community/ami", "ihm", split="test")
+ds = ds.cast_column("audio", Audio(sampling_rate=SAMPLE_RATE, num_channels=1))
+TEST_SAMPLE = 0
+START_TIME, END_TIME = 5 * 60, 6 * 60
+audio = ds["audio"][TEST_SAMPLE].get_samples_played_in_range(START_TIME, END_TIME)
+```
+**Task 1: ASR** — plain speech-to-text transcription:
+```python
+ASR_PROMPT = "<|audio|> can you transcribe the speech into a written format?"
+asr_text = transcribe(audio.data, ASR_PROMPT)
+print(asr_text)
+```
+**Task 2: Speaker Attributed ASR** — transcription with speaker labels:
+```python
+SAA_PROMPT = "<|audio|> Speaker attribution: Transcribe and denote who is speaking by adding [Speaker 1]: and [Speaker 2]: tags before speaker turns."
+saa_text = transcribe(audio.data, SAA_PROMPT)
+for segment in re.split(r"(\[Speaker \d+\]:)", saa_text):
+    print(segment.strip())
+```
+**Task 3: Word-level timestamps** — transcription with per-word timing:
+The timestamps are given in centiseconds and are modulo 1000 (=10 seconds)
+so we need to unwrap them by adding multiples of 10 seconds.
+```python
+TS_PROMPT = "<|audio|> Timestamps: Transcribe the speech. After each word, add a timestamp tag showing the end time in centiseconds, e.g. hello [T:45] world [T:82]"
+ts_text = transcribe(audio.data, TS_PROMPT, max_new_tokens=10000)
+ts_words = re.split(r"\[T:(\d+)\]", ts_text)
+last_word_end_time = 0
+offset_time = 0
+for word, ts in zip(ts_words[::2], ts_words[1::2]):
+    word_end_time = float(ts) / 100
+    while word_end_time + offset_time < last_word_end_time:
+        offset_time += 10
+    last_word_end_time = word_end_time + offset_time
+    print(f"{word}\t{last_word_end_time:.2f}s")
+```
+**Task 4: Incremental decoding** — transcribe segments while accumulating audio context:
+```python
+NUM_SEGMENTS = 3
+previous_transcript = ""
+all_audio = None
+for k in range(NUM_SEGMENTS):
+    t1 = START_TIME + (END_TIME - START_TIME) * k / NUM_SEGMENTS
+    t2 = START_TIME + (END_TIME - START_TIME) * (k + 1) / NUM_SEGMENTS
+    new_audio = ds["audio"][TEST_SAMPLE].get_samples_played_in_range(t1, t2)
+    all_audio = new_audio.data if all_audio is None else torch.cat([all_audio, new_audio.data], dim=-1)
+    saa_text = transcribe(all_audio, SAA_PROMPT, prefix_text=previous_transcript)
+    print(f"{t1:06.2f}-{t2:06.2f}:\t{saa_text}")
+    previous_transcript = (previous_transcript + " " + saa_text).strip()
+```
+## Model Architecture
+The model shares the same architecture as the [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b) model.
+## Training Data
+The model was trained on the same datasets as [Granite-Speech-4.1-2B](https://huggingface.co/ibm-granite/granite-speech-4.1-2b).
+Additional training data for SAA was created using audio segments from datasets that have speaker identification (e.g. Multilingual-Librispeech). Segments with alternating speakers were concatenated to create a long multi-speaker sample.
+### Training Data for Timestamps
+Word-level timestamping capabilities are achieved by using a combination of publicly available speech corpora: LibriSpeech, MLS (en, fr, de, pt, es), CommonVoice (en, fr, de, pt, es), VoxPopuli (en, fr, de, es), AMI-IHM, Switchboard, TIMIT and YODAS. For AMI-IHM, Switchboard and TIMIT, we use the available timestamp annotations. For all other datasets, we obtain word-level alignments using the Montreal Forced Aligner (MFA), a GMM-HMM based forced alignment tool. We also use MFA to insert silence boundaries into the manually annotated datasets.
+To ensure high-quality training data, we validate the MFA-derived alignments using forced alignments with our CTC-based speech encoder. We compute the Accumulated Average Shift (AAS), the mean absolute error between timestamps in milliseconds, for the CTC and MFA alignments and retain only samples with the lowest alignment error: the top 95% for English and top 70% for non-English data. For the larger datasets (YODAS and MLS-en), we cap the training data at 4M and 5M samples, respectively.
+Additional training data containing long audio samples with timestamps were generated by concatenation of short segments.
+The model was trained on audio samples up to 10 minutes for ASR and SAA, and up to 5 minutes for timestamps.
+## Infrastructure
+We train Granite Speech using IBM's supercomputing cluster, Blue Vela, which is outfitted with NVIDIA H100 GPUs. This cluster provides a scalable
+and efficient infrastructure for training our models over thousands of GPUs. The training of this particular model was completed in about 5 days on 32
+H100 GPUs.
+## Ethical Considerations and Limitations
+The use of Large Speech and Language Models can trigger certain risks and ethical considerations. Although our alignment processes include safety considerations,
+the model may in some cases produce inaccurate, biased, offensive or unwanted responses to user prompts. Additionally, whether smaller models may exhibit increased
+susceptibility to hallucination in generation scenarios due to their reduced sizes, which could limit their ability to generate coherent and contextually accurate responses, remains uncertain.
+This aspect is currently an active area of research, and we anticipate more rigorous exploration, comprehension, and mitigations in this domain.
+IBM recommends using this model for automatic speech recognition and translation tasks. The model's design improves safety by limiting how audio inputs can influence the system.
+If an unfamiliar or malformed prompt is received, the model simply ignores it and performs transcription, which is the default fallback mode.
+This minimizes the risk of adversarial inputs, unlike integrated models that directly interpret audio and may be more exposed to such attacks. Note that more general speech tasks may pose higher inherent risks of triggering unwanted outputs.
+To enhance safety, we recommend using Granite-Speech-4.1-2B-Plus alongside Granite Guardian. Granite Guardian is a fine-tuned instruct model designed to detect and flag risks in prompts and responses across key dimensions outlined in the IBM AI Risk Atlas.
+## Resources
+- 📄 Read the papers:
+  - [Speaker Attributed Automatic Speech Recognition Using Speech Aware LLMS](https://arxiv.org/abs/2604.11269)
+  - [In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word Level Timestamp Predictions](https://arxiv.org/abs/2604.22817)
+  - [Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction](https://arxiv.org/abs/2604.12398)
+  - [Granite-speech: open-source speech-aware LLMs with strong English ASR capabilities](https://arxiv.org/abs/2505.08699)
+  - [Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts](https://arxiv.org/abs/2603.11243)
+  - [NLE: Non-autoregressive LLM-based ASR by Transcript Editing](https://arxiv.org/abs/2603.08397)
+- ⭐️ Learn about the latest updates with Granite: https://www.ibm.com/granite
+- 🚀 Get started with tutorials, best practices, and prompt engineering advice: https://www.ibm.com/granite/docs/
+- 💡 Learn about the latest Granite learning resources: https://ibm.biz/granite-learning-resources
+## References
+[1] VibeVoice-ASR (Transformers-compatible version). Available online: https://huggingface.co/microsoft/VibeVoice-ASR-HF.
+[2] X. Shi et al., "Qwen3-ASR technical report," 2026. arXiv
+[3] M. Zusag, L. Wagner, and B. Thallinger, "CrisperWhisper: Accurate timestamps on verbatim speech transcriptions," in Proc. Interspeech, 2024.
+[4] M. Sekoyan, N. R. Koluguri, N. Tadevosyan, P. Zelasko, T. Bartley, N. Karpov, J. Balam, and B. Ginsburg, "Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and high-performance models for multilingual ASR and AST," 2025. arXiv
+[5] M. Bain, J. Huh, T. Han, and A. Zisserman, "WhisperX: Time-accurate speech transcription of long-form audio," 2023. arXiv

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,121 @@

+{%- set tools_system_message_prefix = 'You are a helpful assistant with access to the following tools. You may call one or more tools to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>'  %}
+{%- set tools_system_message_suffix = '\n</tools>\n\nFor each tool call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call>. If a tool does not exist in the provided list of tools, notify the user that you do not have the ability to fulfill the request.' %}
+{%- set documents_system_message_prefix = 'You are a helpful assistant with access to the following documents. You may use one or more documents to assist with the user query.\n\nYou are given a list of documents within <documents></documents> XML tags:\n<documents>' %}
+{%- set documents_system_message_suffix = '\n</documents>\n\nWrite the response to the user\'s input by strictly aligning with the facts in the provided documents. If the information needed to answer the question is not available in the documents, inform the user that the question cannot be answered based on the available data.' %}
+{%- set g4_default_system_message = 'You are a helpful assistant. Please ensure responses are professional, accurate, and safe.' %}
+{%- if available_tools is defined and available_tools %}
+    {%- set tools = available_tools %}
+{%- endif %}
+{%- set ns = namespace(tools_system_message=tools_system_message_prefix,
+                       documents_system_message=documents_system_message_prefix,
+                       default_system_message=g4_default_system_message,
+                       system_message=''
+                       ) %}
+{%- if tools %}
+    {%- for tool in tools %}
+        {%- set ns.tools_system_message = ns.tools_system_message + '\n' + (tool | tojson) %}
+    {%- endfor %}
+    {%- set ns.tools_system_message = ns.tools_system_message + tools_system_message_suffix %}
+{%- else %}
+    {%- set ns.tools_system_message = '' %}
+{%- endif %}
+{%- if documents %}
+    {%- for document in documents %}
+        {%- set ns.documents_system_message = ns.documents_system_message + '\n' + (document | tojson) %}
+    {%- endfor %}
+    {%- set ns.documents_system_message = ns.documents_system_message + documents_system_message_suffix %}
+{%- else %}
+    {%- set ns.documents_system_message = '' %}
+{%- endif %}
+{%- if messages[0].role == 'system' %}
+    {%- if messages[0].content is string %}
+        {%- set ns.system_message = messages[0].content %}
+    {%- elif messages[0].content is iterable %}
+        {%- for entry in messages[0].content %}
+            {%- if entry.type== 'text' %}
+                {%- if ns.system_message != '' %}
+                    {%- set ns.system_message = ns.system_message + '\n' %}
+                {%- endif %}
+                {%- set ns.system_message = ns.system_message + entry.text %}
+            {%- endif %}
+        {%- endfor %}
+    {%- endif %}
+    {%- if tools and documents %}
+        {%- set ns.system_message = ns.system_message + '\n\n' +  ns.tools_system_message + '\n\n' + ns.documents_system_message %}
+    {%- elif tools %}
+        {%- set ns.system_message = ns.system_message + '\n\n' + ns.tools_system_message %}
+    {%- elif documents %}
+        {%- set ns.system_message = ns.system_message + '\n\n' + ns.documents_system_message %}
+    {%- endif %}
+{%- else %}
+    {%- if tools and documents %}
+        {%- set ns.system_message = ns.tools_system_message + '\n\n' + ns.documents_system_message  %}
+    {%- elif tools %}
+        {%- set ns.system_message = ns.tools_system_message %}
+    {%- elif documents %}
+        {%- set ns.system_message = ns.documents_system_message %}
+    {%- endif %}
+{%- endif %}
+{%- if ns.system_message %}
+    {{- '<|start_of_role|>system<|end_of_role|>' + ns.system_message + '<|end_of_text|>\n' }}
+{%- else %}
+    {{- '<|start_of_role|>system<|end_of_role|>' + ns.default_system_message + '<|end_of_text|>\n' }}
+{%- endif %}
+{%- for message in messages %}
+    {%- set content = namespace(val='') %}
+    {%- if message.content is string %}
+        {%- set content.val = message.content %}
+    {%- else %}
+        {%- if message.content is iterable %}
+            {%- for entry in message.content %}
+                {%- if entry.type== 'text' %}
+                    {%- if content.val != '' %}
+                        {%- set content.val = content.val + '\n' %}
+                    {%- endif %}
+                    {%- set content.val = content.val + entry.text %}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+    {%- endif %}
+    {%- if (message.role == 'user') or (message.role == 'system' and not loop.first) %}
+        {{- '<|start_of_role|>' + message.role + '<|end_of_role|>' + content.val + '<|end_of_text|>\n' }}
+    {%- elif message.role == 'assistant' %}
+        {{- '<|start_of_role|>' + message.role + '<|end_of_role|>' + content.val }}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content.val) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|end_of_text|>\n' }}
+    {%- elif message.role == 'tool' %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != 'tool') %}
+            {{- '<|start_of_role|>user<|end_of_role|>' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content.val }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != 'tool') %}
+            {{- '<|end_of_text|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|start_of_role|>assistant<|end_of_role|>' }}
+    {%- if prefix_text is defined and prefix_text %}
+        {{- prefix_text }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "architectures": [
+    "GraniteSpeechPlusForConditionalGeneration"
+  ],
+  "audio_token_index": 100352,
+  "downsample_rate": 5,
+  "dtype": "bfloat16",
+  "encoder_config": {
+    "cat_hidden_layers": [
+      3
+    ],
+    "context_size": 200,
+    "conv_expansion_factor": 2,
+    "conv_kernel_size": 15,
+    "dim_head": 128,
+    "dropout": 0.1,
+    "feedforward_mult": 4,
+    "hidden_dim": 1024,
+    "input_dim": 160,
+    "max_pos_emb": 512,
+    "model_type": "granite_speech_plus_encoder",
+    "num_heads": 8,
+    "num_layers": 16,
+    "output_dim": 348
+  },
+  "has_lora_adapter": false,
+  "initializer_range": 0.02,
+  "model_type": "granite_speech_plus",
+  "projector_config": {
+    "_attn_implementation_autoset": true,
+    "attention_probs_dropout_prob": 0.1,
+    "cross_attention_frequency": 1,
+    "encoder_hidden_size": 2048,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 2048,
+    "model_type": "blip_2_qformer",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 2,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "use_qformer_text_input": false,
+    "vocab_size": 30522
+  },
+  "text_config": {
+    "_name_or_path": "/proj/speech/saon/slam-llm/29.2-c/granite-4.0-1b-base",
+    "architectures": [
+      "GraniteForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attention_multiplier": 0.0078125,
+    "bos_token_id": 100257,
+    "dtype": "float32",
+    "embedding_multiplier": 12,
+    "eos_token_id": 100257,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.1,
+    "intermediate_size": 4096,
+    "logits_scaling": 8,
+    "max_position_embeddings": 4096,
+    "mlp_bias": false,
+    "model_type": "granite",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 40,
+    "num_key_value_heads": 4,
+    "pad_token_id": 100256,
+    "residual_multiplier": 0.22,
+    "rms_norm_eps": 1e-05,
+    "rope_parameters": {
+      "rope_theta": 10000,
+      "rope_type": "default"
+    },
+    "tie_word_embeddings": true,
+    "use_cache": true,
+    "vocab_size": 100353,
+    "rope_theta": 10000,
+    "rope_type": "default"
+  },
+  "transformers_version": "5.6.0.dev0",
+  "window_size": 15
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 100257,
+  "eos_token_id": 100257,
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "pad_token_id": 100256,
+  "transformers_version": "5.6.0.dev0",
+  "use_cache": true
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af45105ba955e3a796f39c3cddc6feae9fb4696b46e99f18355df9d7c8bdb0ba
+size 1992505016

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:172bddcb0b9fe4e59b4302eecc478bbe5fb477759b80a52e476b43b55c9493a7
+size 1993777408

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12994776f7c9e24cda3339ee8a6ca6a07600f5ae4a4c38d66703dcefb8ff4624
+size 237587992

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,961 @@

+{
+  "metadata": {
+    "total_parameters": 2111812956,
+    "total_size": 4223757112
+  },
+  "weight_map": {
+    "encoder.input_linear.bias": "model-00002-of-00003.safetensors",
+    "encoder.input_linear.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.0.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.1.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.10.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.11.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.12.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.13.attn.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.rel_pos_emb.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.to_kv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.to_out.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.to_out.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.attn.to_q.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.batch_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.batch_norm.num_batches_tracked": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.batch_norm.running_mean": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.batch_norm.running_var": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.batch_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.depth_conv.conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.down_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.down_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.up_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.conv.up_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff1.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff1.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.13.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.13.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.13.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.13.ff2.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff2.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff2.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff2.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff2.up_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.ff2.up_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.post_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.13.post_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.rel_pos_emb.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.to_kv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.to_out.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.to_out.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.attn.to_q.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.batch_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.batch_norm.num_batches_tracked": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.batch_norm.running_mean": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.batch_norm.running_var": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.batch_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.depth_conv.conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.down_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.down_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.up_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.conv.up_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.up_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff1.up_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.up_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.ff2.up_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.post_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.14.post_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.rel_pos_emb.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.to_kv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.to_out.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.to_out.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.attn.to_q.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.batch_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.batch_norm.num_batches_tracked": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.batch_norm.running_mean": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.batch_norm.running_var": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.batch_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.depth_conv.conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.down_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.down_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.up_conv.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.conv.up_conv.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.up_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff1.up_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.down_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.down_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.pre_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.pre_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.up_proj.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.ff2.up_proj.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.post_norm.bias": "model-00003-of-00003.safetensors",
+    "encoder.layers.15.post_norm.weight": "model-00003-of-00003.safetensors",
+    "encoder.layers.2.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.2.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.3.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.4.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.5.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.6.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.7.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.8.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.rel_pos_emb.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.to_kv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.to_out.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.to_out.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.attn.to_q.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.batch_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.batch_norm.num_batches_tracked": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.batch_norm.running_mean": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.batch_norm.running_var": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.batch_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.depth_conv.conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.down_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.down_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.up_conv.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.conv.up_conv.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff1.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.down_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.down_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.pre_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.pre_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.up_proj.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.ff2.up_proj.weight": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.post_norm.bias": "model-00002-of-00003.safetensors",
+    "encoder.layers.9.post_norm.weight": "model-00002-of-00003.safetensors",
+    "encoder.out.bias": "model-00003-of-00003.safetensors",
+    "encoder.out.weight": "model-00003-of-00003.safetensors",
+    "encoder.out_mid.bias": "model-00003-of-00003.safetensors",
+    "encoder.out_mid.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.34.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.35.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.36.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.37.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.38.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.39.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00003.safetensors",
+    "projector.linear.bias": "model-00003-of-00003.safetensors",
+    "projector.linear.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.key.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.key.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.query.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.query.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.value.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.attention.value.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.output.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.output.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.output.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.attention.output.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.key.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.key.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.query.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.query.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.value.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.attention.value.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.output.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.output.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.output.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.crossattention.output.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.intermediate_query.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.intermediate_query.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.output_query.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.output_query.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.output_query.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.0.output_query.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.key.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.key.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.query.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.query.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.value.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.attention.value.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.output.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.output.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.output.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.attention.output.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.key.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.key.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.query.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.query.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.value.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.attention.value.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.output.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.output.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.output.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.crossattention.output.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.intermediate_query.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.intermediate_query.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.output_query.LayerNorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.output_query.LayerNorm.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.output_query.dense.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.encoder.layer.1.output_query.dense.weight": "model-00003-of-00003.safetensors",
+    "projector.qformer.layernorm.bias": "model-00003-of-00003.safetensors",
+    "projector.qformer.layernorm.weight": "model-00003-of-00003.safetensors",
+    "projector.query": "model-00003-of-00003.safetensors"
+  }
+}

model.sig ADDED Viewed

	@@ -0,0 +1 @@

+ {"mediaType":"application/vnd.dev.sigstore.bundle.v0.3+json","verificationMaterial":{"certificate":{"rawBytes":"MIIC4zCCAmmgAwIBAgIUdyMDhcTRCJ5nxnx4+D7aSwGX+jQwCgYIKoZIzj0EAwMwNzEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MR4wHAYDVQQDExVzaWdzdG9yZS1pbnRlcm1lZGlhdGUwHhcNMjYwNDI5MTQwNTExWhcNMjYwNDI5MTQxNTExWjAAMFkwEwYHKoZIzj0CAQYIKoZIzj0DAQcDQgAEtL+ibg3TGKZXRrWDCPykjxiS7Tcl8unONnDBjhXlZf/QdJmXcVpzh98Zn33+1tnzfv4VRncInxtyjKlqP/n4nqOCAYgwggGEMA4GA1UdDwEB/wQEAwIHgDATBgNVHSUEDDAKBggrBgEFBQcDAzAdBgNVHQ4EFgQUVBwejKWid2blG7gECmQ8nXdvhSowHwYDVR0jBBgwFoAU39Ppz1YkEZb5qNjpKFWixi4YZD8wIgYDVR0RAQH/BBgwFoEUR3Jhbml0ZS1zaWduQGlibS5jb20wNAYKKwYBBAGDvzABAQQmaHR0cHM6Ly9zaWdzdG9yZS52ZXJpZnkuaWJtLmNvbS9vYXV0aDIwNgYKKwYBBAGDvzABCAQoDCZodHRwczovL3NpZ3N0b3JlLnZlcmlmeS5pYm0uY29tL29hdXRoMjCBigYKKwYBBAHWeQIEAgR8BHoAeAB2AN09MGrGxxEyYxkeHJlnNwKiSl643jyt/4eKcoAvKe6OAAABndmO2k0AAAQDAEcwRQIgJERD5l1/3gZseBUIqAzWalStyLN0dGJtShScgbqxB78CIQDbhzX9WB9gVKwXsUhxtDG7uHuEHMu50ta8Bhd0dj5MvzAKBggqhkjOPQQDAwNoADBlAjB7EmWvftmLv+O/yBDJ4AWC7UXOjazuKe9QHeYhxGNHNUnqIf04oI/8v7fqNr+VDUQCMQCmc3WtR+XE966CwOhSmzfQKML0FhTdU0cVzEZxXQtD4WZ3+IWumMCWHGoOiXfQ4j4="},"tlogEntries":[{"logIndex":"1401712462","logId":{"keyId":"wNI9atQGlz+VWfO6LRygH4QUfY/8W4RFwiT5i5WRgB0="},"kindVersion":{"kind":"dsse","version":"0.0.1"},"integratedTime":"1777471511","inclusionPromise":{"signedEntryTimestamp":"MEUCIQDn7d+bjYJK8X+lHBoROCGii71IERNFfon2YIjZAMlJ0gIgBT/pZSz7mMAECG+30teGdObU6Q3GWVcUNqsRSpv1AP0="},"inclusionProof":{"logIndex":"1279808200","rootHash":"pXcrxvq/zcwGUOjyr1yQzRBj9r83n612+BoBUftiJuM=","treeSize":"1279808207","hashes":["9g7ioKrk3Rp+DCpcUZtGIdygoj+Y6/U1fFtmo4JZpLk=","Me6EdSYwfjNL40IIgq73Obyiua/KLRS+nhoQ/Q4t/NU=","zMWriW3oGgRzAAb74dHqXSEf5JVHwCF9E7mJB7pXJRY=","UShKpOTD6XTAgwxT5Fg/O4i2oNBS8tZ38uLrkSP4/1M=","yy0h4WR2/BxXFEpe7BZRrOlOy/ks7JHGTrDWCPCoj9A=","j+3a2J2BVscXcgnoYo5NbtvVjEdPpAocY0KFcmtnS2U=","yt+wav3mKvzKs2yKc2VwNW6tRIpQ2hyFbR20GFREHzM=","XNEL1Y7Hey1LV0cTUrotQytYHNyqLVydBwYyeO4/3NA=","JdFHhy4beJOIn6UvDpQlK7zuJZRI1JQLnL4eTXzIDMc=","5RkPOw/UmluMtjuvzF/Gug2fNGcCK6n7DWqjdSgjos8=","d9hA39Ot2M7fkyE+rWh4D5tn70iuQ9bWZMetFQz1ePk=","wa5W79zKcyNncVVFXx8PM8785J+n0U0qxiK2GXKz2Hk=","7y22/OdvnNTJ3gzz57WEW6D/mmmrLXV0dVQyDwenx5A=","DOCeoSMovIvLExkhIvisow9AuNXgeWs4ECkyR6EcqYU="],"checkpoint":{"envelope":"rekor.sigstore.dev - 1193050959916656506\n1279808207\npXcrxvq/zcwGUOjyr1yQzRBj9r83n612+BoBUftiJuM=\n\n— rekor.sigstore.dev wNI9ajBFAiEA9slI/8MUBfXFwQOguZyk3ydIbXxvaGZNLhFJnc+UDosCIAzhMcoZ1yyiStPp2Nm8h1iQVvWw0NCLuwMOfLCZgcnx\n"}},"canonicalizedBody":"eyJhcGlWZXJzaW9uIjoiMC4wLjEiLCJraW5kIjoiZHNzZSIsInNwZWMiOnsiZW52ZWxvcGVIYXNoIjp7ImFsZ29yaXRobSI6InNoYTI1NiIsInZhbHVlIjoiZDBhMmJmZTI0NTVlMzE1ZWVkNWRhYWY3NWZhYzE4NjY2MmFlZmYxODBlOGM4MGIzNzBmOWUzZWMxM2E0MjliNCJ9LCJwYXlsb2FkSGFzaCI6eyJhbGdvcml0aG0iOiJzaGEyNTYiLCJ2YWx1ZSI6ImI0NjM3ZGJjNTk0M2NjMjA2NGU4ZTdhYWUwMmE5MTI4OTNmM2M3MDIzNTg1ZjY3M2Q5MDU0NTBkY2E1OTZlNTgifSwic2lnbmF0dXJlcyI6W3sic2lnbmF0dXJlIjoiTUVZQ0lRRHRBNTJZTklONmQ2c0RMdnZReS9vM3g4blJSMXE4SC8yd0E5bWJRcWFPdUFJaEFOQUZWU2tEcm01UktMeDNZU3VOcmVRdmwrSW43ckt2OHR0aDQ3bUgxU1o1IiwidmVyaWZpZXIiOiJMUzB0TFMxQ1JVZEpUaUJEUlZKVVNVWkpRMEZVUlMwdExTMHRDazFKU1VNMGVrTkRRVzF0WjBGM1NVSkJaMGxWWkhsTlJHaGpWRkpEU2pWdWVHNTROQ3RFTjJGVGQwZFlLMnBSZDBObldVbExiMXBKZW1vd1JVRjNUWGNLVG5wRlZrMUNUVWRCTVZWRlEyaE5UV015Ykc1ak0xSjJZMjFWZFZwSFZqSk5ValIzU0VGWlJGWlJVVVJGZUZaNllWZGtlbVJIT1hsYVV6RndZbTVTYkFwamJURnNXa2RzYUdSSFZYZElhR05PVFdwWmQwNUVTVFZOVkZGM1RsUkZlRmRvWTA1TmFsbDNUa1JKTlUxVVVYaE9WRVY0VjJwQlFVMUdhM2RGZDFsSUNrdHZXa2w2YWpCRFFWRlpTVXR2V2tsNmFqQkVRVkZqUkZGblFVVjBUQ3RwWW1jelZFZExXbGhTY2xkRVExQjVhMnA0YVZNM1ZHTnNPSFZ1VDA1dVJFSUthbWhZYkZwbUwxRmtTbTFZWTFad2VtZzVPRnB1TXpNck1YUnVlbVoyTkZaU2JtTkpibmgwZVdwTGJIRlFMMjQwYm5GUFEwRlpaM2RuWjBkRlRVRTBSd3BCTVZWa1JIZEZRaTkzVVVWQmQwbElaMFJCVkVKblRsWklVMVZGUkVSQlMwSm5aM0pDWjBWR1FsRmpSRUY2UVdSQ1owNVdTRkUwUlVablVWVldRbmRsQ21wTFYybGtNbUpzUnpkblJVTnRVVGh1V0dSMmFGTnZkMGgzV1VSV1VqQnFRa0puZDBadlFWVXpPVkJ3ZWpGWmEwVmFZalZ4VG1wd1MwWlhhWGhwTkZrS1drUTRkMGxuV1VSV1VqQlNRVkZJTDBKQ1ozZEdiMFZWVWpOS2FHSnRiREJhVXpGNllWZGtkVkZIYkdsaVV6VnFZakl3ZDA1QldVdExkMWxDUWtGSFJBcDJla0ZDUVZGUmJXRklVakJqU0UwMlRIazVlbUZYWkhwa1J6bDVXbE0xTWxwWVNuQmFibXQxWVZkS2RFeHRUblppVXpsMldWaFdNR0ZFU1hkT1oxbExDa3QzV1VKQ1FVZEVkbnBCUWtOQlVXOUVRMXB2WkVoU2QyTjZiM1pNTTA1d1dqTk9NR0l6U214TWJscHNZMjFzYldWVE5YQlpiVEIxV1RJNWRFd3lPV2dLWkZoU2IwMXFRMEpwWjFsTFMzZFpRa0pCU0ZkbFVVbEZRV2RTT0VKSWIwRmxRVUl5UVU0d09VMUhja2Q0ZUVWNVdYaHJaVWhLYkc1T2QwdHBVMncyTkFvemFubDBMelJsUzJOdlFYWkxaVFpQUVVGQlFtNWtiVTh5YXpCQlFVRlJSRUZGWTNkU1VVbG5Ta1ZTUkRWc01TOHpaMXB6WlVKVlNYRkJlbGRoYkZOMENubE1UakJrUjBwMFUyaFRZMmRpY1hoQ056aERTVkZFWW1oNldEbFhRamxuVmt0M1dITlZhSGgwUkVjM2RVaDFSVWhOZFRVd2RHRTRRbWhrTUdScU5VMEtkbnBCUzBKblozRm9hMnBQVUZGUlJFRjNUbTlCUkVKc1FXcENOMFZ0VjNabWRHMU1kaXRQTDNsQ1JFbzBRVmRETjFWWVQycGhlblZMWlRsUlNHVlphQXA0UjA1SVRsVnVjVWxtTURSdlNTODRkamRtY1U1eUsxWkVWVkZEVFZGRGJXTXpWM1JTSzFoRk9UWTJRM2RQYUZOdGVtWlJTMDFNTUVab1ZHUlZNR05XQ25wRlduaFlVWFJFTkZkYU15dEpWM1Z0VFVOWFNFZHZUMmxZWmxFMGFqUTlDaTB0TFMwdFJVNUVJRU5GVWxSSlJrbERRVlJGTFMwdExTMEsifV19fQ=="}],"timestampVerificationData":{"rfc3161Timestamps":[{"signedTimestamp":"MIIE6jADAgEAMIIE4QYJKoZIhvcNAQcCoIIE0jCCBM4CAQMxDTALBglghkgBZQMEAgEwgcIGCyqGSIb3DQEJEAEEoIGyBIGvMIGsAgEBBgkrBgEEAYO/MAIwMTANBglghkgBZQMEAgEFAAQgDIdYmqikLId7vUz4P+XXeWBEP8Gq1HPoyTTa3lhDwAECFCZeeuHUEB0uUpKG/PojEUruI0unGA8yMDI2MDQyOTE0MDUxMVowAwIBAQIJAOx9JzKbbVcfoDKkMDAuMRUwEwYDVQQKEwxzaWdzdG9yZS5kZXYxFTATBgNVBAMTDHNpZ3N0b3JlLXRzYaCCAhQwggIQMIIBlqADAgECAhQ6E1QvDJBh7rzBQy/Lio6LKiOLDDAKBggqhkjOPQQDAzA5MRUwEwYDVQQKEwxzaWdzdG9yZS5kZXYxIDAeBgNVBAMTF3NpZ3N0b3JlLXRzYS1zZWxmc2lnbmVkMB4XDTI1MDQwODA2NTk0M1oXDTM1MDQwNjA2NTk0M1owLjEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MRUwEwYDVQQDEwxzaWdzdG9yZS10c2EwdjAQBgcqhkjOPQIBBgUrgQQAIgNiAATitrZnyEo2KDZP2QWMIBOgYbfSOTL5ZC/cHMv6Yq+HVIo1H9TC7Cx80KDiyvKhgB3wTqKyi9UDczhqg12b1AOLnRnydMTK+qB8M+1MjBci1+Jb8AV/VXu7CRuQCiPTHFyjajBoMA4GA1UdDwEB/wQEAwIHgDAdBgNVHQ4EFgQUif15Q4fP0GVGwwJGxyxzW3206wMwHwYDVR0jBBgwFoAUmOwB73+7Uf/UlR5vioiYUweJzr8wFgYDVR0lAQH/BAwwCgYIKwYBBQUHAwgwCgYIKoZIzj0EAwMDaAAwZQIwO2mxX/opo7SrIX9QyxfZpJRcpAV2gZOm1AZzR+2rVyy6Uc8Ybp2ybIw13ckH4bcRAjEA5qO8FyOkmYpvg2/7ZNqiPxRzn5vqKHoVcIIqtpKq6l7TvOqzAxxclN7VwTG8e++XMYIB2zCCAdcCAQEwUTA5MRUwEwYDVQQKEwxzaWdzdG9yZS5kZXYxIDAeBgNVBAMTF3NpZ3N0b3JlLXRzYS1zZWxmc2lnbmVkAhQ6E1QvDJBh7rzBQy/Lio6LKiOLDDALBglghkgBZQMEAgGggfwwGgYJKoZIhvcNAQkDMQ0GCyqGSIb3DQEJEAEEMBwGCSqGSIb3DQEJBTEPFw0yNjA0MjkxNDA1MTFaMC8GCSqGSIb3DQEJBDEiBCAYLU3UeOTovAYLP6snqgyVvFTtfWwYfY4PKgftTSBVXzCBjgYLKoZIhvcNAQkQAi8xfzB9MHsweQQghfknvAerYsrDtENWwQ78gbLGiD/aernm2HDZ0TrNBbcwVTA9pDswOTEVMBMGA1UEChMMc2lnc3RvcmUuZGV2MSAwHgYDVQQDExdzaWdzdG9yZS10c2Etc2VsZnNpZ25lZAIUOhNULwyQYe68wUMvy4qOiyojiwwwCgYIKoZIzj0EAwIEZzBlAjEAwtBzMR4y3Kq0V601T3cLrORS/nWhmC2BuswpqvudbkQr2UOKja+YGu973r9GGOnGAjBxeZFlirrEGdcs/ZgKaTUH2nXoSlQBCwD6MY/az8h99i14ULNNlr4nNnCqpM4LH0E="}]}},"dsseEnvelope":{"payload":"ewogICJfdHlwZSI6ICJodHRwczovL2luLXRvdG8uaW8vU3RhdGVtZW50L3YxIiwKICAic3ViamVjdCI6IFsKICAgIHsKICAgICAgIm5hbWUiOiAiZ3Jhbml0ZS1zcGVlY2gtNC4xLTJiLXBsdXMiLAogICAgICAiZGlnZXN0IjogewogICAgICAgICJzaGEyNTYiOiAiZWM0YTA5MDdlNjVkZGI3N2JjZjA0MGZhNDJmMzMyNmI3NzdhNGFiYjVmYzFmMDRmMDg0MGFhNjA2OTAxMjNlNyIKICAgICAgfQogICAgfQogIF0sCiAgInByZWRpY2F0ZVR5cGUiOiAiaHR0cHM6Ly9tb2RlbF9zaWduaW5nL3NpZ25hdHVyZS92MS4wIiwKICAicHJlZGljYXRlIjogewogICAgInNlcmlhbGl6YXRpb24iOiB7CiAgICAgICJoYXNoX3R5cGUiOiAic2hhMjU2IiwKICAgICAgImlnbm9yZV9wYXRocyI6IFsKICAgICAgICAiLmdpdGh1YiIsCiAgICAgICAgIi5naXRhdHRyaWJ1dGVzIiwKICAgICAgICAiLmdpdGlnbm9yZSIsCiAgICAgICAgIm1vZGVsLnNpZyIsCiAgICAgICAgIi5jYWNoZSIsCiAgICAgICAgIi5naXQiCiAgICAgIF0sCiAgICAgICJhbGxvd19zeW1saW5rcyI6IGZhbHNlLAogICAgICAibWV0aG9kIjogImZpbGVzIgogICAgfSwKICAgICJyZXNvdXJjZXMiOiBbCiAgICAgIHsKICAgICAgICAiZGlnZXN0IjogIjc5N2JkZmZhOTFlNDdlMDE5ZWI3ZGQ3M2MzODY1NDliN2ZlZWVjOTMwMGQzOWJlZTk3ZGVkNzE1MmVmYWYxOTAiLAogICAgICAgICJuYW1lIjogIlJFQURNRS5tZCIsCiAgICAgICAgImFsZ29yaXRobSI6ICJzaGEyNTYiCiAgICAgIH0sCiAgICAgIHsKICAgICAgICAiZGlnZXN0IjogImI3MmUyMTZmMDZiOTRhZmRjN2NjZTUwOWI3MThhNjMxNGFiYzQ3YzI4MWNiZDkwZDQwNWE1YzU4Nzg2ZGEzMmUiLAogICAgICAgICJuYW1lIjogImNoYXRfdGVtcGxhdGUuamluamEiLAogICAgICAgICJhbGdvcml0aG0iOiAic2hhMjU2IgogICAgICB9LAogICAgICB7CiAgICAgICAgImRpZ2VzdCI6ICJkM2ZjZmNjNzRkMjIyZjQ1MGQ5MzNjNTk4MjlhODE0ZmQ3ZjA3NjBmNDQzYmYwMjU2YTA2Y2FkODg5MTJjZGI1IiwKICAgICAgICAibmFtZSI6ICJjb25maWcuanNvbiIsCiAgICAgICAgImFsZ29yaXRobSI6ICJzaGEyNTYiCiAgICAgIH0sCiAgICAgIHsKICAgICAgICAiZGlnZXN0IjogImUyNjE0ODY2ZmEyNzY0M2U4YzI2NWFhMmM3NTc5NDAwNzY5YWFlNThmNDkyNTFkNGJlMzZiZTYzMGY5YTFhZDYiLAogICAgICAgICJuYW1lIjogImdlbmVyYXRpb25fY29uZmlnLmpzb24iLAogICAgICAgICJhbGdvcml0aG0iOiAic2hhMjU2IgogICAgICB9LAogICAgICB7CiAgICAgICAgImRpZ2VzdCI6ICJhZjQ1MTA1YmE5NTVlM2E3OTZmMzljM2NkZGM2ZmVhZTlmYjQ2OTZiNDZlOTlmMTgzNTVkZjlkN2M4YmRiMGJhIiwKICAgICAgICAibmFtZSI6ICJtb2RlbC0wMDAwMS1vZi0wMDAwMy5zYWZldGVuc29ycyIsCiAgICAgICAgImFsZ29yaXRobSI6ICJzaGEyNTYiCiAgICAgIH0sCiAgICAgIHsKICAgICAgICAiZGlnZXN0IjogIjE3MmJkZGNiMGI5ZmU0ZTU5YjQzMDJlZWNjNDc4YmJlNWZiNDc3NzU5YjgwYTUyZTQ3NmI0M2I1NWM5NDkzYTciLAogICAgICAgICJuYW1lIjogIm1vZGVsLTAwMDAyLW9mLTAwMDAzLnNhZmV0ZW5zb3JzIiwKICAgICAgICAiYWxnb3JpdGhtIjogInNoYTI1NiIKICAgICAgfSwKICAgICAgewogICAgICAgICJkaWdlc3QiOiAiMTI5OTQ3NzZmN2M5ZTI0Y2RhMzMzOWVlOGE2Y2E2YTA3NjAwZjVhZTRhNGMzOGQ2NjcwM2RjZWZiOGZmNDYyNCIsCiAgICAgICAgIm5hbWUiOiAibW9kZWwtMDAwMDMtb2YtMDAwMDMuc2FmZXRlbnNvcnMiLAogICAgICAgICJhbGdvcml0aG0iOiAic2hhMjU2IgogICAgICB9LAogICAgICB7CiAgICAgICAgImRpZ2VzdCI6ICI1ZGM3YTY1YjBmMDFjM2ZhMDY5OTI4Y2YwMTZhZDhjMmEwNTlkNWQ3YjY2ZjEyNDgwODNkNDIzMTQ1YzMwZDhkIiwKICAgICAgICAibmFtZSI6ICJtb2RlbC5zYWZldGVuc29ycy5pbmRleC5qc29uIiwKICAgICAgICAiYWxnb3JpdGhtIjogInNoYTI1NiIKICAgICAgfSwKICAgICAgewogICAgICAgICJkaWdlc3QiOiAiYTlkYThlZjRmMzAxYzZkMTg5YmI1YWJhN2VjZjFmYTY0ZWVlNGE3NTI4NTNhZTM1MzNkMThkZWY3NDE0OWEyNyIsCiAgICAgICAgIm5hbWUiOiAicHJvY2Vzc29yX2NvbmZpZy5qc29uIiwKICAgICAgICAiYWxnb3JpdGhtIjogInNoYTI1NiIKICAgICAgfSwKICAgICAgewogICAgICAgICJkaWdlc3QiOiAiMmZlYjg1OWJkNzEyM2YwN2YyZmJmYjZlMjFjNjc2OGY1M2E5NDVhMTUyNzQ1ZDA5M2UzZjUyZDkyMGVmNjczNSIsCiAgICAgICAgIm5hbWUiOiAidG9rZW5pemVyLmpzb24iLAogICAgICAgICJhbGdvcml0aG0iOiAic2hhMjU2IgogICAgICB9LAogICAgICB7CiAgICAgICAgImRpZ2VzdCI6ICJiYjNkYWNlMTdkNjI1NmMzM2I4M2Y0YWNlZjRkYjc3NzcxYzIwMjQ5N2M4NDJjMjI3NmU3OTQ0OTZlMTBiYTFmIiwKICAgICAgICAibmFtZSI6ICJ0b2tlbml6ZXJfY29uZmlnLmpzb24iLAogICAgICAgICJhbGdvcml0aG0iOiAic2hhMjU2IgogICAgICB9CiAgICBdCiAgfQp9","payloadType":"application/vnd.in-toto+json","signatures":[{"sig":"MEYCIQDtA52YNIN6d6sDLvvQy/o3x8nRR1q8H/2wA9mbQqaOuAIhANAFVSkDrm5RKLx3YSuNreQvl+In7rKv8tth47mH1SZ5"}]}}

processor_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "audio_processor": {
+    "feature_extractor_type": "GraniteSpeechFeatureExtractor",
+    "melspec_kwargs": {
+      "hop_length": 160,
+      "n_fft": 512,
+      "n_mels": 80,
+      "sample_rate": 16000,
+      "win_length": 400
+    },
+    "projector_downsample_rate": 5,
+    "projector_window_size": 15,
+    "sampling_rate": 16000
+  },
+  "audio_token": "<|audio|>",
+  "processor_class": "GraniteSpeechProcessor"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "audio_token": "<|audio|>",
+  "backend": "tokenizers",
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|end_of_text|>",
+  "errors": "replace",
+  "is_local": true,
+  "local_files_only": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {
+    "audio_token": "<|audio|>"
+  },
+  "pad_token": "<|pad|>",
+  "padding_side": "left",
+  "processor_class": "GraniteSpeechProcessor",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|unk|>"
+}