danielhanchen commited on Jul 21, 2025

Commit

efd135a

verified ·

1 Parent(s): 60c7f02

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

.gitattributes +1 -0
BIAS.md +4 -0
EXPLAINABILITY.md +13 -0
PRIVACY.md +10 -0
README.md +277 -0
SAFETY.md +7 -0
added_tokens.json +24 -0
chat_template.jinja +20 -0
config.json +95 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +778 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +209 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

BIAS.md ADDED Viewed

	@@ -0,0 +1,4 @@

+Field                                                                                               |  Response
+:---------------------------------------------------------------------------------------------------|:---------------
+Participation considerations from adversely impacted groups [protected classes](https://www.senate.ca.gov/content/protected-classes) in model design and testing:  |  None
+Measures taken to mitigate against unwanted bias:                                                   |  None

EXPLAINABILITY.md ADDED Viewed

	@@ -0,0 +1,13 @@

+Field                                                                                                  |  Response
+:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------
+Intended Task/Domain:                                                                   |  Reasoning for Math, Code Science Solution Generation
+Model Type:                                                                                            |  Transformer
+Intended Users:                                                                                        | Solving competitive programming questions and evaluation for benchmark comparison.
+Output:                                                                                                |  Text
+Describe how the model works:                                                                          |  The model generates a reasoning trace and responds with a final solution in response to a user prompting a programming question.
+Name the adversely impacted groups this has been tested to deliver comparable outcomes regardless of:  |  Not Applicable
+Technical Limitations & Mitigation:                                                                    |  This model is not applicable for Software Engineering tasks. It primarily should be used for competitive coding challenges that require optimized code solutions that can operate in appropriate space and time complexity.
+Verified to have met prescribed NVIDIA quality standards:  |  Yes
+Performance Metrics:                                                                                   |  Pass@1 score
+Potential Known Risks:                                                                                 | The model may provide incorrect code solutions that fail to solve the problem. The model may enter a feedback loop and constantly generate reasoning tokens without generating the final solution.
+Licensing:                                                                                             |  [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/deed.en/)

PRIVACY.md ADDED Viewed

	@@ -0,0 +1,10 @@

+Field                                                                                                                              |  Response
+:----------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------
+Generatable or reverse engineerable personal data?                                                     |  No
+Personal data used to create this model?                                                                                       |  No
+How often is the dataset reviewed?                                                                                                     |  Before Release
+Is there provenance for all datasets used in training?                                                                                |  Yes
+Does data labeling (annotation, metadata) comply with privacy laws?                                                                |  Yes
+Is data compliant with data subject requests for data correction or removal, if such a request was made?                           |  No, not possible with externally-sourced data.
+Applicable Privacy Policy        | https://www.nvidia.com/en-us/about-nvidia/privacy-policy/

README.md ADDED Viewed

	@@ -0,0 +1,277 @@

+---
+license: cc-by-4.0
+language:
+- en
+base_model:
+- nvidia/OpenReasoning-Nemotron-32B
+pipeline_tag: text-generation
+library_name: transformers
+tags:
+- nvidia
+- unsloth
+- code
+---
+> [!NOTE]
+>  Includes Unsloth **chat template fixes**! <br> For `llama.cpp`, use `--jinja`
+>
+<div>
+<p style="margin-top: 0;margin-bottom: 0;">
+    <em><a href="https://docs.unsloth.ai/basics/unsloth-dynamic-v2.0-gguf">Unsloth Dynamic 2.0</a> achieves superior accuracy & outperforms other leading quants.</em>
+  </p>
+  <div style="display: flex; gap: 5px; align-items: center; ">
+    <a href="https://github.com/unslothai/unsloth/">
+      <img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="133">
+    </a>
+    <a href="https://discord.gg/unsloth">
+      <img src="https://github.com/unslothai/unsloth/raw/main/images/Discord%20button.png" width="173">
+    </a>
+    <a href="https://docs.unsloth.ai/">
+      <img src="https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/documentation%20green%20button.png" width="143">
+    </a>
+  </div>
+</div>
+# OpenReasoning-Nemotron-32B Overview
+## Description: <br>
+OpenReasoning-Nemotron-32B is a large language model (LLM) which is a derivative of Qwen2.5-32B-Instruct (AKA the reference model). It is a reasoning model that is post-trained for reasoning about math, code and science solution generation. We evaluated this model with up to 64K output tokens. The OpenReasoning model is available in the following sizes: 1.5B, 7B and 14B and 32B. <br>
+This model is ready for commercial/non-commercial research use. <br>
+### License/Terms of Use: <br>
+GOVERNING TERMS: Use of the models listed above are governed by the [Creative Commons Attribution 4.0 International License (CC-BY-4.0)](https://creativecommons.org/licenses/by/4.0/legalcode.en). ADDITIONAL INFORMATION: [Apache 2.0 License](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct/blob/main/LICENSE)
+## Scores on Reasoning Benchmarks
+![Evaluation Results with pass@1](https://raw.githubusercontent.com/NVIDIA/NeMo-Skills/main/docs/releases/openreasoning/pass-1.png)
+Our models demonstrate exceptional performance across a suite of challenging reasoning benchmarks. The 7B, 14B, and 32B models consistently set new state-of-the-art records for their size classes.
+| **Model** | **AritificalAnalysisIndex*** | **GPQA** | **MMLU-PRO** | **HLE** | **LiveCodeBench*** | **SciCode** | **AIME24** | **AIME25** | **HMMT FEB 25**  |
+| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
+| **1.5B**| 31.0 | 31.6 | 47.5 | 5.5 | 28.6 | 2.2 | 55.5 | 45.6 | 31.5 |
+| **7B** | 54.7 | 61.1 | 71.9 | 8.3 | 63.3 | 16.2 | 84.7 | 78.2 | 63.5 |
+| **14B** | 60.9 | 71.6 | 77.5 | 10.1 | 67.8 | 23.5 | 87.8 | 82.0 | 71.2 |
+| **32B** | 64.3 | 73.1 | 80.0 | 11.9 | 70.2 | 28.5 | 89.2 | 84.0 | 73.8 |
+\* This is our estimation of the Artificial Analysis Intelligence Index, not an official score.
+\* LiveCodeBench version 6, date range 2408-2505.
+## Combining the work of multiple agents
+OpenReasoning-Nemotron models can be used in a "heavy" mode by starting multiple parallel generations and combining them together via [generative solution selection (GenSelect)](https://arxiv.org/abs/2504.16891). To add this "skill" we follow the original GenSelect training pipeline except we do not train on the selection summary but use the full reasoning trace of DeepSeek R1 0528 671B instead. We only train models to select the best solution for math problems but surprisingly find that this capability directly generalizes to code and science questions! With this "heavy" GenSelect inference mode, OpenReasoning-Nemotron-32B model surpasses O3 (High) on math and coding benchmarks.
+![Evaluation Results with GenSelect](https://raw.githubusercontent.com/NVIDIA/NeMo-Skills/main/docs/releases/openreasoning/genselect.png)
+| **Model** | **Pass@1 (Avg@64)** | **Majority@64** | **GenSelect** |
+| :--- | :--- | :--- | :--- |
+| **1.5B** | | | |
+| **AIME24** | 55.5 | 76.7 | 76.7 |
+| **AIME25** | 45.6 | 70.0 | 70.0 |
+| **HMMT Feb 25** | 31.5 | 46.7 | 53.3 |
+| **7B** | | | |
+| **AIME24** | 84.7 | 93.3 | 93.3 |
+| **AIME25** | 78.2 | 86.7 | 93.3 |
+| **HMMT Feb 25** | 63.5 | 83.3 | 90.0 |
+| **LCB v6 2408-2505** | 63.4 | n/a | 67.7 |
+| **14B** | | | |
+| **AIME24** | 87.8 | 93.3 | 93.3 |
+| **AIME25** | 82.0 | 90.0 | 90.0 |
+| **HMMT Feb 25** | 71.2 | 86.7 | 93.3 |
+| **LCB v6 2408-2505** | 67.9 | n/a | 69.1 |
+| **32B** | | | |
+| **AIME24** | 89.2 | 93.3 | 93.3 |
+| **AIME25** | 84.0 | 90.0 | 93.3 |
+| **HMMT Feb 25** | 73.8 | 86.7 | 96.7 |
+| **LCB v6 2408-2505** | 70.2 | n/a | 75.3 |
+| **HLE** | 11.8 | 13.4 | 15.5 |
+## How to use the models?
+To run inference on coding problems:
+````python
+import transformers
+import torch
+model_id = "nvidia/OpenReasoning-Nemotron-32B"
+pipeline = transformers.pipeline(
+    "text-generation",
+    model=model_id,
+    model_kwargs={"torch_dtype": torch.bfloat16},
+    device_map="auto",
+)
+# Code generation prompt
+prompt = """You are a helpful and harmless assistant. You should think step-by-step before responding to the instruction below.
+Please use python programming language only.
+You must use ```python for just the final solution code block with the following format:
+```python
+# Your code here
+```
+{user}
+"""
+# Math generation prompt
+# prompt = """Solve the following math problem. Make sure to put the answer (and only answer) inside \\boxed{}.
+#
+# {user}
+# """
+# Science generation prompt
+# You can refer to prompts here -
+# https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/generic/hle.yaml (HLE)
+# https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/eval/aai/mcq-4choices-boxed.yaml (for GPQA)
+# https://github.com/NVIDIA/NeMo-Skills/blob/main/nemo_skills/prompt/config/eval/aai/mcq-10choices-boxed.yaml (MMLU-Pro)
+messages = [
+    {
+        "role": "user",
+        "content": prompt.format(user="Write a program to calculate the sum of the first $N$ fibonacci numbers")},
+]
+outputs = pipeline(
+    messages,
+    max_new_tokens=64000,
+)
+print(outputs[0]["generated_text"][-1]['content'])
+````
+## Citation
+If you find the data useful, please cite:
+```
+@article{ahmad2025opencodereasoning,
+      title={OpenCodeReasoning: Advancing Data Distillation for Competitive Coding},
+      author={Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg},
+      year={2025},
+      eprint={2504.01943},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2504.01943},
+}
+```
+```
+@misc{ahmad2025opencodereasoningiisimpletesttime,
+      title={OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique},
+      author={Wasi Uddin Ahmad and Somshubra Majumdar and Aleksander Ficek and Sean Narenthiran and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Vahid Noroozi and Boris Ginsburg},
+      year={2025},
+      eprint={2507.09075},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2507.09075},
+}
+```
+```
+@misc{moshkov2025aimo2winningsolutionbuilding,
+      title={AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
+      author={Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
+      year={2025},
+      eprint={2504.16891},
+      archivePrefix={arXiv},
+      primaryClass={cs.AI},
+      url={https://arxiv.org/abs/2504.16891},
+}
+```
+## Additional Information:
+### Deployment Geography:
+Global<br>
+### Use Case: <br>
+This model is intended for developers and researchers who work on competitive math, code and science problems. It has been trained via only supervised fine-tuning to achieve strong scores on benchmarks. <br>
+### Release Date:  <br>
+Huggingface [07/16/2025] via https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B/ <br>
+## Reference(s):
+* [2504.01943] OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
+* [2504.01943] OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
+* [2504.16891] AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
+<br>
+## Model Architecture: <br>
+Architecture Type: Dense decoder-only Transformer model
+Network Architecture: Qwen-32B-Instruct
+<br>
+**This model was developed based on Qwen2.5-32B-Instruct and has 32B model parameters. <br>**
+**OpenReasoning-Nemotron-1.5B was developed based on Qwen2.5-1.5B-Instruct and has 1.5B model parameters. <br>**
+**OpenReasoning-Nemotron-7B was developed based on Qwen2.5-7B-Instruct and has 7B model parameters. <br>**
+**OpenReasoning-Nemotron-14B was developed based on Qwen2.5-14B-Instruct and has 14B model parameters. <br>**
+**OpenReasoning-Nemotron-32B was developed based on Qwen2.5-32B-Instruct and has 32B model parameters. <br>**
+## Input: <br>
+**Input Type(s):** Text <br>
+**Input Format(s):** String <br>
+**Input Parameters:** One-Dimensional (1D) <br>
+**Other Properties Related to Input:** Trained for up to 64,000 output tokens <br>
+## Output: <br>
+**Output Type(s):** Text <br>
+**Output Format:** String <br>
+**Output Parameters:** One-Dimensional (1D) <br>
+**Other Properties Related to Output:** Trained for up to 64,000 output tokens <br>
+Our AI models are designed and/or optimized to run on NVIDIA GPU-accelerated systems. By leveraging NVIDIA’s hardware (e.g. GPU cores) and software frameworks (e.g., CUDA libraries), the model achieves faster training and inference times compared to CPU-only solutions. <br>
+## Software Integration : <br>
+* Runtime Engine: NeMo 2.3.0 <br>
+* Recommended Hardware Microarchitecture Compatibility: <br>
+NVIDIA Ampere <br>
+NVIDIA Hopper <br>
+* Preferred/Supported Operating System(s): Linux <br>
+## Model Version(s):
+1.0 (7/16/2025)  <br>
+OpenReasoning-Nemotron-32B<br>
+OpenReasoning-Nemotron-14B<br>
+OpenReasoning-Nemotron-7B<br>
+OpenReasoning-Nemotron-1.5B<br>
+# Training and Evaluation Datasets: <br>
+## Training Dataset:
+The training corpus for OpenReasoning-Nemotron-32B is comprised of questions from [OpenCodeReasoning](https://huggingface.co/datasets/nvidia/OpenCodeReasoning) dataset, [OpenCodeReasoning-II](https://arxiv.org/abs/2507.09075), [OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning), and the Synthetic Science questions from the [Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset). All responses are generated using DeepSeek-R1-0528. We also include the instruction following and tool calling data from Llama-Nemotron-Post-Training-Dataset without modification.
+Data Collection Method: Hybrid: Automated, Human, Synthetic <br>
+Labeling Method: Hybrid: Automated, Human, Synthetic <br>
+Properties: 5M DeepSeek-R1-0528 generated responses from OpenCodeReasoning questions (https://huggingface.co/datasets/nvidia/OpenCodeReasoning), [OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning), and the Synthetic Science questions from the [Llama-Nemotron-Post-Training-Dataset](https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset). We also include the instruction following and tool calling data from Llama-Nemotron-Post-Training-Dataset without modification.
+## Evaluation Dataset:
+We used the following benchmarks to evaluate the model holistically.
+### Math
+- AIME 2024/2025 <br>
+- HMMT <br>
+- BRUNO 2025 <br>
+### Code
+- LiveCodeBench <br>
+- SciCode <br>
+### Science
+- GPQA <br>
+- MMLU-PRO <br>
+- HLE <br>
+Data Collection Method: Hybrid: Automated, Human, Synthetic <br>
+Labeling Method: Hybrid: Automated, Human, Synthetic <br>
+## Inference:
+**Acceleration Engine:** vLLM, Tensor(RT)-LLM <br>
+**Test Hardware** NVIDIA H100-80GB <br>
+## Ethical Considerations:
+NVIDIA believes Trustworthy AI is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications.  When downloaded or used in accordance with our terms of service, developers should work with their internal model team to ensure this model meets requirements for the relevant industry and use case and addresses unforeseen product misuse.
+For more detailed information on ethical considerations for this model, please see the Model Card++ Explainability, Bias, Safety & Security, and Privacy Subcards.
+Please report model quality, risk, security vulnerabilities or NVIDIA AI Concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/).

SAFETY.md ADDED Viewed

	@@ -0,0 +1,7 @@

+Field                                               |  Response
+:---------------------------------------------------|:----------------------------------
+Model Application Field(s):                               |  Reasoning for Code Generation<br>
+Describe the life critical impact (if present).   |  Not Applicable <br>
+Use Case Restrictions:                              |  Abide by CC BY 4.0 <br>
+Model and dataset restrictions:            |  The Principle of least privilege (PoLP) is applied limiting access for dataset generation and model development.  Restrictions enforce dataset access during training, and dataset license constraints adhered to.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,20 @@

+{%- if messages[0]['role'] == 'system' %}
+    {{- '<|im_start|>system
+' + messages[0]['content'] + '<|im_end|>
+' }}
+{%- else %}
+    {{- '<|im_start|>system
+<|im_end|>
+' }}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == 'user') or (message.role == 'system' and not loop.first) or (message.role == 'assistant') %}
+        {{- '<|im_start|>' + message.role + '
+' + message.content + '<|im_end|>' + '
+' }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant
+' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 27648,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 131072,
+  "max_window_layers": 64,
+  "model_type": "qwen2",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 64,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151654,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.53.2",
+  "unsloth_fixed": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "transformers_version": "4.47.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a33b4071d66ce4b7619d6c6afc58a94c4c502e0bbabad04d88e54b481798cc59
+size 9767790336

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01d1f06666b14c42151739d69a76fc9054236e6192d99d595f1f19920a92319d
+size 9752118784

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18bf2cd1f1dd2c559272627ad8460b8ad7f83c7ae60a6a268315f0b96dd92491
+size 9752118816

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c56e81bc54f1cff3ce84d244a65c1126bafb8a1e4b80a19b44618fba9ce479d
+size 9752118816

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82997b9f1ba9457dc9b863b817b6952c6a750c188f37e842c1d862ede02febba
+size 9752118816

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3baa296d7d556ee239179714f4f1dfb0b693e8a7b0fd68d5e0725c915acfa6a
+size 9752118816

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:354a694ed0b7e0d5961cfe2f36cc970066ec39414abfb8170cc2f3c4c0c5ad59
+size 6999457200

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,778 @@

+{
+  "metadata": {
+    "total_size": 65527752704
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.48.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.58.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.norm.weight": "model-00007-of-00007.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "left",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null,
+  "chat_template": "{%- if messages[0]['role'] == 'system' %}\n    {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}\n{%- else %}\n    {{- '<|im_start|>system\n<|im_end|>\n' }}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == 'user') or (message.role == 'system' and not loop.first) or (message.role == 'assistant') %}\n        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\n' }}\n{%- endif %}"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff