Instructions to use justindal/llama3.1-8b-leetcoder with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use justindal/llama3.1-8b-leetcoder with MLX:

# Make sure mlx-lm is installed
# pip install --upgrade mlx-lm

# Generate text with mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("justindal/llama3.1-8b-leetcoder")

prompt = "Write a story about Einstein"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True
)

text = generate(model, tokenizer, prompt=prompt, verbose=True)

Inference
Notebooks
Google Colab
Kaggle
Local Apps Settings
LM Studio

How to use justindal/llama3.1-8b-leetcoder with Pi:

Start the MLX server

# Install MLX LM:
uv tool install mlx-lm
# Start a local OpenAI-compatible server:
mlx_lm.server --model "justindal/llama3.1-8b-leetcoder"

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "mlx-lm": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "justindal/llama3.1-8b-leetcoder"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use justindal/llama3.1-8b-leetcoder with Hermes Agent:

Start the MLX server

# Install MLX LM:
uv tool install mlx-lm
# Start a local OpenAI-compatible server:
mlx_lm.server --model "justindal/llama3.1-8b-leetcoder"

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default justindal/llama3.1-8b-leetcoder

Run Hermes

hermes

MLX LM

How to use justindal/llama3.1-8b-leetcoder with MLX LM:

Generate or start a chat session

# Install MLX LM
uv tool install mlx-lm
# Interactive chat REPL
mlx_lm.chat --model "justindal/llama3.1-8b-leetcoder"

Run an OpenAI-compatible server

# Install MLX LM
uv tool install mlx-lm
# Start the server
mlx_lm.server --model "justindal/llama3.1-8b-leetcoder"
# Calling the OpenAI-compatible server with curl
curl -X POST "http://localhost:8000/v1/chat/completions" \
   -H "Content-Type: application/json" \
   --data '{
     "model": "justindal/llama3.1-8b-leetcoder",
     "messages": [
       {"role": "user", "content": "Hello"}
     ]
   }'

justindal commited on Mar 20

Commit

f6f67d8

verified ·

1 Parent(s): 7249874

Add files using upload-large-folder tool

Browse files

Files changed (9) hide show

README.md +181 -31
chat_template.jinja +109 -0
config.json +48 -0
generation_config.json +12 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +751 -0
tokenizer.json +3 -0
tokenizer_config.json +13 -0

README.md CHANGED Viewed

@@ -1,16 +1,4 @@
 ---
-license: llama3.1
-datasets:
-- justindal/leetcode-python-dataset
-base_model:
-- justindal/llama3.1-8b-instruct-mlx-8bit
-- meta-llama/Llama-3.1-8B-Instruct
-pipeline_tag: text-generation
-library_name: mlx
-tags:
-- meta
-- llama
-- leetcode
 language:
 - en
 - de
@@ -20,23 +8,185 @@ language:
 - hi
 - es
 - th
 ---
-# Model Information
-LoRA fine-tuned variant of `justindal/llama3.1-8b-instruct-mlx-8bit` for LeetCode-style Python solution generation.
-## Use with Python
-```python
-from mlx_lm import load, generate
-model, tokenizer = load("justindal/llama3.1-8b-instruct-mlx-8bit-leetcode-lora")
-prompt = "Given an integer array nums, return indices of two numbers that add up to target."
-response = generate(model, tokenizer, prompt=prompt, max_tokens=512)
-print(response)
-```
-## Base Model
-This model is a variant of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct).

 ---
 language:
 - en
 - de
 - hi
 - es
 - th
+license: llama3.1
+base_model: justindal/llama3.1-8b-instruct-mlx-8bit
+pipeline_tag: text-generation
+tags:
+- facebook
+- meta
+- pytorch
+- llama
+- llama-3
+- mlx
+extra_gated_prompt: "### LLAMA 3.1 COMMUNITY LICENSE AGREEMENT\nLlama 3.1 Version\
+  \ Release Date: July 23, 2024\n\"Agreement\" means the terms and conditions for\
+  \ use, reproduction, distribution and modification of the  Llama Materials set forth\
+  \ herein.\n\"Documentation\" means the specifications, manuals and documentation\
+  \ accompanying Llama 3.1 distributed by Meta at https://llama.meta.com/doc/overview.\n\
+  \"Licensee\" or \"you\" means you, or your employer or any other person or entity\
+  \ (if you are entering into this Agreement on such person or entity’s behalf), of\
+  \ the age required under applicable laws, rules or regulations to provide legal\
+  \ consent and that has legal authority to bind your employer or such other person\
+  \ or entity if you are entering in this Agreement on their behalf.\n\"Llama 3.1\"\
+  \ means the foundational large language models and software and algorithms, including\
+  \ machine-learning model code, trained model weights, inference-enabling code, training-enabling\
+  \ code, fine-tuning enabling code and other elements of the foregoing distributed\
+  \ by Meta at https://llama.meta.com/llama-downloads.\n\"Llama Materials\" means,\
+  \ collectively, Meta’s proprietary Llama 3.1 and Documentation (and any portion\
+  \ thereof) made available under this Agreement.\n\"Meta\" or \"we\" means Meta Platforms\
+  \ Ireland Limited (if you are located in or, if you are an entity, your principal\
+  \ place of business is in the EEA or Switzerland) and Meta Platforms, Inc. (if you\
+  \ are located outside of the EEA or Switzerland).\n   \n1. License Rights and Redistribution.\n\
+  a. Grant of Rights. You are granted a non-exclusive, worldwide, non-transferable\
+  \ and royalty-free limited license under Meta’s intellectual property or other rights\
+  \ owned by Meta embodied in the Llama Materials to use, reproduce, distribute, copy,\
+  \ create derivative works of, and make modifications to the Llama Materials.\nb.\
+  \ Redistribution and Use.\ni. If you distribute or make available the Llama Materials\
+  \ (or any derivative works thereof), or a product or service (including another\
+  \ AI model) that contains any of them, you shall (A) provide a copy of this Agreement\
+  \ with any such Llama Materials; and (B) prominently display “Built with Llama”\
+  \ on a related website, user interface, blogpost, about page, or product documentation.\
+  \ If you use the Llama Materials or any outputs or results of the Llama Materials\
+  \ to create, train, fine tune, or otherwise improve an AI model, which is distributed\
+  \ or made available, you shall also include “Llama” at the beginning of any such\
+  \ AI model name.\nii. If you receive Llama Materials, or any derivative works thereof,\
+  \ from a Licensee as part  of an integrated end user product, then Section 2 of\
+  \ this Agreement will not apply to you.\niii. You must retain in all copies of the\
+  \ Llama Materials that you distribute the following attribution notice within a\
+  \ “Notice” text file distributed as a part of such copies: “Llama 3.1 is licensed\
+  \ under the Llama 3.1 Community License, Copyright © Meta Platforms, Inc. All Rights\
+  \ Reserved.”\niv. Your use of the Llama Materials must comply with applicable laws\
+  \ and regulations (including trade compliance laws and regulations) and adhere to\
+  \ the Acceptable Use Policy for the Llama Materials (available at https://llama.meta.com/llama3_1/use-policy),\
+  \ which is hereby incorporated by reference into this Agreement.\n2. Additional\
+  \ Commercial Terms. If, on the Llama 3.1 version release date, the monthly active\
+  \ users of the products or services made available by or for Licensee, or Licensee’s\
+  \ affiliates, is greater than 700 million monthly active users in the preceding\
+  \ calendar month, you must request a license from Meta, which Meta may grant to\
+  \ you in its sole discretion, and you are not authorized to exercise any of the\
+  \ rights under this Agreement unless or until Meta otherwise expressly grants you\
+  \ such rights.\n3. Disclaimer of Warranty. UNLESS REQUIRED BY APPLICABLE LAW, THE\
+  \ LLAMA MATERIALS AND ANY OUTPUT AND RESULTS THEREFROM ARE PROVIDED ON AN “AS IS”\
+  \ BASIS, WITHOUT WARRANTIES OF ANY KIND, AND META DISCLAIMS ALL WARRANTIES OF ANY\
+  \ KIND, BOTH EXPRESS AND IMPLIED, INCLUDING, WITHOUT LIMITATION, ANY WARRANTIES\
+  \ OF TITLE, NON-INFRINGEMENT, MERCHANTABILITY, OR FITNESS FOR A PARTICULAR PURPOSE.\
+  \ YOU ARE SOLELY RESPONSIBLE FOR DETERMINING THE APPROPRIATENESS OF USING OR REDISTRIBUTING\
+  \ THE LLAMA MATERIALS AND ASSUME ANY RISKS ASSOCIATED WITH YOUR USE OF THE LLAMA\
+  \ MATERIALS AND ANY OUTPUT AND RESULTS.\n4. Limitation of Liability. IN NO EVENT\
+  \ WILL META OR ITS AFFILIATES BE LIABLE UNDER ANY THEORY OF LIABILITY, WHETHER IN\
+  \ CONTRACT, TORT, NEGLIGENCE, PRODUCTS LIABILITY, OR OTHERWISE, ARISING OUT OF THIS\
+  \ AGREEMENT, FOR ANY LOST PROFITS OR ANY INDIRECT, SPECIAL, CONSEQUENTIAL, INCIDENTAL,\
+  \ EXEMPLARY OR PUNITIVE DAMAGES, EVEN IF META OR ITS AFFILIATES HAVE BEEN ADVISED\
+  \ OF THE POSSIBILITY OF ANY OF THE FOREGOING.\n5. Intellectual Property.\na. No\
+  \ trademark licenses are granted under this Agreement, and in connection with the\
+  \ Llama Materials, neither Meta nor Licensee may use any name or mark owned by or\
+  \ associated with the other or any of its affiliates, except as required for reasonable\
+  \ and customary use in describing and redistributing the Llama Materials or as set\
+  \ forth in this Section 5(a). Meta hereby grants you a license to use “Llama” (the\
+  \ “Mark”) solely as required to comply with the last sentence of Section 1.b.i.\
+  \ You will comply with Meta’s brand guidelines (currently accessible at https://about.meta.com/brand/resources/meta/company-brand/\
+  \ ). All goodwill arising out of your use of the Mark will inure to the benefit\
+  \ of Meta.\nb. Subject to Meta’s ownership of Llama Materials and derivatives made\
+  \ by or for Meta, with respect to any derivative works and modifications of the\
+  \ Llama Materials that are made by you, as between you and Meta, you are and will\
+  \ be the owner of such derivative works and modifications.\nc. If you institute\
+  \ litigation or other proceedings against Meta or any entity (including a cross-claim\
+  \ or counterclaim in a lawsuit) alleging that the Llama Materials or Llama 3.1 outputs\
+  \ or results, or any portion of any of the foregoing, constitutes infringement of\
+  \ intellectual property or other rights owned or licensable by you, then any licenses\
+  \ granted to you under this Agreement shall terminate as of the date such litigation\
+  \ or claim is filed or instituted. You will indemnify and hold harmless Meta from\
+  \ and against any claim by any third party arising out of or related to your use\
+  \ or distribution of the Llama Materials.\n6. Term and Termination. The term of\
+  \ this Agreement will commence upon your acceptance of this Agreement or access\
+  \ to the Llama Materials and will continue in full force and effect until terminated\
+  \ in accordance with the terms and conditions herein. Meta may terminate this Agreement\
+  \ if you are in breach of any term or condition of this Agreement. Upon termination\
+  \ of this Agreement, you shall delete and cease use of the Llama Materials. Sections\
+  \ 3, 4 and 7 shall survive the termination of this Agreement.\n7. Governing Law\
+  \ and Jurisdiction. This Agreement will be governed and construed under the laws\
+  \ of the State of California without regard to choice of law principles, and the\
+  \ UN Convention on Contracts for the International Sale of Goods does not apply\
+  \ to this Agreement. The courts of California shall have exclusive jurisdiction\
+  \ of any dispute arising out of this Agreement.\n### Llama 3.1 Acceptable Use Policy\n\
+  Meta is committed to promoting safe and fair use of its tools and features, including\
+  \ Llama 3.1. If you access or use Llama 3.1, you agree to this Acceptable Use Policy\
+  \ (“Policy”). The most recent copy of this policy can be found at [https://llama.meta.com/llama3_1/use-policy](https://llama.meta.com/llama3_1/use-policy)\n\
+  #### Prohibited Uses\nWe want everyone to use Llama 3.1 safely and responsibly.\
+  \ You agree you will not use, or allow others to use, Llama 3.1 to:\n 1. Violate\
+  \ the law or others’ rights, including to:\n    1. Engage in, promote, generate,\
+  \ contribute to, encourage, plan, incite, or further illegal or unlawful activity\
+  \ or content, such as:\n        1. Violence or terrorism\n        2. Exploitation\
+  \ or harm to children, including the solicitation, creation, acquisition, or dissemination\
+  \ of child exploitative content or failure to report Child Sexual Abuse Material\n\
+  \        3. Human trafficking, exploitation, and sexual violence\n        4. The\
+  \ illegal distribution of information or materials to minors, including obscene\
+  \ materials, or failure to employ legally required age-gating in connection with\
+  \ such information or materials.\n        5. Sexual solicitation\n        6. Any\
+  \ other criminal activity\n    3. Engage in, promote, incite, or facilitate the\
+  \ harassment, abuse, threatening, or bullying of individuals or groups of individuals\n\
+  \    4. Engage in, promote, incite, or facilitate discrimination or other unlawful\
+  \ or harmful conduct in the provision of employment, employment benefits, credit,\
+  \ housing, other economic benefits, or other essential goods and services\n    5.\
+  \ Engage in the unauthorized or unlicensed practice of any profession including,\
+  \ but not limited to, financial, legal, medical/health, or related professional\
+  \ practices\n    6. Collect, process, disclose, generate, or infer health, demographic,\
+  \ or other sensitive personal or private information about individuals without rights\
+  \ and consents required by applicable laws\n    7. Engage in or facilitate any action\
+  \ or generate any content that infringes, misappropriates, or otherwise violates\
+  \ any third-party rights, including the outputs or results of any products or services\
+  \ using the Llama Materials\n    8. Create, generate, or facilitate the creation\
+  \ of malicious code, malware, computer viruses or do anything else that could disable,\
+  \ overburden, interfere with or impair the proper working, integrity, operation\
+  \ or appearance of a website or computer system\n2. Engage in, promote, incite,\
+  \ facilitate, or assist in the planning or development of activities that present\
+  \ a risk of death or bodily harm to individuals, including use of Llama 3.1 related\
+  \ to the following:\n    1. Military, warfare, nuclear industries or applications,\
+  \ espionage, use for materials or activities that are subject to the International\
+  \ Traffic Arms Regulations (ITAR) maintained by the United States Department of\
+  \ State\n    2. Guns and illegal weapons (including weapon development)\n    3.\
+  \ Illegal drugs and regulated/controlled substances\n    4. Operation of critical\
+  \ infrastructure, transportation technologies, or heavy machinery\n    5. Self-harm\
+  \ or harm to others, including suicide, cutting, and eating disorders\n    6. Any\
+  \ content intended to incite or promote violence, abuse, or any infliction of bodily\
+  \ harm to an individual\n3. Intentionally deceive or mislead others, including use\
+  \ of Llama 3.1 related to the following:\n    1. Generating, promoting, or furthering\
+  \ fraud or the creation or promotion of disinformation\n    2. Generating, promoting,\
+  \ or furthering defamatory content, including the creation of defamatory statements,\
+  \ images, or other content\n    3. Generating, promoting, or further distributing\
+  \ spam\n    4. Impersonating another individual without consent, authorization,\
+  \ or legal right\n    5. Representing that the use of Llama 3.1 or outputs are human-generated\n\
+  \    6. Generating or facilitating false online engagement, including fake reviews\
+  \ and other means of fake online engagement\n4. Fail to appropriately disclose to\
+  \ end users any known dangers of your AI system\nPlease report any violation of\
+  \ this Policy, software “bug,” or other problems that could lead to a violation\
+  \ of this Policy through one of the following means:\n    * Reporting issues with\
+  \ the model: [https://github.com/meta-llama/llama-models/issues](https://github.com/meta-llama/llama-models/issues)\n\
+  \    * Reporting risky content generated by the model:\n    developers.facebook.com/llama_output_feedback\n\
+  \    * Reporting bugs and security concerns: facebook.com/whitehat/info\n    * Reporting\
+  \ violations of the Acceptable Use Policy or unlicensed uses of Meta Llama 3: LlamaUseReport@meta.com"
+extra_gated_fields:
+  First Name: text
+  Last Name: text
+  Date of birth: date_picker
+  Country: country
+  Affiliation: text
+  Job title:
+    type: select
+    options:
+    - Student
+    - Research Graduate
+    - AI researcher
+    - AI developer/engineer
+    - Reporter
+    - Other
+  geo: ip_location
+  ? By clicking Submit below I accept the terms of the license and acknowledge that
+    the information I provide will be collected stored processed and shared in accordance
+    with the Meta Privacy Policy
+  : checkbox
+extra_gated_description: The information you provide will be collected, stored, processed
+  and shared in accordance with the [Meta Privacy Policy](https://www.facebook.com/privacy/policy/).
+extra_gated_button_content: Submit
+library_name: mlx
 ---

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,109 @@

+{{- bos_token }}
+{%- if custom_tools is defined %}
+    {%- set tools = custom_tools %}
+{%- endif %}
+{%- if not tools_in_user_message is defined %}
+    {%- set tools_in_user_message = true %}
+{%- endif %}
+{%- if not date_string is defined %}
+    {%- set date_string = "26 Jul 2024" %}
+{%- endif %}
+{%- if not tools is defined %}
+    {%- set tools = none %}
+{%- endif %}
+{#- This block extracts the system message, so we can slot it into the right place. #}
+{%- if messages[0]['role'] == 'system' %}
+    {%- set system_message = messages[0]['content']|trim %}
+    {%- set messages = messages[1:] %}
+{%- else %}
+    {%- set system_message = "" %}
+{%- endif %}
+{#- System message + builtin tools #}
+{{- "<|start_header_id|>system<|end_header_id|>\n\n" }}
+{%- if builtin_tools is defined or tools is not none %}
+    {{- "Environment: ipython\n" }}
+{%- endif %}
+{%- if builtin_tools is defined %}
+    {{- "Tools: " + builtin_tools | reject('equalto', 'code_interpreter') | join(", ") + "\n\n"}}
+{%- endif %}
+{{- "Cutting Knowledge Date: December 2023\n" }}
+{{- "Today Date: " + date_string + "\n\n" }}
+{%- if tools is not none and not tools_in_user_message %}
+    {{- "You have access to the following functions. To call a function, please respond with JSON for a function call." }}
+    {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+    {{- "Do not use variables.\n\n" }}
+    {%- for t in tools %}
+        {{- t | tojson(indent=4) }}
+        {{- "\n\n" }}
+    {%- endfor %}
+{%- endif %}
+{{- system_message }}
+{{- "<|eot_id|>" }}
+{#- Custom tools are passed in a user message with some extra guidance #}
+{%- if tools_in_user_message and not tools is none %}
+    {#- Extract the first user message so we can plug it in here #}
+    {%- if messages | length != 0 %}
+        {%- set first_user_message = messages[0]['content']|trim %}
+        {%- set messages = messages[1:] %}
+    {%- else %}
+        {{- raise_exception("Cannot put tools in the first user message when there's no first user message!") }}
+{%- endif %}
+    {{- '<|start_header_id|>user<|end_header_id|>\n\n' -}}
+    {{- "Given the following functions, please respond with a JSON for a function call " }}
+    {{- "with its proper arguments that best answers the given prompt.\n\n" }}
+    {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+    {{- "Do not use variables.\n\n" }}
+    {%- for t in tools %}
+        {{- t | tojson(indent=4) }}
+        {{- "\n\n" }}
+    {%- endfor %}
+    {{- first_user_message + "<|eot_id|>"}}
+{%- endif %}
+{%- for message in messages %}
+    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}
+        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' }}
+    {%- elif 'tool_calls' in message %}
+        {%- if not message.tool_calls|length == 1 %}
+            {{- raise_exception("This model only supports single tool-calls at once!") }}
+        {%- endif %}
+        {%- set tool_call = message.tool_calls[0].function %}
+        {%- if builtin_tools is defined and tool_call.name in builtin_tools %}
+            {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' -}}
+            {{- "<|python_tag|>" + tool_call.name + ".call(" }}
+            {%- for arg_name, arg_val in tool_call.arguments | items %}
+                {{- arg_name + '="' + arg_val + '"' }}
+                {%- if not loop.last %}
+                    {{- ", " }}
+                {%- endif %}
+                {%- endfor %}
+            {{- ")" }}
+        {%- else  %}
+            {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' -}}
+            {{- '{"name": "' + tool_call.name + '", ' }}
+            {{- '"parameters": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- "}" }}
+        {%- endif %}
+        {%- if builtin_tools is defined %}
+            {#- This means we're in ipython mode #}
+            {{- "<|eom_id|>" }}
+        {%- else %}
+            {{- "<|eot_id|>" }}
+        {%- endif %}
+    {%- elif message.role == "tool" or message.role == "ipython" %}
+        {{- "<|start_header_id|>ipython<|end_header_id|>\n\n" }}
+        {%- if message.content is mapping or message.content is iterable %}
+            {{- message.content | tojson }}
+        {%- else %}
+            {{- message.content }}
+        {%- endif %}
+        {{- "<|eot_id|>" }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+    "architectures": [
+        "LlamaForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 128000,
+    "eos_token_id": [
+        128001,
+        128008,
+        128009
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 14336,
+    "max_position_embeddings": 131072,
+    "mlp_bias": false,
+    "model_type": "llama",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 32,
+    "num_key_value_heads": 8,
+    "pretraining_tp": 1,
+    "quantization": {
+        "group_size": 32,
+        "bits": 8,
+        "mode": "affine"
+    },
+    "quantization_config": {
+        "group_size": 32,
+        "bits": 8,
+        "mode": "affine"
+    },
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": {
+        "factor": 8.0,
+        "low_freq_factor": 1.0,
+        "high_freq_factor": 4.0,
+        "original_max_position_embeddings": 8192,
+        "rope_type": "llama3"
+    },
+    "rope_theta": 500000.0,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.42.3",
+    "use_cache": true,
+    "vocab_size": 128256
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128008,
+    128009
+  ],
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.42.3"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96b0b212a9eea51fbfdcb1eb2d33ef2a6abe7f281368ce834d8277dc7315efa1
+size 5366582299

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0c8fa96f492977787d8d779b055feb40bbed79f995536a17bdf5b548adf097d
+size 3667779901

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,751 @@

+{
+    "metadata": {
+        "total_size": 9034276864,
+        "total_parameters": 8030261248
+    },
+    "weight_map": {
+        "lm_head.biases": "model-00002-of-00002.safetensors",
+        "lm_head.scales": "model-00002-of-00002.safetensors",
+        "lm_head.weight": "model-00002-of-00002.safetensors",
+        "model.embed_tokens.biases": "model-00001-of-00002.safetensors",
+        "model.embed_tokens.scales": "model-00001-of-00002.safetensors",
+        "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.19.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.19.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.19.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
+        "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.norm.weight": "model-00002-of-00002.safetensors"
+    }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
+size 17209920

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<|begin_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
+  "is_local": true,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 131072,
+  "tokenizer_class": "TokenizersBackend"
+}