Instructions to use RnniaSnow/ST-Coder-14B with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use RnniaSnow/ST-Coder-14B with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="RnniaSnow/ST-Coder-14B")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("RnniaSnow/ST-Coder-14B")
model = AutoModelForCausalLM.from_pretrained("RnniaSnow/ST-Coder-14B")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use RnniaSnow/ST-Coder-14B with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "RnniaSnow/ST-Coder-14B"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RnniaSnow/ST-Coder-14B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/RnniaSnow/ST-Coder-14B

SGLang

How to use RnniaSnow/ST-Coder-14B with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "RnniaSnow/ST-Coder-14B" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RnniaSnow/ST-Coder-14B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "RnniaSnow/ST-Coder-14B" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "RnniaSnow/ST-Coder-14B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use RnniaSnow/ST-Coder-14B with Docker Model Runner:
```
docker model run hf.co/RnniaSnow/ST-Coder-14B
```

RnniaSnow commited on Feb 17

Commit

5dba298

verified ·

1 Parent(s): af7bbb3

Upload folder using huggingface_hub

Browse files

Files changed (25) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
config.json +3 -6
generation_config.json +1 -1
merges.txt +0 -0
model-00001-of-00016.safetensors +2 -2
model-00002-of-00016.safetensors +2 -2
model-00003-of-00016.safetensors +2 -2
model-00004-of-00016.safetensors +2 -2
model-00005-of-00016.safetensors +2 -2
model-00006-of-00016.safetensors +1 -1
model-00007-of-00016.safetensors +2 -2
model-00008-of-00016.safetensors +1 -1
model-00009-of-00016.safetensors +2 -2
model-00010-of-00016.safetensors +1 -1
model-00011-of-00016.safetensors +2 -2
model-00012-of-00016.safetensors +1 -1
model-00013-of-00016.safetensors +2 -2
model-00014-of-00016.safetensors +1 -1
model-00015-of-00016.safetensors +2 -2
model-00016-of-00016.safetensors +2 -2
model.safetensors.index.json +533 -533
special_tokens_map.json +31 -0
tokenizer.json +0 -0
tokenizer_config.json +2 -1

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json CHANGED Viewed

@@ -66,15 +66,12 @@
   "num_attention_heads": 40,
   "num_hidden_layers": 48,
   "num_key_value_heads": 8,
-  "pad_token_id": null,
   "rms_norm_eps": 1e-06,
-  "rope_parameters": {
-    "rope_theta": 1000000.0,
-    "rope_type": "default"
-  },
   "sliding_window": null,
   "tie_word_embeddings": false,
-  "transformers_version": "5.0.0",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 152064

   "num_attention_heads": 40,
   "num_hidden_layers": 48,
   "num_key_value_heads": 8,
   "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
   "sliding_window": null,
   "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 152064

generation_config.json CHANGED Viewed

@@ -10,5 +10,5 @@
   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
-  "transformers_version": "5.0.0"
 }

   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
+  "transformers_version": "4.57.6"
 }

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:433848e393da9e9b9ecfec9e5d40e01d9ba52299d63cbce07e33c81f98de3d81
-size 1557135488

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbf240307e18dd3fd88609f035be102377546b01568b95e616ea0c9067c81e89
+size 1966095504

model-00002-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1618b54ee9447cb34d211aa4e3941ac67255348f171f046621e0a34f92afd0df
-size 1992317872

 version https://git-lfs.github.com/spec/v1
+oid sha256:21f25cf3b775a1a8d410ed747547e9e015970e24758db52b7dd95d4ef6fecbd6
+size 1919038592

model-00003-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda43380f8c3ad45dde6fc1a68673d7f7a5090946a7429e247deb86a3dc31c5e
-size 1908540200

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2c66cca97fc353b63f753d3a92d4b1daa9d66e56580028bce78ec3b15e8347b
+size 1934731504

model-00004-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:795c114ab3179751a9aba5305d8bd66d876a03b726b7c07c46060792af136fc2
-size 1997669160

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7f2a7a10092cbbaca848712f59feabcf7487b5192a552a8a540f5b920b67a6b
+size 1919038600

model-00005-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0736330b1185bd4181b115e9db3c09242e3644cb56b6d29db6a16cfa675dd1a
-size 1997658824

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d7429d66351beb2b4ad639956a204e1a87eae9362c0f90deb5e9560adafb5dd
+size 1934731544

model-00006-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c41e37de5d45977fde89328133803d655c1035203bc7bd32becc1ea09f6e49a1
 size 1919038640

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6c608994886da7b914b1863bcd9029d842f8251ba585a86b86256c1be9a5c0d
 size 1919038640

model-00007-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30e4a0307fd379c57e73d95cd50b3976ddda7d8514871acd836996f7c6f1bf5c
-size 1934731552

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f45d1aebc5e2d2ce6ec69e5e8496cdda3579a284cd5f5eaed7a00635c83b596
+size 1934731544

model-00008-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93d927ecb2f8786bf40d04b9f1110c8f271fec125aff9b4ce06868907478cdce
 size 1919038640

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f5f16c8881725ce580b34e629f3f8cc7dfa341da251188dc0f3815000e871ba
 size 1919038640

model-00009-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5affb04e0cf70bfd236b835ff2a1b1640e527f31dc7f8a7e31e133fff385d4f7
-size 1934731552

 version https://git-lfs.github.com/spec/v1
+oid sha256:72f6d5881893f6787ff34a77cb5ead4540e6b596e1fbd334b12baf2754fe4ad0
+size 1934731544

model-00010-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a08b116fea6db94e2fc00bfab429704ad313ed6f95b59107ae95cdb79b5c0dbe
 size 1919038640

 version https://git-lfs.github.com/spec/v1
+oid sha256:2efa527d217d6b33640b38b90be22da0ee18fc5153054278b2e57668292aa70a
 size 1919038640

model-00011-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faf51d250530c6fb50fdea327f4c66e4dae7e8a9f7e2e693247136e6562600ff
-size 1934731552

 version https://git-lfs.github.com/spec/v1
+oid sha256:1695ddc44fa8fb2ba7e03f761e5005d4a11ec8badb94d6a9cd72fc51a1420407
+size 1934731544

model-00012-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e3976978043721e4ef7c99ec284efc2a81cbb9a7acd195fe4ef7864718c307a
 size 1919038640

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b3ce302da64c6d40c1552a72438cfdce010f9db04217236d9db4511325a2fbe
 size 1919038640

model-00013-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f1d709f3c251fb304cc746a7929e9bf6cf3447229bbcd41e2fba5648078649c
-size 1934731552

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ac48572af8976583739ea5e4a29f9f406735df2158ad55d3b97f53cf41a3776
+size 1934731544

model-00014-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83f5e89a4b81eebaf416d2af849b00fc1545d32ea554ccbcbe9725cb179bdbf5
 size 1919038640

 version https://git-lfs.github.com/spec/v1
+oid sha256:614f3541e86f110d8af34384fe73103f63d1d57029e720f43319107cfcc5faf2
 size 1919038640

model-00015-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ced187520cc37cab8d732b00b051a7a1f74333b2deae629b9020d04a5997562e
-size 1934731552

 version https://git-lfs.github.com/spec/v1
+oid sha256:19242e9110a1b48252a19d7d3db52f5f77657b08b5be95c35bd2965c1262d3bf
+size 975243264

model-00016-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44923b64db52830932d15c26a0e8aaf7b4552fab5941e292af04b84e7d0a76f0
-size 817961416

 version https://git-lfs.github.com/spec/v1
+oid sha256:433848e393da9e9b9ecfec9e5d40e01d9ba52299d63cbce07e33c81f98de3d81
+size 1557135488

model.safetensors.index.json CHANGED Viewed

@@ -4,584 +4,584 @@
     "total_size": 29540067328
   },
   "weight_map": {
-    "lm_head.weight": "model-00001-of-00016.safetensors",
-    "model.embed_tokens.weight": "model-00002-of-00016.safetensors",
     "model.layers.0.input_layernorm.weight": "model-00002-of-00016.safetensors",
     "model.layers.0.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
     "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00005-of-00016.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
     "model.layers.14.input_layernorm.weight": "model-00006-of-00016.safetensors",
     "model.layers.14.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
     "model.layers.14.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00006-of-00016.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00007-of-00016.safetensors",
     "model.layers.18.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.18.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00008-of-00016.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00008-of-00016.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00009-of-00016.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00010-of-00016.safetensors",
     "model.layers.28.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
     "model.layers.28.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
-    "model.layers.28.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
     "model.layers.29.input_layernorm.weight": "model-00010-of-00016.safetensors",
-    "model.layers.29.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.29.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
-    "model.layers.31.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.32.input_layernorm.weight": "model-00011-of-00016.safetensors",
     "model.layers.32.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.32.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
-    "model.layers.32.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.32.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.32.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.input_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.33.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.input_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.34.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
     "model.layers.35.input_layernorm.weight": "model-00012-of-00016.safetensors",
     "model.layers.35.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
     "model.layers.35.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
-    "model.layers.35.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
     "model.layers.36.input_layernorm.weight": "model-00012-of-00016.safetensors",
-    "model.layers.36.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.36.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.input_layernorm.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.37.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.input_layernorm.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
-    "model.layers.38.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00013-of-00016.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.39.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
-    "model.layers.39.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.39.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.39.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00003-of-00016.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.40.input_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.40.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.input_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.41.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
     "model.layers.42.input_layernorm.weight": "model-00014-of-00016.safetensors",
     "model.layers.42.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
     "model.layers.42.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
-    "model.layers.42.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
     "model.layers.43.input_layernorm.weight": "model-00014-of-00016.safetensors",
-    "model.layers.43.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.mlp.up_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.post_attention_layernorm.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.k_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.k_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.o_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.q_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.q_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.v_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.43.self_attn.v_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.input_layernorm.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.mlp.up_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.post_attention_layernorm.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.k_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.k_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.o_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.q_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.q_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.v_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.44.self_attn.v_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.input_layernorm.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.mlp.up_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.post_attention_layernorm.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.k_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.k_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.o_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.q_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.q_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.v_proj.bias": "model-00015-of-00016.safetensors",
-    "model.layers.45.self_attn.v_proj.weight": "model-00015-of-00016.safetensors",
     "model.layers.46.input_layernorm.weight": "model-00015-of-00016.safetensors",
     "model.layers.46.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
     "model.layers.46.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
-    "model.layers.46.mlp.up_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.46.post_attention_layernorm.weight": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.k_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.k_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.o_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.q_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.q_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.v_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.46.self_attn.v_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.input_layernorm.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.mlp.down_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.mlp.gate_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.mlp.up_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.post_attention_layernorm.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.k_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.k_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.o_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.q_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.q_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.v_proj.bias": "model-00016-of-00016.safetensors",
-    "model.layers.47.self_attn.v_proj.weight": "model-00016-of-00016.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00004-of-00016.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
-    "model.norm.weight": "model-00016-of-00016.safetensors"
   }
 }

     "total_size": 29540067328
   },
   "weight_map": {
+    "lm_head.weight": "model-00016-of-00016.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00016.safetensors",
     "model.layers.0.input_layernorm.weight": "model-00002-of-00016.safetensors",
     "model.layers.0.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00016.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00016.safetensors",
     "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00016.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00016.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00005-of-00016.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.14.input_layernorm.weight": "model-00006-of-00016.safetensors",
     "model.layers.14.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.14.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00007-of-00016.safetensors",
     "model.layers.18.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.18.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00008-of-00016.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00009-of-00016.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00010-of-00016.safetensors",
     "model.layers.28.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.28.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
     "model.layers.29.input_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
     "model.layers.32.input_layernorm.weight": "model-00011-of-00016.safetensors",
     "model.layers.32.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.32.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.35.input_layernorm.weight": "model-00012-of-00016.safetensors",
     "model.layers.35.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.35.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
     "model.layers.36.input_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00013-of-00016.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.39.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00003-of-00016.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.42.input_layernorm.weight": "model-00014-of-00016.safetensors",
     "model.layers.42.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.42.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
     "model.layers.43.input_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
     "model.layers.46.input_layernorm.weight": "model-00015-of-00016.safetensors",
     "model.layers.46.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
     "model.layers.46.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00015-of-00016.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00015-of-00016.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00015-of-00016.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00004-of-00016.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
+    "model.norm.weight": "model-00015-of-00016.safetensors"
   }
 }

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -195,12 +195,13 @@
     "<|video_pad|>"
   ],
   "bos_token": null,
-  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

     "<|video_pad|>"
   ],
   "bos_token": null,
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",
+  "extra_special_tokens": {},
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
+  "padding_side": "left",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null