diff --git a/.gitattributes b/.gitattributes
index a6344aac8c09253b3b630fb776ae94478aa0275b..52373fe24473b1aa44333d318f578ae6bf04b49b 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/README.md b/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..523e529c053f058aae77af66d4a0dd9c5b831a61
--- /dev/null
+++ b/README.md
@@ -0,0 +1,44 @@
+---
+language:
+- en
+- zh
+library_name: transformers
+license: mit
+pipeline_tag: text-generation
+base_model: zai-org/GLM-4.6
+tags:
+- mlx
+---
+
+# cs2764/GLM-4.6-mlx-6Bit
+
+The Model [cs2764/GLM-4.6-mlx-6Bit](https://huggingface.co/cs2764/GLM-4.6-mlx-6Bit) was converted to MLX format from [zai-org/GLM-4.6](https://huggingface.co/zai-org/GLM-4.6) using mlx-lm version **0.28.0**.
+
+## Quantization Details
+
+This model was converted with the following quantization settings:
+
+- **Quantization Strategy**: 6-bit quantization
+- **Average bits per weight**: 6.502
+
+## Use with mlx
+
+```bash
+pip install mlx-lm
+```
+
+```python
+from mlx_lm import load, generate
+
+model, tokenizer = load("cs2764/GLM-4.6-mlx-6Bit")
+
+prompt="hello"
+
+if hasattr(tokenizer, "apply_chat_template") and tokenizer.chat_template is not None:
+    messages = [{"role": "user", "content": prompt}]
+    prompt = tokenizer.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+
+response = generate(model, tokenizer, prompt=prompt, verbose=True)
+```
diff --git a/chat_template.jinja b/chat_template.jinja
new file mode 100644
index 0000000000000000000000000000000000000000..41478957aca7a04b7321022e7d1f73de5badd995
--- /dev/null
+++ b/chat_template.jinja
@@ -0,0 +1,103 @@
+[gMASK]<sop>
+{%- if tools -%}
+<|system|>
+# Tools
+
+You may call one or more functions to assist with the user query.
+
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>
+{% for tool in tools %}
+{{ tool | tojson(ensure_ascii=False) }}
+{% endfor %}
+</tools>
+
+For each function call, output the function name and arguments within the following XML format:
+<tool_call>{function-name}
+<arg_key>{arg-key-1}</arg_key>
+<arg_value>{arg-value-1}</arg_value>
+<arg_key>{arg-key-2}</arg_key>
+<arg_value>{arg-value-2}</arg_value>
+...
+</tool_call>{%- endif -%}
+{%- macro visible_text(content) -%}
+    {%- if content is string -%}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping -%}
+        {%- for item in content -%}
+            {%- if item is mapping and item.type == 'text' -%}
+                {{- item.text }}
+            {%- elif item is string -%}
+                {{- item }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{- content }}
+    {%- endif -%}
+{%- endmacro -%}
+{%- set ns = namespace(last_user_index=-1) %}
+{%- for m in messages %}
+    {%- if m.role == 'user' %}
+        {% set ns.last_user_index = loop.index0 -%}
+    {%- endif %}
+{%- endfor %}
+{% for m in messages %}
+{%- if m.role == 'user' -%}<|user|>
+{{ visible_text(m.content) }}
+{{- '/nothink' if (enable_thinking is defined and not enable_thinking and not visible_text(m.content).endswith("/nothink")) else '' -}}
+{%- elif m.role == 'assistant' -%}
+<|assistant|>
+{%- set reasoning_content = '' %}
+{%- set content = visible_text(m.content) %}
+{%- if m.reasoning_content is string %}
+    {%- set reasoning_content = m.reasoning_content %}
+{%- else %}
+    {%- if '</think>' in content %}
+        {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+        {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+    {%- endif %}
+{%- endif %}
+{%- if loop.index0 > ns.last_user_index and reasoning_content -%}
+{{ '\n<think>' + reasoning_content.strip() +  '</think>'}}
+{%- else -%}
+{{ '\n<think></think>' }}
+{%- endif -%}
+{%- if content.strip() -%}
+{{ '\n' + content.strip() }}
+{%- endif -%}
+{% if m.tool_calls %}
+{% for tc in m.tool_calls %}
+{%- if tc.function %}
+    {%- set tc = tc.function %}
+{%- endif %}
+{{ '\n<tool_call>' + tc.name }}
+{% set _args = tc.arguments %}
+{% for k, v in _args.items() %}
+<arg_key>{{ k }}</arg_key>
+<arg_value>{{ v | tojson(ensure_ascii=False) if v is not string else v }}</arg_value>
+{% endfor %}
+</tool_call>{% endfor %}
+{% endif %}
+{%- elif m.role == 'tool' -%}
+{%- if m.content is string -%}
+{%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+    {{- '<|observation|>' }}
+{%- endif %}
+{{- '\n<tool_response>\n' }}
+{{- m.content }}
+{{- '\n</tool_response>' }}
+{%- else -%}
+<|observation|>{% for tr in m.content %}
+
+<tool_response>
+{{ tr.output if tr.output is defined else tr }}
+</tool_response>{% endfor -%}
+{% endif -%}
+{%- elif m.role == 'system' -%}
+<|system|>
+{{ visible_text(m.content) }}
+{%- endif -%}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    <|assistant|>{{- '\n<think></think>' if (enable_thinking is defined and not enable_thinking) else '' -}}
+{%- endif -%}
\ No newline at end of file
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..4deb71e07197d85dca751135bbdf2a96cffcd3be
--- /dev/null
+++ b/config.json
@@ -0,0 +1,53 @@
+{
+    "architectures": [
+        "Glm4MoeForCausalLM"
+    ],
+    "attention_bias": true,
+    "attention_dropout": 0.0,
+    "eos_token_id": [
+        151329,
+        151336,
+        151338
+    ],
+    "first_k_dense_replace": 3,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 202752,
+    "model_type": "glm4_moe",
+    "moe_intermediate_size": 1536,
+    "n_group": 1,
+    "n_routed_experts": 160,
+    "n_shared_experts": 1,
+    "norm_topk_prob": true,
+    "num_attention_heads": 96,
+    "num_experts_per_tok": 8,
+    "num_hidden_layers": 92,
+    "num_key_value_heads": 8,
+    "num_nextn_predict_layers": 1,
+    "pad_token_id": 151329,
+    "partial_rotary_factor": 0.5,
+    "quantization": {
+        "group_size": 64,
+        "bits": 6,
+        "mode": "affine"
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 6,
+        "mode": "affine"
+    },
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "routed_scaling_factor": 2.5,
+    "tie_word_embeddings": false,
+    "topk_group": 1,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.54.0",
+    "use_cache": true,
+    "use_qk_norm": true,
+    "vocab_size": 151552
+}
\ No newline at end of file
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..f51194759eb31dde6fbc75a28e3fb7036f68161a
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,11 @@
+{
+  "_from_model_config": true,
+  "eos_token_id": [
+    151329,
+    151336,
+    151338
+  ],
+  "pad_token_id": 151329,
+  "temperature": 1.0,
+  "transformers_version": "4.56.2"
+}
diff --git a/model-00001-of-00054.safetensors b/model-00001-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0ddc80b9fb34efc8067db237cfb9d228c3cfb797
--- /dev/null
+++ b/model-00001-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:651de89c10bbc509155b13df3f0b9c4e1974376e367e3eee1dec9267c118ee7f
+size 4732435585
diff --git a/model-00002-of-00054.safetensors b/model-00002-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..09dd8cdbcd7d2f76506b8110c41739817a9abe20
--- /dev/null
+++ b/model-00002-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:663969396a528243b56d9ca5f5308fa480d973b680badc4298af23a95a144803
+size 5243427265
diff --git a/model-00003-of-00054.safetensors b/model-00003-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..60f95194e6821b1b381737aa474e2fa529d57294
--- /dev/null
+++ b/model-00003-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5294979e3f3e3be0bf7ced5f83ff2a9ecd44f64014b1aa2f8f727139f9094727
+size 5335722898
diff --git a/model-00004-of-00054.safetensors b/model-00004-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..70e006f599c82f45b5cd2a1dabbd036ac67807fc
--- /dev/null
+++ b/model-00004-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78c1b13cddbc08cbb94651b25e076b9565d53dd46e743651bc2b3ce8553680c8
+size 5363247106
diff --git a/model-00005-of-00054.safetensors b/model-00005-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b1c8bfa8fc28de5fc5053f39eb2e4ac3a7c0c6e6
--- /dev/null
+++ b/model-00005-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1fcb3e6fef5f12a7062ae2694154645a55d1313c1582ece752656e532121fb3e
+size 5294546458
diff --git a/model-00006-of-00054.safetensors b/model-00006-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9c2145c91479b11e474fe29336d0232c6d9625c8
--- /dev/null
+++ b/model-00006-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c006861df314f0d5c03cee80d62d0b22c4c0c509747a9a4b2c75de0f7ec8a772
+size 5335722946
diff --git a/model-00007-of-00054.safetensors b/model-00007-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a34271b0c6fd18a0d29f3eeeee13f4ecaf70f798
--- /dev/null
+++ b/model-00007-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:554ca4ebb1d0057f528b4f5814165894da24fe7a256565dca5e51bd8148a7640
+size 5363247185
diff --git a/model-00008-of-00054.safetensors b/model-00008-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..1561bf5d05070d0aa863060479abf3d8b45ac423
--- /dev/null
+++ b/model-00008-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d43fdfb0f384f6c46ac5a25ca06ac717eed7b6cab28cef40e890c7a4540222a7
+size 5294546451
diff --git a/model-00009-of-00054.safetensors b/model-00009-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2ffaf8e240409669bfee0eaf930eb842022c026f
--- /dev/null
+++ b/model-00009-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:610bd0de3537e203ce02c19c76691eaf5f2f7ac76cae7c7681a20cd6dc3ac84c
+size 5335722966
diff --git a/model-00010-of-00054.safetensors b/model-00010-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b5be85137f7d12d7c7582f059cbb80a6207f0f6c
--- /dev/null
+++ b/model-00010-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e653dbd679a7471a3b8e86e5ba49f981ad7bc7e007d3fa40d051e431707938d
+size 5363247163
diff --git a/model-00011-of-00054.safetensors b/model-00011-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..dc0e05f410c2b44df8111e04348a98c1cd8f1b81
--- /dev/null
+++ b/model-00011-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bdad75f6c388efe0106b30d17ae087d62b9edae24b22e0e8dcd457065f3b3eca
+size 5294546461
diff --git a/model-00012-of-00054.safetensors b/model-00012-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e155d3718109f2228270f082735fa8d920052dfa
--- /dev/null
+++ b/model-00012-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b3e0a6ce477c58b8717e96cade9485d59606b7075f0c5231541941c9ee9906
+size 5335722940
diff --git a/model-00013-of-00054.safetensors b/model-00013-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..360467790f19ae0e085ec34de371f1ac76b56c5d
--- /dev/null
+++ b/model-00013-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f3301fc2d137d1303a5d57e544959ecc4f7f0a1f72e4e91fcb8d78f1f6a9695
+size 5363247197
diff --git a/model-00014-of-00054.safetensors b/model-00014-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b808c3431436fc3bc7d9a58786718da6dc8e39ac
--- /dev/null
+++ b/model-00014-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f60aadb4160f8f9490872aa70c422ebac940d1c1130a3aa693481851bd47183
+size 5294546487
diff --git a/model-00015-of-00054.safetensors b/model-00015-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..20674419fb3d26f957aa345645e2e7ad6fe7d9d8
--- /dev/null
+++ b/model-00015-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3863fead247704010f027c2945e77c193c24f353bc3ff1a9ffa8c16c09ef4a53
+size 5335722976
diff --git a/model-00016-of-00054.safetensors b/model-00016-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ae28ef755d65d013d2149424796ba8438d0a2e6b
--- /dev/null
+++ b/model-00016-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2c7abcebb3cc21dd3176418d36ad10f64f3404dca21ae1a43fdde542448a4e9
+size 5363247143
diff --git a/model-00017-of-00054.safetensors b/model-00017-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..77af7df02cdc45d70cc1b4aac2fb7e62a98d6c03
--- /dev/null
+++ b/model-00017-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c00246155e177e0be2afcbcda99d56e89b8e601a77ea05eb5bf18bff66a85a5b
+size 5294546487
diff --git a/model-00018-of-00054.safetensors b/model-00018-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f8e47173358f0619a528806c4ba6e676087abb46
--- /dev/null
+++ b/model-00018-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35bcc543c57a17e1f57b5e68cdb5036aad970580ba0367f96eb5ed7bc709e028
+size 5335722962
diff --git a/model-00019-of-00054.safetensors b/model-00019-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..423574fa4a73f361d08edc3f7facbb11a9c22682
--- /dev/null
+++ b/model-00019-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a9e3cf786ccf08795d453dff901a1a74771f9283009bf63f1a34d7654bb8e1d
+size 5363247181
diff --git a/model-00020-of-00054.safetensors b/model-00020-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..05d0845855d519215d25a6e12d8dc9bb486342d9
--- /dev/null
+++ b/model-00020-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7223cc2f3abe72b3bf3da7e76577d30b5dfb2203c1f46ab2389064eed8a6f152
+size 5294546489
diff --git a/model-00021-of-00054.safetensors b/model-00021-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..fedfe583b8c9399ef27d4923aeb560444e676c51
--- /dev/null
+++ b/model-00021-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23a0a63141efd0a6b4118612dc633f810abac22e3d0d8efdd0cf71a8722ceede
+size 5335722984
diff --git a/model-00022-of-00054.safetensors b/model-00022-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2df0c63baeae2f15f5eec245f4fd7a1a51da1e09
--- /dev/null
+++ b/model-00022-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d3a295840275c5b0cf0071d2184985e742ed40eaa7d7c119254636658d8f016
+size 5363247173
diff --git a/model-00023-of-00054.safetensors b/model-00023-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..fd48b1d3cb2886fc448186e1679cd418c3d8d413
--- /dev/null
+++ b/model-00023-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:364864110ee87ebe121cf13d61cb2a6a372eaf547e49af12c7d4b7d26dc45ddc
+size 5294546481
diff --git a/model-00024-of-00054.safetensors b/model-00024-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c375d8869251b2dd1df103cd2c344eb6658986af
--- /dev/null
+++ b/model-00024-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e58c3d73ed5dff2df23c2e92f52c83c26a6c17c3afbe4dc9f283098f8b4b7207
+size 5335722908
diff --git a/model-00025-of-00054.safetensors b/model-00025-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b890cf8f8580c670d9a9a19cc470473c5d581f43
--- /dev/null
+++ b/model-00025-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6e495fb5a80895cb8b81b7560b39b94a6c38752d18cb52c1d80afb421634e47
+size 5363247193
diff --git a/model-00026-of-00054.safetensors b/model-00026-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2a1e4fa8775cb7493aae3b8c2e4e7ffaaa3ce4db
--- /dev/null
+++ b/model-00026-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa654f20c7168b9c2f50b4e039f9f069ff7b73511620ecc6f244dcfe560ab4e3
+size 5294546487
diff --git a/model-00027-of-00054.safetensors b/model-00027-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e46705e158e252eaa825fc403f99961a794fb341
--- /dev/null
+++ b/model-00027-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02489e05d453416bacdb5a9ec258ed49dfc6d7e846acffd5d22a8d533676b358
+size 5335722916
diff --git a/model-00028-of-00054.safetensors b/model-00028-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..58966088341ef5d9a1a920e320db83146028cf02
--- /dev/null
+++ b/model-00028-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5fc12fbcb7ba1a6239acbeac737488b801957a9a0509106e8be2f45a415cbf95
+size 5363247169
diff --git a/model-00029-of-00054.safetensors b/model-00029-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..fa24a5c0ed7c6437edabd880ac060ca30e1d715c
--- /dev/null
+++ b/model-00029-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65d54fa57b37bd685ebf4c3d5724ad184b401688b2c803dd67594d5618164a47
+size 5294546487
diff --git a/model-00030-of-00054.safetensors b/model-00030-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..51e227cce2ff41b901afabd54db60907e5800b51
--- /dev/null
+++ b/model-00030-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c70f38843c83f55b4ce516ee2a2c490917dde226143c3ff421f6b3e153c6f532
+size 5335722970
diff --git a/model-00031-of-00054.safetensors b/model-00031-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..28ac8505a2a52cb580ab5a9220eae1b0d5da5e3f
--- /dev/null
+++ b/model-00031-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:266742861fdceb9f54d46810c5c0fc5d60c230989ad74e7323f70f78536de6d7
+size 5363247195
diff --git a/model-00032-of-00054.safetensors b/model-00032-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..13393f9a04dd3253fc6ccd64365bfa82ff009586
--- /dev/null
+++ b/model-00032-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d93c98569bbfb4dd8c1af9f4d283adfd5c139bff3c88a4bfebffd48cb928528
+size 5294546489
diff --git a/model-00033-of-00054.safetensors b/model-00033-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5313c933513515a0381f8e5a624c206e17854065
--- /dev/null
+++ b/model-00033-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9a3738cd42ce5f03b1624ab100f870a2af04870a4c90b96d08367e4c7a46b4a
+size 5335722968
diff --git a/model-00034-of-00054.safetensors b/model-00034-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a6a65d699486ce172cbcd2a20dfa2162bfe089ea
--- /dev/null
+++ b/model-00034-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6acd6c99b4d2c25c1b7e109b26309e6b5fc83fc6e266ad27a719fdd505825fa7
+size 5363247173
diff --git a/model-00035-of-00054.safetensors b/model-00035-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..21a43895869c434ae63412991ffc20259dc47cae
--- /dev/null
+++ b/model-00035-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:929febcaa26abe331aa4d1e3aaf0e636781486d25efb870a1bd253a39a45df15
+size 5294546489
diff --git a/model-00036-of-00054.safetensors b/model-00036-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b8856498d0073d71d76472122907ec8b8aaae1f2
--- /dev/null
+++ b/model-00036-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:946a521f24b5489b0c21c204228a9940139c08792c73406c64d59c85f81f0b98
+size 5335722910
diff --git a/model-00037-of-00054.safetensors b/model-00037-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e5c1a430a5d876b5f8444b06120fdb85e0becf17
--- /dev/null
+++ b/model-00037-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd0a07f2340f8a2644f9871fd85ddb2914de56bd703a7c4f336cc1ea983dbb11
+size 5363247177
diff --git a/model-00038-of-00054.safetensors b/model-00038-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a0797de64bd4961059df1a4b70b0533bc6b480d8
--- /dev/null
+++ b/model-00038-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bd9aaa71c0e3011ee5e1153774ff71208f475bbde3f79839fae073fbbd54ebe9
+size 5294546491
diff --git a/model-00039-of-00054.safetensors b/model-00039-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e858dbe728a6205aaac4190305f27d51296a79b8
--- /dev/null
+++ b/model-00039-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:de76a40b1738565371c056365305dd04f654923d13a9912adcdece0f3fa83e0e
+size 5335722982
diff --git a/model-00040-of-00054.safetensors b/model-00040-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9eab4684d974b723c98001061470beda692d10d6
--- /dev/null
+++ b/model-00040-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb7b631b903d630b79f73ccb2d764a7830a8969f5ccb768711f826a6ceb12ea8
+size 5363247177
diff --git a/model-00041-of-00054.safetensors b/model-00041-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8aa5bc708c9a542d1429579e6892c510c37cc378
--- /dev/null
+++ b/model-00041-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55322ea59aef6410b27807253ad611732e369d2f90f322aeda8db66ecbb8cbf8
+size 5294546479
diff --git a/model-00042-of-00054.safetensors b/model-00042-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..156e581fba13854ed9a05b14f2c2b1047b9f6ba3
--- /dev/null
+++ b/model-00042-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2271b2cb7dc4f8e26df910d1ff06b0187853861b6bbd8e2c8ea536a91aa8533
+size 5335722966
diff --git a/model-00043-of-00054.safetensors b/model-00043-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..6c06b042c46a6f1215e1bd773fbcd6a5e4282d6e
--- /dev/null
+++ b/model-00043-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f28997f45c43ec45f34b30c8c1e41a0a7e5547500be9a6e9d55a31bbcd4b5fec
+size 5363247181
diff --git a/model-00044-of-00054.safetensors b/model-00044-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..07c14bc173660c06cba2ef5e72050941c9841e98
--- /dev/null
+++ b/model-00044-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:353d1aab366d8693a214d9a7380c0f30d5b8d73df3cc0ad9df7dd3cc2a004138
+size 5294546447
diff --git a/model-00045-of-00054.safetensors b/model-00045-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e04fb27f09eb79fbd528e197aefbb3985deef121
--- /dev/null
+++ b/model-00045-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1cd4c5e00e11a4804b7aeffe52bf3b6d51ad1ab4df44ca951c7fff06624876f1
+size 5335722978
diff --git a/model-00046-of-00054.safetensors b/model-00046-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..6b243f4949189b3011e318f6c6144f72990f20ae
--- /dev/null
+++ b/model-00046-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:344ef896e465efc615c1d8f8781b7c493101af3443520f76d0a9d06365c29e94
+size 5363247189
diff --git a/model-00047-of-00054.safetensors b/model-00047-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c3252a3986ddd4a1747d5e22e1aed1c48e5fd7a9
--- /dev/null
+++ b/model-00047-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32ebde2a1f984e89b80c1185dae37d406b0865fa13917920b80021cff9e7a0f1
+size 5294546487
diff --git a/model-00048-of-00054.safetensors b/model-00048-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..6b39dde640b2b0d0ee4bdadb5fb4ba852baada82
--- /dev/null
+++ b/model-00048-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97e97c07eba6d7943c278e0aee8cbb9ac3a58217ded7a3b26a5998570cf3eb7b
+size 5335722980
diff --git a/model-00049-of-00054.safetensors b/model-00049-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c7d2510f8789b77f8e5bd9b6fae437c1f976ee58
--- /dev/null
+++ b/model-00049-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:636b90c616bb517f5e76ae79b032728eb4ba33ac14a4887d19efc41ab7642ee3
+size 5363247191
diff --git a/model-00050-of-00054.safetensors b/model-00050-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..3a96606a6fade22843a08fdd90256e0fac975d9c
--- /dev/null
+++ b/model-00050-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fce88f7cc84919910b469234035babd49f64cedf971610eafd1c52278e24f3d
+size 5294546489
diff --git a/model-00051-of-00054.safetensors b/model-00051-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..5e93366893f1238faadac2f06fcdb1cac4d411ca
--- /dev/null
+++ b/model-00051-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bbf42c9121a2cca4a14e0dfd2be47d99381d6a876cf073a47d233e0009fb5082
+size 5335722964
diff --git a/model-00052-of-00054.safetensors b/model-00052-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a917e592f247fa9141d977230191e07a5fbe1888
--- /dev/null
+++ b/model-00052-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:610709894676e3c2caa146d799f7d673eeae6d107fc10efa2ca719e52536b6f4
+size 5363247191
diff --git a/model-00053-of-00054.safetensors b/model-00053-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..e2b1b28fdd3b33f6691475edebd8a9eea41722e8
--- /dev/null
+++ b/model-00053-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08f50dd879a876637344ceb9d9de21c8e3aeba88ee4eaa34497a876167bfccee
+size 5294546487
diff --git a/model-00054-of-00054.safetensors b/model-00054-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..348a96a5b0d2212858a8b535a1f3e5ebe4fd7fb5
--- /dev/null
+++ b/model-00054-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c60d9da765d46d13e8d7eaa81e84d442e4587713a74745eec0433fd7d4bcc8d7
+size 4872362644
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..e3c83201499eb9ea25e90dfe2fb1df03a8860d38
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,3570 @@
+{
+    "metadata": {
+        "total_size": 286737579648,
+        "total_parameters": 352797829024
+    },
+    "weight_map": {
+        "lm_head.biases": "model-00054-of-00054.safetensors",
+        "lm_head.scales": "model-00054-of-00054.safetensors",
+        "lm_head.weight": "model-00054-of-00054.safetensors",
+        "model.embed_tokens.biases": "model-00001-of-00054.safetensors",
+        "model.embed_tokens.scales": "model-00001-of-00054.safetensors",
+        "model.embed_tokens.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.10.input_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.gate.e_score_correction_bias": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.gate.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.post_attention_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.self_attn.k_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.11.input_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.gate.e_score_correction_bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.gate.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.post_attention_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.input_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.gate.e_score_correction_bias": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.gate.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.self_attn.k_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.13.input_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.gate.e_score_correction_bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.gate.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.post_attention_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_norm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_norm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.input_layernorm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.gate.e_score_correction_bias": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.gate.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.post_attention_layernorm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.k_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.q_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.15.input_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.gate.e_score_correction_bias": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.gate.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.post_attention_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.self_attn.k_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.16.input_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.gate.e_score_correction_bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.gate.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.post_attention_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.input_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.gate.e_score_correction_bias": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.gate.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.post_attention_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.self_attn.k_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.18.input_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.gate.e_score_correction_bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.gate.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.post_attention_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_norm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_norm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.input_layernorm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.gate.e_score_correction_bias": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.gate.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.post_attention_layernorm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.k_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.q_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.2.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.20.input_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.gate.e_score_correction_bias": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.gate.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.post_attention_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.self_attn.k_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.21.input_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.gate.e_score_correction_bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.gate.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.post_attention_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.input_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.gate.e_score_correction_bias": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.gate.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.post_attention_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.self_attn.k_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.23.input_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.gate.e_score_correction_bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.gate.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.post_attention_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_norm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_norm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.input_layernorm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.gate.e_score_correction_bias": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.gate.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.post_attention_layernorm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.k_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.q_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.gate.e_score_correction_bias": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.gate.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.self_attn.k_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.26.input_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.gate.e_score_correction_bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.gate.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.post_attention_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.input_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.gate.e_score_correction_bias": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.gate.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.post_attention_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.self_attn.k_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.gate.e_score_correction_bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.gate.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_norm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_norm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.input_layernorm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.gate.e_score_correction_bias": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.gate.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.post_attention_layernorm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.k_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.q_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.3.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.gate.e_score_correction_bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.gate.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.30.input_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.gate.e_score_correction_bias": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.gate.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.post_attention_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.self_attn.k_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.31.input_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.gate.e_score_correction_bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.gate.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.post_attention_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.input_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.gate.e_score_correction_bias": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.gate.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.post_attention_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.self_attn.k_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.33.input_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.gate.e_score_correction_bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.gate.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.post_attention_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_norm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_norm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.input_layernorm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.gate.e_score_correction_bias": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.gate.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.post_attention_layernorm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.k_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.q_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.35.input_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.gate.e_score_correction_bias": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.gate.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.post_attention_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.self_attn.k_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.36.input_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.gate.e_score_correction_bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.gate.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.post_attention_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.input_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.gate.e_score_correction_bias": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.gate.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.post_attention_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.self_attn.k_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.38.input_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.gate.e_score_correction_bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.gate.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.post_attention_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_norm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_norm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.input_layernorm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.gate.e_score_correction_bias": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.gate.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.post_attention_layernorm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.k_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.q_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.4.input_layernorm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.gate.e_score_correction_bias": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.gate.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.40.input_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.gate.e_score_correction_bias": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.gate.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.post_attention_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.self_attn.k_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.41.input_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.gate.e_score_correction_bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.gate.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.post_attention_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.input_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.gate.e_score_correction_bias": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.gate.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.post_attention_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.self_attn.k_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.43.input_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.gate.e_score_correction_bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.gate.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.post_attention_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_norm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_norm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.input_layernorm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.gate.e_score_correction_bias": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.gate.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.post_attention_layernorm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.k_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.q_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.45.input_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.gate.e_score_correction_bias": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.gate.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.post_attention_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.self_attn.k_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.46.input_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.gate.e_score_correction_bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.gate.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.post_attention_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.input_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.gate.e_score_correction_bias": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.gate.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.post_attention_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.self_attn.k_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.48.input_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.gate.e_score_correction_bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.gate.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.post_attention_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_norm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_norm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.input_layernorm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.gate.e_score_correction_bias": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.gate.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.post_attention_layernorm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.k_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.q_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.5.input_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.gate.e_score_correction_bias": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.gate.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.self_attn.k_norm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_norm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.50.input_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.gate.e_score_correction_bias": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.gate.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.post_attention_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.self_attn.k_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.51.input_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.gate.e_score_correction_bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.gate.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.post_attention_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.input_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.gate.e_score_correction_bias": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.gate.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.post_attention_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.self_attn.k_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.53.input_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.gate.e_score_correction_bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.gate.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.post_attention_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_norm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_norm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.input_layernorm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.gate.e_score_correction_bias": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.gate.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.post_attention_layernorm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.k_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.q_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.55.input_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.gate.e_score_correction_bias": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.gate.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.post_attention_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.self_attn.k_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.56.input_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.gate.e_score_correction_bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.gate.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.post_attention_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.input_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.gate.e_score_correction_bias": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.gate.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.post_attention_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.self_attn.k_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.58.input_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.gate.e_score_correction_bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.gate.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.post_attention_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_norm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_norm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.input_layernorm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.gate.e_score_correction_bias": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.gate.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.post_attention_layernorm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.k_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.q_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.6.input_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.gate.e_score_correction_bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.gate.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.60.input_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.gate.e_score_correction_bias": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.gate.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.post_attention_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.self_attn.k_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.61.input_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.gate.e_score_correction_bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.gate.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.post_attention_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.input_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.gate.e_score_correction_bias": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.gate.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.post_attention_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.self_attn.k_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.63.input_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.gate.e_score_correction_bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.gate.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.post_attention_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_norm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_norm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.input_layernorm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.gate.e_score_correction_bias": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.gate.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.post_attention_layernorm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.k_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.q_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.65.input_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.gate.e_score_correction_bias": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.gate.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.post_attention_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.self_attn.k_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.66.input_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.gate.e_score_correction_bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.gate.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.post_attention_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.input_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.gate.e_score_correction_bias": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.gate.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.post_attention_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.self_attn.k_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.68.input_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.gate.e_score_correction_bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.gate.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.post_attention_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_norm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_norm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.input_layernorm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.gate.e_score_correction_bias": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.gate.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.post_attention_layernorm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.k_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.q_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.7.input_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.gate.e_score_correction_bias": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.gate.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.post_attention_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.self_attn.k_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.70.input_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.gate.e_score_correction_bias": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.gate.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.post_attention_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.self_attn.k_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.71.input_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.gate.e_score_correction_bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.gate.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.post_attention_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.input_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.gate.e_score_correction_bias": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.gate.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.post_attention_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.self_attn.k_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.73.input_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.gate.e_score_correction_bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.gate.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.post_attention_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_norm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_norm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.input_layernorm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.gate.e_score_correction_bias": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.gate.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.post_attention_layernorm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.k_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.q_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.75.input_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.gate.e_score_correction_bias": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.gate.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.post_attention_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.self_attn.k_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.76.input_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.gate.e_score_correction_bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.gate.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.post_attention_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.input_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.gate.e_score_correction_bias": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.gate.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.post_attention_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.self_attn.k_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.78.input_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.gate.e_score_correction_bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.gate.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.post_attention_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_norm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_norm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.input_layernorm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.gate.e_score_correction_bias": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.gate.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.post_attention_layernorm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.k_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.q_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.8.input_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.gate.e_score_correction_bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.gate.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.post_attention_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_norm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_norm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.80.input_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.gate.e_score_correction_bias": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.gate.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.post_attention_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.self_attn.k_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.81.input_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.gate.e_score_correction_bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.gate.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.post_attention_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.input_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.gate.e_score_correction_bias": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.gate.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.post_attention_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.self_attn.k_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.83.input_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.gate.e_score_correction_bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.gate.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.post_attention_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_norm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_norm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.input_layernorm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.gate.e_score_correction_bias": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.gate.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.post_attention_layernorm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.k_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.q_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.85.input_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.gate.e_score_correction_bias": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.gate.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.post_attention_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.self_attn.k_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.86.input_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.gate.e_score_correction_bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.gate.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.post_attention_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.input_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.gate.e_score_correction_bias": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.gate.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.post_attention_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.self_attn.k_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.88.input_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.gate.e_score_correction_bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.gate.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.post_attention_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_norm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_norm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.input_layernorm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.gate.e_score_correction_bias": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.gate.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.post_attention_layernorm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.k_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.q_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.9.input_layernorm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.gate.e_score_correction_bias": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.gate.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.post_attention_layernorm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.k_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.q_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.90.input_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.gate.e_score_correction_bias": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.gate.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.post_attention_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.self_attn.k_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.91.input_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.gate.e_score_correction_bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.gate.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.post_attention_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_norm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_norm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.weight": "model-00054-of-00054.safetensors",
+        "model.norm.weight": "model-00054-of-00054.safetensors"
+    }
+}
\ No newline at end of file
diff --git a/special_tokens_map.json b/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..9028cf84013844f17d7616bdec1d88e977924434
--- /dev/null
+++ b/special_tokens_map.json
@@ -0,0 +1,40 @@
+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "[MASK]",
+    "[gMASK]",
+    "[sMASK]",
+    "<sop>",
+    "<eop>",
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|observation|>",
+    "<|begin_of_image|>",
+    "<|end_of_image|>",
+    "<|begin_of_video|>",
+    "<|end_of_video|>",
+    "<|begin_of_audio|>",
+    "<|end_of_audio|>",
+    "<|begin_of_transcription|>",
+    "<|end_of_transcription|>",
+    "<|code_prefix|>",
+    "<|code_middle|>",
+    "<|code_suffix|>",
+    "/nothink"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/tokenizer.json b/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..e3ed3c66baf1ec4de61840b0abf02142687bfed8
--- /dev/null
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bda8e2146c3bb7b7e0fc96dcc4f0aeff041c6c27952e3ace0665663ebff346ba
+size 19970700
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..053f12c9b03d5acbcc921042ea0c87a6baa5d3f7
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,325 @@
+{
+  "added_tokens_decoder": {
+    "151329": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151330": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151331": {
+      "content": "[gMASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151332": {
+      "content": "[sMASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151333": {
+      "content": "<sop>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151334": {
+      "content": "<eop>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151335": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151336": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151337": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151338": {
+      "content": "<|observation|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151339": {
+      "content": "<|begin_of_image|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151340": {
+      "content": "<|end_of_image|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151341": {
+      "content": "<|begin_of_video|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151342": {
+      "content": "<|end_of_video|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151343": {
+      "content": "<|begin_of_audio|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151344": {
+      "content": "<|end_of_audio|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151345": {
+      "content": "<|begin_of_transcription|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151346": {
+      "content": "<|end_of_transcription|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151347": {
+      "content": "<|code_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151348": {
+      "content": "<|code_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151349": {
+      "content": "<|code_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151350": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151351": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151352": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151353": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151354": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151355": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151356": {
+      "content": "<arg_key>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151357": {
+      "content": "</arg_key>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151358": {
+      "content": "<arg_value>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151359": {
+      "content": "</arg_value>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151360": {
+      "content": "/nothink",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151361": {
+      "content": "<|begin_of_box|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151362": {
+      "content": "<|end_of_box|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151363": {
+      "content": "<|image|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151364": {
+      "content": "<|video|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "[MASK]",
+    "[gMASK]",
+    "[sMASK]",
+    "<sop>",
+    "<eop>",
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|observation|>",
+    "<|begin_of_image|>",
+    "<|end_of_image|>",
+    "<|begin_of_video|>",
+    "<|end_of_video|>",
+    "<|begin_of_audio|>",
+    "<|end_of_audio|>",
+    "<|begin_of_transcription|>",
+    "<|end_of_transcription|>",
+    "<|code_prefix|>",
+    "<|code_middle|>",
+    "<|code_suffix|>",
+    "/nothink"
+  ],
+  "clean_up_tokenization_spaces": false,
+  "do_lower_case": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 128000,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "remove_space": false,
+  "tokenizer_class": "PreTrainedTokenizer"
+}