diff --git a/.gitattributes b/.gitattributes
index a6344aac8c09253b3b630fb776ae94478aa0275b..52373fe24473b1aa44333d318f578ae6bf04b49b 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/README.md b/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..55b0d739e43abe9b990c0f261433e64684a39b06
--- /dev/null
+++ b/README.md
@@ -0,0 +1,39 @@
+---
+language:
+- en
+- zh
+library_name: mlx
+license: mit
+pipeline_tag: text-generation
+tags:
+- mlx
+base_model: zai-org/GLM-4.7
+---
+
+# mlx-community/GLM-4.7-6bit
+
+This model [mlx-community/GLM-4.7-6bit](https://huggingface.co/mlx-community/GLM-4.7-6bit) was
+converted to MLX format from [zai-org/GLM-4.7](https://huggingface.co/zai-org/GLM-4.7)
+using mlx-lm version **0.30.0**.
+
+## Use with mlx
+
+```bash
+pip install mlx-lm
+```
+
+```python
+from mlx_lm import load, generate
+
+model, tokenizer = load("mlx-community/GLM-4.7-6bit")
+
+prompt = "hello"
+
+if tokenizer.chat_template is not None:
+    messages = [{"role": "user", "content": prompt}]
+    prompt = tokenizer.apply_chat_template(
+        messages, add_generation_prompt=True, return_dict=False,
+    )
+
+response = generate(model, tokenizer, prompt=prompt, verbose=True)
+```
diff --git a/chat_template.jinja b/chat_template.jinja
new file mode 100644
index 0000000000000000000000000000000000000000..2ab98ef068d62829d17c5ade1827b9f013fa2bbf
--- /dev/null
+++ b/chat_template.jinja
@@ -0,0 +1,86 @@
+[gMASK]<sop>
+{%- if tools -%}
+<|system|>
+# Tools
+
+You may call one or more functions to assist with the user query.
+
+You are provided with function signatures within <tools></tools> XML tags:
+<tools>
+{% for tool in tools %}
+{{ tool | tojson(ensure_ascii=False) }}
+{% endfor %}
+</tools>
+
+For each function call, output the function name and arguments within the following XML format:
+<tool_call>{function-name}<arg_key>{arg-key-1}</arg_key><arg_value>{arg-value-1}</arg_value><arg_key>{arg-key-2}</arg_key><arg_value>{arg-value-2}</arg_value>...</tool_call>{%- endif -%}
+{%- macro visible_text(content) -%}
+    {%- if content is string -%}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping -%}
+        {%- for item in content -%}
+            {%- if item is mapping and item.type == 'text' -%}
+                {{- item.text }}
+            {%- elif item is string -%}
+                {{- item }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{- content }}
+    {%- endif -%}
+{%- endmacro -%}
+{%- set ns = namespace(last_user_index=-1) %}
+{%- for m in messages %}
+    {%- if m.role == 'user' %}
+        {% set ns.last_user_index = loop.index0 -%}
+    {%- endif %}
+{%- endfor %}
+{% for m in messages %}
+{%- if m.role == 'user' -%}<|user|>{{ visible_text(m.content) }}
+{%- elif m.role == 'assistant' -%}
+<|assistant|>
+{%- set reasoning_content = '' %}
+{%- set content = visible_text(m.content) %}
+{%- if m.reasoning_content is string %}
+    {%- set reasoning_content = m.reasoning_content %}
+{%- else %}
+    {%- if '</think>' in content %}
+        {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+        {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+    {%- endif %}
+{%- endif %}
+{%- if ((clear_thinking is defined and not clear_thinking) or loop.index0 > ns.last_user_index) and reasoning_content -%}
+{{ '<think>' + reasoning_content.strip() +  '</think>'}}
+{%- else -%}
+{{ '</think>' }}
+{%- endif -%}
+{%- if content.strip() -%}
+{{ content.strip() }}
+{%- endif -%}
+{% if m.tool_calls %}
+{% for tc in m.tool_calls %}
+{%- if tc.function %}
+    {%- set tc = tc.function %}
+{%- endif %}
+{{- '<tool_call>' + tc.name -}}
+{% set _args = tc.arguments %}{% for k, v in _args.items() %}<arg_key>{{ k }}</arg_key><arg_value>{{ v | tojson(ensure_ascii=False) if v is not string else v }}</arg_value>{% endfor %}</tool_call>{% endfor %}
+{% endif %}
+{%- elif m.role == 'tool' -%}
+{%- if m.content is string -%}
+{%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+    {{- '<|observation|>' }}
+{%- endif %}
+{{- '<tool_response>' }}
+{{- m.content }}
+{{- '</tool_response>' }}
+{%- else -%}
+<|observation|>{% for tr in m.content %}
+<tool_response>{{ tr.output if tr.output is defined else tr }}</tool_response>{% endfor -%}
+{% endif -%}
+{%- elif m.role == 'system' -%}
+<|system|>{{ visible_text(m.content) }}
+{%- endif -%}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    <|assistant|>{{- '</think>' if (enable_thinking is defined and not enable_thinking) else '<think>' -}}
+{%- endif -%}
\ No newline at end of file
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..4deb71e07197d85dca751135bbdf2a96cffcd3be
--- /dev/null
+++ b/config.json
@@ -0,0 +1,53 @@
+{
+    "architectures": [
+        "Glm4MoeForCausalLM"
+    ],
+    "attention_bias": true,
+    "attention_dropout": 0.0,
+    "eos_token_id": [
+        151329,
+        151336,
+        151338
+    ],
+    "first_k_dense_replace": 3,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 202752,
+    "model_type": "glm4_moe",
+    "moe_intermediate_size": 1536,
+    "n_group": 1,
+    "n_routed_experts": 160,
+    "n_shared_experts": 1,
+    "norm_topk_prob": true,
+    "num_attention_heads": 96,
+    "num_experts_per_tok": 8,
+    "num_hidden_layers": 92,
+    "num_key_value_heads": 8,
+    "num_nextn_predict_layers": 1,
+    "pad_token_id": 151329,
+    "partial_rotary_factor": 0.5,
+    "quantization": {
+        "group_size": 64,
+        "bits": 6,
+        "mode": "affine"
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 6,
+        "mode": "affine"
+    },
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "routed_scaling_factor": 2.5,
+    "tie_word_embeddings": false,
+    "topk_group": 1,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.54.0",
+    "use_cache": true,
+    "use_qk_norm": true,
+    "vocab_size": 151552
+}
\ No newline at end of file
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..f51194759eb31dde6fbc75a28e3fb7036f68161a
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,11 @@
+{
+  "_from_model_config": true,
+  "eos_token_id": [
+    151329,
+    151336,
+    151338
+  ],
+  "pad_token_id": 151329,
+  "temperature": 1.0,
+  "transformers_version": "4.56.2"
+}
diff --git a/model-00002-of-00054.safetensors b/model-00002-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b0433b4637026fc0c18d1e24f6b0b8e9be13c6fd
--- /dev/null
+++ b/model-00002-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16cff14342a73215785386f084bcfea05096744249d93c67f2603449bf934038
+size 5243427265
diff --git a/model-00003-of-00054.safetensors b/model-00003-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9d008ccb87bd7524a103d5c9ac82fbddbceda6b5
--- /dev/null
+++ b/model-00003-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57d13e3f9907858575e78755c026dc45f14056b9ebe336deee7ca6bf83930cc1
+size 5335722898
diff --git a/model-00004-of-00054.safetensors b/model-00004-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8e414c1dadc43e6be052f409e6f9599986679cef
--- /dev/null
+++ b/model-00004-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c8d3d3bec55a85884f05ddfd2dd187eabfb74eaf8ea9542b72396dbe0d151df
+size 5363247106
diff --git a/model-00006-of-00054.safetensors b/model-00006-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b13310cab719cf0920b79c1f291e95c75bcdd410
--- /dev/null
+++ b/model-00006-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ef338aaa8cf218d5f648115bf1204f815fa2c6c88f40f55eb438ea0e6d8b1ecc
+size 5335722946
diff --git a/model-00007-of-00054.safetensors b/model-00007-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..62eefc0ee4cb2f604bc1ef321722028468305c6f
--- /dev/null
+++ b/model-00007-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5dd587719b9421c932c73c5e263f4579ccb05a5a7e3a91e21b4d52e25340974c
+size 5363247185
diff --git a/model-00008-of-00054.safetensors b/model-00008-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..23a7adfe3d75b190631dc43390274cc55b1af688
--- /dev/null
+++ b/model-00008-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3498245aa6744b6d64566441ab494607093fdeb6d0fe51fb74a7025dafd928c5
+size 5294546451
diff --git a/model-00009-of-00054.safetensors b/model-00009-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..67d5cc29d29223fc9e681e9c9645e9d5c0bca354
--- /dev/null
+++ b/model-00009-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04fda13d3e57c622e9ac35327a53f984a66a1219e2c57a00bff2f33c72742d5a
+size 5335722966
diff --git a/model-00010-of-00054.safetensors b/model-00010-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2783d96ea48b4b5723934e3d6bab061b7fd12418
--- /dev/null
+++ b/model-00010-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b482d3aa9eeff6f0d2c86e7793efec28dd51dfeac9248a99cbe29191cbc7014f
+size 5363247163
diff --git a/model-00011-of-00054.safetensors b/model-00011-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ca226fb4d2a756aa24280533e3dea68a67bef722
--- /dev/null
+++ b/model-00011-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ebad2f19c928199551d31a2d36a1ddd184f360fc18391817dc33d4cc8543f0d
+size 5294546461
diff --git a/model-00012-of-00054.safetensors b/model-00012-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..7dfb2af7675507897f393231745c75d2c6ccbfd3
--- /dev/null
+++ b/model-00012-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4c5263fe261d802099517e827a0f869e9149708259d32068a454cd19814992d5
+size 5335722940
diff --git a/model-00013-of-00054.safetensors b/model-00013-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..15d2e07872ad4547a3c66eb0159bda432a6511fd
--- /dev/null
+++ b/model-00013-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91be41def32e80c28abc041dc02b1005b998b31fc60897530a5f6fa4e69d6f79
+size 5363247197
diff --git a/model-00014-of-00054.safetensors b/model-00014-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..b4e7c3885af73a7b7ef88429967eb0502e5db0f3
--- /dev/null
+++ b/model-00014-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07544e0672e33e61b199ef8e9bd450330da0b5ea6641573bcab391c8e8364767
+size 5294546487
diff --git a/model-00015-of-00054.safetensors b/model-00015-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..0d71aeed9004615b28dd2872ff3f3a7d6d70ed95
--- /dev/null
+++ b/model-00015-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92b207ad4820e6ccce1b27dc7a9ac48f7953c61e9726b80478db88286693cbb8
+size 5335722976
diff --git a/model-00016-of-00054.safetensors b/model-00016-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..af1c4cd2264f9235c8032ee8f4d6d2fb642b8dde
--- /dev/null
+++ b/model-00016-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6269884e26c7ddb76faeeb7915c5ed07add2995cff66417565d5cc691136779
+size 5363247143
diff --git a/model-00017-of-00054.safetensors b/model-00017-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..4f650442b149916083f0f27600a3e4f03cd68c81
--- /dev/null
+++ b/model-00017-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3c9239ab6dc19e61db7b26fe2a48b6b874fda236a6cae7cee55b3a101b0a86d
+size 5294546487
diff --git a/model-00018-of-00054.safetensors b/model-00018-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f0f6cd49dbd9352598653638feed928b8332db5e
--- /dev/null
+++ b/model-00018-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b53abbfadd78f8e5c52df1a446ebb9674efde733144b4a69f113dd2f869a03f2
+size 5335722962
diff --git a/model-00019-of-00054.safetensors b/model-00019-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..7c8d66d82f40b6642aca31186f843b93cca5197c
--- /dev/null
+++ b/model-00019-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:de295008567e4fba618215efe94f0fb0a6d9f819d3b1bf8a7657d1728bebc048
+size 5363247181
diff --git a/model-00020-of-00054.safetensors b/model-00020-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..78df65b761723ee7ca1921ee743dd9e3a0876f71
--- /dev/null
+++ b/model-00020-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc18e2be69114e24e504c9f065eb90af1bc74cc1cdd738920284567b94bb3397
+size 5294546489
diff --git a/model-00021-of-00054.safetensors b/model-00021-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f2d10217dbca4da78e874bc0f1b74605efcf2385
--- /dev/null
+++ b/model-00021-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9de19d6903d8e89d40a4abd46de45e6ceb04f0f0609f2fbc7916f68b12090401
+size 5335722984
diff --git a/model-00022-of-00054.safetensors b/model-00022-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..d7463225754a9c1343439bfe34126d7c37a5076a
--- /dev/null
+++ b/model-00022-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a77f10ce0bfea2c0d734884cdfccb96b3a04b8e9e043b5617a191f368fd6afcf
+size 5363247173
diff --git a/model-00023-of-00054.safetensors b/model-00023-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..8c2605d868fdbf30c487378590654a182addda2a
--- /dev/null
+++ b/model-00023-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:40959bfaaca793f4f46f39193f0e1f1b39643a7c1c5619398629cb77b0b4ab3a
+size 5294546481
diff --git a/model-00024-of-00054.safetensors b/model-00024-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..bf67f69d99f6bd58c07516205ea5e41a1ed4dbc0
--- /dev/null
+++ b/model-00024-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4b5bb4fd1adbe38762b98583c2d1eeb60652443317098a70d5d2ee6545faba71
+size 5335722908
diff --git a/model-00026-of-00054.safetensors b/model-00026-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..ca50ff9e5cd47d3b50d449d4470ad1722326ee2e
--- /dev/null
+++ b/model-00026-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ea07b8d473026f03da3e9301d863f192fb311d1de2c9dba342aa3058a5721e1
+size 5294546487
diff --git a/model-00027-of-00054.safetensors b/model-00027-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..56f292f3e2138ea47a174fe0ce166d1e7b3649ac
--- /dev/null
+++ b/model-00027-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f82a8aaa511a46c3d3f5658a15ea72a3fe2a6965913f6a7d94229610f736bc6
+size 5335722916
diff --git a/model-00028-of-00054.safetensors b/model-00028-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..46cf5449394484d8f79a58d6ed5fd7ed42b71547
--- /dev/null
+++ b/model-00028-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4e48cd5cbe62aaaf6f8b6422170b50d2b5b0cf3b70139cc56154337db350bc6
+size 5363247169
diff --git a/model-00029-of-00054.safetensors b/model-00029-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..45cfbdcd1e1641f5b890aa0c6eff7c2a63628969
--- /dev/null
+++ b/model-00029-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0ee55ba3fae6545f5a68e9ee6510178d4f599ceeb5a39943087374fedc639188
+size 5294546487
diff --git a/model-00030-of-00054.safetensors b/model-00030-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c7fdc43e92fdd81c8042b85b1d258a4b3302cabb
--- /dev/null
+++ b/model-00030-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a26798c517ea5ede4304cbd3064faf03611266a1830d7d2ea5e3eb0a95401bb0
+size 5335722970
diff --git a/model-00031-of-00054.safetensors b/model-00031-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..723e8421e1cfc192c9035b40d25d33550529931d
--- /dev/null
+++ b/model-00031-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f444a554f8ccd8ad7ea3e3df7b04c4f0dee7ecf350d467ef4767f5cc4d110719
+size 5363247195
diff --git a/model-00032-of-00054.safetensors b/model-00032-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..7eebeafe9bdf964fcbf0bce08f105f53281b7f0a
--- /dev/null
+++ b/model-00032-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:15e3b5ea6f1cd53b160e204439fc429ab634969ead68ae76ce7ca21a5f2c1efb
+size 5294546489
diff --git a/model-00034-of-00054.safetensors b/model-00034-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..f0a182122f35ba03d31f2e43651c6ba1600cf443
--- /dev/null
+++ b/model-00034-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae0330166efef028d3ac3cf345154b4a390a62cbb4ffcaeea9128f97d3ccdea7
+size 5363247173
diff --git a/model-00035-of-00054.safetensors b/model-00035-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9b5c32a4e5b19a818efc5a3492d80c0009c1922b
--- /dev/null
+++ b/model-00035-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3fef0e8e8691d187731cd0afeb0ebb3036412e08f59220831d2075240b38e33e
+size 5294546489
diff --git a/model-00038-of-00054.safetensors b/model-00038-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..3ae7bdb79cb03d863fe6ae11ad76f134a72ebd22
--- /dev/null
+++ b/model-00038-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6355f5e524f07a32795e150eff92a0d55fa1210b43d7ac73c57b0337bc4b96ad
+size 5294546491
diff --git a/model-00042-of-00054.safetensors b/model-00042-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..d57152b7db8add7f97b87e05025b35de459a4d97
--- /dev/null
+++ b/model-00042-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f3399914f2a7c46ec67ab9bb4f6fb9cfd71463d7b5c07027b9ce1a1c21e16a4
+size 5335722966
diff --git a/model-00043-of-00054.safetensors b/model-00043-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9f6332d43ee100b8ffd672d0a22b84642a61d21a
--- /dev/null
+++ b/model-00043-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:80df53cbea6326c2f4a2005ecb958acd067baf5db63977aede74dbe257b3e1f1
+size 5363247181
diff --git a/model-00046-of-00054.safetensors b/model-00046-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..c60401841934f308df22545abee3709617bc5cda
--- /dev/null
+++ b/model-00046-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a3626697d635fd2f2747d3a13dfd8bb608d5b5b39702050feefb5d1cacc9232
+size 5363247189
diff --git a/model-00047-of-00054.safetensors b/model-00047-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..76f22530bcb1cc87757c91bfacc044bd9ccedba4
--- /dev/null
+++ b/model-00047-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43a8e1ff778ff3bd40d1a8602c8223ea4493f1176f21640c078e0e056ecb927d
+size 5294546487
diff --git a/model-00048-of-00054.safetensors b/model-00048-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..2cf308ecb674495cf60cae0b4c2f6c674178a873
--- /dev/null
+++ b/model-00048-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a51694daa3cd400c0a92791f0fa6f7fdba0bd42387ce175f0c150d82520f5b0e
+size 5335722980
diff --git a/model-00049-of-00054.safetensors b/model-00049-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..a18ea4bc10d5bd0ade2ab3c4bb584852805e09fa
--- /dev/null
+++ b/model-00049-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e281c4dbce65d5be4e21738ca71937b6b6e6a4a8173e75c2b58bb9488c7d9d2
+size 5363247191
diff --git a/model-00050-of-00054.safetensors b/model-00050-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..9e35da335ab28194685abcb78136e148a05ef059
--- /dev/null
+++ b/model-00050-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4da73ace5db626fd95107920d007f57c1c31f5b70b77fa761b762efcdd48ea5
+size 5294546489
diff --git a/model-00051-of-00054.safetensors b/model-00051-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..53a07b1c8382ef34ce4e7f373736c290ca0d221b
--- /dev/null
+++ b/model-00051-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04d3fad814de524e893eb81ace86f39cacfcc13bcd2cd9a8d75116df527dd0d8
+size 5335722964
diff --git a/model-00052-of-00054.safetensors b/model-00052-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..55bbea93f913ffe684bb9e4fa6d1462500b140e2
--- /dev/null
+++ b/model-00052-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c3479ae96793c605bd438715f2f4d3731011f4df5e7492ea2f8e1a2e50fd333
+size 5363247191
diff --git a/model-00053-of-00054.safetensors b/model-00053-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..23be8ba83563a4ba0fbb50b686bdbba64d2f9215
--- /dev/null
+++ b/model-00053-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ba2c0301e7c6fa8250e83273f6c847e833f1d2752c57263759b8a0246bf08de
+size 5294546487
diff --git a/model-00054-of-00054.safetensors b/model-00054-of-00054.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..47993dc8cdbabe612199918f490a9ae96b622d27
--- /dev/null
+++ b/model-00054-of-00054.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f585ff4ee2be8d87975f1e74e9bc09275df220027924c23ea05ef69eef8e49c4
+size 4872362644
diff --git a/model.safetensors.index.json b/model.safetensors.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..e3c83201499eb9ea25e90dfe2fb1df03a8860d38
--- /dev/null
+++ b/model.safetensors.index.json
@@ -0,0 +1,3570 @@
+{
+    "metadata": {
+        "total_size": 286737579648,
+        "total_parameters": 352797829024
+    },
+    "weight_map": {
+        "lm_head.biases": "model-00054-of-00054.safetensors",
+        "lm_head.scales": "model-00054-of-00054.safetensors",
+        "lm_head.weight": "model-00054-of-00054.safetensors",
+        "model.embed_tokens.biases": "model-00001-of-00054.safetensors",
+        "model.embed_tokens.scales": "model-00001-of-00054.safetensors",
+        "model.embed_tokens.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.10.input_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.gate.e_score_correction_bias": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.gate.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.shared_experts.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.mlp.switch_mlp.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.post_attention_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.10.self_attn.k_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.k_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.o_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.q_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.bias": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.10.self_attn.v_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.11.input_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.gate.e_score_correction_bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.gate.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.shared_experts.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.down_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.mlp.switch_mlp.up_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.post_attention_layernorm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.k_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.o_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.q_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.11.self_attn.v_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.input_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.gate.e_score_correction_bias": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.gate.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.shared_experts.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.gate_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.12.mlp.switch_mlp.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.12.self_attn.k_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_norm.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.bias": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.biases": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.scales": "model-00006-of-00054.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model-00006-of-00054.safetensors",
+        "model.layers.13.input_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.gate.e_score_correction_bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.gate.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.shared_experts.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.down_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.gate_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.mlp.switch_mlp.up_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.post_attention_layernorm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_norm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.k_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.o_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_norm.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.q_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.13.self_attn.v_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.input_layernorm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.gate.e_score_correction_bias": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.gate.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.down_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.shared_experts.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.down_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.mlp.switch_mlp.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.post_attention_layernorm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.k_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.k_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.o_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.q_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.q_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.bias": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.biases": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.scales": "model-00007-of-00054.safetensors",
+        "model.layers.14.self_attn.v_proj.weight": "model-00007-of-00054.safetensors",
+        "model.layers.15.input_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.gate.e_score_correction_bias": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.gate.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.shared_experts.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.gate_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.mlp.switch_mlp.up_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.post_attention_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.15.self_attn.k_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.k_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.o_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_norm.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.q_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.bias": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.biases": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.scales": "model-00008-of-00054.safetensors",
+        "model.layers.15.self_attn.v_proj.weight": "model-00008-of-00054.safetensors",
+        "model.layers.16.input_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.gate.e_score_correction_bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.gate.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.shared_experts.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.down_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.mlp.switch_mlp.up_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.post_attention_layernorm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.k_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.o_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.q_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.16.self_attn.v_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.input_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.gate.e_score_correction_bias": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.gate.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.shared_experts.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.gate_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.17.mlp.switch_mlp.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.post_attention_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.17.self_attn.k_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.k_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.o_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_norm.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.q_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.bias": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.biases": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.scales": "model-00009-of-00054.safetensors",
+        "model.layers.17.self_attn.v_proj.weight": "model-00009-of-00054.safetensors",
+        "model.layers.18.input_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.gate.e_score_correction_bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.gate.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.shared_experts.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.down_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.gate_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.mlp.switch_mlp.up_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.post_attention_layernorm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_norm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.k_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.o_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_norm.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.q_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.18.self_attn.v_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.input_layernorm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.gate.e_score_correction_bias": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.gate.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.down_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.shared_experts.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.down_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.mlp.switch_mlp.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.post_attention_layernorm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.k_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.k_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.o_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.q_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.q_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.bias": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.biases": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.scales": "model-00010-of-00054.safetensors",
+        "model.layers.19.self_attn.v_proj.weight": "model-00010-of-00054.safetensors",
+        "model.layers.2.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.20.input_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.gate.e_score_correction_bias": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.gate.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.shared_experts.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.gate_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.mlp.switch_mlp.up_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.post_attention_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.20.self_attn.k_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.k_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.o_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_norm.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.q_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.bias": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.biases": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.scales": "model-00011-of-00054.safetensors",
+        "model.layers.20.self_attn.v_proj.weight": "model-00011-of-00054.safetensors",
+        "model.layers.21.input_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.gate.e_score_correction_bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.gate.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.shared_experts.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.down_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.mlp.switch_mlp.up_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.post_attention_layernorm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.k_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.o_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.q_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.21.self_attn.v_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.input_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.gate.e_score_correction_bias": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.gate.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.shared_experts.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.gate_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.22.mlp.switch_mlp.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.post_attention_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.22.self_attn.k_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.k_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.o_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_norm.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.q_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.bias": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.biases": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.scales": "model-00012-of-00054.safetensors",
+        "model.layers.22.self_attn.v_proj.weight": "model-00012-of-00054.safetensors",
+        "model.layers.23.input_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.gate.e_score_correction_bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.gate.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.shared_experts.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.down_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.gate_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.mlp.switch_mlp.up_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.post_attention_layernorm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_norm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.k_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.o_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_norm.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.q_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.23.self_attn.v_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.input_layernorm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.gate.e_score_correction_bias": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.gate.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.down_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.shared_experts.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.down_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.mlp.switch_mlp.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.post_attention_layernorm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.k_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.k_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.o_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.q_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.q_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.bias": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.biases": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.scales": "model-00013-of-00054.safetensors",
+        "model.layers.24.self_attn.v_proj.weight": "model-00013-of-00054.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.gate.e_score_correction_bias": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.gate.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.shared_experts.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.gate_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.mlp.switch_mlp.up_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.25.self_attn.k_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.k_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.o_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_norm.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.q_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.bias": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.biases": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.scales": "model-00014-of-00054.safetensors",
+        "model.layers.25.self_attn.v_proj.weight": "model-00014-of-00054.safetensors",
+        "model.layers.26.input_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.gate.e_score_correction_bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.gate.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.shared_experts.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.down_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.mlp.switch_mlp.up_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.post_attention_layernorm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.input_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.gate.e_score_correction_bias": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.gate.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.shared_experts.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.gate_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.27.mlp.switch_mlp.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.post_attention_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.27.self_attn.k_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.k_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.o_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_norm.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.q_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.bias": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.biases": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.scales": "model-00015-of-00054.safetensors",
+        "model.layers.27.self_attn.v_proj.weight": "model-00015-of-00054.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.gate.e_score_correction_bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.gate.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.shared_experts.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.down_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.gate_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.mlp.switch_mlp.up_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_norm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.k_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.o_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_norm.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.q_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.28.self_attn.v_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.input_layernorm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.gate.e_score_correction_bias": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.gate.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.down_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.shared_experts.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.down_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.mlp.switch_mlp.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.post_attention_layernorm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.k_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.q_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.bias": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00016-of-00054.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00016-of-00054.safetensors",
+        "model.layers.3.input_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.gate.e_score_correction_bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.gate.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.shared_experts.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.down_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.gate_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.mlp.switch_mlp.up_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.30.input_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.gate.e_score_correction_bias": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.gate.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.shared_experts.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.gate_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.mlp.switch_mlp.up_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.post_attention_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.30.self_attn.k_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.k_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.o_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_norm.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.q_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.bias": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.biases": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.scales": "model-00017-of-00054.safetensors",
+        "model.layers.30.self_attn.v_proj.weight": "model-00017-of-00054.safetensors",
+        "model.layers.31.input_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.gate.e_score_correction_bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.gate.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.shared_experts.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.down_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.mlp.switch_mlp.up_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.post_attention_layernorm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.k_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.o_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.q_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.31.self_attn.v_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.input_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.gate.e_score_correction_bias": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.gate.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.shared_experts.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.gate_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.32.mlp.switch_mlp.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.post_attention_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.32.self_attn.k_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.k_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.o_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_norm.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.q_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.bias": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.biases": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.scales": "model-00018-of-00054.safetensors",
+        "model.layers.32.self_attn.v_proj.weight": "model-00018-of-00054.safetensors",
+        "model.layers.33.input_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.gate.e_score_correction_bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.gate.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.shared_experts.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.down_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.gate_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.mlp.switch_mlp.up_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.post_attention_layernorm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_norm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.k_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.o_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_norm.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.q_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.33.self_attn.v_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.input_layernorm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.gate.e_score_correction_bias": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.gate.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.down_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.shared_experts.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.down_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.mlp.switch_mlp.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.post_attention_layernorm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.k_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.k_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.o_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.q_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.q_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.bias": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.biases": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.scales": "model-00019-of-00054.safetensors",
+        "model.layers.34.self_attn.v_proj.weight": "model-00019-of-00054.safetensors",
+        "model.layers.35.input_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.gate.e_score_correction_bias": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.gate.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.shared_experts.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.gate_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.mlp.switch_mlp.up_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.post_attention_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.35.self_attn.k_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.k_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.o_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_norm.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.q_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.bias": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.biases": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.scales": "model-00020-of-00054.safetensors",
+        "model.layers.35.self_attn.v_proj.weight": "model-00020-of-00054.safetensors",
+        "model.layers.36.input_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.gate.e_score_correction_bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.gate.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.shared_experts.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.down_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.mlp.switch_mlp.up_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.post_attention_layernorm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.k_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.o_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.q_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.36.self_attn.v_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.input_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.gate.e_score_correction_bias": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.gate.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.shared_experts.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.gate_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.37.mlp.switch_mlp.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.post_attention_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.37.self_attn.k_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.k_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.o_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_norm.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.q_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.bias": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.biases": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.scales": "model-00021-of-00054.safetensors",
+        "model.layers.37.self_attn.v_proj.weight": "model-00021-of-00054.safetensors",
+        "model.layers.38.input_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.gate.e_score_correction_bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.gate.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.shared_experts.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.down_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.gate_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.mlp.switch_mlp.up_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.post_attention_layernorm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_norm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.k_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.o_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_norm.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.q_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.38.self_attn.v_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.input_layernorm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.gate.e_score_correction_bias": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.gate.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.down_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.shared_experts.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.down_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.mlp.switch_mlp.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.post_attention_layernorm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.k_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.k_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.o_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.q_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.q_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.bias": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.biases": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.scales": "model-00022-of-00054.safetensors",
+        "model.layers.39.self_attn.v_proj.weight": "model-00022-of-00054.safetensors",
+        "model.layers.4.input_layernorm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.gate.e_score_correction_bias": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.gate.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.down_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.shared_experts.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.down_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.4.mlp.switch_mlp.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.biases": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.scales": "model-00001-of-00054.safetensors",
+        "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00054.safetensors",
+        "model.layers.40.input_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.gate.e_score_correction_bias": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.gate.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.shared_experts.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.gate_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.mlp.switch_mlp.up_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.post_attention_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.40.self_attn.k_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.k_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.o_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_norm.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.q_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.bias": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.biases": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.scales": "model-00023-of-00054.safetensors",
+        "model.layers.40.self_attn.v_proj.weight": "model-00023-of-00054.safetensors",
+        "model.layers.41.input_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.gate.e_score_correction_bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.gate.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.shared_experts.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.down_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.mlp.switch_mlp.up_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.post_attention_layernorm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.k_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.o_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.q_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.41.self_attn.v_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.input_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.gate.e_score_correction_bias": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.gate.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.shared_experts.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.gate_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.42.mlp.switch_mlp.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.post_attention_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.42.self_attn.k_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.k_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.o_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_norm.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.q_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.bias": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.biases": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.scales": "model-00024-of-00054.safetensors",
+        "model.layers.42.self_attn.v_proj.weight": "model-00024-of-00054.safetensors",
+        "model.layers.43.input_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.gate.e_score_correction_bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.gate.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.shared_experts.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.down_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.gate_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.mlp.switch_mlp.up_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.post_attention_layernorm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_norm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.k_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.o_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_norm.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.q_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.43.self_attn.v_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.input_layernorm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.gate.e_score_correction_bias": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.gate.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.down_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.shared_experts.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.down_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.mlp.switch_mlp.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.post_attention_layernorm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.k_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.k_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.o_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.q_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.q_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.bias": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.biases": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.scales": "model-00025-of-00054.safetensors",
+        "model.layers.44.self_attn.v_proj.weight": "model-00025-of-00054.safetensors",
+        "model.layers.45.input_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.gate.e_score_correction_bias": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.gate.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.shared_experts.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.gate_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.mlp.switch_mlp.up_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.post_attention_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.45.self_attn.k_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.k_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.o_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_norm.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.q_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.bias": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.biases": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.scales": "model-00026-of-00054.safetensors",
+        "model.layers.45.self_attn.v_proj.weight": "model-00026-of-00054.safetensors",
+        "model.layers.46.input_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.gate.e_score_correction_bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.gate.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.shared_experts.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.down_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.mlp.switch_mlp.up_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.post_attention_layernorm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.k_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.o_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.q_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.46.self_attn.v_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.input_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.gate.e_score_correction_bias": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.gate.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.shared_experts.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.gate_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.47.mlp.switch_mlp.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.post_attention_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.47.self_attn.k_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.k_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.o_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_norm.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.q_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.bias": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.biases": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.scales": "model-00027-of-00054.safetensors",
+        "model.layers.47.self_attn.v_proj.weight": "model-00027-of-00054.safetensors",
+        "model.layers.48.input_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.gate.e_score_correction_bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.gate.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.shared_experts.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.down_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.gate_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.mlp.switch_mlp.up_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.post_attention_layernorm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_norm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.k_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.o_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_norm.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.q_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.48.self_attn.v_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.input_layernorm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.gate.e_score_correction_bias": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.gate.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.down_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.shared_experts.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.down_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.mlp.switch_mlp.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.post_attention_layernorm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.k_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.k_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.o_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.q_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.q_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.bias": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.biases": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.scales": "model-00028-of-00054.safetensors",
+        "model.layers.49.self_attn.v_proj.weight": "model-00028-of-00054.safetensors",
+        "model.layers.5.input_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.gate.e_score_correction_bias": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.gate.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.shared_experts.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.gate_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.mlp.switch_mlp.up_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.5.self_attn.k_norm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_norm.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.biases": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.scales": "model-00002-of-00054.safetensors",
+        "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00054.safetensors",
+        "model.layers.50.input_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.gate.e_score_correction_bias": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.gate.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.shared_experts.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.gate_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.mlp.switch_mlp.up_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.post_attention_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.50.self_attn.k_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.k_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.o_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_norm.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.q_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.bias": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.biases": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.scales": "model-00029-of-00054.safetensors",
+        "model.layers.50.self_attn.v_proj.weight": "model-00029-of-00054.safetensors",
+        "model.layers.51.input_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.gate.e_score_correction_bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.gate.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.shared_experts.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.down_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.mlp.switch_mlp.up_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.post_attention_layernorm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.k_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.o_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.q_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.51.self_attn.v_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.input_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.gate.e_score_correction_bias": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.gate.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.shared_experts.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.gate_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.52.mlp.switch_mlp.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.post_attention_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.52.self_attn.k_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.k_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.o_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_norm.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.q_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.bias": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.biases": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.scales": "model-00030-of-00054.safetensors",
+        "model.layers.52.self_attn.v_proj.weight": "model-00030-of-00054.safetensors",
+        "model.layers.53.input_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.gate.e_score_correction_bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.gate.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.shared_experts.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.down_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.gate_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.mlp.switch_mlp.up_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.post_attention_layernorm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_norm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.k_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.o_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_norm.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.q_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.53.self_attn.v_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.input_layernorm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.gate.e_score_correction_bias": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.gate.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.down_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.shared_experts.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.down_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.mlp.switch_mlp.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.post_attention_layernorm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.k_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.k_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.o_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.q_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.q_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.bias": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.biases": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.scales": "model-00031-of-00054.safetensors",
+        "model.layers.54.self_attn.v_proj.weight": "model-00031-of-00054.safetensors",
+        "model.layers.55.input_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.gate.e_score_correction_bias": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.gate.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.shared_experts.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.gate_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.mlp.switch_mlp.up_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.post_attention_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.55.self_attn.k_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.k_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.o_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_norm.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.q_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.bias": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.biases": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.scales": "model-00032-of-00054.safetensors",
+        "model.layers.55.self_attn.v_proj.weight": "model-00032-of-00054.safetensors",
+        "model.layers.56.input_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.gate.e_score_correction_bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.gate.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.shared_experts.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.down_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.mlp.switch_mlp.up_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.post_attention_layernorm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.k_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.o_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.q_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.56.self_attn.v_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.input_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.gate.e_score_correction_bias": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.gate.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.shared_experts.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.gate_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.57.mlp.switch_mlp.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.post_attention_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.57.self_attn.k_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.k_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.o_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_norm.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.q_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.bias": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.biases": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.scales": "model-00033-of-00054.safetensors",
+        "model.layers.57.self_attn.v_proj.weight": "model-00033-of-00054.safetensors",
+        "model.layers.58.input_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.gate.e_score_correction_bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.gate.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.shared_experts.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.down_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.gate_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.mlp.switch_mlp.up_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.post_attention_layernorm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_norm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.k_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.o_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_norm.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.q_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.58.self_attn.v_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.input_layernorm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.gate.e_score_correction_bias": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.gate.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.down_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.shared_experts.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.down_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.mlp.switch_mlp.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.post_attention_layernorm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.k_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.k_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.o_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.q_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.q_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.bias": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.biases": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.scales": "model-00034-of-00054.safetensors",
+        "model.layers.59.self_attn.v_proj.weight": "model-00034-of-00054.safetensors",
+        "model.layers.6.input_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.gate.e_score_correction_bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.gate.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.shared_experts.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.down_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.mlp.switch_mlp.up_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.60.input_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.gate.e_score_correction_bias": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.gate.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.shared_experts.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.gate_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.mlp.switch_mlp.up_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.post_attention_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.60.self_attn.k_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.k_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.o_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_norm.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.q_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.bias": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.biases": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.scales": "model-00035-of-00054.safetensors",
+        "model.layers.60.self_attn.v_proj.weight": "model-00035-of-00054.safetensors",
+        "model.layers.61.input_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.gate.e_score_correction_bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.gate.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.shared_experts.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.down_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.mlp.switch_mlp.up_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.post_attention_layernorm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.k_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.o_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.q_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.61.self_attn.v_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.input_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.gate.e_score_correction_bias": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.gate.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.shared_experts.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.gate_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.62.mlp.switch_mlp.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.post_attention_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.62.self_attn.k_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.k_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.o_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_norm.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.q_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.bias": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.biases": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.scales": "model-00036-of-00054.safetensors",
+        "model.layers.62.self_attn.v_proj.weight": "model-00036-of-00054.safetensors",
+        "model.layers.63.input_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.gate.e_score_correction_bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.gate.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.shared_experts.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.down_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.gate_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.mlp.switch_mlp.up_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.post_attention_layernorm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_norm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.k_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.o_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_norm.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.q_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.63.self_attn.v_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.input_layernorm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.gate.e_score_correction_bias": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.gate.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.down_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.shared_experts.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.down_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.mlp.switch_mlp.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.post_attention_layernorm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.k_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.k_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.o_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.q_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.q_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.bias": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.biases": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.scales": "model-00037-of-00054.safetensors",
+        "model.layers.64.self_attn.v_proj.weight": "model-00037-of-00054.safetensors",
+        "model.layers.65.input_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.gate.e_score_correction_bias": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.gate.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.shared_experts.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.gate_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.mlp.switch_mlp.up_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.post_attention_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.65.self_attn.k_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.k_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.o_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_norm.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.q_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.bias": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.biases": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.scales": "model-00038-of-00054.safetensors",
+        "model.layers.65.self_attn.v_proj.weight": "model-00038-of-00054.safetensors",
+        "model.layers.66.input_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.gate.e_score_correction_bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.gate.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.shared_experts.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.down_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.mlp.switch_mlp.up_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.post_attention_layernorm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.k_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.o_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.q_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.66.self_attn.v_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.input_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.gate.e_score_correction_bias": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.gate.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.shared_experts.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.gate_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.67.mlp.switch_mlp.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.post_attention_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.67.self_attn.k_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.k_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.o_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_norm.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.q_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.bias": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.biases": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.scales": "model-00039-of-00054.safetensors",
+        "model.layers.67.self_attn.v_proj.weight": "model-00039-of-00054.safetensors",
+        "model.layers.68.input_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.gate.e_score_correction_bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.gate.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.shared_experts.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.down_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.gate_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.mlp.switch_mlp.up_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.post_attention_layernorm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_norm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.k_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.o_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_norm.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.q_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.68.self_attn.v_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.input_layernorm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.gate.e_score_correction_bias": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.gate.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.down_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.shared_experts.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.down_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.mlp.switch_mlp.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.post_attention_layernorm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.k_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.k_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.o_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.q_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.q_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.bias": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.biases": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.scales": "model-00040-of-00054.safetensors",
+        "model.layers.69.self_attn.v_proj.weight": "model-00040-of-00054.safetensors",
+        "model.layers.7.input_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.gate.e_score_correction_bias": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.gate.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.shared_experts.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.gate_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.7.mlp.switch_mlp.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.post_attention_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.7.self_attn.k_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_norm.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.bias": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.biases": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.scales": "model-00003-of-00054.safetensors",
+        "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00054.safetensors",
+        "model.layers.70.input_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.gate.e_score_correction_bias": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.gate.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.shared_experts.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.gate_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.mlp.switch_mlp.up_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.post_attention_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.70.self_attn.k_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.k_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.o_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_norm.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.q_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.bias": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.biases": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.scales": "model-00041-of-00054.safetensors",
+        "model.layers.70.self_attn.v_proj.weight": "model-00041-of-00054.safetensors",
+        "model.layers.71.input_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.gate.e_score_correction_bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.gate.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.shared_experts.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.down_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.mlp.switch_mlp.up_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.post_attention_layernorm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.k_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.o_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.q_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.71.self_attn.v_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.input_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.gate.e_score_correction_bias": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.gate.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.shared_experts.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.gate_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.72.mlp.switch_mlp.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.post_attention_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.72.self_attn.k_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.k_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.o_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_norm.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.q_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.bias": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.biases": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.scales": "model-00042-of-00054.safetensors",
+        "model.layers.72.self_attn.v_proj.weight": "model-00042-of-00054.safetensors",
+        "model.layers.73.input_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.gate.e_score_correction_bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.gate.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.shared_experts.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.down_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.gate_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.mlp.switch_mlp.up_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.post_attention_layernorm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_norm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.k_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.o_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_norm.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.q_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.73.self_attn.v_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.input_layernorm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.gate.e_score_correction_bias": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.gate.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.down_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.shared_experts.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.down_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.mlp.switch_mlp.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.post_attention_layernorm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.k_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.k_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.o_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.q_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.q_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.bias": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.biases": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.scales": "model-00043-of-00054.safetensors",
+        "model.layers.74.self_attn.v_proj.weight": "model-00043-of-00054.safetensors",
+        "model.layers.75.input_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.gate.e_score_correction_bias": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.gate.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.shared_experts.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.gate_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.mlp.switch_mlp.up_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.post_attention_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.75.self_attn.k_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.k_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.o_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_norm.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.q_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.bias": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.biases": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.scales": "model-00044-of-00054.safetensors",
+        "model.layers.75.self_attn.v_proj.weight": "model-00044-of-00054.safetensors",
+        "model.layers.76.input_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.gate.e_score_correction_bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.gate.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.shared_experts.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.down_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.mlp.switch_mlp.up_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.post_attention_layernorm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.k_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.o_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.q_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.76.self_attn.v_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.input_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.gate.e_score_correction_bias": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.gate.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.shared_experts.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.gate_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.77.mlp.switch_mlp.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.post_attention_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.77.self_attn.k_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.k_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.o_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_norm.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.q_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.bias": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.biases": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.scales": "model-00045-of-00054.safetensors",
+        "model.layers.77.self_attn.v_proj.weight": "model-00045-of-00054.safetensors",
+        "model.layers.78.input_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.gate.e_score_correction_bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.gate.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.shared_experts.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.down_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.gate_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.mlp.switch_mlp.up_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.post_attention_layernorm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_norm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.k_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.o_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_norm.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.q_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.78.self_attn.v_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.input_layernorm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.gate.e_score_correction_bias": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.gate.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.down_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.shared_experts.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.down_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.mlp.switch_mlp.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.post_attention_layernorm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.k_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.k_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.o_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.q_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.q_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.bias": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.biases": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.scales": "model-00046-of-00054.safetensors",
+        "model.layers.79.self_attn.v_proj.weight": "model-00046-of-00054.safetensors",
+        "model.layers.8.input_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.gate.e_score_correction_bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.gate.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.shared_experts.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.down_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.gate_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.mlp.switch_mlp.up_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.post_attention_layernorm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_norm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.k_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.o_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_norm.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.q_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.8.self_attn.v_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.80.input_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.gate.e_score_correction_bias": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.gate.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.shared_experts.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.gate_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.mlp.switch_mlp.up_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.post_attention_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.80.self_attn.k_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.k_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.o_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_norm.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.q_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.bias": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.biases": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.scales": "model-00047-of-00054.safetensors",
+        "model.layers.80.self_attn.v_proj.weight": "model-00047-of-00054.safetensors",
+        "model.layers.81.input_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.gate.e_score_correction_bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.gate.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.shared_experts.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.down_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.mlp.switch_mlp.up_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.post_attention_layernorm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.k_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.o_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.q_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.81.self_attn.v_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.input_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.gate.e_score_correction_bias": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.gate.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.shared_experts.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.gate_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.82.mlp.switch_mlp.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.post_attention_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.82.self_attn.k_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.k_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.o_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_norm.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.q_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.bias": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.biases": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.scales": "model-00048-of-00054.safetensors",
+        "model.layers.82.self_attn.v_proj.weight": "model-00048-of-00054.safetensors",
+        "model.layers.83.input_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.gate.e_score_correction_bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.gate.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.shared_experts.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.down_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.gate_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.mlp.switch_mlp.up_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.post_attention_layernorm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_norm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.k_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.o_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_norm.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.q_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.83.self_attn.v_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.input_layernorm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.gate.e_score_correction_bias": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.gate.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.down_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.shared_experts.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.down_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.mlp.switch_mlp.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.post_attention_layernorm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.k_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.k_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.o_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.q_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.q_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.bias": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.biases": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.scales": "model-00049-of-00054.safetensors",
+        "model.layers.84.self_attn.v_proj.weight": "model-00049-of-00054.safetensors",
+        "model.layers.85.input_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.gate.e_score_correction_bias": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.gate.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.shared_experts.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.gate_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.mlp.switch_mlp.up_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.post_attention_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.85.self_attn.k_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.k_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.o_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_norm.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.q_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.bias": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.biases": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.scales": "model-00050-of-00054.safetensors",
+        "model.layers.85.self_attn.v_proj.weight": "model-00050-of-00054.safetensors",
+        "model.layers.86.input_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.gate.e_score_correction_bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.gate.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.shared_experts.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.down_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.mlp.switch_mlp.up_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.post_attention_layernorm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.k_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.o_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.q_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.86.self_attn.v_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.input_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.gate.e_score_correction_bias": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.gate.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.shared_experts.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.gate_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.87.mlp.switch_mlp.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.post_attention_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.87.self_attn.k_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.k_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.o_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_norm.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.q_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.bias": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.biases": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.scales": "model-00051-of-00054.safetensors",
+        "model.layers.87.self_attn.v_proj.weight": "model-00051-of-00054.safetensors",
+        "model.layers.88.input_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.gate.e_score_correction_bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.gate.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.shared_experts.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.down_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.gate_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.mlp.switch_mlp.up_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.post_attention_layernorm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_norm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.k_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.o_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_norm.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.q_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.88.self_attn.v_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.input_layernorm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.gate.e_score_correction_bias": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.gate.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.down_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.shared_experts.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.down_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.mlp.switch_mlp.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.post_attention_layernorm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.k_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.k_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.o_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.q_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.q_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.bias": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.biases": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.scales": "model-00052-of-00054.safetensors",
+        "model.layers.89.self_attn.v_proj.weight": "model-00052-of-00054.safetensors",
+        "model.layers.9.input_layernorm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.gate.e_score_correction_bias": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.gate.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.down_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.shared_experts.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.down_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.gate_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.mlp.switch_mlp.up_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.post_attention_layernorm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.k_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.k_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.biases": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.scales": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.o_proj.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.q_norm.weight": "model-00005-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.q_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.bias": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.biases": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.scales": "model-00004-of-00054.safetensors",
+        "model.layers.9.self_attn.v_proj.weight": "model-00004-of-00054.safetensors",
+        "model.layers.90.input_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.gate.e_score_correction_bias": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.gate.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.shared_experts.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.gate_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.mlp.switch_mlp.up_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.post_attention_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.90.self_attn.k_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.k_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.o_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_norm.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.q_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.bias": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.biases": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.scales": "model-00053-of-00054.safetensors",
+        "model.layers.90.self_attn.v_proj.weight": "model-00053-of-00054.safetensors",
+        "model.layers.91.input_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.gate.e_score_correction_bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.gate.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.shared_experts.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.down_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.gate_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.mlp.switch_mlp.up_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.post_attention_layernorm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_norm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.k_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.o_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_norm.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.q_proj.weight": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.bias": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.biases": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.scales": "model-00054-of-00054.safetensors",
+        "model.layers.91.self_attn.v_proj.weight": "model-00054-of-00054.safetensors",
+        "model.norm.weight": "model-00054-of-00054.safetensors"
+    }
+}
\ No newline at end of file
diff --git a/tokenizer.json b/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..2f90e1190a0ea9ebdf15676b13617b3d7c222d28
--- /dev/null
+++ b/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0ccf2252fe9cd23ada23a829ec409aab397dbd2ac4f372d3a1a23d1f7c72d6b
+size 19970686
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..1c5a4bdfec2c8806a58658accd0e13af019b082d
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,61 @@
+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "[MASK]",
+    "[gMASK]",
+    "[sMASK]",
+    "<sop>",
+    "<eop>",
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|observation|>",
+    "<|begin_of_image|>",
+    "<|end_of_image|>",
+    "<|begin_of_video|>",
+    "<|end_of_video|>",
+    "<|begin_of_audio|>",
+    "<|end_of_audio|>",
+    "<|begin_of_transcription|>",
+    "<|end_of_transcription|>",
+    "<|code_prefix|>",
+    "<|code_middle|>",
+    "<|code_suffix|>",
+    "/nothink"
+  ],
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": false,
+  "do_lower_case": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": [
+    "<|endoftext|>",
+    "[MASK]",
+    "[gMASK]",
+    "[sMASK]",
+    "<sop>",
+    "<eop>",
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|observation|>",
+    "<|begin_of_image|>",
+    "<|end_of_image|>",
+    "<|begin_of_video|>",
+    "<|end_of_video|>",
+    "<|begin_of_audio|>",
+    "<|end_of_audio|>",
+    "<|begin_of_transcription|>",
+    "<|end_of_transcription|>",
+    "<|code_prefix|>",
+    "<|code_middle|>",
+    "<|code_suffix|>",
+    "/nothink"
+  ],
+  "is_local": true,
+  "model_max_length": 128000,
+  "model_specific_special_tokens": {},
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "remove_space": false,
+  "tokenizer_class": "TokenizersBackend"
+}