abhishekchohan commited on Oct 18, 2025

Commit

988fc64

verified ·

1 Parent(s): 739cfb0

Upload quantized model

Browse files

Files changed (19) hide show

.ipynb_checkpoints/chat_template-checkpoint.jinja +86 -0
config.json +2 -2
generation_config.json +10 -3
model-00001-of-00013.safetensors +2 -2
model-00002-of-00013.safetensors +1 -1
model-00003-of-00013.safetensors +1 -1
model-00004-of-00013.safetensors +1 -1
model-00005-of-00013.safetensors +1 -1
model-00006-of-00013.safetensors +1 -1
model-00007-of-00013.safetensors +1 -1
model-00008-of-00013.safetensors +1 -1
model-00009-of-00013.safetensors +1 -1
model-00010-of-00013.safetensors +1 -1
model-00011-of-00013.safetensors +1 -1
model-00012-of-00013.safetensors +1 -1
model-00013-of-00013.safetensors +2 -2
model.safetensors.index.json +14 -14
special_tokens_map.json +7 -1
tokenizer_config.json +1 -1

.ipynb_checkpoints/chat_template-checkpoint.jinja ADDED Viewed

	@@ -0,0 +1,86 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json CHANGED Viewed

@@ -31,8 +31,8 @@
   "router_aux_loss_coef": 0.001,
   "sliding_window": null,
   "tie_word_embeddings": false,
-  "transformers_version": "4.56.2",
   "use_cache": true,
   "use_sliding_window": false,
-  "vocab_size": 151669
 }

   "router_aux_loss_coef": 0.001,
   "sliding_window": null,
   "tie_word_embeddings": false,
+  "transformers_version": "4.57.1",
   "use_cache": true,
   "use_sliding_window": false,
+  "vocab_size": 151936
 }

generation_config.json CHANGED Viewed

@@ -1,6 +1,13 @@
 {
-  "_from_model_config": true,
   "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "transformers_version": "4.56.2"
 }

 {
   "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.1"
 }

model-00001-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc92b35f7a3667e08ea0fbf0a3eab49123444f4ef7fe281f624122d6fd2ebbac
-size 4999237192

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aa8450ca63391bad06265b0ae7b718178856f166f999f65978879d872da42ad
+size 4997184968

model-00002-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30516b55cd3973b443dc986662443b8d9b3482820c3561d1e3248878f7a0a3dd
 size 4997741608

 version https://git-lfs.github.com/spec/v1
+oid sha256:007e9ee0cd568cd37b0f13116d0e9bad865ca7fcfb834257b39b2465a1de92a9
 size 4997741608

model-00003-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87e1ba18eaf3e8694651929a2562f67971cc1c604ff7934096e5f27d55b65b1a
 size 4997742208

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2b304de65e62ef7592fbce88874b435ffc811d3e2c235eed50cf2465369cdb5
 size 4997742208

model-00004-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28111c7817b043fee76e7c892b3753b73a7b761c867e231aec3cd4d44376e03c
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:92966cc36e1ea040feee69dd6dd7a5c0c57c7d94d4156b0fd7c6a00a23719900
 size 4997743184

model-00005-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b158f2c03abcb2dfbddc3b1866a4f3d6716eec156e093d4cee7cfefa5cd9c9f
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f3d283ed68d7ea71f92a51f8acff58d066d787e5cb8b6a1708b4d6a338cc795
 size 4997743184

model-00006-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f5d22b23d121b21a76c67c1b6e71911beaa78eeac8257a6f63f559a40efffae
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd2c86ce5b45b1aa706a8ba4d51efeb828ae5d87b73a6e3a17a6e5f54d969b12
 size 4997743184

model-00007-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:483d33971cb409ac9b314adbaa773bdbf19290cc83b845d2129fce3d63ffb9f2
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:5402756b508dcc73e63aa3815e0a28d578d910e62ba567f8f6f9827cb13c7aaa
 size 4997743184

model-00008-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a52ee08cb9940bbb3820cddc72d3777dc1b38ffdd4db8d3dfbb62befb7808508
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:54cdd133e5fee2c6a557405e69def75912e9536e87b26b77e1e6a4c9355ce3e7
 size 4997743184

model-00009-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7f535dd75ef4962ed75074c321f94ef220ac93ecf3fa14126c2cc3cf7247950
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdbf105a0227a2569447761ed4db403080db9947902207fc06f9bd61fb76329d
 size 4997743184

model-00010-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e56b4f2a2c3b26336ecea5a27fe0a30052e0160a5b9678bfe68cd512e83794d9
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:249cbce6282e957555c518610ae50b4ee98ddf5c2ea8ccfd693ac1c5b0807e0e
 size 4997743184

model-00011-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd490511abf8ce0e534dd6f2d8898e10f9d48cfc605da66916ba773b182299b2
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:8768da1bae8b6f81b0639ea987b128c4269e10dcfc1a58164484f8f4c0ceda0b
 size 4997743184

model-00012-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0b9e6f415a2c5947db4ffb9e5aa0647ccad4f36db58915c63e8a0dfe4d884ff
 size 4997743184

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c47af572facc5db4caa396b23029f13a8fdc5d30a92f65c1b7e3053938a5e6f
 size 4997743184

model-00013-of-00013.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e7faf6c925aa9b508fb9dfe346abeb6b40354e13243abca495ecea9fa45a620
-size 1089980800

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5c8479bed6cc760a2fe88c927ba37766212844ebb74ab09ef0beeab682b7289
+size 1094220288

model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "metadata": {
-    "total_parameters": 30531028992,
-    "total_size": 61062057984
   },
   "weight_map": {
     "lm_head.weight": "model-00013-of-00013.safetensors",
@@ -1460,7 +1460,7 @@
     "model.layers.11.mlp.experts.65.gate_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.11.mlp.experts.65.up_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.11.mlp.experts.66.down_proj.weight": "model-00004-of-00013.safetensors",
-    "model.layers.11.mlp.experts.66.gate_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.11.mlp.experts.66.up_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.11.mlp.experts.67.down_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.11.mlp.experts.67.gate_proj.weight": "model-00004-of-00013.safetensors",
@@ -3036,7 +3036,7 @@
     "model.layers.15.mlp.experts.66.up_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.15.mlp.experts.67.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.67.gate_proj.weight": "model-00004-of-00013.safetensors",
-    "model.layers.15.mlp.experts.67.up_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.up_proj.weight": "model-00005-of-00013.safetensors",
@@ -4609,7 +4609,7 @@
     "model.layers.19.mlp.experts.67.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.67.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.67.up_proj.weight": "model-00005-of-00013.safetensors",
-    "model.layers.19.mlp.experts.68.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.68.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.68.up_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.69.down_proj.weight": "model-00006-of-00013.safetensors",
@@ -6584,7 +6584,7 @@
     "model.layers.23.mlp.experts.7.gate_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.7.up_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.70.down_proj.weight": "model-00007-of-00013.safetensors",
-    "model.layers.23.mlp.experts.70.gate_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.70.up_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.23.mlp.experts.71.down_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.23.mlp.experts.71.gate_proj.weight": "model-00007-of-00013.safetensors",
@@ -8160,7 +8160,7 @@
     "model.layers.27.mlp.experts.70.up_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.27.mlp.experts.71.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.71.gate_proj.weight": "model-00007-of-00013.safetensors",
-    "model.layers.27.mlp.experts.71.up_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.up_proj.weight": "model-00008-of-00013.safetensors",
@@ -9312,7 +9312,7 @@
     "model.layers.3.mlp.experts.62.up_proj.weight": "model-00001-of-00013.safetensors",
     "model.layers.3.mlp.experts.63.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.63.gate_proj.weight": "model-00001-of-00013.safetensors",
-    "model.layers.3.mlp.experts.63.up_proj.weight": "model-00001-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.up_proj.weight": "model-00002-of-00013.safetensors",
@@ -10126,7 +10126,7 @@
     "model.layers.31.mlp.experts.71.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.71.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.71.up_proj.weight": "model-00008-of-00013.safetensors",
-    "model.layers.31.mlp.experts.72.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.72.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.72.up_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.73.down_proj.weight": "model-00009-of-00013.safetensors",
@@ -11705,7 +11705,7 @@
     "model.layers.35.mlp.experts.73.gate_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.73.up_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.74.down_proj.weight": "model-00010-of-00013.safetensors",
-    "model.layers.35.mlp.experts.74.gate_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.74.up_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.35.mlp.experts.75.down_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.35.mlp.experts.75.gate_proj.weight": "model-00010-of-00013.safetensors",
@@ -13281,7 +13281,7 @@
     "model.layers.39.mlp.experts.74.up_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.39.mlp.experts.75.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.75.gate_proj.weight": "model-00010-of-00013.safetensors",
-    "model.layers.39.mlp.experts.75.up_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.up_proj.weight": "model-00011-of-00013.safetensors",
@@ -15247,7 +15247,7 @@
     "model.layers.43.mlp.experts.75.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.75.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.75.up_proj.weight": "model-00011-of-00013.safetensors",
-    "model.layers.43.mlp.experts.76.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.76.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.76.up_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.77.down_proj.weight": "model-00012-of-00013.safetensors",
@@ -16826,7 +16826,7 @@
     "model.layers.47.mlp.experts.77.gate_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.77.up_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.78.down_proj.weight": "model-00013-of-00013.safetensors",
-    "model.layers.47.mlp.experts.78.gate_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.78.up_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.47.mlp.experts.79.down_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.47.mlp.experts.79.gate_proj.weight": "model-00013-of-00013.safetensors",
@@ -17959,7 +17959,7 @@
     "model.layers.7.mlp.experts.63.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.63.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.63.up_proj.weight": "model-00002-of-00013.safetensors",
-    "model.layers.7.mlp.experts.64.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.64.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.64.up_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.65.down_proj.weight": "model-00003-of-00013.safetensors",

 {
   "metadata": {
+    "total_parameters": 30532122624,
+    "total_size": 61064245248
   },
   "weight_map": {
     "lm_head.weight": "model-00013-of-00013.safetensors",
     "model.layers.11.mlp.experts.65.gate_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.11.mlp.experts.65.up_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.11.mlp.experts.66.down_proj.weight": "model-00004-of-00013.safetensors",
+    "model.layers.11.mlp.experts.66.gate_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.11.mlp.experts.66.up_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.11.mlp.experts.67.down_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.11.mlp.experts.67.gate_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.15.mlp.experts.66.up_proj.weight": "model-00004-of-00013.safetensors",
     "model.layers.15.mlp.experts.67.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.67.gate_proj.weight": "model-00004-of-00013.safetensors",
+    "model.layers.15.mlp.experts.67.up_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.15.mlp.experts.68.up_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.67.down_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.67.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.67.up_proj.weight": "model-00005-of-00013.safetensors",
+    "model.layers.19.mlp.experts.68.down_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.19.mlp.experts.68.gate_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.68.up_proj.weight": "model-00005-of-00013.safetensors",
     "model.layers.19.mlp.experts.69.down_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.7.gate_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.7.up_proj.weight": "model-00006-of-00013.safetensors",
     "model.layers.23.mlp.experts.70.down_proj.weight": "model-00007-of-00013.safetensors",
+    "model.layers.23.mlp.experts.70.gate_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.23.mlp.experts.70.up_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.23.mlp.experts.71.down_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.23.mlp.experts.71.gate_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.27.mlp.experts.70.up_proj.weight": "model-00007-of-00013.safetensors",
     "model.layers.27.mlp.experts.71.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.71.gate_proj.weight": "model-00007-of-00013.safetensors",
+    "model.layers.27.mlp.experts.71.up_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.27.mlp.experts.72.up_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.3.mlp.experts.62.up_proj.weight": "model-00001-of-00013.safetensors",
     "model.layers.3.mlp.experts.63.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.63.gate_proj.weight": "model-00001-of-00013.safetensors",
+    "model.layers.3.mlp.experts.63.up_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.3.mlp.experts.64.up_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.31.mlp.experts.71.down_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.71.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.71.up_proj.weight": "model-00008-of-00013.safetensors",
+    "model.layers.31.mlp.experts.72.down_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.31.mlp.experts.72.gate_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.72.up_proj.weight": "model-00008-of-00013.safetensors",
     "model.layers.31.mlp.experts.73.down_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.73.gate_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.73.up_proj.weight": "model-00009-of-00013.safetensors",
     "model.layers.35.mlp.experts.74.down_proj.weight": "model-00010-of-00013.safetensors",
+    "model.layers.35.mlp.experts.74.gate_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.35.mlp.experts.74.up_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.35.mlp.experts.75.down_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.35.mlp.experts.75.gate_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.39.mlp.experts.74.up_proj.weight": "model-00010-of-00013.safetensors",
     "model.layers.39.mlp.experts.75.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.75.gate_proj.weight": "model-00010-of-00013.safetensors",
+    "model.layers.39.mlp.experts.75.up_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.39.mlp.experts.76.up_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.75.down_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.75.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.75.up_proj.weight": "model-00011-of-00013.safetensors",
+    "model.layers.43.mlp.experts.76.down_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.43.mlp.experts.76.gate_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.76.up_proj.weight": "model-00011-of-00013.safetensors",
     "model.layers.43.mlp.experts.77.down_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.77.gate_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.77.up_proj.weight": "model-00012-of-00013.safetensors",
     "model.layers.47.mlp.experts.78.down_proj.weight": "model-00013-of-00013.safetensors",
+    "model.layers.47.mlp.experts.78.gate_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.47.mlp.experts.78.up_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.47.mlp.experts.79.down_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.47.mlp.experts.79.gate_proj.weight": "model-00013-of-00013.safetensors",
     "model.layers.7.mlp.experts.63.down_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.63.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.63.up_proj.weight": "model-00002-of-00013.safetensors",
+    "model.layers.7.mlp.experts.64.down_proj.weight": "model-00003-of-00013.safetensors",
     "model.layers.7.mlp.experts.64.gate_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.64.up_proj.weight": "model-00002-of-00013.safetensors",
     "model.layers.7.mlp.experts.65.down_proj.weight": "model-00003-of-00013.safetensors",

special_tokens_map.json CHANGED Viewed

@@ -21,5 +21,11 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|im_end|>"
 }

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -232,7 +232,7 @@
   "errors": "replace",
   "extra_special_tokens": {},
   "model_max_length": 1010000,
-  "pad_token": "<|im_end|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

   "errors": "replace",
   "extra_special_tokens": {},
   "model_max_length": 1010000,
+  "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null