Instructions to use stepfun-ai/Step-3.5-Flash-Base-Midtrain with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use stepfun-ai/Step-3.5-Flash-Base-Midtrain with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="stepfun-ai/Step-3.5-Flash-Base-Midtrain", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("stepfun-ai/Step-3.5-Flash-Base-Midtrain", trust_remote_code=True, dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use stepfun-ai/Step-3.5-Flash-Base-Midtrain with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "stepfun-ai/Step-3.5-Flash-Base-Midtrain"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "stepfun-ai/Step-3.5-Flash-Base-Midtrain",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/stepfun-ai/Step-3.5-Flash-Base-Midtrain

SGLang

How to use stepfun-ai/Step-3.5-Flash-Base-Midtrain with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "stepfun-ai/Step-3.5-Flash-Base-Midtrain" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "stepfun-ai/Step-3.5-Flash-Base-Midtrain",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "stepfun-ai/Step-3.5-Flash-Base-Midtrain" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "stepfun-ai/Step-3.5-Flash-Base-Midtrain",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use stepfun-ai/Step-3.5-Flash-Base-Midtrain with Docker Model Runner:
```
docker model run hf.co/stepfun-ai/Step-3.5-Flash-Base-Midtrain
```

Randomize commited on Mar 2

Commit

fbbb609

verified ·

1 Parent(s): ba99b8b

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

.done +0 -0
chat_template.jinja +80 -0
config.json +289 -0
model-00001.safetensors +3 -0
model-00002.safetensors +3 -0
model-00003.safetensors +3 -0
model-00004.safetensors +3 -0
model-00005.safetensors +3 -0
model-00006.safetensors +3 -0
model-00007.safetensors +3 -0
model-00008.safetensors +3 -0
model-00009.safetensors +3 -0
model-00010.safetensors +3 -0
model-00011.safetensors +3 -0
model-00012.safetensors +3 -0
model-00013.safetensors +3 -0
model-00014.safetensors +3 -0
model-00015.safetensors +3 -0
model-00016.safetensors +3 -0
model-00017.safetensors +3 -0
model-00018.safetensors +3 -0
model-00019.safetensors +3 -0
model-00020.safetensors +3 -0
model-00021.safetensors +3 -0
model-00022.safetensors +3 -0
model-00023.safetensors +3 -0
model-00024.safetensors +3 -0
model-00025.safetensors +3 -0
model-00026.safetensors +3 -0
model-00027.safetensors +3 -0
model-00028.safetensors +3 -0
model-00030.safetensors +3 -0
model-00031.safetensors +3 -0
model-00032.safetensors +3 -0
model-00033.safetensors +3 -0
model-00034.safetensors +3 -0
model-00035.safetensors +3 -0
model-00036.safetensors +3 -0
model-00037.safetensors +3 -0
model-00038.safetensors +3 -0
model-00039.safetensors +3 -0
model-00040.safetensors +3 -0
model-00041.safetensors +3 -0
model-00042.safetensors +3 -0
model-00043.safetensors +3 -0
model-00044.safetensors +3 -0
model.safetensors.index.json +777 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer_config.json +0 -0

.done ADDED Viewed

File without changes

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,80 @@

+{% macro render_content(content) %}{% if content is none %}{{- '' }}{% elif content is string %}{{- content }}{% elif content is mapping %}{{- content['value'] if 'value' in content else content['text'] }}{% elif content is iterable %}{% for item in content %}{% if item.type == 'text' %}{{- item['value'] if 'value' in item else item['text'] }}{% elif item.type == 'image' %}<im_patch>{% endif %}{% endfor %}{% endif %}{% endmacro %}
+{{bos_token}}{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- render_content(messages[0].content) + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou have access to the following functions in JSONSchema format:\n\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson(ensure_ascii=False) }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...>\n...\n</function> block must be nested within <tool_call>\n...\n</tool_call> XML tags\n- Required parameters MUST be specified\n</IMPORTANT><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + render_content(messages[0].content) + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and render_content(message.content) is string and not(render_content(message.content).startswith('<tool_response>') and render_content(message.content).endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content) %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {%- set role_name = 'observation' if (message.role == "system" and not loop.first and message.name == 'observation') else message.role %}
+        {{- '<|im_start|>' + role_name + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = render_content(message.reasoning_content) %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- else %}
+                {%- set reasoning_content = '' %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if tool_call.function is defined %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                {%- if tool_call.arguments is defined %}
+                    {%- set arguments = tool_call.arguments | fromjson if tool_call.arguments is string else tool_call.arguments %}
+                    {%- for args_name, args_value in arguments|items %}
+                        {{- '<parameter=' + args_name + '>\n' }}
+                        {%- set args_value = args_value | tojson(ensure_ascii=False) | safe if args_value is mapping or (args_value is sequence and args_value is not string) else args_value | string %}
+                        {{- args_value }}
+                        {{- '\n</parameter>\n' }}
+                    {%- endfor %}
+                {%- endif %}
+                {{- '</function>\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>tool_response\n' }}
+        {%- endif %}
+        {{- '<tool_response>' }}
+        {{- content }}
+        {{- '</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n<think>\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,289 @@

+{
+  "architectures": [
+    "Step4ForCausalLM"
+  ],
+  "model_type": "step4",
+  "hidden_size": 4096,
+  "intermediate_size": 11264,
+  "num_hidden_layers": 45,
+  "max_seq_len": 131072,
+  "max_position_embedding": 131072,
+  "vocab_size": 128896,
+  "torch_dtype": "bfloat16",
+  "use_qk_norm": false,
+  "moe_layers_enum": "3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44",
+  "use_mfa": false,
+  "num_attention_heads": 64,
+  "num_attention_groups": 8,
+  "num_nextn_predict_layers": 1,
+  "head_dim": 128,
+  "use_moe": true,
+  "moe_num_experts": 288,
+  "moe_top_k": 8,
+  "moe_intermediate_size": 1280,
+  "share_expert_dim": 1280,
+  "moe_layer_offset": 0,
+  "moe_every_n_layer": 1,
+  "norm_expert_weight": true,
+  "moe_router_activation": "sigmoid",
+  "moe_router_scaling_factor": 3.0,
+  "att_impl_type": "GQA",
+  "rope_theta": [
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0,
+    10000.0,
+    10000.0,
+    5000000.0,
+    10000.0
+  ],
+  "use_head_wise_attn_gate": true,
+  "sliding_window": 512,
+  "use_moe_router_bias": true,
+  "need_fp32_gate": true,
+  "sink": false,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention"
+  ],
+  "use_rope_layers": [],
+  "partial_rotary_factors": [
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0,
+    1.0,
+    1.0,
+    0.5,
+    1.0
+  ],
+  "eos_token_id": [
+    1,
+    2
+  ],
+  "bos_token_id": 0,
+  "attention_other_setting": {
+    "attention_type": "sliding_attention",
+    "num_attention_heads": 96,
+    "num_attention_groups": 8,
+    "head_dim": 128,
+    "true_head_dim": 128
+  },
+  "swiglu_limits": [
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    7,
+    7,
+    0.0
+  ],
+  "swiglu_limits_shared": [
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    0.0,
+    16,
+    0.0
+  ]
+}

model-00001.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4834af5effac4c63540efe7e0d6a4fa44ed1229fef072e03a11bec82a7b8148
+size 9914463192

model-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61ea72d86955c8c54dc2b03788a6baeb6981505dffc85a30c03e1bec21f7e37e
+size 8129316776

model-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3f5a7eef4e9415e8d13a94cd119a2ed883e17df262ce9636e87e32afcb082ab
+size 9059696992

model-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8177311765d7528ef4b156bbb803dd48ba0d1e3898919cb8d3ae0cd32e501a0e
+size 9059696992

model-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dde95af31a3dbbddf55b2e0938005242c9b9ccdd969dc5152bd36ada5083e614
+size 9059696992

model-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31ffb9af8f71b5ccd7846dc96726564d229bd39aaa6233ac5484d6e189a303c7
+size 9059696992

model-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:109ce5ccdfef16abc8c1e4457c4090c9a1bd037ed00a6a1732ce224e40f46a33
+size 9059696992

model-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8d95639c4d000287783ef5dd7aea030277cc0bbf19f74ca1aabf355d487fe04
+size 9059696992

model-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58e898af6bc262f9cc967524ba19a0ee90359575024aa4b4af7f3c6075655946
+size 9059697000

model-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acbe35b5d657f4dc6bff6dc8d1ef78dea72da175b53bf3707a5dc01d810e1679
+size 9059697000

model-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d6ad5dbbf3ba740ca011596959a2d87a578e39c38503667703d8ccb065b1a42
+size 9059697000

model-00012.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04f4c14c04eb04e9aee1229be565c3e1765a9092e622547cceb474b7768b09b3
+size 9059697000

model-00013.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:005fcb47241747472259bd92917278d03b3ee71a089b427d192066105ed918e6
+size 9059697000

model-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ffd48b5c521d55ec9cf9b42e9c9ab5ef64acb9713f2f56cb45a801f753fbd9d
+size 9059697000

model-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ae613da5b8f85503dff33373aa4a11ccad994abefa0c6d390f31446c89ee58e
+size 9059697000

model-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0953030de59f5ca28a322b9800e3be9f330752c6af4aab14b322376f8e253752
+size 9059697000

model-00017.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25c08a707f8c932d1ed01035a5ad0707aaa0d8df2671fa6794382ad114ed7965
+size 9059697000

model-00018.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce081f3617363a7815d1c60489a21063bc1c24e4d17531fa40bc0688c16110e9
+size 9059697000

model-00019.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62ccb0dcc22a42e22d78cea5d0028c7a53a4905c0861a2689018f979b80ab901
+size 9059697000

model-00020.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9af26369dcde542edfca632abab4f35570f39ecd5de1f7ea3762e22c55db38e8
+size 9059697000

model-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd844d4dea96cc9c427e7249121d62a1301c37b36482204684f62791dc17949
+size 9059697000

model-00022.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6128b6a3e2be72d079a62e5016118b3388f319e3b84b888108782b001e52bb9d
+size 9059697000

model-00023.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b907b746bae7834f39a6816ac0adf4b8fe551768d6988decbf671fd1ce70eb20
+size 9059697000

model-00024.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d685a1e06348a41da650213f377e0ebeba1c19d9aaf5531118b2f4bcb2dd41e
+size 9059697000

model-00025.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b1b47a77e9654320dd84508f3544f34f762931d328ac83ac7ad43cde6804fea
+size 9059697000

model-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd62f742afba69bccb2793cc1ceaaa179189ccf766f541f84855978db820fe69
+size 9059697000

model-00027.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1ce15604744e7d4ac3bd6b10906b7d302d30cd844156d217431c6cdd3279b78
+size 9059697000

model-00028.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8fc931583260a3d257f5246db18dd2db2109934ba757fc2107e24f864dfc496
+size 9059697000

model-00030.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12ebb610657060d499c8fb5a4823599809cb0cd7a47fbe56e94db6f472af57c9
+size 9059697000

model-00031.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4dd4679d768ce9bf6a4261349ce66544a52e7db038e8d8d0065c0b670947ea1
+size 9059697000

model-00032.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f10f375b66d69014317ebef4919a85eeb9f26fe1717136e7c98b08b4fa61fa8b
+size 9059697000

model-00033.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d5ccc51dd2ce00c86d0acde65f8b0046b46e60165f8788d96b7f3398232872f
+size 9059697000

model-00034.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bc0b7478eabcfb8933c368749db3b7026d6a2d8e3e8ab9af85d0e723de079a6
+size 9059697000

model-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9019fb4ba1ba44894e4e814a4f4f82709b60a83af7eed1833242cb3017ee5e4
+size 9059697000

model-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94fcb920770833d697d75701e7a6ae678ec555034d3d78ce78b58a5259c7e754
+size 9059697000

model-00037.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62034f5f4c45c5b463e79163b93eec72d5a03f259d5335e974335914a9002f73
+size 9059697000

model-00038.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0caffc273334599fdf07209cee39fedca09b91752123f6a721719c35a08bd4cc
+size 9059697000

model-00039.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eb5a4bdffff5feca6deb11316c27bef589915ac15c71aad3a4fdbb0ba962f53
+size 9059697000

model-00040.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79b8d8ac9027c27fa61fffe83fc1856052838915fab6636d49a2d9c74af8de50
+size 9059697000

model-00041.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16c8f21e679e40ab2b4ea67197561972ac380f7ea20871ab86857a9febaf71bb
+size 9059697000

model-00042.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc42489ae6df4928af526f82dcdd6512e1c90690fc483cf937a88d896e551bed
+size 9059697000

model-00043.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:945e7452edaaef0b78e739d22338872c6e98a7d23d951dda07bb4f2600072955
+size 9059697000

model-00044.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcbe6a38bc9549865c916764d0327eacfb61fdcac2e6c4ec95efdc710efa06b3
+size 6039798000

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,777 @@

+{
+  "metadata": {
+    "total_size": 395531065600
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.10.moe.down_proj.weight": "model-00010.safetensors",
+    "model.layers.10.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.10.moe.gate_proj.weight": "model-00009.safetensors",
+    "model.layers.10.moe.router_bias": "model-00001.safetensors",
+    "model.layers.10.moe.up_proj.weight": "model-00010.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.10.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.10.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.10.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.11.moe.down_proj.weight": "model-00011.safetensors",
+    "model.layers.11.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.11.moe.gate_proj.weight": "model-00010.safetensors",
+    "model.layers.11.moe.router_bias": "model-00001.safetensors",
+    "model.layers.11.moe.up_proj.weight": "model-00011.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.11.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.11.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.11.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.12.moe.down_proj.weight": "model-00012.safetensors",
+    "model.layers.12.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.12.moe.gate_proj.weight": "model-00011.safetensors",
+    "model.layers.12.moe.router_bias": "model-00002.safetensors",
+    "model.layers.12.moe.up_proj.weight": "model-00012.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.12.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.12.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.12.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.13.moe.down_proj.weight": "model-00013.safetensors",
+    "model.layers.13.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.13.moe.gate_proj.weight": "model-00012.safetensors",
+    "model.layers.13.moe.router_bias": "model-00002.safetensors",
+    "model.layers.13.moe.up_proj.weight": "model-00013.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.13.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.13.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.13.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.14.moe.down_proj.weight": "model-00014.safetensors",
+    "model.layers.14.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.14.moe.gate_proj.weight": "model-00013.safetensors",
+    "model.layers.14.moe.router_bias": "model-00002.safetensors",
+    "model.layers.14.moe.up_proj.weight": "model-00014.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.14.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.14.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.14.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.15.moe.down_proj.weight": "model-00015.safetensors",
+    "model.layers.15.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.15.moe.gate_proj.weight": "model-00014.safetensors",
+    "model.layers.15.moe.router_bias": "model-00002.safetensors",
+    "model.layers.15.moe.up_proj.weight": "model-00015.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.15.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.15.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.15.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.16.moe.down_proj.weight": "model-00016.safetensors",
+    "model.layers.16.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.16.moe.gate_proj.weight": "model-00015.safetensors",
+    "model.layers.16.moe.router_bias": "model-00001.safetensors",
+    "model.layers.16.moe.up_proj.weight": "model-00016.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.16.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.16.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.16.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.17.moe.down_proj.weight": "model-00017.safetensors",
+    "model.layers.17.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.17.moe.gate_proj.weight": "model-00016.safetensors",
+    "model.layers.17.moe.router_bias": "model-00001.safetensors",
+    "model.layers.17.moe.up_proj.weight": "model-00017.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.17.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.17.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.17.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.18.moe.down_proj.weight": "model-00018.safetensors",
+    "model.layers.18.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.18.moe.gate_proj.weight": "model-00017.safetensors",
+    "model.layers.18.moe.router_bias": "model-00001.safetensors",
+    "model.layers.18.moe.up_proj.weight": "model-00018.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.18.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.18.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.18.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.19.moe.down_proj.weight": "model-00019.safetensors",
+    "model.layers.19.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.19.moe.gate_proj.weight": "model-00018.safetensors",
+    "model.layers.19.moe.router_bias": "model-00001.safetensors",
+    "model.layers.19.moe.up_proj.weight": "model-00019.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.19.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.19.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.19.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.20.moe.down_proj.weight": "model-00020.safetensors",
+    "model.layers.20.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.20.moe.gate_proj.weight": "model-00019.safetensors",
+    "model.layers.20.moe.router_bias": "model-00001.safetensors",
+    "model.layers.20.moe.up_proj.weight": "model-00020.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.20.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.20.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.20.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.21.moe.down_proj.weight": "model-00021.safetensors",
+    "model.layers.21.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.21.moe.gate_proj.weight": "model-00020.safetensors",
+    "model.layers.21.moe.router_bias": "model-00001.safetensors",
+    "model.layers.21.moe.up_proj.weight": "model-00021.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.21.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.21.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.21.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.22.moe.down_proj.weight": "model-00022.safetensors",
+    "model.layers.22.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.22.moe.gate_proj.weight": "model-00021.safetensors",
+    "model.layers.22.moe.router_bias": "model-00001.safetensors",
+    "model.layers.22.moe.up_proj.weight": "model-00022.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.22.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.22.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.22.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.23.moe.down_proj.weight": "model-00023.safetensors",
+    "model.layers.23.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.23.moe.gate_proj.weight": "model-00022.safetensors",
+    "model.layers.23.moe.router_bias": "model-00001.safetensors",
+    "model.layers.23.moe.up_proj.weight": "model-00023.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.23.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.23.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.23.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.24.moe.down_proj.weight": "model-00024.safetensors",
+    "model.layers.24.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.24.moe.gate_proj.weight": "model-00023.safetensors",
+    "model.layers.24.moe.router_bias": "model-00001.safetensors",
+    "model.layers.24.moe.up_proj.weight": "model-00024.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.24.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.24.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.24.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.25.moe.down_proj.weight": "model-00025.safetensors",
+    "model.layers.25.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.25.moe.gate_proj.weight": "model-00024.safetensors",
+    "model.layers.25.moe.router_bias": "model-00001.safetensors",
+    "model.layers.25.moe.up_proj.weight": "model-00025.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.25.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.25.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.25.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.26.moe.down_proj.weight": "model-00026.safetensors",
+    "model.layers.26.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.26.moe.gate_proj.weight": "model-00025.safetensors",
+    "model.layers.26.moe.router_bias": "model-00001.safetensors",
+    "model.layers.26.moe.up_proj.weight": "model-00026.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.26.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.26.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.26.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.27.moe.down_proj.weight": "model-00027.safetensors",
+    "model.layers.27.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.27.moe.gate_proj.weight": "model-00026.safetensors",
+    "model.layers.27.moe.router_bias": "model-00001.safetensors",
+    "model.layers.27.moe.up_proj.weight": "model-00027.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.27.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.27.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.27.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.28.moe.down_proj.weight": "model-00028.safetensors",
+    "model.layers.28.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.28.moe.gate_proj.weight": "model-00027.safetensors",
+    "model.layers.28.moe.router_bias": "model-00002.safetensors",
+    "model.layers.28.moe.up_proj.weight": "model-00028.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.28.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.28.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.28.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.29.moe.down_proj.weight": "model-00029.safetensors",
+    "model.layers.29.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.29.moe.gate_proj.weight": "model-00028.safetensors",
+    "model.layers.29.moe.router_bias": "model-00002.safetensors",
+    "model.layers.29.moe.up_proj.weight": "model-00029.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.29.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.29.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.29.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.3.moe.down_proj.weight": "model-00003.safetensors",
+    "model.layers.3.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.3.moe.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.3.moe.router_bias": "model-00001.safetensors",
+    "model.layers.3.moe.up_proj.weight": "model-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.3.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.3.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.3.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.30.moe.down_proj.weight": "model-00030.safetensors",
+    "model.layers.30.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.30.moe.gate_proj.weight": "model-00029.safetensors",
+    "model.layers.30.moe.router_bias": "model-00002.safetensors",
+    "model.layers.30.moe.up_proj.weight": "model-00030.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.30.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.30.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.30.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.31.moe.down_proj.weight": "model-00031.safetensors",
+    "model.layers.31.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.31.moe.gate_proj.weight": "model-00030.safetensors",
+    "model.layers.31.moe.router_bias": "model-00002.safetensors",
+    "model.layers.31.moe.up_proj.weight": "model-00031.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.31.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.31.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.31.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.32.moe.down_proj.weight": "model-00032.safetensors",
+    "model.layers.32.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.32.moe.gate_proj.weight": "model-00031.safetensors",
+    "model.layers.32.moe.router_bias": "model-00001.safetensors",
+    "model.layers.32.moe.up_proj.weight": "model-00032.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.32.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.32.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.32.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.33.moe.down_proj.weight": "model-00033.safetensors",
+    "model.layers.33.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.33.moe.gate_proj.weight": "model-00032.safetensors",
+    "model.layers.33.moe.router_bias": "model-00001.safetensors",
+    "model.layers.33.moe.up_proj.weight": "model-00033.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.33.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.33.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.33.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.34.moe.down_proj.weight": "model-00034.safetensors",
+    "model.layers.34.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.34.moe.gate_proj.weight": "model-00033.safetensors",
+    "model.layers.34.moe.router_bias": "model-00001.safetensors",
+    "model.layers.34.moe.up_proj.weight": "model-00034.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.34.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.34.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.34.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.35.moe.down_proj.weight": "model-00035.safetensors",
+    "model.layers.35.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.35.moe.gate_proj.weight": "model-00034.safetensors",
+    "model.layers.35.moe.router_bias": "model-00001.safetensors",
+    "model.layers.35.moe.up_proj.weight": "model-00035.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.35.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.35.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.35.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.36.moe.down_proj.weight": "model-00036.safetensors",
+    "model.layers.36.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.36.moe.gate_proj.weight": "model-00035.safetensors",
+    "model.layers.36.moe.router_bias": "model-00001.safetensors",
+    "model.layers.36.moe.up_proj.weight": "model-00036.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.36.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.36.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.36.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.37.moe.down_proj.weight": "model-00037.safetensors",
+    "model.layers.37.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.37.moe.gate_proj.weight": "model-00036.safetensors",
+    "model.layers.37.moe.router_bias": "model-00001.safetensors",
+    "model.layers.37.moe.up_proj.weight": "model-00037.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.37.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.37.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.37.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.38.moe.down_proj.weight": "model-00038.safetensors",
+    "model.layers.38.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.38.moe.gate_proj.weight": "model-00037.safetensors",
+    "model.layers.38.moe.router_bias": "model-00001.safetensors",
+    "model.layers.38.moe.up_proj.weight": "model-00038.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.38.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.38.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.38.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.39.moe.down_proj.weight": "model-00039.safetensors",
+    "model.layers.39.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.39.moe.gate_proj.weight": "model-00038.safetensors",
+    "model.layers.39.moe.router_bias": "model-00001.safetensors",
+    "model.layers.39.moe.up_proj.weight": "model-00039.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.39.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.39.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.39.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.4.moe.down_proj.weight": "model-00004.safetensors",
+    "model.layers.4.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.4.moe.gate_proj.weight": "model-00003.safetensors",
+    "model.layers.4.moe.router_bias": "model-00001.safetensors",
+    "model.layers.4.moe.up_proj.weight": "model-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.4.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.4.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.4.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.40.moe.down_proj.weight": "model-00040.safetensors",
+    "model.layers.40.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.40.moe.gate_proj.weight": "model-00039.safetensors",
+    "model.layers.40.moe.router_bias": "model-00001.safetensors",
+    "model.layers.40.moe.up_proj.weight": "model-00040.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.40.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.40.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.40.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.41.moe.down_proj.weight": "model-00041.safetensors",
+    "model.layers.41.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.41.moe.gate_proj.weight": "model-00040.safetensors",
+    "model.layers.41.moe.router_bias": "model-00001.safetensors",
+    "model.layers.41.moe.up_proj.weight": "model-00041.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.41.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.41.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.41.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.42.moe.down_proj.weight": "model-00042.safetensors",
+    "model.layers.42.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.42.moe.gate_proj.weight": "model-00041.safetensors",
+    "model.layers.42.moe.router_bias": "model-00001.safetensors",
+    "model.layers.42.moe.up_proj.weight": "model-00042.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.42.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.42.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.42.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.42.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.42.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.42.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.43.moe.down_proj.weight": "model-00043.safetensors",
+    "model.layers.43.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.43.moe.gate_proj.weight": "model-00042.safetensors",
+    "model.layers.43.moe.router_bias": "model-00001.safetensors",
+    "model.layers.43.moe.up_proj.weight": "model-00043.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.43.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.43.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.43.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.43.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.43.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.43.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.44.moe.down_proj.weight": "model-00044.safetensors",
+    "model.layers.44.moe.gate.weight": "model-00002.safetensors",
+    "model.layers.44.moe.gate_proj.weight": "model-00043.safetensors",
+    "model.layers.44.moe.router_bias": "model-00002.safetensors",
+    "model.layers.44.moe.up_proj.weight": "model-00044.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.44.share_expert.down_proj.weight": "model-00002.safetensors",
+    "model.layers.44.share_expert.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.44.share_expert.up_proj.weight": "model-00002.safetensors",
+    "model.layers.45.eh_proj.weight": "model-00002.safetensors",
+    "model.layers.45.enorm.weight": "model-00002.safetensors",
+    "model.layers.45.hnorm.weight": "model-00002.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00002.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00002.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00002.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00002.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.g_proj.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.k_norm.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.q_norm.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00002.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00002.safetensors",
+    "model.layers.45.transformer.shared_head.norm.weight": "model-00002.safetensors",
+    "model.layers.45.transformer.shared_head.output.weight": "model-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.5.moe.down_proj.weight": "model-00005.safetensors",
+    "model.layers.5.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.5.moe.gate_proj.weight": "model-00004.safetensors",
+    "model.layers.5.moe.router_bias": "model-00001.safetensors",
+    "model.layers.5.moe.up_proj.weight": "model-00005.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.5.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.5.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.5.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.6.moe.down_proj.weight": "model-00006.safetensors",
+    "model.layers.6.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.6.moe.gate_proj.weight": "model-00005.safetensors",
+    "model.layers.6.moe.router_bias": "model-00001.safetensors",
+    "model.layers.6.moe.up_proj.weight": "model-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.6.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.6.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.6.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.7.moe.down_proj.weight": "model-00007.safetensors",
+    "model.layers.7.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.7.moe.gate_proj.weight": "model-00006.safetensors",
+    "model.layers.7.moe.router_bias": "model-00001.safetensors",
+    "model.layers.7.moe.up_proj.weight": "model-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.7.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.7.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.7.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.8.moe.down_proj.weight": "model-00008.safetensors",
+    "model.layers.8.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.8.moe.gate_proj.weight": "model-00007.safetensors",
+    "model.layers.8.moe.router_bias": "model-00001.safetensors",
+    "model.layers.8.moe.up_proj.weight": "model-00008.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.8.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.8.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.8.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001.safetensors",
+    "model.layers.9.moe.down_proj.weight": "model-00009.safetensors",
+    "model.layers.9.moe.gate.weight": "model-00001.safetensors",
+    "model.layers.9.moe.gate_proj.weight": "model-00008.safetensors",
+    "model.layers.9.moe.router_bias": "model-00001.safetensors",
+    "model.layers.9.moe.up_proj.weight": "model-00009.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.g_proj.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001.safetensors",
+    "model.layers.9.share_expert.down_proj.weight": "model-00001.safetensors",
+    "model.layers.9.share_expert.gate_proj.weight": "model-00001.safetensors",
+    "model.layers.9.share_expert.up_proj.weight": "model-00001.safetensors",
+    "model.norm.weight": "model-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff