void-818 commited on Dec 19, 2025

Commit

cb75450

verified ·

1 Parent(s): 29f9bd2

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
chat_template.jinja +61 -0
config.json +68 -0
generation_config.json +12 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +407 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +1034 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,61 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 262144,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.3",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.57.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:209d54e3ded1678867596c726dc61a8830753a59fbabd8de9e732ce26e01c934
+size 4967215441

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8aed5959bf9ba5a8a67f0122d9ab5c0fca921839d200ba4994cfd58bb333cb26
+size 4967215455

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8064ad4301fd5f5adb6210c93846a1d3766c00c02aa48a71512b6ba2af65c17
+size 3855679227

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ae4cc73556420ccb63f98fe40b9cd232a6e605f24d9010f18dc543abcee2293
+size 4996742244

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9267ed6ba2000ba0049a24d3b329ce7e058e8a7557f4d3f14424df574e61afc
+size 99640865

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "metadata": {
+    "total_parameters": 4022468096,
+    "total_size": 8822848512
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 12880,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1034 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.553351909523029,
+  "eval_steps": 500,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06556302245533518,
+      "grad_norm": 0.2032165825366974,
+      "learning_rate": 9.999745598795031e-08,
+      "loss": 0.4359,
+      "num_input_tokens_seen": 3794784,
+      "step": 50,
+      "train_runtime": 288.0643,
+      "train_tokens_per_second": 13173.393
+    },
+    {
+      "epoch": 0.13112604491067037,
+      "grad_norm": 0.12323546409606934,
+      "learning_rate": 9.998961548920028e-08,
+      "loss": 0.5461,
+      "num_input_tokens_seen": 7656384,
+      "step": 100,
+      "train_runtime": 563.6125,
+      "train_tokens_per_second": 13584.481
+    },
+    {
+      "epoch": 0.19668906736600558,
+      "grad_norm": 0.6143731474876404,
+      "learning_rate": 9.997647827492774e-08,
+      "loss": 0.4957,
+      "num_input_tokens_seen": 11324688,
+      "step": 150,
+      "train_runtime": 840.9128,
+      "train_tokens_per_second": 13467.137
+    },
+    {
+      "epoch": 0.26225208982134074,
+      "grad_norm": 5.337645053863525,
+      "learning_rate": 9.995804573710351e-08,
+      "loss": 0.4317,
+      "num_input_tokens_seen": 14915760,
+      "step": 200,
+      "train_runtime": 1098.5331,
+      "train_tokens_per_second": 13577.889
+    },
+    {
+      "epoch": 0.327815112276676,
+      "grad_norm": 9.094950675964355,
+      "learning_rate": 9.993431982877141e-08,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 18760920,
+      "step": 250,
+      "train_runtime": 1370.436,
+      "train_tokens_per_second": 13689.745
+    },
+    {
+      "epoch": 0.39337813473201116,
+      "grad_norm": 8.739721298217773,
+      "learning_rate": 9.990530306384132e-08,
+      "loss": 0.4875,
+      "num_input_tokens_seen": 22666272,
+      "step": 300,
+      "train_runtime": 1675.777,
+      "train_tokens_per_second": 13525.828
+    },
+    {
+      "epoch": 0.45894115718734635,
+      "grad_norm": 5.213091850280762,
+      "learning_rate": 9.987099851682273e-08,
+      "loss": 0.5377,
+      "num_input_tokens_seen": 26550816,
+      "step": 350,
+      "train_runtime": 1969.5671,
+      "train_tokens_per_second": 13480.534
+    },
+    {
+      "epoch": 0.5245041796426815,
+      "grad_norm": 6.928552627563477,
+      "learning_rate": 9.983140982249912e-08,
+      "loss": 0.5284,
+      "num_input_tokens_seen": 30502512,
+      "step": 400,
+      "train_runtime": 2276.9451,
+      "train_tokens_per_second": 13396.244
+    },
+    {
+      "epoch": 0.5900672020980167,
+      "grad_norm": 7.398318290710449,
+      "learning_rate": 9.978654117554268e-08,
+      "loss": 0.3501,
+      "num_input_tokens_seen": 34219392,
+      "step": 450,
+      "train_runtime": 2557.2601,
+      "train_tokens_per_second": 13381.272
+    },
+    {
+      "epoch": 0.655630224553352,
+      "grad_norm": 0.12503379583358765,
+      "learning_rate": 9.973639733006998e-08,
+      "loss": 0.4336,
+      "num_input_tokens_seen": 38231808,
+      "step": 500,
+      "train_runtime": 2907.4779,
+      "train_tokens_per_second": 13149.475
+    },
+    {
+      "epoch": 0.7211932470086871,
+      "grad_norm": 1.006555199623108,
+      "learning_rate": 9.968098359913822e-08,
+      "loss": 0.382,
+      "num_input_tokens_seen": 42037704,
+      "step": 550,
+      "train_runtime": 3185.8277,
+      "train_tokens_per_second": 13195.222
+    },
+    {
+      "epoch": 0.7867562694640223,
+      "grad_norm": 7.536371231079102,
+      "learning_rate": 9.962030585418215e-08,
+      "loss": 0.3866,
+      "num_input_tokens_seen": 46037664,
+      "step": 600,
+      "train_runtime": 3488.8435,
+      "train_tokens_per_second": 13195.681
+    },
+    {
+      "epoch": 0.8523192919193575,
+      "grad_norm": 0.24487841129302979,
+      "learning_rate": 9.955437052439219e-08,
+      "loss": 0.4026,
+      "num_input_tokens_seen": 49944816,
+      "step": 650,
+      "train_runtime": 3776.75,
+      "train_tokens_per_second": 13224.284
+    },
+    {
+      "epoch": 0.9178823143746927,
+      "grad_norm": 1.2577345371246338,
+      "learning_rate": 9.948318459603297e-08,
+      "loss": 0.3547,
+      "num_input_tokens_seen": 53838960,
+      "step": 700,
+      "train_runtime": 4095.3801,
+      "train_tokens_per_second": 13146.267
+    },
+    {
+      "epoch": 0.9834453368300279,
+      "grad_norm": 0.23559170961380005,
+      "learning_rate": 9.940675561170326e-08,
+      "loss": 0.3269,
+      "num_input_tokens_seen": 57703848,
+      "step": 750,
+      "train_runtime": 4401.0597,
+      "train_tokens_per_second": 13111.353
+    },
+    {
+      "epoch": 1.048516636616948,
+      "grad_norm": 2.2465434074401855,
+      "learning_rate": 9.932509166953673e-08,
+      "loss": 0.38,
+      "num_input_tokens_seen": 61456680,
+      "step": 800,
+      "train_runtime": 4678.4603,
+      "train_tokens_per_second": 13136.091
+    },
+    {
+      "epoch": 1.1140796590722832,
+      "grad_norm": 0.8857269287109375,
+      "learning_rate": 9.923820142234384e-08,
+      "loss": 0.3671,
+      "num_input_tokens_seen": 65352192,
+      "step": 850,
+      "train_runtime": 4987.8785,
+      "train_tokens_per_second": 13102.202
+    },
+    {
+      "epoch": 1.1796426815276184,
+      "grad_norm": 2.611070394515991,
+      "learning_rate": 9.914609407669518e-08,
+      "loss": 0.2795,
+      "num_input_tokens_seen": 69406008,
+      "step": 900,
+      "train_runtime": 5331.3796,
+      "train_tokens_per_second": 13018.395
+    },
+    {
+      "epoch": 1.2452057039829536,
+      "grad_norm": 0.18760572373867035,
+      "learning_rate": 9.904877939194582e-08,
+      "loss": 0.3224,
+      "num_input_tokens_seen": 73152336,
+      "step": 950,
+      "train_runtime": 5603.6792,
+      "train_tokens_per_second": 13054.341
+    },
+    {
+      "epoch": 1.3107687264382888,
+      "grad_norm": 7.031470775604248,
+      "learning_rate": 9.894626767920125e-08,
+      "loss": 0.2581,
+      "num_input_tokens_seen": 76955160,
+      "step": 1000,
+      "train_runtime": 5891.4617,
+      "train_tokens_per_second": 13062.151
+    },
+    {
+      "epoch": 1.376331748893624,
+      "grad_norm": 3.1105947494506836,
+      "learning_rate": 9.883856980022501e-08,
+      "loss": 0.2146,
+      "num_input_tokens_seen": 80682888,
+      "step": 1050,
+      "train_runtime": 6172.6315,
+      "train_tokens_per_second": 13071.068
+    },
+    {
+      "epoch": 1.4418947713489592,
+      "grad_norm": 3.3154454231262207,
+      "learning_rate": 9.872569716628762e-08,
+      "loss": 0.1974,
+      "num_input_tokens_seen": 84505128,
+      "step": 1100,
+      "train_runtime": 6464.0066,
+      "train_tokens_per_second": 13073.181
+    },
+    {
+      "epoch": 1.5074577938042943,
+      "grad_norm": 2.295762062072754,
+      "learning_rate": 9.860766173695762e-08,
+      "loss": 0.331,
+      "num_input_tokens_seen": 88457640,
+      "step": 1150,
+      "train_runtime": 6787.6545,
+      "train_tokens_per_second": 13032.137
+    },
+    {
+      "epoch": 1.5730208162596295,
+      "grad_norm": 3.430027484893799,
+      "learning_rate": 9.848447601883434e-08,
+      "loss": 0.2295,
+      "num_input_tokens_seen": 92425752,
+      "step": 1200,
+      "train_runtime": 7110.9534,
+      "train_tokens_per_second": 12997.66
+    },
+    {
+      "epoch": 1.6385838387149647,
+      "grad_norm": 5.2876200675964355,
+      "learning_rate": 9.83561530642227e-08,
+      "loss": 0.3534,
+      "num_input_tokens_seen": 96447384,
+      "step": 1250,
+      "train_runtime": 7430.2464,
+      "train_tokens_per_second": 12980.375
+    },
+    {
+      "epoch": 1.7041468611703,
+      "grad_norm": 2.3764872550964355,
+      "learning_rate": 9.822270646975031e-08,
+      "loss": 0.2875,
+      "num_input_tokens_seen": 100202232,
+      "step": 1300,
+      "train_runtime": 7704.6648,
+      "train_tokens_per_second": 13005.398
+    },
+    {
+      "epoch": 1.769709883625635,
+      "grad_norm": 0.5971184968948364,
+      "learning_rate": 9.808415037492677e-08,
+      "loss": 0.1869,
+      "num_input_tokens_seen": 103938744,
+      "step": 1350,
+      "train_runtime": 7967.1016,
+      "train_tokens_per_second": 13045.992
+    },
+    {
+      "epoch": 1.8352729060809705,
+      "grad_norm": 1.1916333436965942,
+      "learning_rate": 9.794049946064551e-08,
+      "loss": 0.2173,
+      "num_input_tokens_seen": 107626320,
+      "step": 1400,
+      "train_runtime": 8229.9563,
+      "train_tokens_per_second": 13077.387
+    },
+    {
+      "epoch": 1.9008359285363055,
+      "grad_norm": 1.6566100120544434,
+      "learning_rate": 9.779176894762831e-08,
+      "loss": 0.2168,
+      "num_input_tokens_seen": 111377760,
+      "step": 1450,
+      "train_runtime": 8503.7645,
+      "train_tokens_per_second": 13097.465
+    },
+    {
+      "epoch": 1.9663989509916409,
+      "grad_norm": 3.6912384033203125,
+      "learning_rate": 9.763797459481244e-08,
+      "loss": 0.2844,
+      "num_input_tokens_seen": 115314840,
+      "step": 1500,
+      "train_runtime": 8803.7543,
+      "train_tokens_per_second": 13098.371
+    },
+    {
+      "epoch": 2.0314702507785607,
+      "grad_norm": 0.7536889910697937,
+      "learning_rate": 9.747913269768107e-08,
+      "loss": 0.1743,
+      "num_input_tokens_seen": 118930008,
+      "step": 1550,
+      "train_runtime": 9062.5998,
+      "train_tokens_per_second": 13123.167
+    },
+    {
+      "epoch": 2.097033273233896,
+      "grad_norm": 4.382725715637207,
+      "learning_rate": 9.731526008653652e-08,
+      "loss": 0.1793,
+      "num_input_tokens_seen": 122730384,
+      "step": 1600,
+      "train_runtime": 9342.1738,
+      "train_tokens_per_second": 13137.24
+    },
+    {
+      "epoch": 2.162596295689231,
+      "grad_norm": 1.2656387090682983,
+      "learning_rate": 9.714637412471703e-08,
+      "loss": 0.2939,
+      "num_input_tokens_seen": 126529800,
+      "step": 1650,
+      "train_runtime": 9635.6982,
+      "train_tokens_per_second": 13131.358
+    },
+    {
+      "epoch": 2.2281593181445665,
+      "grad_norm": 2.5040361881256104,
+      "learning_rate": 9.697249270675705e-08,
+      "loss": 0.2434,
+      "num_input_tokens_seen": 130443600,
+      "step": 1700,
+      "train_runtime": 9927.959,
+      "train_tokens_per_second": 13139.015
+    },
+    {
+      "epoch": 2.293722340599902,
+      "grad_norm": 0.9235166311264038,
+      "learning_rate": 9.679363425649115e-08,
+      "loss": 0.2993,
+      "num_input_tokens_seen": 134517072,
+      "step": 1750,
+      "train_runtime": 10260.6078,
+      "train_tokens_per_second": 13110.049
+    },
+    {
+      "epoch": 2.359285363055237,
+      "grad_norm": 1.0807639360427856,
+      "learning_rate": 9.660981772510188e-08,
+      "loss": 0.192,
+      "num_input_tokens_seen": 138214584,
+      "step": 1800,
+      "train_runtime": 10530.3372,
+      "train_tokens_per_second": 13125.371
+    },
+    {
+      "epoch": 2.424848385510572,
+      "grad_norm": 1.5869427919387817,
+      "learning_rate": 9.642106258911184e-08,
+      "loss": 0.2412,
+      "num_input_tokens_seen": 142113144,
+      "step": 1850,
+      "train_runtime": 10835.7191,
+      "train_tokens_per_second": 13115.248
+    },
+    {
+      "epoch": 2.490411407965907,
+      "grad_norm": 1.165739893913269,
+      "learning_rate": 9.622738884831996e-08,
+      "loss": 0.2425,
+      "num_input_tokens_seen": 146119920,
+      "step": 1900,
+      "train_runtime": 11148.5673,
+      "train_tokens_per_second": 13106.61
+    },
+    {
+      "epoch": 2.5559744304212426,
+      "grad_norm": 1.7617275714874268,
+      "learning_rate": 9.602881702368242e-08,
+      "loss": 0.2262,
+      "num_input_tokens_seen": 150087360,
+      "step": 1950,
+      "train_runtime": 11458.6247,
+      "train_tokens_per_second": 13098.2
+    },
+    {
+      "epoch": 2.6215374528765776,
+      "grad_norm": 0.4497505724430084,
+      "learning_rate": 9.582536815513833e-08,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 153908160,
+      "step": 2000,
+      "train_runtime": 11749.4731,
+      "train_tokens_per_second": 13099.154
+    },
+    {
+      "epoch": 2.6871004753319125,
+      "grad_norm": 0.7155716419219971,
+      "learning_rate": 9.561706379938041e-08,
+      "loss": 0.222,
+      "num_input_tokens_seen": 157607040,
+      "step": 2050,
+      "train_runtime": 12052.7614,
+      "train_tokens_per_second": 13076.426
+    },
+    {
+      "epoch": 2.752663497787248,
+      "grad_norm": 1.3807727098464966,
+      "learning_rate": 9.540392602757093e-08,
+      "loss": 0.1474,
+      "num_input_tokens_seen": 161453160,
+      "step": 2100,
+      "train_runtime": 12357.3875,
+      "train_tokens_per_second": 13065.315
+    },
+    {
+      "epoch": 2.8182265202425834,
+      "grad_norm": 0.739932119846344,
+      "learning_rate": 9.518597742300308e-08,
+      "loss": 0.265,
+      "num_input_tokens_seen": 165287904,
+      "step": 2150,
+      "train_runtime": 12651.7227,
+      "train_tokens_per_second": 13064.458
+    },
+    {
+      "epoch": 2.8837895426979183,
+      "grad_norm": 0.4396991431713104,
+      "learning_rate": 9.496324107870821e-08,
+      "loss": 0.2944,
+      "num_input_tokens_seen": 169326888,
+      "step": 2200,
+      "train_runtime": 12967.7154,
+      "train_tokens_per_second": 13057.573
+    },
+    {
+      "epoch": 2.9493525651532537,
+      "grad_norm": 0.38162505626678467,
+      "learning_rate": 9.47357405950089e-08,
+      "loss": 0.2348,
+      "num_input_tokens_seen": 173020800,
+      "step": 2250,
+      "train_runtime": 13223.1088,
+      "train_tokens_per_second": 13084.729
+    },
+    {
+      "epoch": 3.0144238649401736,
+      "grad_norm": 3.874674081802368,
+      "learning_rate": 9.450350007701847e-08,
+      "loss": 0.2311,
+      "num_input_tokens_seen": 176668584,
+      "step": 2300,
+      "train_runtime": 13516.1565,
+      "train_tokens_per_second": 13070.919
+    },
+    {
+      "epoch": 3.079986887395509,
+      "grad_norm": 0.7723739743232727,
+      "learning_rate": 9.426654413208668e-08,
+      "loss": 0.2964,
+      "num_input_tokens_seen": 180729120,
+      "step": 2350,
+      "train_runtime": 13841.6367,
+      "train_tokens_per_second": 13056.918
+    },
+    {
+      "epoch": 3.145549909850844,
+      "grad_norm": 1.5033811330795288,
+      "learning_rate": 9.40248978671927e-08,
+      "loss": 0.2084,
+      "num_input_tokens_seen": 184677672,
+      "step": 2400,
+      "train_runtime": 14150.4953,
+      "train_tokens_per_second": 13050.969
+    },
+    {
+      "epoch": 3.2111129323061793,
+      "grad_norm": 1.8196630477905273,
+      "learning_rate": 9.377858688628464e-08,
+      "loss": 0.1717,
+      "num_input_tokens_seen": 188404488,
+      "step": 2450,
+      "train_runtime": 14408.9636,
+      "train_tokens_per_second": 13075.506
+    },
+    {
+      "epoch": 3.2766759547615143,
+      "grad_norm": 0.9214364290237427,
+      "learning_rate": 9.352763728756675e-08,
+      "loss": 0.23,
+      "num_input_tokens_seen": 192323616,
+      "step": 2500,
+      "train_runtime": 14710.1132,
+      "train_tokens_per_second": 13074.244
+    },
+    {
+      "epoch": 3.3422389772168497,
+      "grad_norm": 1.0862064361572266,
+      "learning_rate": 9.327207566073416e-08,
+      "loss": 0.2271,
+      "num_input_tokens_seen": 196108272,
+      "step": 2550,
+      "train_runtime": 14979.1529,
+      "train_tokens_per_second": 13092.08
+    },
+    {
+      "epoch": 3.407801999672185,
+      "grad_norm": 0.8413626551628113,
+      "learning_rate": 9.301192908415552e-08,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 199941432,
+      "step": 2600,
+      "train_runtime": 15282.6531,
+      "train_tokens_per_second": 13082.901
+    },
+    {
+      "epoch": 3.47336502212752,
+      "grad_norm": 1.531718134880066,
+      "learning_rate": 9.274722512200379e-08,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 203779920,
+      "step": 2650,
+      "train_runtime": 15565.7388,
+      "train_tokens_per_second": 13091.568
+    },
+    {
+      "epoch": 3.538928044582855,
+      "grad_norm": 0.0838296189904213,
+      "learning_rate": 9.247799182133582e-08,
+      "loss": 0.2191,
+      "num_input_tokens_seen": 207633384,
+      "step": 2700,
+      "train_runtime": 15868.2059,
+      "train_tokens_per_second": 13084.868
+    },
+    {
+      "epoch": 3.6044910670381904,
+      "grad_norm": 1.1013773679733276,
+      "learning_rate": 9.220425770912042e-08,
+      "loss": 0.1988,
+      "num_input_tokens_seen": 211368360,
+      "step": 2750,
+      "train_runtime": 16143.9244,
+      "train_tokens_per_second": 13092.75
+    },
+    {
+      "epoch": 3.670054089493526,
+      "grad_norm": 0.40529268980026245,
+      "learning_rate": 9.192605178921584e-08,
+      "loss": 0.3072,
+      "num_input_tokens_seen": 215149128,
+      "step": 2800,
+      "train_runtime": 16445.4494,
+      "train_tokens_per_second": 13082.593
+    },
+    {
+      "epoch": 3.735617111948861,
+      "grad_norm": 1.5882924795150757,
+      "learning_rate": 9.164340353929659e-08,
+      "loss": 0.1822,
+      "num_input_tokens_seen": 218796552,
+      "step": 2850,
+      "train_runtime": 16707.491,
+      "train_tokens_per_second": 13095.716
+    },
+    {
+      "epoch": 3.8011801344041958,
+      "grad_norm": 0.862838089466095,
+      "learning_rate": 9.13563429077301e-08,
+      "loss": 0.2437,
+      "num_input_tokens_seen": 222623832,
+      "step": 2900,
+      "train_runtime": 16994.843,
+      "train_tokens_per_second": 13099.493
+    },
+    {
+      "epoch": 3.866743156859531,
+      "grad_norm": 0.7801971435546875,
+      "learning_rate": 9.106490031040353e-08,
+      "loss": 0.3174,
+      "num_input_tokens_seen": 226629408,
+      "step": 2950,
+      "train_runtime": 17320.4321,
+      "train_tokens_per_second": 13084.512
+    },
+    {
+      "epoch": 3.9323061793148666,
+      "grad_norm": 0.4492790699005127,
+      "learning_rate": 9.076910662750096e-08,
+      "loss": 0.199,
+      "num_input_tokens_seen": 230444736,
+      "step": 3000,
+      "train_runtime": 17612.3894,
+      "train_tokens_per_second": 13084.24
+    },
+    {
+      "epoch": 3.9978692017702016,
+      "grad_norm": 4.88616418838501,
+      "learning_rate": 9.04689932002315e-08,
+      "loss": 0.1764,
+      "num_input_tokens_seen": 234389904,
+      "step": 3050,
+      "train_runtime": 17949.0057,
+      "train_tokens_per_second": 13058.657
+    },
+    {
+      "epoch": 4.062940501557121,
+      "grad_norm": 0.597968339920044,
+      "learning_rate": 9.016459182750843e-08,
+      "loss": 0.209,
+      "num_input_tokens_seen": 238124880,
+      "step": 3100,
+      "train_runtime": 18244.7826,
+      "train_tokens_per_second": 13051.67
+    },
+    {
+      "epoch": 4.128503524012457,
+      "grad_norm": 0.8793305158615112,
+      "learning_rate": 8.985593476257997e-08,
+      "loss": 0.2686,
+      "num_input_tokens_seen": 241758864,
+      "step": 3150,
+      "train_runtime": 18507.4406,
+      "train_tokens_per_second": 13062.793
+    },
+    {
+      "epoch": 4.194066546467792,
+      "grad_norm": 7.551540851593018,
+      "learning_rate": 8.954305470961178e-08,
+      "loss": 0.2529,
+      "num_input_tokens_seen": 245698488,
+      "step": 3200,
+      "train_runtime": 18827.139,
+      "train_tokens_per_second": 13050.23
+    },
+    {
+      "epoch": 4.259629568923128,
+      "grad_norm": 0.4505975842475891,
+      "learning_rate": 8.922598482022182e-08,
+      "loss": 0.2384,
+      "num_input_tokens_seen": 249595968,
+      "step": 3250,
+      "train_runtime": 19129.2909,
+      "train_tokens_per_second": 13047.842
+    },
+    {
+      "epoch": 4.325192591378462,
+      "grad_norm": 2.2207558155059814,
+      "learning_rate": 8.890475868996762e-08,
+      "loss": 0.1867,
+      "num_input_tokens_seen": 253481304,
+      "step": 3300,
+      "train_runtime": 19419.7804,
+      "train_tokens_per_second": 13052.738
+    },
+    {
+      "epoch": 4.3907556138337975,
+      "grad_norm": 0.9266397356987,
+      "learning_rate": 8.857941035478673e-08,
+      "loss": 0.1763,
+      "num_input_tokens_seen": 257255976,
+      "step": 3350,
+      "train_runtime": 19702.252,
+      "train_tokens_per_second": 13057.186
+    },
+    {
+      "epoch": 4.456318636289133,
+      "grad_norm": 0.29596129059791565,
+      "learning_rate": 8.824997428739036e-08,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 261064368,
+      "step": 3400,
+      "train_runtime": 19998.9663,
+      "train_tokens_per_second": 13053.893
+    },
+    {
+      "epoch": 4.521881658744468,
+      "grad_norm": 0.9699137210845947,
+      "learning_rate": 8.791648539361072e-08,
+      "loss": 0.201,
+      "num_input_tokens_seen": 264944352,
+      "step": 3450,
+      "train_runtime": 20299.7802,
+      "train_tokens_per_second": 13051.587
+    },
+    {
+      "epoch": 4.587444681199804,
+      "grad_norm": 1.298768401145935,
+      "learning_rate": 8.757897900870261e-08,
+      "loss": 0.2057,
+      "num_input_tokens_seen": 268791072,
+      "step": 3500,
+      "train_runtime": 20594.4257,
+      "train_tokens_per_second": 13051.642
+    },
+    {
+      "epoch": 4.653007703655138,
+      "grad_norm": 12.011015892028809,
+      "learning_rate": 8.72374908935994e-08,
+      "loss": 0.2351,
+      "num_input_tokens_seen": 272495832,
+      "step": 3550,
+      "train_runtime": 20885.3413,
+      "train_tokens_per_second": 13047.229
+    },
+    {
+      "epoch": 4.718570726110474,
+      "grad_norm": 0.24729423224925995,
+      "learning_rate": 8.689205723112387e-08,
+      "loss": 0.2065,
+      "num_input_tokens_seen": 276393408,
+      "step": 3600,
+      "train_runtime": 21206.0433,
+      "train_tokens_per_second": 13033.71
+    },
+    {
+      "epoch": 4.784133748565809,
+      "grad_norm": 2.150505781173706,
+      "learning_rate": 8.654271462215454e-08,
+      "loss": 0.158,
+      "num_input_tokens_seen": 280197624,
+      "step": 3650,
+      "train_runtime": 21488.9397,
+      "train_tokens_per_second": 13039.155
+    },
+    {
+      "epoch": 4.849696771021144,
+      "grad_norm": 0.4875163435935974,
+      "learning_rate": 8.618950008174746e-08,
+      "loss": 0.1832,
+      "num_input_tokens_seen": 284031624,
+      "step": 3700,
+      "train_runtime": 21778.1233,
+      "train_tokens_per_second": 13042.062
+    },
+    {
+      "epoch": 4.915259793476479,
+      "grad_norm": 0.5430140495300293,
+      "learning_rate": 8.583245103521428e-08,
+      "loss": 0.2566,
+      "num_input_tokens_seen": 287936280,
+      "step": 3750,
+      "train_runtime": 22067.8249,
+      "train_tokens_per_second": 13047.787
+    },
+    {
+      "epoch": 4.980822815931814,
+      "grad_norm": 0.3734208941459656,
+      "learning_rate": 8.547160531415679e-08,
+      "loss": 0.2775,
+      "num_input_tokens_seen": 291838584,
+      "step": 3800,
+      "train_runtime": 22359.3364,
+      "train_tokens_per_second": 13052.202
+    },
+    {
+      "epoch": 5.045894115718735,
+      "grad_norm": 0.9905921220779419,
+      "learning_rate": 8.510700115245841e-08,
+      "loss": 0.1971,
+      "num_input_tokens_seen": 295643712,
+      "step": 3850,
+      "train_runtime": 22653.1086,
+      "train_tokens_per_second": 13050.911
+    },
+    {
+      "epoch": 5.11145713817407,
+      "grad_norm": 0.0872701108455658,
+      "learning_rate": 8.473867718223315e-08,
+      "loss": 0.3142,
+      "num_input_tokens_seen": 299528016,
+      "step": 3900,
+      "train_runtime": 22970.1152,
+      "train_tokens_per_second": 13039.9
+    },
+    {
+      "epoch": 5.177020160629405,
+      "grad_norm": 0.7591832876205444,
+      "learning_rate": 8.436667242973218e-08,
+      "loss": 0.2291,
+      "num_input_tokens_seen": 303643632,
+      "step": 3950,
+      "train_runtime": 23324.5779,
+      "train_tokens_per_second": 13018.183
+    },
+    {
+      "epoch": 5.24258318308474,
+      "grad_norm": 0.44477882981300354,
+      "learning_rate": 8.399102631120877e-08,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 307574184,
+      "step": 4000,
+      "train_runtime": 23603.684,
+      "train_tokens_per_second": 13030.77
+    },
+    {
+      "epoch": 5.308146205540075,
+      "grad_norm": 0.48096030950546265,
+      "learning_rate": 8.361177862874202e-08,
+      "loss": 0.1472,
+      "num_input_tokens_seen": 311323584,
+      "step": 4050,
+      "train_runtime": 23888.6512,
+      "train_tokens_per_second": 13032.28
+    },
+    {
+      "epoch": 5.373709227995411,
+      "grad_norm": 0.9138302206993103,
+      "learning_rate": 8.32289695660194e-08,
+      "loss": 0.1981,
+      "num_input_tokens_seen": 315158328,
+      "step": 4100,
+      "train_runtime": 24182.2327,
+      "train_tokens_per_second": 13032.64
+    },
+    {
+      "epoch": 5.439272250450745,
+      "grad_norm": 0.3333579897880554,
+      "learning_rate": 8.284263968407912e-08,
+      "loss": 0.1837,
+      "num_input_tokens_seen": 318844944,
+      "step": 4150,
+      "train_runtime": 24456.5915,
+      "train_tokens_per_second": 13037.178
+    },
+    {
+      "epoch": 5.504835272906081,
+      "grad_norm": 0.9484214782714844,
+      "learning_rate": 8.245282991701243e-08,
+      "loss": 0.2015,
+      "num_input_tokens_seen": 322685568,
+      "step": 4200,
+      "train_runtime": 24723.1173,
+      "train_tokens_per_second": 13051.977
+    },
+    {
+      "epoch": 5.570398295361416,
+      "grad_norm": 0.4100230634212494,
+      "learning_rate": 8.205958156762646e-08,
+      "loss": 0.2554,
+      "num_input_tokens_seen": 326275680,
+      "step": 4250,
+      "train_runtime": 24984.4942,
+      "train_tokens_per_second": 13059.127
+    },
+    {
+      "epoch": 5.635961317816752,
+      "grad_norm": 0.9571174383163452,
+      "learning_rate": 8.166293630306773e-08,
+      "loss": 0.2039,
+      "num_input_tokens_seen": 330026184,
+      "step": 4300,
+      "train_runtime": 25280.2384,
+      "train_tokens_per_second": 13054.71
+    },
+    {
+      "epoch": 5.701524340272087,
+      "grad_norm": 0.5215702652931213,
+      "learning_rate": 8.126293615040747e-08,
+      "loss": 0.2277,
+      "num_input_tokens_seen": 333968520,
+      "step": 4350,
+      "train_runtime": 25565.1364,
+      "train_tokens_per_second": 13063.436
+    },
+    {
+      "epoch": 5.7670873627274215,
+      "grad_norm": 0.4471840560436249,
+      "learning_rate": 8.085962349218847e-08,
+      "loss": 0.2104,
+      "num_input_tokens_seen": 337707624,
+      "step": 4400,
+      "train_runtime": 25841.3753,
+      "train_tokens_per_second": 13068.485
+    },
+    {
+      "epoch": 5.832650385182757,
+      "grad_norm": 1.0097142457962036,
+      "learning_rate": 8.04530410619344e-08,
+      "loss": 0.2524,
+      "num_input_tokens_seen": 341503488,
+      "step": 4450,
+      "train_runtime": 26137.1854,
+      "train_tokens_per_second": 13065.81
+    },
+    {
+      "epoch": 5.898213407638092,
+      "grad_norm": 1.6211527585983276,
+      "learning_rate": 8.004323193962197e-08,
+      "loss": 0.1595,
+      "num_input_tokens_seen": 345388440,
+      "step": 4500,
+      "train_runtime": 26453.2756,
+      "train_tokens_per_second": 13056.547
+    },
+    {
+      "epoch": 5.963776430093427,
+      "grad_norm": 0.25499045848846436,
+      "learning_rate": 7.963023954711624e-08,
+      "loss": 0.2721,
+      "num_input_tokens_seen": 349216920,
+      "step": 4550,
+      "train_runtime": 26741.8598,
+      "train_tokens_per_second": 13058.812
+    },
+    {
+      "epoch": 6.028847729880347,
+      "grad_norm": 0.6265522837638855,
+      "learning_rate": 7.921410764356988e-08,
+      "loss": 0.1993,
+      "num_input_tokens_seen": 353096424,
+      "step": 4600,
+      "train_runtime": 27061.8507,
+      "train_tokens_per_second": 13047.756
+    },
+    {
+      "epoch": 6.0944107523356825,
+      "grad_norm": 0.06899835169315338,
+      "learning_rate": 7.87948803207866e-08,
+      "loss": 0.2228,
+      "num_input_tokens_seen": 356829384,
+      "step": 4650,
+      "train_runtime": 27330.1966,
+      "train_tokens_per_second": 13056.232
+    },
+    {
+      "epoch": 6.159973774791018,
+      "grad_norm": 0.8082672953605652,
+      "learning_rate": 7.837260199854929e-08,
+      "loss": 0.1859,
+      "num_input_tokens_seen": 360447864,
+      "step": 4700,
+      "train_runtime": 27571.8796,
+      "train_tokens_per_second": 13073.025
+    },
+    {
+      "epoch": 6.225536797246353,
+      "grad_norm": 0.6293157339096069,
+      "learning_rate": 7.794731741991355e-08,
+      "loss": 0.2223,
+      "num_input_tokens_seen": 364279296,
+      "step": 4750,
+      "train_runtime": 27852.8113,
+      "train_tokens_per_second": 13078.726
+    },
+    {
+      "epoch": 6.291099819701688,
+      "grad_norm": 0.7018508315086365,
+      "learning_rate": 7.751907164646682e-08,
+      "loss": 0.1709,
+      "num_input_tokens_seen": 368000976,
+      "step": 4800,
+      "train_runtime": 28103.875,
+      "train_tokens_per_second": 13094.314
+    },
+    {
+      "epoch": 6.356662842157023,
+      "grad_norm": 0.3939789831638336,
+      "learning_rate": 7.70879100535538e-08,
+      "loss": 0.1903,
+      "num_input_tokens_seen": 371666208,
+      "step": 4850,
+      "train_runtime": 28370.3397,
+      "train_tokens_per_second": 13100.52
+    },
+    {
+      "epoch": 6.422225864612359,
+      "grad_norm": 0.07075575739145279,
+      "learning_rate": 7.665387832546873e-08,
+      "loss": 0.1653,
+      "num_input_tokens_seen": 375530976,
+      "step": 4900,
+      "train_runtime": 28672.2738,
+      "train_tokens_per_second": 13097.356
+    },
+    {
+      "epoch": 6.487788887067694,
+      "grad_norm": 1.4741820096969604,
+      "learning_rate": 7.621702245061479e-08,
+      "loss": 0.2247,
+      "num_input_tokens_seen": 379400040,
+      "step": 4950,
+      "train_runtime": 28956.4169,
+      "train_tokens_per_second": 13102.451
+    },
+    {
+      "epoch": 6.553351909523029,
+      "grad_norm": 0.756077229976654,
+      "learning_rate": 7.577738871663131e-08,
+      "loss": 0.2299,
+      "num_input_tokens_seen": 383417568,
+      "step": 5000,
+      "train_runtime": 29294.8197,
+      "train_tokens_per_second": 13088.238
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 15260,
+  "num_input_tokens_seen": 383417568,
+  "num_train_epochs": 20,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.358913850245906e+18,
+  "train_batch_size": 3,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c074aff19e5019ec7fd143ab97579ecb71c971734ba58087267a502075e0431
+size 6353

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff