anonymousssguy commited on Nov 22, 2025

Commit

0bb2028

verified ·

1 Parent(s): 1ac9138

Upload folder using huggingface_hub

Browse files

Files changed (40) hide show

.gitattributes +2 -0
README.md +57 -4
added_tokens.json +28 -0
all_results.json +8 -0
chat_template.jinja +89 -0
checkpoint-1383/added_tokens.json +28 -0
checkpoint-1383/chat_template.jinja +89 -0
checkpoint-1383/config.json +70 -0
checkpoint-1383/generation_config.json +12 -0
checkpoint-1383/merges.txt +0 -0
checkpoint-1383/model-00001-of-00004.safetensors +3 -0
checkpoint-1383/model-00002-of-00004.safetensors +3 -0
checkpoint-1383/model-00003-of-00004.safetensors +3 -0
checkpoint-1383/model-00004-of-00004.safetensors +3 -0
checkpoint-1383/model.safetensors.index.json +407 -0
checkpoint-1383/optimizer.pt +3 -0
checkpoint-1383/rng_state.pth +3 -0
checkpoint-1383/scheduler.pt +3 -0
checkpoint-1383/special_tokens_map.json +31 -0
checkpoint-1383/tokenizer.json +3 -0
checkpoint-1383/tokenizer_config.json +240 -0
checkpoint-1383/trainer_state.json +1000 -0
checkpoint-1383/training_args.bin +3 -0
checkpoint-1383/vocab.json +0 -0
config.json +68 -0
generation_config.json +12 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +407 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
train_results.json +8 -0
trainer_state.json +1009 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-1383/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,5 +1,58 @@
 ---
-license: apache-2.0
-base_model:
-- Qwen/Qwen3-8B
----

 ---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen3-8B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: Qwen3-8B-full-v1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Qwen3-8B-full-v1
+This model is a fine-tuned version of [/cpfs01/projects-HDD/cfff-7361474ef8eb_HDD/huangjingjing/model/Qwen/Qwen3-8B](https://huggingface.co//cpfs01/projects-HDD/cfff-7361474ef8eb_HDD/huangjingjing/model/Qwen/Qwen3-8B) on the proactive_agnet_v1 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 4
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- Transformers 4.56.1
+- Pytorch 2.6.0+cu124
+- Datasets 4.0.0
+- Tokenizers 0.22.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 4.094077492231373e+17,
+    "train_loss": 0.674382138752196,
+    "train_runtime": 4290.9934,
+    "train_samples_per_second": 1.289,
+    "train_steps_per_second": 0.322
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

checkpoint-1383/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-1383/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

checkpoint-1383/config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936,
+  "attn_implementation": "sdpa",
+  "torch_dtype": "bfloat16"
+}

checkpoint-1383/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

checkpoint-1383/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1383/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60b78cad2564d6cfc69e0f15f8a547f8800bbd56c3827da7c9e0b5972775e0ad
+size 4902257696

checkpoint-1383/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14bd46fe4192cc1e9be86c22a96628c2a2670e0df3038409381c5afb2956641c
+size 4915960368

checkpoint-1383/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:324ef8ae320150eb4746ac71145a6ba123920644ef4ff47ee40b5c7e84cc33aa
+size 4983068496

checkpoint-1383/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e86401b2105de4d15ebe33554ddcced86d856c22c13844b888f8dda06f1f41c1
+size 1580230264

checkpoint-1383/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "metadata": {
+    "total_parameters": 8190735360,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

checkpoint-1383/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef213f24e460271d03b6ee5b613e714af1de9d424760ef2f7b0a7833b8bbdd69
+size 32763287871

checkpoint-1383/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9196a1e708bf24d6abba41cce3f8558820acc3e50f9394c5955e29eb41ffea3d
+size 14244

checkpoint-1383/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c326c81c4fdfab291fb834c1b1dede7498f4b873cbd0cb7df429b4461b8747a6
+size 1064

checkpoint-1383/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1383/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

checkpoint-1383/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-1383/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1000 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1383,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.021691973969631236,
+      "grad_norm": 65.0,
+      "learning_rate": 6.474820143884893e-07,
+      "loss": 2.3602,
+      "step": 10
+    },
+    {
+      "epoch": 0.04338394793926247,
+      "grad_norm": 52.75,
+      "learning_rate": 1.366906474820144e-06,
+      "loss": 2.1594,
+      "step": 20
+    },
+    {
+      "epoch": 0.0650759219088937,
+      "grad_norm": 61.25,
+      "learning_rate": 2.0863309352517987e-06,
+      "loss": 2.0571,
+      "step": 30
+    },
+    {
+      "epoch": 0.08676789587852494,
+      "grad_norm": 18.875,
+      "learning_rate": 2.805755395683453e-06,
+      "loss": 1.5085,
+      "step": 40
+    },
+    {
+      "epoch": 0.10845986984815618,
+      "grad_norm": 10.0,
+      "learning_rate": 3.525179856115108e-06,
+      "loss": 1.1625,
+      "step": 50
+    },
+    {
+      "epoch": 0.1301518438177874,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.244604316546763e-06,
+      "loss": 0.9246,
+      "step": 60
+    },
+    {
+      "epoch": 0.15184381778741865,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.9640287769784175e-06,
+      "loss": 0.8639,
+      "step": 70
+    },
+    {
+      "epoch": 0.1735357917570499,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.683453237410073e-06,
+      "loss": 0.8425,
+      "step": 80
+    },
+    {
+      "epoch": 0.19522776572668113,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.402877697841727e-06,
+      "loss": 0.8051,
+      "step": 90
+    },
+    {
+      "epoch": 0.21691973969631237,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.122302158273382e-06,
+      "loss": 0.811,
+      "step": 100
+    },
+    {
+      "epoch": 0.2386117136659436,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.841726618705036e-06,
+      "loss": 0.7728,
+      "step": 110
+    },
+    {
+      "epoch": 0.2603036876355748,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.561151079136692e-06,
+      "loss": 0.782,
+      "step": 120
+    },
+    {
+      "epoch": 0.28199566160520606,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.280575539568346e-06,
+      "loss": 0.7653,
+      "step": 130
+    },
+    {
+      "epoch": 0.3036876355748373,
+      "grad_norm": 5.28125,
+      "learning_rate": 1e-05,
+      "loss": 0.7803,
+      "step": 140
+    },
+    {
+      "epoch": 0.32537960954446854,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.998405678466673e-06,
+      "loss": 0.7212,
+      "step": 150
+    },
+    {
+      "epoch": 0.3470715835140998,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.993623730611148e-06,
+      "loss": 0.731,
+      "step": 160
+    },
+    {
+      "epoch": 0.368763557483731,
+      "grad_norm": 5.125,
+      "learning_rate": 9.985657206018403e-06,
+      "loss": 0.7328,
+      "step": 170
+    },
+    {
+      "epoch": 0.39045553145336226,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.97451118516912e-06,
+      "loss": 0.725,
+      "step": 180
+    },
+    {
+      "epoch": 0.4121475054229935,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.960192776199717e-06,
+      "loss": 0.714,
+      "step": 190
+    },
+    {
+      "epoch": 0.43383947939262474,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.942711110369292e-06,
+      "loss": 0.7096,
+      "step": 200
+    },
+    {
+      "epoch": 0.455531453362256,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.922077336236354e-06,
+      "loss": 0.6876,
+      "step": 210
+    },
+    {
+      "epoch": 0.4772234273318872,
+      "grad_norm": 4.75,
+      "learning_rate": 9.898304612549068e-06,
+      "loss": 0.696,
+      "step": 220
+    },
+    {
+      "epoch": 0.49891540130151846,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.871408099853548e-06,
+      "loss": 0.715,
+      "step": 230
+    },
+    {
+      "epoch": 0.5206073752711496,
+      "grad_norm": 4.875,
+      "learning_rate": 9.841404950825537e-06,
+      "loss": 0.723,
+      "step": 240
+    },
+    {
+      "epoch": 0.5422993492407809,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.808314299331661e-06,
+      "loss": 0.6996,
+      "step": 250
+    },
+    {
+      "epoch": 0.5639913232104121,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.772157248227212e-06,
+      "loss": 0.6812,
+      "step": 260
+    },
+    {
+      "epoch": 0.5856832971800434,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.732956855898251e-06,
+      "loss": 0.6851,
+      "step": 270
+    },
+    {
+      "epoch": 0.6073752711496746,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.690738121556622e-06,
+      "loss": 0.6719,
+      "step": 280
+    },
+    {
+      "epoch": 0.6290672451193059,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.645527969297232e-06,
+      "loss": 0.6816,
+      "step": 290
+    },
+    {
+      "epoch": 0.6507592190889371,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.59735523092779e-06,
+      "loss": 0.6893,
+      "step": 300
+    },
+    {
+      "epoch": 0.6724511930585684,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.546250627581937e-06,
+      "loss": 0.659,
+      "step": 310
+    },
+    {
+      "epoch": 0.6941431670281996,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.4922467501275e-06,
+      "loss": 0.6796,
+      "step": 320
+    },
+    {
+      "epoch": 0.7158351409978309,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.435378038382364e-06,
+      "loss": 0.6585,
+      "step": 330
+    },
+    {
+      "epoch": 0.737527114967462,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.375680759151206e-06,
+      "loss": 0.6772,
+      "step": 340
+    },
+    {
+      "epoch": 0.7592190889370932,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.313192983097137e-06,
+      "loss": 0.6659,
+      "step": 350
+    },
+    {
+      "epoch": 0.7809110629067245,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.247954560462929e-06,
+      "loss": 0.6428,
+      "step": 360
+    },
+    {
+      "epoch": 0.8026030368763557,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.18000709565738e-06,
+      "loss": 0.6718,
+      "step": 370
+    },
+    {
+      "epoch": 0.824295010845987,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.109393920723001e-06,
+      "loss": 0.6658,
+      "step": 380
+    },
+    {
+      "epoch": 0.8459869848156182,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.036160067701931e-06,
+      "loss": 0.6673,
+      "step": 390
+    },
+    {
+      "epoch": 0.8676789587852495,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.9603522399177e-06,
+      "loss": 0.6866,
+      "step": 400
+    },
+    {
+      "epoch": 0.8893709327548807,
+      "grad_norm": 4.375,
+      "learning_rate": 8.882018782191205e-06,
+      "loss": 0.6683,
+      "step": 410
+    },
+    {
+      "epoch": 0.911062906724512,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.801209650009813e-06,
+      "loss": 0.6814,
+      "step": 420
+    },
+    {
+      "epoch": 0.9327548806941431,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.717976377669344e-06,
+      "loss": 0.6564,
+      "step": 430
+    },
+    {
+      "epoch": 0.9544468546637744,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.632372045409142e-06,
+      "loss": 0.6489,
+      "step": 440
+    },
+    {
+      "epoch": 0.9761388286334056,
+      "grad_norm": 5.375,
+      "learning_rate": 8.544451245561318e-06,
+      "loss": 0.6598,
+      "step": 450
+    },
+    {
+      "epoch": 0.9978308026030369,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.454270047735644e-06,
+      "loss": 0.6783,
+      "step": 460
+    },
+    {
+      "epoch": 1.0195227765726682,
+      "grad_norm": 5.0,
+      "learning_rate": 8.361885963062352e-06,
+      "loss": 0.6311,
+      "step": 470
+    },
+    {
+      "epoch": 1.0412147505422993,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.267357907515662e-06,
+      "loss": 0.6408,
+      "step": 480
+    },
+    {
+      "epoch": 1.0629067245119306,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.170746164341351e-06,
+      "loss": 0.6211,
+      "step": 490
+    },
+    {
+      "epoch": 1.0845986984815619,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.072112345612434e-06,
+      "loss": 0.5889,
+      "step": 500
+    },
+    {
+      "epoch": 1.106290672451193,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.971519352937348e-06,
+      "loss": 0.5941,
+      "step": 510
+    },
+    {
+      "epoch": 1.1279826464208242,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.869031337345828e-06,
+      "loss": 0.6015,
+      "step": 520
+    },
+    {
+      "epoch": 1.1496746203904555,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.764713658377938e-06,
+      "loss": 0.621,
+      "step": 530
+    },
+    {
+      "epoch": 1.1713665943600868,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.658632842402432e-06,
+      "loss": 0.5997,
+      "step": 540
+    },
+    {
+      "epoch": 1.1930585683297181,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.550856540190985e-06,
+      "loss": 0.6111,
+      "step": 550
+    },
+    {
+      "epoch": 1.2147505422993492,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.441453483775354e-06,
+      "loss": 0.5997,
+      "step": 560
+    },
+    {
+      "epoch": 1.2364425162689805,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.330493442615001e-06,
+      "loss": 0.6216,
+      "step": 570
+    },
+    {
+      "epoch": 1.2581344902386118,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.218047179103112e-06,
+      "loss": 0.6137,
+      "step": 580
+    },
+    {
+      "epoch": 1.2798264642082429,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.104186403439391e-06,
+      "loss": 0.6086,
+      "step": 590
+    },
+    {
+      "epoch": 1.3015184381778742,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.988983727898414e-06,
+      "loss": 0.5941,
+      "step": 600
+    },
+    {
+      "epoch": 1.3232104121475055,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.872512620522707e-06,
+      "loss": 0.6141,
+      "step": 610
+    },
+    {
+      "epoch": 1.3449023861171367,
+      "grad_norm": 4.75,
+      "learning_rate": 6.754847358270067e-06,
+      "loss": 0.6065,
+      "step": 620
+    },
+    {
+      "epoch": 1.3665943600867678,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.6360629796450295e-06,
+      "loss": 0.6192,
+      "step": 630
+    },
+    {
+      "epoch": 1.3882863340563991,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.516235236844661e-06,
+      "loss": 0.6157,
+      "step": 640
+    },
+    {
+      "epoch": 1.4099783080260304,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.395440547449214e-06,
+      "loss": 0.6003,
+      "step": 650
+    },
+    {
+      "epoch": 1.4316702819956615,
+      "grad_norm": 4.875,
+      "learning_rate": 6.273755945688458e-06,
+      "loss": 0.6219,
+      "step": 660
+    },
+    {
+      "epoch": 1.4533622559652928,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.1512590333147335e-06,
+      "loss": 0.6114,
+      "step": 670
+    },
+    {
+      "epoch": 1.475054229934924,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.02802793011411e-06,
+      "loss": 0.6161,
+      "step": 680
+    },
+    {
+      "epoch": 1.4967462039045554,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.904141224087147e-06,
+      "loss": 0.6124,
+      "step": 690
+    },
+    {
+      "epoch": 1.5184381778741867,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.779677921331094e-06,
+      "loss": 0.6083,
+      "step": 700
+    },
+    {
+      "epoch": 1.5401301518438177,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.654717395655424e-06,
+      "loss": 0.6023,
+      "step": 710
+    },
+    {
+      "epoch": 1.561822125813449,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.529339337962898e-06,
+      "loss": 0.6114,
+      "step": 720
+    },
+    {
+      "epoch": 1.58351409978308,
+      "grad_norm": 5.25,
+      "learning_rate": 5.403623705428391e-06,
+      "loss": 0.6036,
+      "step": 730
+    },
+    {
+      "epoch": 1.6052060737527114,
+      "grad_norm": 4.625,
+      "learning_rate": 5.277650670507916e-06,
+      "loss": 0.6071,
+      "step": 740
+    },
+    {
+      "epoch": 1.6268980477223427,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.151500569810345e-06,
+      "loss": 0.5949,
+      "step": 750
+    },
+    {
+      "epoch": 1.648590021691974,
+      "grad_norm": 4.875,
+      "learning_rate": 5.0252538528644715e-06,
+      "loss": 0.6097,
+      "step": 760
+    },
+    {
+      "epoch": 1.6702819956616053,
+      "grad_norm": 5.375,
+      "learning_rate": 4.898991030814028e-06,
+      "loss": 0.6147,
+      "step": 770
+    },
+    {
+      "epoch": 1.6919739696312366,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.7727926250734396e-06,
+      "loss": 0.5828,
+      "step": 780
+    },
+    {
+      "epoch": 1.7136659436008677,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.646739115977e-06,
+      "loss": 0.5769,
+      "step": 790
+    },
+    {
+      "epoch": 1.735357917570499,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.520910891454272e-06,
+      "loss": 0.6084,
+      "step": 800
+    },
+    {
+      "epoch": 1.75704989154013,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.3953881957644014e-06,
+      "loss": 0.602,
+      "step": 810
+    },
+    {
+      "epoch": 1.7787418655097613,
+      "grad_norm": 4.75,
+      "learning_rate": 4.270251078322048e-06,
+      "loss": 0.6035,
+      "step": 820
+    },
+    {
+      "epoch": 1.8004338394793926,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.145579342647595e-06,
+      "loss": 0.5894,
+      "step": 830
+    },
+    {
+      "epoch": 1.822125813449024,
+      "grad_norm": 4.625,
+      "learning_rate": 4.021452495474159e-06,
+      "loss": 0.5918,
+      "step": 840
+    },
+    {
+      "epoch": 1.8438177874186552,
+      "grad_norm": 5.0,
+      "learning_rate": 3.897949696043864e-06,
+      "loss": 0.5936,
+      "step": 850
+    },
+    {
+      "epoch": 1.8655097613882863,
+      "grad_norm": 5.0,
+      "learning_rate": 3.7751497056257306e-06,
+      "loss": 0.621,
+      "step": 860
+    },
+    {
+      "epoch": 1.8872017353579176,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.6531308372873663e-06,
+      "loss": 0.6158,
+      "step": 870
+    },
+    {
+      "epoch": 1.9088937093275486,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.531970905952478e-06,
+      "loss": 0.5837,
+      "step": 880
+    },
+    {
+      "epoch": 1.93058568329718,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.4117471787760682e-06,
+      "loss": 0.6134,
+      "step": 890
+    },
+    {
+      "epoch": 1.9522776572668112,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.2925363258689556e-06,
+      "loss": 0.5865,
+      "step": 900
+    },
+    {
+      "epoch": 1.9739696312364425,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.174414371403061e-06,
+      "loss": 0.596,
+      "step": 910
+    },
+    {
+      "epoch": 1.9956616052060738,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.0574566451286094e-06,
+      "loss": 0.6074,
+      "step": 920
+    },
+    {
+      "epoch": 2.017353579175705,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9417377343341935e-06,
+      "loss": 0.583,
+      "step": 930
+    },
+    {
+      "epoch": 2.0390455531453364,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.8273314362803337e-06,
+      "loss": 0.584,
+      "step": 940
+    },
+    {
+      "epoch": 2.0607375271149673,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.7143107111368437e-06,
+      "loss": 0.6191,
+      "step": 950
+    },
+    {
+      "epoch": 2.0824295010845986,
+      "grad_norm": 4.875,
+      "learning_rate": 2.602747635454047e-06,
+      "loss": 0.5873,
+      "step": 960
+    },
+    {
+      "epoch": 2.10412147505423,
+      "grad_norm": 5.75,
+      "learning_rate": 2.492713356197497e-06,
+      "loss": 0.5804,
+      "step": 970
+    },
+    {
+      "epoch": 2.125813449023861,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.3842780453755232e-06,
+      "loss": 0.5855,
+      "step": 980
+    },
+    {
+      "epoch": 2.1475054229934925,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.277510855288534e-06,
+      "loss": 0.5958,
+      "step": 990
+    },
+    {
+      "epoch": 2.1691973969631237,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.1724798744286076e-06,
+      "loss": 0.5661,
+      "step": 1000
+    },
+    {
+      "epoch": 2.190889370932755,
+      "grad_norm": 4.625,
+      "learning_rate": 2.0692520840575297e-06,
+      "loss": 0.5603,
+      "step": 1010
+    },
+    {
+      "epoch": 2.212581344902386,
+      "grad_norm": 5.125,
+      "learning_rate": 1.9678933154909096e-06,
+      "loss": 0.5669,
+      "step": 1020
+    },
+    {
+      "epoch": 2.234273318872017,
+      "grad_norm": 5.25,
+      "learning_rate": 1.8684682081156764e-06,
+      "loss": 0.5851,
+      "step": 1030
+    },
+    {
+      "epoch": 2.2559652928416485,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.7710401681676802e-06,
+      "loss": 0.5444,
+      "step": 1040
+    },
+    {
+      "epoch": 2.27765726681128,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.6756713282957427e-06,
+      "loss": 0.553,
+      "step": 1050
+    },
+    {
+      "epoch": 2.299349240780911,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.5824225079378686e-06,
+      "loss": 0.5522,
+      "step": 1060
+    },
+    {
+      "epoch": 2.3210412147505424,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.4913531745349612e-06,
+      "loss": 0.5668,
+      "step": 1070
+    },
+    {
+      "epoch": 2.3427331887201737,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.4025214056067237e-06,
+      "loss": 0.6002,
+      "step": 1080
+    },
+    {
+      "epoch": 2.364425162689805,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3159838517139795e-06,
+      "loss": 0.5798,
+      "step": 1090
+    },
+    {
+      "epoch": 2.3861171366594363,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.2317957003309727e-06,
+      "loss": 0.6012,
+      "step": 1100
+    },
+    {
+      "epoch": 2.407809110629067,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.1500106406507416e-06,
+      "loss": 0.5759,
+      "step": 1110
+    },
+    {
+      "epoch": 2.4295010845986984,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.0706808293459875e-06,
+      "loss": 0.598,
+      "step": 1120
+    },
+    {
+      "epoch": 2.4511930585683297,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.938568573072716e-07,
+      "loss": 0.5542,
+      "step": 1130
+    },
+    {
+      "epoch": 2.472885032537961,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.195877173797535e-07,
+      "loss": 0.5699,
+      "step": 1140
+    },
+    {
+      "epoch": 2.4945770065075923,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.479207731190491e-07,
+      "loss": 0.5716,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5162689804772236,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.789017285861439e-07,
+      "loss": 0.5833,
+      "step": 1160
+    },
+    {
+      "epoch": 2.537960954446855,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.125745992006044e-07,
+      "loss": 0.6223,
+      "step": 1170
+    },
+    {
+      "epoch": 2.5596529284164857,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.489816836706786e-07,
+      "loss": 0.5936,
+      "step": 1180
+    },
+    {
+      "epoch": 2.581344902386117,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.881635370182037e-07,
+      "loss": 0.5811,
+      "step": 1190
+    },
+    {
+      "epoch": 2.6030368763557483,
+      "grad_norm": 5.25,
+      "learning_rate": 5.301589447155092e-07,
+      "loss": 0.6056,
+      "step": 1200
+    },
+    {
+      "epoch": 2.6247288503253796,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.7500489795081485e-07,
+      "loss": 0.5783,
+      "step": 1210
+    },
+    {
+      "epoch": 2.646420824295011,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.2273657003787993e-07,
+      "loss": 0.5733,
+      "step": 1220
+    },
+    {
+      "epoch": 2.668112798264642,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.733872939849875e-07,
+      "loss": 0.5613,
+      "step": 1230
+    },
+    {
+      "epoch": 2.6898047722342735,
+      "grad_norm": 4.625,
+      "learning_rate": 3.269885412375223e-07,
+      "loss": 0.5819,
+      "step": 1240
+    },
+    {
+      "epoch": 2.7114967462039044,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.8356990160773534e-07,
+      "loss": 0.5772,
+      "step": 1250
+    },
+    {
+      "epoch": 2.7331887201735356,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.4315906440446957e-07,
+      "loss": 0.5633,
+      "step": 1260
+    },
+    {
+      "epoch": 2.754880694143167,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0578180077489906e-07,
+      "loss": 0.5772,
+      "step": 1270
+    },
+    {
+      "epoch": 2.7765726681127982,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.714619472695278e-07,
+      "loss": 0.5639,
+      "step": 1280
+    },
+    {
+      "epoch": 2.7982646420824295,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.4022139064094163e-07,
+      "loss": 0.5599,
+      "step": 1290
+    },
+    {
+      "epoch": 2.819956616052061,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.1208005388599952e-07,
+      "loss": 0.5976,
+      "step": 1300
+    },
+    {
+      "epoch": 2.841648590021692,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.705588354036675e-08,
+      "loss": 0.5988,
+      "step": 1310
+    },
+    {
+      "epoch": 2.863340563991323,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.516483823349796e-08,
+      "loss": 0.5771,
+      "step": 1320
+    },
+    {
+      "epoch": 2.8850325379609547,
+      "grad_norm": 4.875,
+      "learning_rate": 4.642087851136123e-08,
+      "loss": 0.5546,
+      "step": 1330
+    },
+    {
+      "epoch": 2.9067245119305856,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.083595793339778e-08,
+      "loss": 0.5834,
+      "step": 1340
+    },
+    {
+      "epoch": 2.928416485900217,
+      "grad_norm": 5.25,
+      "learning_rate": 1.842001544939742e-08,
+      "loss": 0.6076,
+      "step": 1350
+    },
+    {
+      "epoch": 2.950108459869848,
+      "grad_norm": 5.25,
+      "learning_rate": 9.180969061143852e-09,
+      "loss": 0.5899,
+      "step": 1360
+    },
+    {
+      "epoch": 2.9718004338394794,
+      "grad_norm": 4.75,
+      "learning_rate": 3.1247107728776815e-09,
+      "loss": 0.566,
+      "step": 1370
+    },
+    {
+      "epoch": 2.9934924078091107,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.5510283379992507e-10,
+      "loss": 0.5987,
+      "step": 1380
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1383,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.094077492231373e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1383/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d7aae8ccf78322eefc1fb3f9b38297871c1e26ca1985e8cf83126fdf04a8124
+size 5880

checkpoint-1383/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60b78cad2564d6cfc69e0f15f8a547f8800bbd56c3827da7c9e0b5972775e0ad
+size 4902257696

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14bd46fe4192cc1e9be86c22a96628c2a2670e0df3038409381c5afb2956641c
+size 4915960368

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:324ef8ae320150eb4746ac71145a6ba123920644ef4ff47ee40b5c7e84cc33aa
+size 4983068496

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e86401b2105de4d15ebe33554ddcced86d856c22c13844b888f8dda06f1f41c1
+size 1580230264

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "metadata": {
+    "total_parameters": 8190735360,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 4.094077492231373e+17,
+    "train_loss": 0.674382138752196,
+    "train_runtime": 4290.9934,
+    "train_samples_per_second": 1.289,
+    "train_steps_per_second": 0.322
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1009 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1383,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.021691973969631236,
+      "grad_norm": 65.0,
+      "learning_rate": 6.474820143884893e-07,
+      "loss": 2.3602,
+      "step": 10
+    },
+    {
+      "epoch": 0.04338394793926247,
+      "grad_norm": 52.75,
+      "learning_rate": 1.366906474820144e-06,
+      "loss": 2.1594,
+      "step": 20
+    },
+    {
+      "epoch": 0.0650759219088937,
+      "grad_norm": 61.25,
+      "learning_rate": 2.0863309352517987e-06,
+      "loss": 2.0571,
+      "step": 30
+    },
+    {
+      "epoch": 0.08676789587852494,
+      "grad_norm": 18.875,
+      "learning_rate": 2.805755395683453e-06,
+      "loss": 1.5085,
+      "step": 40
+    },
+    {
+      "epoch": 0.10845986984815618,
+      "grad_norm": 10.0,
+      "learning_rate": 3.525179856115108e-06,
+      "loss": 1.1625,
+      "step": 50
+    },
+    {
+      "epoch": 0.1301518438177874,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.244604316546763e-06,
+      "loss": 0.9246,
+      "step": 60
+    },
+    {
+      "epoch": 0.15184381778741865,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.9640287769784175e-06,
+      "loss": 0.8639,
+      "step": 70
+    },
+    {
+      "epoch": 0.1735357917570499,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.683453237410073e-06,
+      "loss": 0.8425,
+      "step": 80
+    },
+    {
+      "epoch": 0.19522776572668113,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.402877697841727e-06,
+      "loss": 0.8051,
+      "step": 90
+    },
+    {
+      "epoch": 0.21691973969631237,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.122302158273382e-06,
+      "loss": 0.811,
+      "step": 100
+    },
+    {
+      "epoch": 0.2386117136659436,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.841726618705036e-06,
+      "loss": 0.7728,
+      "step": 110
+    },
+    {
+      "epoch": 0.2603036876355748,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.561151079136692e-06,
+      "loss": 0.782,
+      "step": 120
+    },
+    {
+      "epoch": 0.28199566160520606,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.280575539568346e-06,
+      "loss": 0.7653,
+      "step": 130
+    },
+    {
+      "epoch": 0.3036876355748373,
+      "grad_norm": 5.28125,
+      "learning_rate": 1e-05,
+      "loss": 0.7803,
+      "step": 140
+    },
+    {
+      "epoch": 0.32537960954446854,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.998405678466673e-06,
+      "loss": 0.7212,
+      "step": 150
+    },
+    {
+      "epoch": 0.3470715835140998,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.993623730611148e-06,
+      "loss": 0.731,
+      "step": 160
+    },
+    {
+      "epoch": 0.368763557483731,
+      "grad_norm": 5.125,
+      "learning_rate": 9.985657206018403e-06,
+      "loss": 0.7328,
+      "step": 170
+    },
+    {
+      "epoch": 0.39045553145336226,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.97451118516912e-06,
+      "loss": 0.725,
+      "step": 180
+    },
+    {
+      "epoch": 0.4121475054229935,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.960192776199717e-06,
+      "loss": 0.714,
+      "step": 190
+    },
+    {
+      "epoch": 0.43383947939262474,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.942711110369292e-06,
+      "loss": 0.7096,
+      "step": 200
+    },
+    {
+      "epoch": 0.455531453362256,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.922077336236354e-06,
+      "loss": 0.6876,
+      "step": 210
+    },
+    {
+      "epoch": 0.4772234273318872,
+      "grad_norm": 4.75,
+      "learning_rate": 9.898304612549068e-06,
+      "loss": 0.696,
+      "step": 220
+    },
+    {
+      "epoch": 0.49891540130151846,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.871408099853548e-06,
+      "loss": 0.715,
+      "step": 230
+    },
+    {
+      "epoch": 0.5206073752711496,
+      "grad_norm": 4.875,
+      "learning_rate": 9.841404950825537e-06,
+      "loss": 0.723,
+      "step": 240
+    },
+    {
+      "epoch": 0.5422993492407809,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.808314299331661e-06,
+      "loss": 0.6996,
+      "step": 250
+    },
+    {
+      "epoch": 0.5639913232104121,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.772157248227212e-06,
+      "loss": 0.6812,
+      "step": 260
+    },
+    {
+      "epoch": 0.5856832971800434,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.732956855898251e-06,
+      "loss": 0.6851,
+      "step": 270
+    },
+    {
+      "epoch": 0.6073752711496746,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.690738121556622e-06,
+      "loss": 0.6719,
+      "step": 280
+    },
+    {
+      "epoch": 0.6290672451193059,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.645527969297232e-06,
+      "loss": 0.6816,
+      "step": 290
+    },
+    {
+      "epoch": 0.6507592190889371,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.59735523092779e-06,
+      "loss": 0.6893,
+      "step": 300
+    },
+    {
+      "epoch": 0.6724511930585684,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.546250627581937e-06,
+      "loss": 0.659,
+      "step": 310
+    },
+    {
+      "epoch": 0.6941431670281996,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.4922467501275e-06,
+      "loss": 0.6796,
+      "step": 320
+    },
+    {
+      "epoch": 0.7158351409978309,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.435378038382364e-06,
+      "loss": 0.6585,
+      "step": 330
+    },
+    {
+      "epoch": 0.737527114967462,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.375680759151206e-06,
+      "loss": 0.6772,
+      "step": 340
+    },
+    {
+      "epoch": 0.7592190889370932,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.313192983097137e-06,
+      "loss": 0.6659,
+      "step": 350
+    },
+    {
+      "epoch": 0.7809110629067245,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.247954560462929e-06,
+      "loss": 0.6428,
+      "step": 360
+    },
+    {
+      "epoch": 0.8026030368763557,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.18000709565738e-06,
+      "loss": 0.6718,
+      "step": 370
+    },
+    {
+      "epoch": 0.824295010845987,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.109393920723001e-06,
+      "loss": 0.6658,
+      "step": 380
+    },
+    {
+      "epoch": 0.8459869848156182,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.036160067701931e-06,
+      "loss": 0.6673,
+      "step": 390
+    },
+    {
+      "epoch": 0.8676789587852495,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.9603522399177e-06,
+      "loss": 0.6866,
+      "step": 400
+    },
+    {
+      "epoch": 0.8893709327548807,
+      "grad_norm": 4.375,
+      "learning_rate": 8.882018782191205e-06,
+      "loss": 0.6683,
+      "step": 410
+    },
+    {
+      "epoch": 0.911062906724512,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.801209650009813e-06,
+      "loss": 0.6814,
+      "step": 420
+    },
+    {
+      "epoch": 0.9327548806941431,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.717976377669344e-06,
+      "loss": 0.6564,
+      "step": 430
+    },
+    {
+      "epoch": 0.9544468546637744,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.632372045409142e-06,
+      "loss": 0.6489,
+      "step": 440
+    },
+    {
+      "epoch": 0.9761388286334056,
+      "grad_norm": 5.375,
+      "learning_rate": 8.544451245561318e-06,
+      "loss": 0.6598,
+      "step": 450
+    },
+    {
+      "epoch": 0.9978308026030369,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.454270047735644e-06,
+      "loss": 0.6783,
+      "step": 460
+    },
+    {
+      "epoch": 1.0195227765726682,
+      "grad_norm": 5.0,
+      "learning_rate": 8.361885963062352e-06,
+      "loss": 0.6311,
+      "step": 470
+    },
+    {
+      "epoch": 1.0412147505422993,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.267357907515662e-06,
+      "loss": 0.6408,
+      "step": 480
+    },
+    {
+      "epoch": 1.0629067245119306,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.170746164341351e-06,
+      "loss": 0.6211,
+      "step": 490
+    },
+    {
+      "epoch": 1.0845986984815619,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.072112345612434e-06,
+      "loss": 0.5889,
+      "step": 500
+    },
+    {
+      "epoch": 1.106290672451193,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.971519352937348e-06,
+      "loss": 0.5941,
+      "step": 510
+    },
+    {
+      "epoch": 1.1279826464208242,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.869031337345828e-06,
+      "loss": 0.6015,
+      "step": 520
+    },
+    {
+      "epoch": 1.1496746203904555,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.764713658377938e-06,
+      "loss": 0.621,
+      "step": 530
+    },
+    {
+      "epoch": 1.1713665943600868,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.658632842402432e-06,
+      "loss": 0.5997,
+      "step": 540
+    },
+    {
+      "epoch": 1.1930585683297181,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.550856540190985e-06,
+      "loss": 0.6111,
+      "step": 550
+    },
+    {
+      "epoch": 1.2147505422993492,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.441453483775354e-06,
+      "loss": 0.5997,
+      "step": 560
+    },
+    {
+      "epoch": 1.2364425162689805,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.330493442615001e-06,
+      "loss": 0.6216,
+      "step": 570
+    },
+    {
+      "epoch": 1.2581344902386118,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.218047179103112e-06,
+      "loss": 0.6137,
+      "step": 580
+    },
+    {
+      "epoch": 1.2798264642082429,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.104186403439391e-06,
+      "loss": 0.6086,
+      "step": 590
+    },
+    {
+      "epoch": 1.3015184381778742,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.988983727898414e-06,
+      "loss": 0.5941,
+      "step": 600
+    },
+    {
+      "epoch": 1.3232104121475055,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.872512620522707e-06,
+      "loss": 0.6141,
+      "step": 610
+    },
+    {
+      "epoch": 1.3449023861171367,
+      "grad_norm": 4.75,
+      "learning_rate": 6.754847358270067e-06,
+      "loss": 0.6065,
+      "step": 620
+    },
+    {
+      "epoch": 1.3665943600867678,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.6360629796450295e-06,
+      "loss": 0.6192,
+      "step": 630
+    },
+    {
+      "epoch": 1.3882863340563991,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.516235236844661e-06,
+      "loss": 0.6157,
+      "step": 640
+    },
+    {
+      "epoch": 1.4099783080260304,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.395440547449214e-06,
+      "loss": 0.6003,
+      "step": 650
+    },
+    {
+      "epoch": 1.4316702819956615,
+      "grad_norm": 4.875,
+      "learning_rate": 6.273755945688458e-06,
+      "loss": 0.6219,
+      "step": 660
+    },
+    {
+      "epoch": 1.4533622559652928,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.1512590333147335e-06,
+      "loss": 0.6114,
+      "step": 670
+    },
+    {
+      "epoch": 1.475054229934924,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.02802793011411e-06,
+      "loss": 0.6161,
+      "step": 680
+    },
+    {
+      "epoch": 1.4967462039045554,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.904141224087147e-06,
+      "loss": 0.6124,
+      "step": 690
+    },
+    {
+      "epoch": 1.5184381778741867,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.779677921331094e-06,
+      "loss": 0.6083,
+      "step": 700
+    },
+    {
+      "epoch": 1.5401301518438177,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.654717395655424e-06,
+      "loss": 0.6023,
+      "step": 710
+    },
+    {
+      "epoch": 1.561822125813449,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.529339337962898e-06,
+      "loss": 0.6114,
+      "step": 720
+    },
+    {
+      "epoch": 1.58351409978308,
+      "grad_norm": 5.25,
+      "learning_rate": 5.403623705428391e-06,
+      "loss": 0.6036,
+      "step": 730
+    },
+    {
+      "epoch": 1.6052060737527114,
+      "grad_norm": 4.625,
+      "learning_rate": 5.277650670507916e-06,
+      "loss": 0.6071,
+      "step": 740
+    },
+    {
+      "epoch": 1.6268980477223427,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.151500569810345e-06,
+      "loss": 0.5949,
+      "step": 750
+    },
+    {
+      "epoch": 1.648590021691974,
+      "grad_norm": 4.875,
+      "learning_rate": 5.0252538528644715e-06,
+      "loss": 0.6097,
+      "step": 760
+    },
+    {
+      "epoch": 1.6702819956616053,
+      "grad_norm": 5.375,
+      "learning_rate": 4.898991030814028e-06,
+      "loss": 0.6147,
+      "step": 770
+    },
+    {
+      "epoch": 1.6919739696312366,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.7727926250734396e-06,
+      "loss": 0.5828,
+      "step": 780
+    },
+    {
+      "epoch": 1.7136659436008677,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.646739115977e-06,
+      "loss": 0.5769,
+      "step": 790
+    },
+    {
+      "epoch": 1.735357917570499,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.520910891454272e-06,
+      "loss": 0.6084,
+      "step": 800
+    },
+    {
+      "epoch": 1.75704989154013,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.3953881957644014e-06,
+      "loss": 0.602,
+      "step": 810
+    },
+    {
+      "epoch": 1.7787418655097613,
+      "grad_norm": 4.75,
+      "learning_rate": 4.270251078322048e-06,
+      "loss": 0.6035,
+      "step": 820
+    },
+    {
+      "epoch": 1.8004338394793926,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.145579342647595e-06,
+      "loss": 0.5894,
+      "step": 830
+    },
+    {
+      "epoch": 1.822125813449024,
+      "grad_norm": 4.625,
+      "learning_rate": 4.021452495474159e-06,
+      "loss": 0.5918,
+      "step": 840
+    },
+    {
+      "epoch": 1.8438177874186552,
+      "grad_norm": 5.0,
+      "learning_rate": 3.897949696043864e-06,
+      "loss": 0.5936,
+      "step": 850
+    },
+    {
+      "epoch": 1.8655097613882863,
+      "grad_norm": 5.0,
+      "learning_rate": 3.7751497056257306e-06,
+      "loss": 0.621,
+      "step": 860
+    },
+    {
+      "epoch": 1.8872017353579176,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.6531308372873663e-06,
+      "loss": 0.6158,
+      "step": 870
+    },
+    {
+      "epoch": 1.9088937093275486,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.531970905952478e-06,
+      "loss": 0.5837,
+      "step": 880
+    },
+    {
+      "epoch": 1.93058568329718,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.4117471787760682e-06,
+      "loss": 0.6134,
+      "step": 890
+    },
+    {
+      "epoch": 1.9522776572668112,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.2925363258689556e-06,
+      "loss": 0.5865,
+      "step": 900
+    },
+    {
+      "epoch": 1.9739696312364425,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.174414371403061e-06,
+      "loss": 0.596,
+      "step": 910
+    },
+    {
+      "epoch": 1.9956616052060738,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.0574566451286094e-06,
+      "loss": 0.6074,
+      "step": 920
+    },
+    {
+      "epoch": 2.017353579175705,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9417377343341935e-06,
+      "loss": 0.583,
+      "step": 930
+    },
+    {
+      "epoch": 2.0390455531453364,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.8273314362803337e-06,
+      "loss": 0.584,
+      "step": 940
+    },
+    {
+      "epoch": 2.0607375271149673,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.7143107111368437e-06,
+      "loss": 0.6191,
+      "step": 950
+    },
+    {
+      "epoch": 2.0824295010845986,
+      "grad_norm": 4.875,
+      "learning_rate": 2.602747635454047e-06,
+      "loss": 0.5873,
+      "step": 960
+    },
+    {
+      "epoch": 2.10412147505423,
+      "grad_norm": 5.75,
+      "learning_rate": 2.492713356197497e-06,
+      "loss": 0.5804,
+      "step": 970
+    },
+    {
+      "epoch": 2.125813449023861,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.3842780453755232e-06,
+      "loss": 0.5855,
+      "step": 980
+    },
+    {
+      "epoch": 2.1475054229934925,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.277510855288534e-06,
+      "loss": 0.5958,
+      "step": 990
+    },
+    {
+      "epoch": 2.1691973969631237,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.1724798744286076e-06,
+      "loss": 0.5661,
+      "step": 1000
+    },
+    {
+      "epoch": 2.190889370932755,
+      "grad_norm": 4.625,
+      "learning_rate": 2.0692520840575297e-06,
+      "loss": 0.5603,
+      "step": 1010
+    },
+    {
+      "epoch": 2.212581344902386,
+      "grad_norm": 5.125,
+      "learning_rate": 1.9678933154909096e-06,
+      "loss": 0.5669,
+      "step": 1020
+    },
+    {
+      "epoch": 2.234273318872017,
+      "grad_norm": 5.25,
+      "learning_rate": 1.8684682081156764e-06,
+      "loss": 0.5851,
+      "step": 1030
+    },
+    {
+      "epoch": 2.2559652928416485,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.7710401681676802e-06,
+      "loss": 0.5444,
+      "step": 1040
+    },
+    {
+      "epoch": 2.27765726681128,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.6756713282957427e-06,
+      "loss": 0.553,
+      "step": 1050
+    },
+    {
+      "epoch": 2.299349240780911,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.5824225079378686e-06,
+      "loss": 0.5522,
+      "step": 1060
+    },
+    {
+      "epoch": 2.3210412147505424,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.4913531745349612e-06,
+      "loss": 0.5668,
+      "step": 1070
+    },
+    {
+      "epoch": 2.3427331887201737,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.4025214056067237e-06,
+      "loss": 0.6002,
+      "step": 1080
+    },
+    {
+      "epoch": 2.364425162689805,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3159838517139795e-06,
+      "loss": 0.5798,
+      "step": 1090
+    },
+    {
+      "epoch": 2.3861171366594363,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.2317957003309727e-06,
+      "loss": 0.6012,
+      "step": 1100
+    },
+    {
+      "epoch": 2.407809110629067,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.1500106406507416e-06,
+      "loss": 0.5759,
+      "step": 1110
+    },
+    {
+      "epoch": 2.4295010845986984,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.0706808293459875e-06,
+      "loss": 0.598,
+      "step": 1120
+    },
+    {
+      "epoch": 2.4511930585683297,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.938568573072716e-07,
+      "loss": 0.5542,
+      "step": 1130
+    },
+    {
+      "epoch": 2.472885032537961,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.195877173797535e-07,
+      "loss": 0.5699,
+      "step": 1140
+    },
+    {
+      "epoch": 2.4945770065075923,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.479207731190491e-07,
+      "loss": 0.5716,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5162689804772236,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.789017285861439e-07,
+      "loss": 0.5833,
+      "step": 1160
+    },
+    {
+      "epoch": 2.537960954446855,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.125745992006044e-07,
+      "loss": 0.6223,
+      "step": 1170
+    },
+    {
+      "epoch": 2.5596529284164857,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.489816836706786e-07,
+      "loss": 0.5936,
+      "step": 1180
+    },
+    {
+      "epoch": 2.581344902386117,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.881635370182037e-07,
+      "loss": 0.5811,
+      "step": 1190
+    },
+    {
+      "epoch": 2.6030368763557483,
+      "grad_norm": 5.25,
+      "learning_rate": 5.301589447155092e-07,
+      "loss": 0.6056,
+      "step": 1200
+    },
+    {
+      "epoch": 2.6247288503253796,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.7500489795081485e-07,
+      "loss": 0.5783,
+      "step": 1210
+    },
+    {
+      "epoch": 2.646420824295011,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.2273657003787993e-07,
+      "loss": 0.5733,
+      "step": 1220
+    },
+    {
+      "epoch": 2.668112798264642,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.733872939849875e-07,
+      "loss": 0.5613,
+      "step": 1230
+    },
+    {
+      "epoch": 2.6898047722342735,
+      "grad_norm": 4.625,
+      "learning_rate": 3.269885412375223e-07,
+      "loss": 0.5819,
+      "step": 1240
+    },
+    {
+      "epoch": 2.7114967462039044,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.8356990160773534e-07,
+      "loss": 0.5772,
+      "step": 1250
+    },
+    {
+      "epoch": 2.7331887201735356,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.4315906440446957e-07,
+      "loss": 0.5633,
+      "step": 1260
+    },
+    {
+      "epoch": 2.754880694143167,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0578180077489906e-07,
+      "loss": 0.5772,
+      "step": 1270
+    },
+    {
+      "epoch": 2.7765726681127982,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.714619472695278e-07,
+      "loss": 0.5639,
+      "step": 1280
+    },
+    {
+      "epoch": 2.7982646420824295,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.4022139064094163e-07,
+      "loss": 0.5599,
+      "step": 1290
+    },
+    {
+      "epoch": 2.819956616052061,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.1208005388599952e-07,
+      "loss": 0.5976,
+      "step": 1300
+    },
+    {
+      "epoch": 2.841648590021692,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.705588354036675e-08,
+      "loss": 0.5988,
+      "step": 1310
+    },
+    {
+      "epoch": 2.863340563991323,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.516483823349796e-08,
+      "loss": 0.5771,
+      "step": 1320
+    },
+    {
+      "epoch": 2.8850325379609547,
+      "grad_norm": 4.875,
+      "learning_rate": 4.642087851136123e-08,
+      "loss": 0.5546,
+      "step": 1330
+    },
+    {
+      "epoch": 2.9067245119305856,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.083595793339778e-08,
+      "loss": 0.5834,
+      "step": 1340
+    },
+    {
+      "epoch": 2.928416485900217,
+      "grad_norm": 5.25,
+      "learning_rate": 1.842001544939742e-08,
+      "loss": 0.6076,
+      "step": 1350
+    },
+    {
+      "epoch": 2.950108459869848,
+      "grad_norm": 5.25,
+      "learning_rate": 9.180969061143852e-09,
+      "loss": 0.5899,
+      "step": 1360
+    },
+    {
+      "epoch": 2.9718004338394794,
+      "grad_norm": 4.75,
+      "learning_rate": 3.1247107728776815e-09,
+      "loss": 0.566,
+      "step": 1370
+    },
+    {
+      "epoch": 2.9934924078091107,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.5510283379992507e-10,
+      "loss": 0.5987,
+      "step": 1380
+    },
+    {
+      "epoch": 3.0,
+      "step": 1383,
+      "total_flos": 4.094077492231373e+17,
+      "train_loss": 0.674382138752196,
+      "train_runtime": 4290.9934,
+      "train_samples_per_second": 1.289,
+      "train_steps_per_second": 0.322
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1383,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.094077492231373e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d7aae8ccf78322eefc1fb3f9b38297871c1e26ca1985e8cf83126fdf04a8124
+size 5880

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff