KublaiKhan1 commited on Aug 25, 2025

Commit

3dae3fb

verified ·

1 Parent(s): 5447c20

Add files using upload-large-folder tool

Browse files

Files changed (27) hide show

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/added_tokens.json +24 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/chat_template.jinja +54 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/config.json +59 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/generation_config.json +6 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/merges.txt +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/model.safetensors.index.json +347 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/special_tokens_map.json +31 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/tokenizer_config.json +208 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/trainer_state.json +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/vocab.json +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/added_tokens.json +24 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/chat_template.jinja +54 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/config.json +59 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/generation_config.json +6 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/merges.txt +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/model.safetensors.index.json +347 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/special_tokens_map.json +31 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/tokenizer_config.json +208 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/trainer_state.json +2624 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/vocab.json +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-555/tokenizer_config.json +208 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-555/trainer_state.json +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/added_tokens.json +24 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/generation_config.json +6 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/merges.txt +0 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/tokenizer_config.json +208 -0
qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/vocab.json +0 -0

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.55.0"
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-1110/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.55.0"
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2624 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 370,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005405405405405406,
+      "grad_norm": 78.63217163085938,
+      "learning_rate": 5e-06,
+      "loss": 2.7635,
+      "step": 1
+    },
+    {
+      "epoch": 0.010810810810810811,
+      "grad_norm": 27.708316802978516,
+      "learning_rate": 4.999996395324314e-06,
+      "loss": 2.7339,
+      "step": 2
+    },
+    {
+      "epoch": 0.016216216216216217,
+      "grad_norm": 24.762720108032227,
+      "learning_rate": 4.99998558130765e-06,
+      "loss": 2.3952,
+      "step": 3
+    },
+    {
+      "epoch": 0.021621621621621623,
+      "grad_norm": 26.583744049072266,
+      "learning_rate": 4.999967557981192e-06,
+      "loss": 1.4821,
+      "step": 4
+    },
+    {
+      "epoch": 0.02702702702702703,
+      "grad_norm": 16.896203994750977,
+      "learning_rate": 4.999942325396917e-06,
+      "loss": 1.4242,
+      "step": 5
+    },
+    {
+      "epoch": 0.032432432432432434,
+      "grad_norm": 13.155165672302246,
+      "learning_rate": 4.999909883627588e-06,
+      "loss": 2.4389,
+      "step": 6
+    },
+    {
+      "epoch": 0.03783783783783784,
+      "grad_norm": 12.320788383483887,
+      "learning_rate": 4.999870232766757e-06,
+      "loss": 1.8709,
+      "step": 7
+    },
+    {
+      "epoch": 0.043243243243243246,
+      "grad_norm": 7.270501613616943,
+      "learning_rate": 4.9998233729287696e-06,
+      "loss": 1.5871,
+      "step": 8
+    },
+    {
+      "epoch": 0.04864864864864865,
+      "grad_norm": 5.697365760803223,
+      "learning_rate": 4.999769304248755e-06,
+      "loss": 1.0785,
+      "step": 9
+    },
+    {
+      "epoch": 0.05405405405405406,
+      "grad_norm": 16.292892456054688,
+      "learning_rate": 4.9997080268826344e-06,
+      "loss": 1.6701,
+      "step": 10
+    },
+    {
+      "epoch": 0.05945945945945946,
+      "grad_norm": 36.01885986328125,
+      "learning_rate": 4.9996395410071165e-06,
+      "loss": 1.8603,
+      "step": 11
+    },
+    {
+      "epoch": 0.06486486486486487,
+      "grad_norm": 31.915246963500977,
+      "learning_rate": 4.999563846819696e-06,
+      "loss": 2.038,
+      "step": 12
+    },
+    {
+      "epoch": 0.07027027027027027,
+      "grad_norm": 3.964094877243042,
+      "learning_rate": 4.999480944538655e-06,
+      "loss": 0.9312,
+      "step": 13
+    },
+    {
+      "epoch": 0.07567567567567568,
+      "grad_norm": 23.320648193359375,
+      "learning_rate": 4.999390834403063e-06,
+      "loss": 1.9005,
+      "step": 14
+    },
+    {
+      "epoch": 0.08108108108108109,
+      "grad_norm": 5.1429057121276855,
+      "learning_rate": 4.999293516672773e-06,
+      "loss": 0.9078,
+      "step": 15
+    },
+    {
+      "epoch": 0.08648648648648649,
+      "grad_norm": 2.4826178550720215,
+      "learning_rate": 4.9991889916284255e-06,
+      "loss": 0.8057,
+      "step": 16
+    },
+    {
+      "epoch": 0.0918918918918919,
+      "grad_norm": 3.98654842376709,
+      "learning_rate": 4.999077259571442e-06,
+      "loss": 0.9436,
+      "step": 17
+    },
+    {
+      "epoch": 0.0972972972972973,
+      "grad_norm": 22.15365219116211,
+      "learning_rate": 4.998958320824031e-06,
+      "loss": 1.478,
+      "step": 18
+    },
+    {
+      "epoch": 0.10270270270270271,
+      "grad_norm": 9.486699104309082,
+      "learning_rate": 4.998832175729179e-06,
+      "loss": 1.8966,
+      "step": 19
+    },
+    {
+      "epoch": 0.10810810810810811,
+      "grad_norm": 9.013836860656738,
+      "learning_rate": 4.998698824650656e-06,
+      "loss": 1.8402,
+      "step": 20
+    },
+    {
+      "epoch": 0.11351351351351352,
+      "grad_norm": 39.21315002441406,
+      "learning_rate": 4.998558267973014e-06,
+      "loss": 1.1227,
+      "step": 21
+    },
+    {
+      "epoch": 0.11891891891891893,
+      "grad_norm": 20.890426635742188,
+      "learning_rate": 4.998410506101579e-06,
+      "loss": 0.9309,
+      "step": 22
+    },
+    {
+      "epoch": 0.12432432432432433,
+      "grad_norm": 19.61101531982422,
+      "learning_rate": 4.9982555394624595e-06,
+      "loss": 1.8963,
+      "step": 23
+    },
+    {
+      "epoch": 0.12972972972972974,
+      "grad_norm": 10.83933162689209,
+      "learning_rate": 4.998093368502539e-06,
+      "loss": 0.964,
+      "step": 24
+    },
+    {
+      "epoch": 0.13513513513513514,
+      "grad_norm": 19.919424057006836,
+      "learning_rate": 4.9979239936894765e-06,
+      "loss": 1.4579,
+      "step": 25
+    },
+    {
+      "epoch": 0.14054054054054055,
+      "grad_norm": 10.502922058105469,
+      "learning_rate": 4.997747415511705e-06,
+      "loss": 1.3954,
+      "step": 26
+    },
+    {
+      "epoch": 0.14594594594594595,
+      "grad_norm": 15.285176277160645,
+      "learning_rate": 4.997563634478428e-06,
+      "loss": 1.0577,
+      "step": 27
+    },
+    {
+      "epoch": 0.15135135135135136,
+      "grad_norm": 11.349671363830566,
+      "learning_rate": 4.997372651119626e-06,
+      "loss": 1.4808,
+      "step": 28
+    },
+    {
+      "epoch": 0.15675675675675677,
+      "grad_norm": 15.758721351623535,
+      "learning_rate": 4.997174465986044e-06,
+      "loss": 1.1012,
+      "step": 29
+    },
+    {
+      "epoch": 0.16216216216216217,
+      "grad_norm": 7.796172142028809,
+      "learning_rate": 4.996969079649196e-06,
+      "loss": 1.1064,
+      "step": 30
+    },
+    {
+      "epoch": 0.16756756756756758,
+      "grad_norm": 2.869138717651367,
+      "learning_rate": 4.996756492701362e-06,
+      "loss": 0.6699,
+      "step": 31
+    },
+    {
+      "epoch": 0.17297297297297298,
+      "grad_norm": 12.780915260314941,
+      "learning_rate": 4.996536705755591e-06,
+      "loss": 1.3504,
+      "step": 32
+    },
+    {
+      "epoch": 0.1783783783783784,
+      "grad_norm": 2.2263433933258057,
+      "learning_rate": 4.996309719445687e-06,
+      "loss": 0.7585,
+      "step": 33
+    },
+    {
+      "epoch": 0.1837837837837838,
+      "grad_norm": 3.9796619415283203,
+      "learning_rate": 4.996075534426223e-06,
+      "loss": 1.2611,
+      "step": 34
+    },
+    {
+      "epoch": 0.1891891891891892,
+      "grad_norm": 5.736868858337402,
+      "learning_rate": 4.995834151372526e-06,
+      "loss": 1.3599,
+      "step": 35
+    },
+    {
+      "epoch": 0.1945945945945946,
+      "grad_norm": 2.9812746047973633,
+      "learning_rate": 4.995585570980685e-06,
+      "loss": 1.1093,
+      "step": 36
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.6916205883026123,
+      "learning_rate": 4.995329793967537e-06,
+      "loss": 0.4889,
+      "step": 37
+    },
+    {
+      "epoch": 0.20540540540540542,
+      "grad_norm": 2.769890546798706,
+      "learning_rate": 4.9950668210706795e-06,
+      "loss": 0.6824,
+      "step": 38
+    },
+    {
+      "epoch": 0.21081081081081082,
+      "grad_norm": 5.050839424133301,
+      "learning_rate": 4.994796653048457e-06,
+      "loss": 1.2035,
+      "step": 39
+    },
+    {
+      "epoch": 0.21621621621621623,
+      "grad_norm": 4.95888090133667,
+      "learning_rate": 4.994519290679965e-06,
+      "loss": 1.4668,
+      "step": 40
+    },
+    {
+      "epoch": 0.22162162162162163,
+      "grad_norm": 6.040585517883301,
+      "learning_rate": 4.994234734765043e-06,
+      "loss": 1.6085,
+      "step": 41
+    },
+    {
+      "epoch": 0.22702702702702704,
+      "grad_norm": 7.767123222351074,
+      "learning_rate": 4.993942986124278e-06,
+      "loss": 1.39,
+      "step": 42
+    },
+    {
+      "epoch": 0.23243243243243245,
+      "grad_norm": 6.319382190704346,
+      "learning_rate": 4.9936440455989975e-06,
+      "loss": 1.0364,
+      "step": 43
+    },
+    {
+      "epoch": 0.23783783783783785,
+      "grad_norm": 2.3983147144317627,
+      "learning_rate": 4.993337914051266e-06,
+      "loss": 0.737,
+      "step": 44
+    },
+    {
+      "epoch": 0.24324324324324326,
+      "grad_norm": 4.674798488616943,
+      "learning_rate": 4.99302459236389e-06,
+      "loss": 1.2512,
+      "step": 45
+    },
+    {
+      "epoch": 0.24864864864864866,
+      "grad_norm": 2.3627684116363525,
+      "learning_rate": 4.992704081440407e-06,
+      "loss": 0.6782,
+      "step": 46
+    },
+    {
+      "epoch": 0.25405405405405407,
+      "grad_norm": 15.385477066040039,
+      "learning_rate": 4.992376382205088e-06,
+      "loss": 1.201,
+      "step": 47
+    },
+    {
+      "epoch": 0.2594594594594595,
+      "grad_norm": 6.076968193054199,
+      "learning_rate": 4.992041495602932e-06,
+      "loss": 0.9149,
+      "step": 48
+    },
+    {
+      "epoch": 0.2648648648648649,
+      "grad_norm": 7.318037509918213,
+      "learning_rate": 4.991699422599664e-06,
+      "loss": 1.0142,
+      "step": 49
+    },
+    {
+      "epoch": 0.2702702702702703,
+      "grad_norm": 3.163944721221924,
+      "learning_rate": 4.991350164181735e-06,
+      "loss": 0.9923,
+      "step": 50
+    },
+    {
+      "epoch": 0.2756756756756757,
+      "grad_norm": 2.2014901638031006,
+      "learning_rate": 4.990993721356317e-06,
+      "loss": 0.6446,
+      "step": 51
+    },
+    {
+      "epoch": 0.2810810810810811,
+      "grad_norm": 3.6509268283843994,
+      "learning_rate": 4.990630095151296e-06,
+      "loss": 0.7804,
+      "step": 52
+    },
+    {
+      "epoch": 0.2864864864864865,
+      "grad_norm": 4.066473960876465,
+      "learning_rate": 4.9902592866152765e-06,
+      "loss": 1.0884,
+      "step": 53
+    },
+    {
+      "epoch": 0.2918918918918919,
+      "grad_norm": 3.2463412284851074,
+      "learning_rate": 4.989881296817575e-06,
+      "loss": 0.5619,
+      "step": 54
+    },
+    {
+      "epoch": 0.2972972972972973,
+      "grad_norm": 6.820196151733398,
+      "learning_rate": 4.989496126848215e-06,
+      "loss": 0.6638,
+      "step": 55
+    },
+    {
+      "epoch": 0.3027027027027027,
+      "grad_norm": 6.08866024017334,
+      "learning_rate": 4.989103777817928e-06,
+      "loss": 1.2486,
+      "step": 56
+    },
+    {
+      "epoch": 0.3081081081081081,
+      "grad_norm": 2.7928466796875,
+      "learning_rate": 4.988704250858145e-06,
+      "loss": 0.802,
+      "step": 57
+    },
+    {
+      "epoch": 0.31351351351351353,
+      "grad_norm": 3.675384759902954,
+      "learning_rate": 4.988297547121e-06,
+      "loss": 0.7766,
+      "step": 58
+    },
+    {
+      "epoch": 0.31891891891891894,
+      "grad_norm": 1.9281094074249268,
+      "learning_rate": 4.98788366777932e-06,
+      "loss": 0.7413,
+      "step": 59
+    },
+    {
+      "epoch": 0.32432432432432434,
+      "grad_norm": 2.18445086479187,
+      "learning_rate": 4.987462614026625e-06,
+      "loss": 0.7119,
+      "step": 60
+    },
+    {
+      "epoch": 0.32972972972972975,
+      "grad_norm": 2.401505470275879,
+      "learning_rate": 4.987034387077126e-06,
+      "loss": 0.912,
+      "step": 61
+    },
+    {
+      "epoch": 0.33513513513513515,
+      "grad_norm": 1.9759217500686646,
+      "learning_rate": 4.986598988165718e-06,
+      "loss": 0.7033,
+      "step": 62
+    },
+    {
+      "epoch": 0.34054054054054056,
+      "grad_norm": 2.379051446914673,
+      "learning_rate": 4.9861564185479785e-06,
+      "loss": 1.0077,
+      "step": 63
+    },
+    {
+      "epoch": 0.34594594594594597,
+      "grad_norm": 2.2416727542877197,
+      "learning_rate": 4.985706679500163e-06,
+      "loss": 1.0596,
+      "step": 64
+    },
+    {
+      "epoch": 0.35135135135135137,
+      "grad_norm": 1.7597417831420898,
+      "learning_rate": 4.9852497723192025e-06,
+      "loss": 0.6992,
+      "step": 65
+    },
+    {
+      "epoch": 0.3567567567567568,
+      "grad_norm": 2.1375234127044678,
+      "learning_rate": 4.9847856983227e-06,
+      "loss": 0.8843,
+      "step": 66
+    },
+    {
+      "epoch": 0.3621621621621622,
+      "grad_norm": 2.3949384689331055,
+      "learning_rate": 4.984314458848923e-06,
+      "loss": 0.854,
+      "step": 67
+    },
+    {
+      "epoch": 0.3675675675675676,
+      "grad_norm": 2.4123735427856445,
+      "learning_rate": 4.983836055256804e-06,
+      "loss": 1.0356,
+      "step": 68
+    },
+    {
+      "epoch": 0.372972972972973,
+      "grad_norm": 1.8289475440979004,
+      "learning_rate": 4.983350488925935e-06,
+      "loss": 0.75,
+      "step": 69
+    },
+    {
+      "epoch": 0.3783783783783784,
+      "grad_norm": 2.1158368587493896,
+      "learning_rate": 4.982857761256564e-06,
+      "loss": 1.2026,
+      "step": 70
+    },
+    {
+      "epoch": 0.3837837837837838,
+      "grad_norm": 1.7453099489212036,
+      "learning_rate": 4.982357873669589e-06,
+      "loss": 0.6454,
+      "step": 71
+    },
+    {
+      "epoch": 0.3891891891891892,
+      "grad_norm": 2.037487506866455,
+      "learning_rate": 4.981850827606556e-06,
+      "loss": 0.5643,
+      "step": 72
+    },
+    {
+      "epoch": 0.3945945945945946,
+      "grad_norm": 2.228943347930908,
+      "learning_rate": 4.981336624529655e-06,
+      "loss": 0.903,
+      "step": 73
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.1828980445861816,
+      "learning_rate": 4.980815265921714e-06,
+      "loss": 0.9792,
+      "step": 74
+    },
+    {
+      "epoch": 0.40540540540540543,
+      "grad_norm": 4.449514389038086,
+      "learning_rate": 4.980286753286196e-06,
+      "loss": 0.9531,
+      "step": 75
+    },
+    {
+      "epoch": 0.41081081081081083,
+      "grad_norm": 2.368612289428711,
+      "learning_rate": 4.979751088147192e-06,
+      "loss": 0.9634,
+      "step": 76
+    },
+    {
+      "epoch": 0.41621621621621624,
+      "grad_norm": 2.282456398010254,
+      "learning_rate": 4.979208272049425e-06,
+      "loss": 0.9235,
+      "step": 77
+    },
+    {
+      "epoch": 0.42162162162162165,
+      "grad_norm": 3.1332085132598877,
+      "learning_rate": 4.978658306558235e-06,
+      "loss": 1.2019,
+      "step": 78
+    },
+    {
+      "epoch": 0.42702702702702705,
+      "grad_norm": 1.516359567642212,
+      "learning_rate": 4.978101193259578e-06,
+      "loss": 0.6964,
+      "step": 79
+    },
+    {
+      "epoch": 0.43243243243243246,
+      "grad_norm": 1.8565927743911743,
+      "learning_rate": 4.977536933760025e-06,
+      "loss": 0.5298,
+      "step": 80
+    },
+    {
+      "epoch": 0.43783783783783786,
+      "grad_norm": 4.340814590454102,
+      "learning_rate": 4.976965529686755e-06,
+      "loss": 0.9392,
+      "step": 81
+    },
+    {
+      "epoch": 0.44324324324324327,
+      "grad_norm": 2.269435405731201,
+      "learning_rate": 4.976386982687548e-06,
+      "loss": 0.7797,
+      "step": 82
+    },
+    {
+      "epoch": 0.4486486486486487,
+      "grad_norm": 4.28403377532959,
+      "learning_rate": 4.9758012944307845e-06,
+      "loss": 1.0735,
+      "step": 83
+    },
+    {
+      "epoch": 0.4540540540540541,
+      "grad_norm": 2.3271920680999756,
+      "learning_rate": 4.975208466605436e-06,
+      "loss": 1.1424,
+      "step": 84
+    },
+    {
+      "epoch": 0.4594594594594595,
+      "grad_norm": 1.7080214023590088,
+      "learning_rate": 4.974608500921064e-06,
+      "loss": 0.7765,
+      "step": 85
+    },
+    {
+      "epoch": 0.4648648648648649,
+      "grad_norm": 2.293596029281616,
+      "learning_rate": 4.974001399107816e-06,
+      "loss": 0.5781,
+      "step": 86
+    },
+    {
+      "epoch": 0.4702702702702703,
+      "grad_norm": 5.8280158042907715,
+      "learning_rate": 4.973387162916415e-06,
+      "loss": 0.7371,
+      "step": 87
+    },
+    {
+      "epoch": 0.4756756756756757,
+      "grad_norm": 1.8450292348861694,
+      "learning_rate": 4.972765794118158e-06,
+      "loss": 0.4283,
+      "step": 88
+    },
+    {
+      "epoch": 0.4810810810810811,
+      "grad_norm": 3.9483025074005127,
+      "learning_rate": 4.9721372945049114e-06,
+      "loss": 0.8419,
+      "step": 89
+    },
+    {
+      "epoch": 0.4864864864864865,
+      "grad_norm": 5.969606876373291,
+      "learning_rate": 4.971501665889107e-06,
+      "loss": 0.7859,
+      "step": 90
+    },
+    {
+      "epoch": 0.4918918918918919,
+      "grad_norm": 3.228818893432617,
+      "learning_rate": 4.9708589101037306e-06,
+      "loss": 0.4999,
+      "step": 91
+    },
+    {
+      "epoch": 0.4972972972972973,
+      "grad_norm": 5.162187576293945,
+      "learning_rate": 4.970209029002325e-06,
+      "loss": 0.912,
+      "step": 92
+    },
+    {
+      "epoch": 0.5027027027027027,
+      "grad_norm": 2.6580851078033447,
+      "learning_rate": 4.969552024458977e-06,
+      "loss": 0.9615,
+      "step": 93
+    },
+    {
+      "epoch": 0.5081081081081081,
+      "grad_norm": 2.4078314304351807,
+      "learning_rate": 4.968887898368318e-06,
+      "loss": 0.8795,
+      "step": 94
+    },
+    {
+      "epoch": 0.5135135135135135,
+      "grad_norm": 2.6411783695220947,
+      "learning_rate": 4.968216652645515e-06,
+      "loss": 0.7923,
+      "step": 95
+    },
+    {
+      "epoch": 0.518918918918919,
+      "grad_norm": 7.462233543395996,
+      "learning_rate": 4.967538289226268e-06,
+      "loss": 0.8507,
+      "step": 96
+    },
+    {
+      "epoch": 0.5243243243243243,
+      "grad_norm": 4.059110641479492,
+      "learning_rate": 4.966852810066798e-06,
+      "loss": 0.6454,
+      "step": 97
+    },
+    {
+      "epoch": 0.5297297297297298,
+      "grad_norm": 1.8168342113494873,
+      "learning_rate": 4.9661602171438524e-06,
+      "loss": 0.576,
+      "step": 98
+    },
+    {
+      "epoch": 0.5351351351351351,
+      "grad_norm": 1.478033423423767,
+      "learning_rate": 4.965460512454687e-06,
+      "loss": 0.6958,
+      "step": 99
+    },
+    {
+      "epoch": 0.5405405405405406,
+      "grad_norm": 1.698659896850586,
+      "learning_rate": 4.964753698017071e-06,
+      "loss": 0.787,
+      "step": 100
+    },
+    {
+      "epoch": 0.5459459459459459,
+      "grad_norm": 1.7375941276550293,
+      "learning_rate": 4.964039775869271e-06,
+      "loss": 0.5149,
+      "step": 101
+    },
+    {
+      "epoch": 0.5513513513513514,
+      "grad_norm": 2.0877439975738525,
+      "learning_rate": 4.963318748070056e-06,
+      "loss": 0.6927,
+      "step": 102
+    },
+    {
+      "epoch": 0.5567567567567567,
+      "grad_norm": 5.282774925231934,
+      "learning_rate": 4.9625906166986815e-06,
+      "loss": 0.8658,
+      "step": 103
+    },
+    {
+      "epoch": 0.5621621621621622,
+      "grad_norm": 1.9460411071777344,
+      "learning_rate": 4.961855383854889e-06,
+      "loss": 0.6703,
+      "step": 104
+    },
+    {
+      "epoch": 0.5675675675675675,
+      "grad_norm": 1.5056818723678589,
+      "learning_rate": 4.961113051658901e-06,
+      "loss": 0.4554,
+      "step": 105
+    },
+    {
+      "epoch": 0.572972972972973,
+      "grad_norm": 1.437719464302063,
+      "learning_rate": 4.96036362225141e-06,
+      "loss": 0.6334,
+      "step": 106
+    },
+    {
+      "epoch": 0.5783783783783784,
+      "grad_norm": 1.4771314859390259,
+      "learning_rate": 4.959607097793575e-06,
+      "loss": 0.5528,
+      "step": 107
+    },
+    {
+      "epoch": 0.5837837837837838,
+      "grad_norm": 7.920324325561523,
+      "learning_rate": 4.9588434804670176e-06,
+      "loss": 0.9336,
+      "step": 108
+    },
+    {
+      "epoch": 0.5891891891891892,
+      "grad_norm": 1.5517553091049194,
+      "learning_rate": 4.958072772473812e-06,
+      "loss": 0.789,
+      "step": 109
+    },
+    {
+      "epoch": 0.5945945945945946,
+      "grad_norm": 1.3858040571212769,
+      "learning_rate": 4.9572949760364795e-06,
+      "loss": 0.4324,
+      "step": 110
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.6594784259796143,
+      "learning_rate": 4.9565100933979835e-06,
+      "loss": 0.5292,
+      "step": 111
+    },
+    {
+      "epoch": 0.6054054054054054,
+      "grad_norm": 1.6573512554168701,
+      "learning_rate": 4.9557181268217225e-06,
+      "loss": 0.8743,
+      "step": 112
+    },
+    {
+      "epoch": 0.6108108108108108,
+      "grad_norm": 1.6770830154418945,
+      "learning_rate": 4.954919078591521e-06,
+      "loss": 0.7404,
+      "step": 113
+    },
+    {
+      "epoch": 0.6162162162162163,
+      "grad_norm": 1.6126660108566284,
+      "learning_rate": 4.954112951011628e-06,
+      "loss": 0.6362,
+      "step": 114
+    },
+    {
+      "epoch": 0.6216216216216216,
+      "grad_norm": 2.074232816696167,
+      "learning_rate": 4.9532997464067065e-06,
+      "loss": 0.7641,
+      "step": 115
+    },
+    {
+      "epoch": 0.6270270270270271,
+      "grad_norm": 1.5597734451293945,
+      "learning_rate": 4.952479467121828e-06,
+      "loss": 0.8644,
+      "step": 116
+    },
+    {
+      "epoch": 0.6324324324324324,
+      "grad_norm": 2.000659704208374,
+      "learning_rate": 4.951652115522463e-06,
+      "loss": 1.0053,
+      "step": 117
+    },
+    {
+      "epoch": 0.6378378378378379,
+      "grad_norm": 2.8377368450164795,
+      "learning_rate": 4.950817693994481e-06,
+      "loss": 0.5995,
+      "step": 118
+    },
+    {
+      "epoch": 0.6432432432432432,
+      "grad_norm": 1.5014081001281738,
+      "learning_rate": 4.949976204944135e-06,
+      "loss": 0.5928,
+      "step": 119
+    },
+    {
+      "epoch": 0.6486486486486487,
+      "grad_norm": 1.7785449028015137,
+      "learning_rate": 4.949127650798063e-06,
+      "loss": 0.7382,
+      "step": 120
+    },
+    {
+      "epoch": 0.654054054054054,
+      "grad_norm": 1.3782838582992554,
+      "learning_rate": 4.948272034003275e-06,
+      "loss": 0.5388,
+      "step": 121
+    },
+    {
+      "epoch": 0.6594594594594595,
+      "grad_norm": 1.560390830039978,
+      "learning_rate": 4.947409357027148e-06,
+      "loss": 0.4066,
+      "step": 122
+    },
+    {
+      "epoch": 0.6648648648648648,
+      "grad_norm": 2.134943723678589,
+      "learning_rate": 4.9465396223574165e-06,
+      "loss": 0.9613,
+      "step": 123
+    },
+    {
+      "epoch": 0.6702702702702703,
+      "grad_norm": 2.2987451553344727,
+      "learning_rate": 4.945662832502172e-06,
+      "loss": 0.9508,
+      "step": 124
+    },
+    {
+      "epoch": 0.6756756756756757,
+      "grad_norm": 1.6348789930343628,
+      "learning_rate": 4.944778989989847e-06,
+      "loss": 0.9035,
+      "step": 125
+    },
+    {
+      "epoch": 0.6810810810810811,
+      "grad_norm": 1.6138966083526611,
+      "learning_rate": 4.943888097369216e-06,
+      "loss": 0.598,
+      "step": 126
+    },
+    {
+      "epoch": 0.6864864864864865,
+      "grad_norm": 1.228419542312622,
+      "learning_rate": 4.942990157209381e-06,
+      "loss": 0.5522,
+      "step": 127
+    },
+    {
+      "epoch": 0.6918918918918919,
+      "grad_norm": 1.8366758823394775,
+      "learning_rate": 4.9420851720997674e-06,
+      "loss": 0.7214,
+      "step": 128
+    },
+    {
+      "epoch": 0.6972972972972973,
+      "grad_norm": 1.8308454751968384,
+      "learning_rate": 4.94117314465012e-06,
+      "loss": 1.1496,
+      "step": 129
+    },
+    {
+      "epoch": 0.7027027027027027,
+      "grad_norm": 1.6276111602783203,
+      "learning_rate": 4.940254077490487e-06,
+      "loss": 0.5939,
+      "step": 130
+    },
+    {
+      "epoch": 0.7081081081081081,
+      "grad_norm": 1.2009947299957275,
+      "learning_rate": 4.939327973271222e-06,
+      "loss": 0.4729,
+      "step": 131
+    },
+    {
+      "epoch": 0.7135135135135136,
+      "grad_norm": 1.3389908075332642,
+      "learning_rate": 4.9383948346629665e-06,
+      "loss": 0.4856,
+      "step": 132
+    },
+    {
+      "epoch": 0.7189189189189189,
+      "grad_norm": 1.1946738958358765,
+      "learning_rate": 4.937454664356652e-06,
+      "loss": 0.6242,
+      "step": 133
+    },
+    {
+      "epoch": 0.7243243243243244,
+      "grad_norm": 1.4497710466384888,
+      "learning_rate": 4.9365074650634855e-06,
+      "loss": 0.571,
+      "step": 134
+    },
+    {
+      "epoch": 0.7297297297297297,
+      "grad_norm": 1.9280076026916504,
+      "learning_rate": 4.9355532395149445e-06,
+      "loss": 0.9208,
+      "step": 135
+    },
+    {
+      "epoch": 0.7351351351351352,
+      "grad_norm": 1.5937215089797974,
+      "learning_rate": 4.9345919904627655e-06,
+      "loss": 0.6167,
+      "step": 136
+    },
+    {
+      "epoch": 0.7405405405405405,
+      "grad_norm": 1.5637091398239136,
+      "learning_rate": 4.933623720678944e-06,
+      "loss": 0.5904,
+      "step": 137
+    },
+    {
+      "epoch": 0.745945945945946,
+      "grad_norm": 2.061098098754883,
+      "learning_rate": 4.932648432955718e-06,
+      "loss": 0.7665,
+      "step": 138
+    },
+    {
+      "epoch": 0.7513513513513513,
+      "grad_norm": 1.408953070640564,
+      "learning_rate": 4.931666130105564e-06,
+      "loss": 0.5753,
+      "step": 139
+    },
+    {
+      "epoch": 0.7567567567567568,
+      "grad_norm": 1.587388277053833,
+      "learning_rate": 4.930676814961189e-06,
+      "loss": 0.6025,
+      "step": 140
+    },
+    {
+      "epoch": 0.7621621621621621,
+      "grad_norm": 1.8407951593399048,
+      "learning_rate": 4.92968049037552e-06,
+      "loss": 0.5458,
+      "step": 141
+    },
+    {
+      "epoch": 0.7675675675675676,
+      "grad_norm": 1.453813076019287,
+      "learning_rate": 4.9286771592217005e-06,
+      "loss": 0.6279,
+      "step": 142
+    },
+    {
+      "epoch": 0.772972972972973,
+      "grad_norm": 2.7878520488739014,
+      "learning_rate": 4.927666824393076e-06,
+      "loss": 0.8547,
+      "step": 143
+    },
+    {
+      "epoch": 0.7783783783783784,
+      "grad_norm": 1.8180932998657227,
+      "learning_rate": 4.926649488803191e-06,
+      "loss": 0.7856,
+      "step": 144
+    },
+    {
+      "epoch": 0.7837837837837838,
+      "grad_norm": 1.6957378387451172,
+      "learning_rate": 4.925625155385776e-06,
+      "loss": 0.3739,
+      "step": 145
+    },
+    {
+      "epoch": 0.7891891891891892,
+      "grad_norm": 1.479246735572815,
+      "learning_rate": 4.924593827094743e-06,
+      "loss": 0.7423,
+      "step": 146
+    },
+    {
+      "epoch": 0.7945945945945946,
+      "grad_norm": 1.6540454626083374,
+      "learning_rate": 4.923555506904176e-06,
+      "loss": 0.6265,
+      "step": 147
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.9455894231796265,
+      "learning_rate": 4.922510197808321e-06,
+      "loss": 1.0022,
+      "step": 148
+    },
+    {
+      "epoch": 0.8054054054054054,
+      "grad_norm": 1.4136521816253662,
+      "learning_rate": 4.921457902821578e-06,
+      "loss": 0.6089,
+      "step": 149
+    },
+    {
+      "epoch": 0.8108108108108109,
+      "grad_norm": 1.5175873041152954,
+      "learning_rate": 4.920398624978493e-06,
+      "loss": 1.0393,
+      "step": 150
+    },
+    {
+      "epoch": 0.8162162162162162,
+      "grad_norm": 1.4155280590057373,
+      "learning_rate": 4.919332367333748e-06,
+      "loss": 0.6207,
+      "step": 151
+    },
+    {
+      "epoch": 0.8216216216216217,
+      "grad_norm": 1.451080322265625,
+      "learning_rate": 4.918259132962154e-06,
+      "loss": 0.5504,
+      "step": 152
+    },
+    {
+      "epoch": 0.827027027027027,
+      "grad_norm": 1.4435138702392578,
+      "learning_rate": 4.917178924958638e-06,
+      "loss": 0.585,
+      "step": 153
+    },
+    {
+      "epoch": 0.8324324324324325,
+      "grad_norm": 1.368687391281128,
+      "learning_rate": 4.916091746438243e-06,
+      "loss": 0.6832,
+      "step": 154
+    },
+    {
+      "epoch": 0.8378378378378378,
+      "grad_norm": 2.4902706146240234,
+      "learning_rate": 4.9149976005361085e-06,
+      "loss": 0.6932,
+      "step": 155
+    },
+    {
+      "epoch": 0.8432432432432433,
+      "grad_norm": 1.8085652589797974,
+      "learning_rate": 4.913896490407467e-06,
+      "loss": 1.0224,
+      "step": 156
+    },
+    {
+      "epoch": 0.8486486486486486,
+      "grad_norm": 1.2914624214172363,
+      "learning_rate": 4.912788419227635e-06,
+      "loss": 0.6484,
+      "step": 157
+    },
+    {
+      "epoch": 0.8540540540540541,
+      "grad_norm": 1.5309317111968994,
+      "learning_rate": 4.911673390192002e-06,
+      "loss": 0.7786,
+      "step": 158
+    },
+    {
+      "epoch": 0.8594594594594595,
+      "grad_norm": 1.483669638633728,
+      "learning_rate": 4.910551406516023e-06,
+      "loss": 0.7141,
+      "step": 159
+    },
+    {
+      "epoch": 0.8648648648648649,
+      "grad_norm": 1.4227954149246216,
+      "learning_rate": 4.909422471435207e-06,
+      "loss": 0.899,
+      "step": 160
+    },
+    {
+      "epoch": 0.8702702702702703,
+      "grad_norm": 1.3709925413131714,
+      "learning_rate": 4.90828658820511e-06,
+      "loss": 0.4481,
+      "step": 161
+    },
+    {
+      "epoch": 0.8756756756756757,
+      "grad_norm": 1.1728129386901855,
+      "learning_rate": 4.907143760101325e-06,
+      "loss": 0.4109,
+      "step": 162
+    },
+    {
+      "epoch": 0.8810810810810811,
+      "grad_norm": 1.5056915283203125,
+      "learning_rate": 4.905993990419472e-06,
+      "loss": 0.6837,
+      "step": 163
+    },
+    {
+      "epoch": 0.8864864864864865,
+      "grad_norm": 1.4208317995071411,
+      "learning_rate": 4.904837282475187e-06,
+      "loss": 0.518,
+      "step": 164
+    },
+    {
+      "epoch": 0.8918918918918919,
+      "grad_norm": 1.4804638624191284,
+      "learning_rate": 4.9036736396041165e-06,
+      "loss": 0.8612,
+      "step": 165
+    },
+    {
+      "epoch": 0.8972972972972973,
+      "grad_norm": 2.0513720512390137,
+      "learning_rate": 4.902503065161905e-06,
+      "loss": 0.6837,
+      "step": 166
+    },
+    {
+      "epoch": 0.9027027027027027,
+      "grad_norm": 1.5739083290100098,
+      "learning_rate": 4.901325562524185e-06,
+      "loss": 0.851,
+      "step": 167
+    },
+    {
+      "epoch": 0.9081081081081082,
+      "grad_norm": 1.9349701404571533,
+      "learning_rate": 4.900141135086569e-06,
+      "loss": 0.6675,
+      "step": 168
+    },
+    {
+      "epoch": 0.9135135135135135,
+      "grad_norm": 1.563302993774414,
+      "learning_rate": 4.898949786264638e-06,
+      "loss": 0.581,
+      "step": 169
+    },
+    {
+      "epoch": 0.918918918918919,
+      "grad_norm": 3.459235906600952,
+      "learning_rate": 4.897751519493933e-06,
+      "loss": 0.6256,
+      "step": 170
+    },
+    {
+      "epoch": 0.9243243243243243,
+      "grad_norm": 1.6352131366729736,
+      "learning_rate": 4.896546338229945e-06,
+      "loss": 0.6289,
+      "step": 171
+    },
+    {
+      "epoch": 0.9297297297297298,
+      "grad_norm": 1.5300105810165405,
+      "learning_rate": 4.8953342459481034e-06,
+      "loss": 0.5438,
+      "step": 172
+    },
+    {
+      "epoch": 0.9351351351351351,
+      "grad_norm": 1.6437793970108032,
+      "learning_rate": 4.894115246143768e-06,
+      "loss": 0.6853,
+      "step": 173
+    },
+    {
+      "epoch": 0.9405405405405406,
+      "grad_norm": 1.364875316619873,
+      "learning_rate": 4.892889342332218e-06,
+      "loss": 0.5561,
+      "step": 174
+    },
+    {
+      "epoch": 0.9459459459459459,
+      "grad_norm": 1.9152064323425293,
+      "learning_rate": 4.891656538048642e-06,
+      "loss": 0.8916,
+      "step": 175
+    },
+    {
+      "epoch": 0.9513513513513514,
+      "grad_norm": 1.4539505243301392,
+      "learning_rate": 4.890416836848128e-06,
+      "loss": 0.7008,
+      "step": 176
+    },
+    {
+      "epoch": 0.9567567567567568,
+      "grad_norm": 1.479102373123169,
+      "learning_rate": 4.889170242305652e-06,
+      "loss": 0.541,
+      "step": 177
+    },
+    {
+      "epoch": 0.9621621621621622,
+      "grad_norm": 1.3016072511672974,
+      "learning_rate": 4.887916758016069e-06,
+      "loss": 0.7985,
+      "step": 178
+    },
+    {
+      "epoch": 0.9675675675675676,
+      "grad_norm": 1.856482744216919,
+      "learning_rate": 4.886656387594104e-06,
+      "loss": 0.965,
+      "step": 179
+    },
+    {
+      "epoch": 0.972972972972973,
+      "grad_norm": 1.8836162090301514,
+      "learning_rate": 4.885389134674338e-06,
+      "loss": 0.6575,
+      "step": 180
+    },
+    {
+      "epoch": 0.9783783783783784,
+      "grad_norm": 1.5031898021697998,
+      "learning_rate": 4.884115002911197e-06,
+      "loss": 0.4896,
+      "step": 181
+    },
+    {
+      "epoch": 0.9837837837837838,
+      "grad_norm": 1.478468418121338,
+      "learning_rate": 4.88283399597895e-06,
+      "loss": 0.7711,
+      "step": 182
+    },
+    {
+      "epoch": 0.9891891891891892,
+      "grad_norm": 1.5407146215438843,
+      "learning_rate": 4.881546117571686e-06,
+      "loss": 0.5593,
+      "step": 183
+    },
+    {
+      "epoch": 0.9945945945945946,
+      "grad_norm": 1.73698890209198,
+      "learning_rate": 4.8802513714033135e-06,
+      "loss": 0.5868,
+      "step": 184
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.5788382291793823,
+      "learning_rate": 4.878949761207545e-06,
+      "loss": 0.844,
+      "step": 185
+    },
+    {
+      "epoch": 1.0054054054054054,
+      "grad_norm": 1.3397678136825562,
+      "learning_rate": 4.8776412907378845e-06,
+      "loss": 0.6271,
+      "step": 186
+    },
+    {
+      "epoch": 1.0108108108108107,
+      "grad_norm": 1.4531461000442505,
+      "learning_rate": 4.876325963767623e-06,
+      "loss": 0.5711,
+      "step": 187
+    },
+    {
+      "epoch": 1.0162162162162163,
+      "grad_norm": 1.1585415601730347,
+      "learning_rate": 4.875003784089822e-06,
+      "loss": 0.5945,
+      "step": 188
+    },
+    {
+      "epoch": 1.0216216216216216,
+      "grad_norm": 1.3621349334716797,
+      "learning_rate": 4.873674755517305e-06,
+      "loss": 0.6144,
+      "step": 189
+    },
+    {
+      "epoch": 1.027027027027027,
+      "grad_norm": 1.2452881336212158,
+      "learning_rate": 4.872338881882645e-06,
+      "loss": 0.7082,
+      "step": 190
+    },
+    {
+      "epoch": 1.0324324324324325,
+      "grad_norm": 1.4508976936340332,
+      "learning_rate": 4.870996167038154e-06,
+      "loss": 0.5387,
+      "step": 191
+    },
+    {
+      "epoch": 1.037837837837838,
+      "grad_norm": 1.2773476839065552,
+      "learning_rate": 4.869646614855877e-06,
+      "loss": 0.3655,
+      "step": 192
+    },
+    {
+      "epoch": 1.0432432432432432,
+      "grad_norm": 1.7777947187423706,
+      "learning_rate": 4.868290229227567e-06,
+      "loss": 0.7866,
+      "step": 193
+    },
+    {
+      "epoch": 1.0486486486486486,
+      "grad_norm": 1.180887222290039,
+      "learning_rate": 4.866927014064692e-06,
+      "loss": 0.3089,
+      "step": 194
+    },
+    {
+      "epoch": 1.054054054054054,
+      "grad_norm": 1.665440320968628,
+      "learning_rate": 4.86555697329841e-06,
+      "loss": 0.8459,
+      "step": 195
+    },
+    {
+      "epoch": 1.0594594594594595,
+      "grad_norm": 2.011904239654541,
+      "learning_rate": 4.864180110879562e-06,
+      "loss": 0.7435,
+      "step": 196
+    },
+    {
+      "epoch": 1.0648648648648649,
+      "grad_norm": 1.0975934267044067,
+      "learning_rate": 4.862796430778663e-06,
+      "loss": 0.3509,
+      "step": 197
+    },
+    {
+      "epoch": 1.0702702702702702,
+      "grad_norm": 2.8494436740875244,
+      "learning_rate": 4.861405936985889e-06,
+      "loss": 0.6601,
+      "step": 198
+    },
+    {
+      "epoch": 1.0756756756756758,
+      "grad_norm": 1.3506245613098145,
+      "learning_rate": 4.860008633511059e-06,
+      "loss": 0.6829,
+      "step": 199
+    },
+    {
+      "epoch": 1.0810810810810811,
+      "grad_norm": 1.372811198234558,
+      "learning_rate": 4.8586045243836384e-06,
+      "loss": 0.4516,
+      "step": 200
+    },
+    {
+      "epoch": 1.0864864864864865,
+      "grad_norm": 1.9643627405166626,
+      "learning_rate": 4.857193613652711e-06,
+      "loss": 0.6955,
+      "step": 201
+    },
+    {
+      "epoch": 1.0918918918918918,
+      "grad_norm": 1.2992147207260132,
+      "learning_rate": 4.8557759053869775e-06,
+      "loss": 0.5928,
+      "step": 202
+    },
+    {
+      "epoch": 1.0972972972972972,
+      "grad_norm": 1.0684137344360352,
+      "learning_rate": 4.854351403674741e-06,
+      "loss": 0.4391,
+      "step": 203
+    },
+    {
+      "epoch": 1.1027027027027028,
+      "grad_norm": 1.6756342649459839,
+      "learning_rate": 4.852920112623895e-06,
+      "loss": 0.553,
+      "step": 204
+    },
+    {
+      "epoch": 1.1081081081081081,
+      "grad_norm": 1.4580910205841064,
+      "learning_rate": 4.851482036361912e-06,
+      "loss": 0.6693,
+      "step": 205
+    },
+    {
+      "epoch": 1.1135135135135135,
+      "grad_norm": 1.340636968612671,
+      "learning_rate": 4.850037179035829e-06,
+      "loss": 0.4959,
+      "step": 206
+    },
+    {
+      "epoch": 1.118918918918919,
+      "grad_norm": 1.3293588161468506,
+      "learning_rate": 4.8485855448122425e-06,
+      "loss": 0.5316,
+      "step": 207
+    },
+    {
+      "epoch": 1.1243243243243244,
+      "grad_norm": 1.144441843032837,
+      "learning_rate": 4.847127137877286e-06,
+      "loss": 0.367,
+      "step": 208
+    },
+    {
+      "epoch": 1.1297297297297297,
+      "grad_norm": 1.2157750129699707,
+      "learning_rate": 4.8456619624366285e-06,
+      "loss": 0.714,
+      "step": 209
+    },
+    {
+      "epoch": 1.135135135135135,
+      "grad_norm": 1.385451078414917,
+      "learning_rate": 4.844190022715456e-06,
+      "loss": 0.6213,
+      "step": 210
+    },
+    {
+      "epoch": 1.1405405405405404,
+      "grad_norm": 1.4030694961547852,
+      "learning_rate": 4.84271132295846e-06,
+      "loss": 0.3404,
+      "step": 211
+    },
+    {
+      "epoch": 1.145945945945946,
+      "grad_norm": 1.4046175479888916,
+      "learning_rate": 4.841225867429826e-06,
+      "loss": 0.558,
+      "step": 212
+    },
+    {
+      "epoch": 1.1513513513513514,
+      "grad_norm": 1.3591229915618896,
+      "learning_rate": 4.839733660413224e-06,
+      "loss": 0.7839,
+      "step": 213
+    },
+    {
+      "epoch": 1.1567567567567567,
+      "grad_norm": 1.6660821437835693,
+      "learning_rate": 4.838234706211792e-06,
+      "loss": 0.6311,
+      "step": 214
+    },
+    {
+      "epoch": 1.1621621621621623,
+      "grad_norm": 1.2875845432281494,
+      "learning_rate": 4.836729009148124e-06,
+      "loss": 0.4286,
+      "step": 215
+    },
+    {
+      "epoch": 1.1675675675675676,
+      "grad_norm": 1.1617827415466309,
+      "learning_rate": 4.835216573564261e-06,
+      "loss": 0.328,
+      "step": 216
+    },
+    {
+      "epoch": 1.172972972972973,
+      "grad_norm": 1.9180679321289062,
+      "learning_rate": 4.833697403821672e-06,
+      "loss": 0.6377,
+      "step": 217
+    },
+    {
+      "epoch": 1.1783783783783783,
+      "grad_norm": 1.2474026679992676,
+      "learning_rate": 4.8321715043012516e-06,
+      "loss": 0.6262,
+      "step": 218
+    },
+    {
+      "epoch": 1.1837837837837837,
+      "grad_norm": 1.2245597839355469,
+      "learning_rate": 4.830638879403296e-06,
+      "loss": 0.3518,
+      "step": 219
+    },
+    {
+      "epoch": 1.1891891891891893,
+      "grad_norm": 1.5926570892333984,
+      "learning_rate": 4.8290995335475e-06,
+      "loss": 0.4639,
+      "step": 220
+    },
+    {
+      "epoch": 1.1945945945945946,
+      "grad_norm": 1.2763904333114624,
+      "learning_rate": 4.827553471172935e-06,
+      "loss": 0.3853,
+      "step": 221
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.4549741744995117,
+      "learning_rate": 4.826000696738045e-06,
+      "loss": 0.4299,
+      "step": 222
+    },
+    {
+      "epoch": 1.2054054054054055,
+      "grad_norm": 1.2561891078948975,
+      "learning_rate": 4.824441214720629e-06,
+      "loss": 0.7467,
+      "step": 223
+    },
+    {
+      "epoch": 1.2108108108108109,
+      "grad_norm": 2.0324487686157227,
+      "learning_rate": 4.8228750296178275e-06,
+      "loss": 0.4942,
+      "step": 224
+    },
+    {
+      "epoch": 1.2162162162162162,
+      "grad_norm": 1.200749158859253,
+      "learning_rate": 4.821302145946113e-06,
+      "loss": 0.4484,
+      "step": 225
+    },
+    {
+      "epoch": 1.2216216216216216,
+      "grad_norm": 1.5410007238388062,
+      "learning_rate": 4.819722568241274e-06,
+      "loss": 0.5762,
+      "step": 226
+    },
+    {
+      "epoch": 1.227027027027027,
+      "grad_norm": 1.0582488775253296,
+      "learning_rate": 4.818136301058401e-06,
+      "loss": 0.3918,
+      "step": 227
+    },
+    {
+      "epoch": 1.2324324324324325,
+      "grad_norm": 1.740899920463562,
+      "learning_rate": 4.816543348971879e-06,
+      "loss": 0.6429,
+      "step": 228
+    },
+    {
+      "epoch": 1.2378378378378379,
+      "grad_norm": 1.9297678470611572,
+      "learning_rate": 4.814943716575368e-06,
+      "loss": 0.6014,
+      "step": 229
+    },
+    {
+      "epoch": 1.2432432432432432,
+      "grad_norm": 1.4900671243667603,
+      "learning_rate": 4.813337408481793e-06,
+      "loss": 0.843,
+      "step": 230
+    },
+    {
+      "epoch": 1.2486486486486488,
+      "grad_norm": 1.4248167276382446,
+      "learning_rate": 4.811724429323329e-06,
+      "loss": 0.8405,
+      "step": 231
+    },
+    {
+      "epoch": 1.2540540540540541,
+      "grad_norm": 1.7808220386505127,
+      "learning_rate": 4.810104783751389e-06,
+      "loss": 0.5169,
+      "step": 232
+    },
+    {
+      "epoch": 1.2594594594594595,
+      "grad_norm": 1.3239902257919312,
+      "learning_rate": 4.8084784764366125e-06,
+      "loss": 0.4331,
+      "step": 233
+    },
+    {
+      "epoch": 1.2648648648648648,
+      "grad_norm": 1.2848410606384277,
+      "learning_rate": 4.806845512068846e-06,
+      "loss": 0.4776,
+      "step": 234
+    },
+    {
+      "epoch": 1.2702702702702702,
+      "grad_norm": 1.3786102533340454,
+      "learning_rate": 4.805205895357137e-06,
+      "loss": 0.5769,
+      "step": 235
+    },
+    {
+      "epoch": 1.2756756756756757,
+      "grad_norm": 1.2326008081436157,
+      "learning_rate": 4.803559631029713e-06,
+      "loss": 0.5914,
+      "step": 236
+    },
+    {
+      "epoch": 1.281081081081081,
+      "grad_norm": 1.073604941368103,
+      "learning_rate": 4.801906723833973e-06,
+      "loss": 0.413,
+      "step": 237
+    },
+    {
+      "epoch": 1.2864864864864864,
+      "grad_norm": 1.2083159685134888,
+      "learning_rate": 4.8002471785364734e-06,
+      "loss": 0.4591,
+      "step": 238
+    },
+    {
+      "epoch": 1.291891891891892,
+      "grad_norm": 1.2016311883926392,
+      "learning_rate": 4.798580999922913e-06,
+      "loss": 0.5701,
+      "step": 239
+    },
+    {
+      "epoch": 1.2972972972972974,
+      "grad_norm": 1.5450735092163086,
+      "learning_rate": 4.796908192798117e-06,
+      "loss": 0.5289,
+      "step": 240
+    },
+    {
+      "epoch": 1.3027027027027027,
+      "grad_norm": 1.1884366273880005,
+      "learning_rate": 4.7952287619860276e-06,
+      "loss": 0.5236,
+      "step": 241
+    },
+    {
+      "epoch": 1.308108108108108,
+      "grad_norm": 1.5780479907989502,
+      "learning_rate": 4.793542712329689e-06,
+      "loss": 0.9311,
+      "step": 242
+    },
+    {
+      "epoch": 1.3135135135135134,
+      "grad_norm": 1.1875817775726318,
+      "learning_rate": 4.791850048691228e-06,
+      "loss": 0.5469,
+      "step": 243
+    },
+    {
+      "epoch": 1.318918918918919,
+      "grad_norm": 1.6719521284103394,
+      "learning_rate": 4.79015077595185e-06,
+      "loss": 0.7005,
+      "step": 244
+    },
+    {
+      "epoch": 1.3243243243243243,
+      "grad_norm": 1.638806700706482,
+      "learning_rate": 4.788444899011816e-06,
+      "loss": 0.4989,
+      "step": 245
+    },
+    {
+      "epoch": 1.3297297297297297,
+      "grad_norm": 1.2825144529342651,
+      "learning_rate": 4.786732422790432e-06,
+      "loss": 0.4646,
+      "step": 246
+    },
+    {
+      "epoch": 1.3351351351351353,
+      "grad_norm": 1.6913565397262573,
+      "learning_rate": 4.785013352226036e-06,
+      "loss": 0.5436,
+      "step": 247
+    },
+    {
+      "epoch": 1.3405405405405406,
+      "grad_norm": 0.9610883593559265,
+      "learning_rate": 4.7832876922759805e-06,
+      "loss": 0.312,
+      "step": 248
+    },
+    {
+      "epoch": 1.345945945945946,
+      "grad_norm": 1.8593261241912842,
+      "learning_rate": 4.781555447916622e-06,
+      "loss": 0.6682,
+      "step": 249
+    },
+    {
+      "epoch": 1.3513513513513513,
+      "grad_norm": 1.153238296508789,
+      "learning_rate": 4.779816624143302e-06,
+      "loss": 0.3905,
+      "step": 250
+    },
+    {
+      "epoch": 1.3567567567567567,
+      "grad_norm": 2.1419355869293213,
+      "learning_rate": 4.77807122597034e-06,
+      "loss": 0.7274,
+      "step": 251
+    },
+    {
+      "epoch": 1.3621621621621622,
+      "grad_norm": 1.0724537372589111,
+      "learning_rate": 4.776319258431009e-06,
+      "loss": 0.4766,
+      "step": 252
+    },
+    {
+      "epoch": 1.3675675675675676,
+      "grad_norm": 1.168109655380249,
+      "learning_rate": 4.77456072657753e-06,
+      "loss": 0.4067,
+      "step": 253
+    },
+    {
+      "epoch": 1.372972972972973,
+      "grad_norm": 1.267990231513977,
+      "learning_rate": 4.772795635481053e-06,
+      "loss": 0.482,
+      "step": 254
+    },
+    {
+      "epoch": 1.3783783783783785,
+      "grad_norm": 1.5796809196472168,
+      "learning_rate": 4.77102399023164e-06,
+      "loss": 0.9423,
+      "step": 255
+    },
+    {
+      "epoch": 1.3837837837837839,
+      "grad_norm": 1.2880598306655884,
+      "learning_rate": 4.769245795938261e-06,
+      "loss": 0.4537,
+      "step": 256
+    },
+    {
+      "epoch": 1.3891891891891892,
+      "grad_norm": 1.1290082931518555,
+      "learning_rate": 4.767461057728763e-06,
+      "loss": 0.4714,
+      "step": 257
+    },
+    {
+      "epoch": 1.3945945945945946,
+      "grad_norm": 1.8791805505752563,
+      "learning_rate": 4.76566978074987e-06,
+      "loss": 0.6956,
+      "step": 258
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.525825023651123,
+      "learning_rate": 4.7638719701671586e-06,
+      "loss": 0.653,
+      "step": 259
+    },
+    {
+      "epoch": 1.4054054054054055,
+      "grad_norm": 1.5739421844482422,
+      "learning_rate": 4.762067631165049e-06,
+      "loss": 0.7987,
+      "step": 260
+    },
+    {
+      "epoch": 1.4108108108108108,
+      "grad_norm": 1.3621995449066162,
+      "learning_rate": 4.760256768946787e-06,
+      "loss": 0.4626,
+      "step": 261
+    },
+    {
+      "epoch": 1.4162162162162162,
+      "grad_norm": 1.2688299417495728,
+      "learning_rate": 4.758439388734429e-06,
+      "loss": 0.7365,
+      "step": 262
+    },
+    {
+      "epoch": 1.4216216216216218,
+      "grad_norm": 1.5742356777191162,
+      "learning_rate": 4.7566154957688276e-06,
+      "loss": 0.9721,
+      "step": 263
+    },
+    {
+      "epoch": 1.427027027027027,
+      "grad_norm": 1.246647596359253,
+      "learning_rate": 4.754785095309617e-06,
+      "loss": 0.5968,
+      "step": 264
+    },
+    {
+      "epoch": 1.4324324324324325,
+      "grad_norm": 1.205913782119751,
+      "learning_rate": 4.752948192635199e-06,
+      "loss": 0.4595,
+      "step": 265
+    },
+    {
+      "epoch": 1.4378378378378378,
+      "grad_norm": 1.3996696472167969,
+      "learning_rate": 4.751104793042722e-06,
+      "loss": 0.837,
+      "step": 266
+    },
+    {
+      "epoch": 1.4432432432432432,
+      "grad_norm": 1.049208402633667,
+      "learning_rate": 4.7492549018480725e-06,
+      "loss": 0.5352,
+      "step": 267
+    },
+    {
+      "epoch": 1.4486486486486487,
+      "grad_norm": 1.4224534034729004,
+      "learning_rate": 4.747398524385858e-06,
+      "loss": 0.8857,
+      "step": 268
+    },
+    {
+      "epoch": 1.454054054054054,
+      "grad_norm": 1.989590048789978,
+      "learning_rate": 4.745535666009389e-06,
+      "loss": 0.5727,
+      "step": 269
+    },
+    {
+      "epoch": 1.4594594594594594,
+      "grad_norm": 1.1345244646072388,
+      "learning_rate": 4.743666332090664e-06,
+      "loss": 0.3826,
+      "step": 270
+    },
+    {
+      "epoch": 1.464864864864865,
+      "grad_norm": 1.185560941696167,
+      "learning_rate": 4.74179052802036e-06,
+      "loss": 0.5702,
+      "step": 271
+    },
+    {
+      "epoch": 1.4702702702702704,
+      "grad_norm": 1.2633764743804932,
+      "learning_rate": 4.739908259207807e-06,
+      "loss": 0.7085,
+      "step": 272
+    },
+    {
+      "epoch": 1.4756756756756757,
+      "grad_norm": 1.2948144674301147,
+      "learning_rate": 4.738019531080981e-06,
+      "loss": 0.5646,
+      "step": 273
+    },
+    {
+      "epoch": 1.481081081081081,
+      "grad_norm": 2.3876469135284424,
+      "learning_rate": 4.7361243490864825e-06,
+      "loss": 0.7329,
+      "step": 274
+    },
+    {
+      "epoch": 1.4864864864864864,
+      "grad_norm": 1.3248780965805054,
+      "learning_rate": 4.734222718689527e-06,
+      "loss": 0.725,
+      "step": 275
+    },
+    {
+      "epoch": 1.491891891891892,
+      "grad_norm": 1.1309552192687988,
+      "learning_rate": 4.732314645373922e-06,
+      "loss": 0.528,
+      "step": 276
+    },
+    {
+      "epoch": 1.4972972972972973,
+      "grad_norm": 1.2555019855499268,
+      "learning_rate": 4.730400134642055e-06,
+      "loss": 0.6709,
+      "step": 277
+    },
+    {
+      "epoch": 1.5027027027027027,
+      "grad_norm": 1.7555198669433594,
+      "learning_rate": 4.728479192014879e-06,
+      "loss": 0.8908,
+      "step": 278
+    },
+    {
+      "epoch": 1.5081081081081082,
+      "grad_norm": 1.3300278186798096,
+      "learning_rate": 4.726551823031895e-06,
+      "loss": 0.6004,
+      "step": 279
+    },
+    {
+      "epoch": 1.5135135135135136,
+      "grad_norm": 1.2033137083053589,
+      "learning_rate": 4.7246180332511335e-06,
+      "loss": 0.4787,
+      "step": 280
+    },
+    {
+      "epoch": 1.518918918918919,
+      "grad_norm": 1.872157096862793,
+      "learning_rate": 4.722677828249142e-06,
+      "loss": 1.0758,
+      "step": 281
+    },
+    {
+      "epoch": 1.5243243243243243,
+      "grad_norm": 1.8279941082000732,
+      "learning_rate": 4.720731213620972e-06,
+      "loss": 0.9075,
+      "step": 282
+    },
+    {
+      "epoch": 1.5297297297297296,
+      "grad_norm": 1.7639377117156982,
+      "learning_rate": 4.718778194980152e-06,
+      "loss": 0.5633,
+      "step": 283
+    },
+    {
+      "epoch": 1.535135135135135,
+      "grad_norm": 1.6155503988265991,
+      "learning_rate": 4.7168187779586805e-06,
+      "loss": 0.7207,
+      "step": 284
+    },
+    {
+      "epoch": 1.5405405405405406,
+      "grad_norm": 1.489876389503479,
+      "learning_rate": 4.71485296820701e-06,
+      "loss": 0.5849,
+      "step": 285
+    },
+    {
+      "epoch": 1.545945945945946,
+      "grad_norm": 1.0583961009979248,
+      "learning_rate": 4.7128807713940245e-06,
+      "loss": 0.4676,
+      "step": 286
+    },
+    {
+      "epoch": 1.5513513513513515,
+      "grad_norm": 1.334418773651123,
+      "learning_rate": 4.710902193207028e-06,
+      "loss": 0.5563,
+      "step": 287
+    },
+    {
+      "epoch": 1.5567567567567568,
+      "grad_norm": 1.4231315851211548,
+      "learning_rate": 4.708917239351727e-06,
+      "loss": 0.5223,
+      "step": 288
+    },
+    {
+      "epoch": 1.5621621621621622,
+      "grad_norm": 1.6082526445388794,
+      "learning_rate": 4.706925915552214e-06,
+      "loss": 0.8345,
+      "step": 289
+    },
+    {
+      "epoch": 1.5675675675675675,
+      "grad_norm": 1.4032248258590698,
+      "learning_rate": 4.704928227550949e-06,
+      "loss": 0.6494,
+      "step": 290
+    },
+    {
+      "epoch": 1.572972972972973,
+      "grad_norm": 1.222618579864502,
+      "learning_rate": 4.702924181108745e-06,
+      "loss": 0.4307,
+      "step": 291
+    },
+    {
+      "epoch": 1.5783783783783782,
+      "grad_norm": 1.067906379699707,
+      "learning_rate": 4.700913782004755e-06,
+      "loss": 0.4119,
+      "step": 292
+    },
+    {
+      "epoch": 1.5837837837837838,
+      "grad_norm": 1.129477858543396,
+      "learning_rate": 4.698897036036446e-06,
+      "loss": 0.5509,
+      "step": 293
+    },
+    {
+      "epoch": 1.5891891891891892,
+      "grad_norm": 1.4165019989013672,
+      "learning_rate": 4.696873949019591e-06,
+      "loss": 0.8256,
+      "step": 294
+    },
+    {
+      "epoch": 1.5945945945945947,
+      "grad_norm": 1.0644030570983887,
+      "learning_rate": 4.694844526788248e-06,
+      "loss": 0.4359,
+      "step": 295
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.8361538648605347,
+      "learning_rate": 4.692808775194745e-06,
+      "loss": 0.4552,
+      "step": 296
+    },
+    {
+      "epoch": 1.6054054054054054,
+      "grad_norm": 1.444913625717163,
+      "learning_rate": 4.690766700109659e-06,
+      "loss": 0.4292,
+      "step": 297
+    },
+    {
+      "epoch": 1.6108108108108108,
+      "grad_norm": 2.089372396469116,
+      "learning_rate": 4.688718307421807e-06,
+      "loss": 0.816,
+      "step": 298
+    },
+    {
+      "epoch": 1.6162162162162161,
+      "grad_norm": 1.5878456830978394,
+      "learning_rate": 4.686663603038222e-06,
+      "loss": 0.6136,
+      "step": 299
+    },
+    {
+      "epoch": 1.6216216216216215,
+      "grad_norm": 1.5576132535934448,
+      "learning_rate": 4.6846025928841365e-06,
+      "loss": 0.7934,
+      "step": 300
+    },
+    {
+      "epoch": 1.627027027027027,
+      "grad_norm": 1.2024751901626587,
+      "learning_rate": 4.6825352829029705e-06,
+      "loss": 0.483,
+      "step": 301
+    },
+    {
+      "epoch": 1.6324324324324324,
+      "grad_norm": 1.245315432548523,
+      "learning_rate": 4.68046167905631e-06,
+      "loss": 0.4934,
+      "step": 302
+    },
+    {
+      "epoch": 1.637837837837838,
+      "grad_norm": 5.609968185424805,
+      "learning_rate": 4.678381787323889e-06,
+      "loss": 0.7772,
+      "step": 303
+    },
+    {
+      "epoch": 1.6432432432432433,
+      "grad_norm": 1.0703761577606201,
+      "learning_rate": 4.676295613703577e-06,
+      "loss": 0.7,
+      "step": 304
+    },
+    {
+      "epoch": 1.6486486486486487,
+      "grad_norm": 1.2151726484298706,
+      "learning_rate": 4.674203164211357e-06,
+      "loss": 0.6555,
+      "step": 305
+    },
+    {
+      "epoch": 1.654054054054054,
+      "grad_norm": 1.219373345375061,
+      "learning_rate": 4.67210444488131e-06,
+      "loss": 0.6336,
+      "step": 306
+    },
+    {
+      "epoch": 1.6594594594594594,
+      "grad_norm": 1.2169171571731567,
+      "learning_rate": 4.669999461765599e-06,
+      "loss": 0.6469,
+      "step": 307
+    },
+    {
+      "epoch": 1.6648648648648647,
+      "grad_norm": 1.4916467666625977,
+      "learning_rate": 4.6678882209344474e-06,
+      "loss": 0.7103,
+      "step": 308
+    },
+    {
+      "epoch": 1.6702702702702703,
+      "grad_norm": 1.3828811645507812,
+      "learning_rate": 4.665770728476127e-06,
+      "loss": 0.6581,
+      "step": 309
+    },
+    {
+      "epoch": 1.6756756756756757,
+      "grad_norm": 1.3913428783416748,
+      "learning_rate": 4.663646990496939e-06,
+      "loss": 0.6282,
+      "step": 310
+    },
+    {
+      "epoch": 1.6810810810810812,
+      "grad_norm": 1.3026301860809326,
+      "learning_rate": 4.661517013121189e-06,
+      "loss": 0.8534,
+      "step": 311
+    },
+    {
+      "epoch": 1.6864864864864866,
+      "grad_norm": 1.5348095893859863,
+      "learning_rate": 4.659380802491181e-06,
+      "loss": 0.623,
+      "step": 312
+    },
+    {
+      "epoch": 1.691891891891892,
+      "grad_norm": 1.123472809791565,
+      "learning_rate": 4.6572383647671915e-06,
+      "loss": 0.3379,
+      "step": 313
+    },
+    {
+      "epoch": 1.6972972972972973,
+      "grad_norm": 1.369256615638733,
+      "learning_rate": 4.655089706127457e-06,
+      "loss": 0.508,
+      "step": 314
+    },
+    {
+      "epoch": 1.7027027027027026,
+      "grad_norm": 1.2412577867507935,
+      "learning_rate": 4.652934832768148e-06,
+      "loss": 0.4962,
+      "step": 315
+    },
+    {
+      "epoch": 1.708108108108108,
+      "grad_norm": 1.0186675786972046,
+      "learning_rate": 4.650773750903363e-06,
+      "loss": 0.6075,
+      "step": 316
+    },
+    {
+      "epoch": 1.7135135135135136,
+      "grad_norm": 1.147227168083191,
+      "learning_rate": 4.6486064667651005e-06,
+      "loss": 0.5862,
+      "step": 317
+    },
+    {
+      "epoch": 1.718918918918919,
+      "grad_norm": 1.4134764671325684,
+      "learning_rate": 4.646432986603245e-06,
+      "loss": 0.7206,
+      "step": 318
+    },
+    {
+      "epoch": 1.7243243243243245,
+      "grad_norm": 1.3340667486190796,
+      "learning_rate": 4.644253316685552e-06,
+      "loss": 0.6342,
+      "step": 319
+    },
+    {
+      "epoch": 1.7297297297297298,
+      "grad_norm": 1.5757800340652466,
+      "learning_rate": 4.6420674632976205e-06,
+      "loss": 0.6304,
+      "step": 320
+    },
+    {
+      "epoch": 1.7351351351351352,
+      "grad_norm": 1.1534565687179565,
+      "learning_rate": 4.639875432742886e-06,
+      "loss": 0.4819,
+      "step": 321
+    },
+    {
+      "epoch": 1.7405405405405405,
+      "grad_norm": 1.6023612022399902,
+      "learning_rate": 4.6376772313425975e-06,
+      "loss": 0.6276,
+      "step": 322
+    },
+    {
+      "epoch": 1.7459459459459459,
+      "grad_norm": 1.3401589393615723,
+      "learning_rate": 4.635472865435795e-06,
+      "loss": 0.7032,
+      "step": 323
+    },
+    {
+      "epoch": 1.7513513513513512,
+      "grad_norm": 1.2210731506347656,
+      "learning_rate": 4.6332623413792995e-06,
+      "loss": 0.7097,
+      "step": 324
+    },
+    {
+      "epoch": 1.7567567567567568,
+      "grad_norm": 1.0871502161026,
+      "learning_rate": 4.6310456655476874e-06,
+      "loss": 0.4096,
+      "step": 325
+    },
+    {
+      "epoch": 1.7621621621621621,
+      "grad_norm": 1.2474088668823242,
+      "learning_rate": 4.6288228443332786e-06,
+      "loss": 0.477,
+      "step": 326
+    },
+    {
+      "epoch": 1.7675675675675677,
+      "grad_norm": 1.584403157234192,
+      "learning_rate": 4.626593884146111e-06,
+      "loss": 0.7131,
+      "step": 327
+    },
+    {
+      "epoch": 1.772972972972973,
+      "grad_norm": 1.2145472764968872,
+      "learning_rate": 4.624358791413928e-06,
+      "loss": 0.5804,
+      "step": 328
+    },
+    {
+      "epoch": 1.7783783783783784,
+      "grad_norm": 1.5959826707839966,
+      "learning_rate": 4.622117572582159e-06,
+      "loss": 0.6566,
+      "step": 329
+    },
+    {
+      "epoch": 1.7837837837837838,
+      "grad_norm": 1.5860193967819214,
+      "learning_rate": 4.619870234113894e-06,
+      "loss": 0.8559,
+      "step": 330
+    },
+    {
+      "epoch": 1.7891891891891891,
+      "grad_norm": 1.2256473302841187,
+      "learning_rate": 4.617616782489878e-06,
+      "loss": 0.689,
+      "step": 331
+    },
+    {
+      "epoch": 1.7945945945945945,
+      "grad_norm": 1.225199580192566,
+      "learning_rate": 4.615357224208477e-06,
+      "loss": 0.4402,
+      "step": 332
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 1.1491672992706299,
+      "learning_rate": 4.613091565785674e-06,
+      "loss": 0.7824,
+      "step": 333
+    },
+    {
+      "epoch": 1.8054054054054054,
+      "grad_norm": 1.3914119005203247,
+      "learning_rate": 4.610819813755038e-06,
+      "loss": 0.5638,
+      "step": 334
+    },
+    {
+      "epoch": 1.810810810810811,
+      "grad_norm": 1.3506330251693726,
+      "learning_rate": 4.608541974667714e-06,
+      "loss": 0.5044,
+      "step": 335
+    },
+    {
+      "epoch": 1.8162162162162163,
+      "grad_norm": 1.0127602815628052,
+      "learning_rate": 4.606258055092397e-06,
+      "loss": 0.4999,
+      "step": 336
+    },
+    {
+      "epoch": 1.8216216216216217,
+      "grad_norm": 1.0241906642913818,
+      "learning_rate": 4.603968061615321e-06,
+      "loss": 0.5348,
+      "step": 337
+    },
+    {
+      "epoch": 1.827027027027027,
+      "grad_norm": 1.7195829153060913,
+      "learning_rate": 4.601672000840231e-06,
+      "loss": 0.9052,
+      "step": 338
+    },
+    {
+      "epoch": 1.8324324324324324,
+      "grad_norm": 1.050235390663147,
+      "learning_rate": 4.5993698793883715e-06,
+      "loss": 0.3359,
+      "step": 339
+    },
+    {
+      "epoch": 1.8378378378378377,
+      "grad_norm": 1.6477211713790894,
+      "learning_rate": 4.597061703898462e-06,
+      "loss": 0.884,
+      "step": 340
+    },
+    {
+      "epoch": 1.8432432432432433,
+      "grad_norm": 1.1777819395065308,
+      "learning_rate": 4.594747481026685e-06,
+      "loss": 0.4623,
+      "step": 341
+    },
+    {
+      "epoch": 1.8486486486486486,
+      "grad_norm": 1.1773953437805176,
+      "learning_rate": 4.592427217446656e-06,
+      "loss": 0.3919,
+      "step": 342
+    },
+    {
+      "epoch": 1.8540540540540542,
+      "grad_norm": 1.306343674659729,
+      "learning_rate": 4.590100919849413e-06,
+      "loss": 0.8952,
+      "step": 343
+    },
+    {
+      "epoch": 1.8594594594594596,
+      "grad_norm": 1.1577644348144531,
+      "learning_rate": 4.587768594943396e-06,
+      "loss": 0.6141,
+      "step": 344
+    },
+    {
+      "epoch": 1.864864864864865,
+      "grad_norm": 1.2712492942810059,
+      "learning_rate": 4.585430249454426e-06,
+      "loss": 0.466,
+      "step": 345
+    },
+    {
+      "epoch": 1.8702702702702703,
+      "grad_norm": 1.167790174484253,
+      "learning_rate": 4.583085890125682e-06,
+      "loss": 0.5936,
+      "step": 346
+    },
+    {
+      "epoch": 1.8756756756756756,
+      "grad_norm": 1.1331733465194702,
+      "learning_rate": 4.5807355237176896e-06,
+      "loss": 0.6178,
+      "step": 347
+    },
+    {
+      "epoch": 1.881081081081081,
+      "grad_norm": 1.7203991413116455,
+      "learning_rate": 4.578379157008296e-06,
+      "loss": 0.4501,
+      "step": 348
+    },
+    {
+      "epoch": 1.8864864864864865,
+      "grad_norm": 1.278934359550476,
+      "learning_rate": 4.57601679679265e-06,
+      "loss": 0.5316,
+      "step": 349
+    },
+    {
+      "epoch": 1.8918918918918919,
+      "grad_norm": 1.6801364421844482,
+      "learning_rate": 4.573648449883188e-06,
+      "loss": 0.6921,
+      "step": 350
+    },
+    {
+      "epoch": 1.8972972972972975,
+      "grad_norm": 1.206931710243225,
+      "learning_rate": 4.571274123109606e-06,
+      "loss": 0.3769,
+      "step": 351
+    },
+    {
+      "epoch": 1.9027027027027028,
+      "grad_norm": 1.2402894496917725,
+      "learning_rate": 4.568893823318847e-06,
+      "loss": 0.6402,
+      "step": 352
+    },
+    {
+      "epoch": 1.9081081081081082,
+      "grad_norm": 1.080445408821106,
+      "learning_rate": 4.566507557375077e-06,
+      "loss": 0.566,
+      "step": 353
+    },
+    {
+      "epoch": 1.9135135135135135,
+      "grad_norm": 1.348665714263916,
+      "learning_rate": 4.5641153321596684e-06,
+      "loss": 0.4279,
+      "step": 354
+    },
+    {
+      "epoch": 1.9189189189189189,
+      "grad_norm": 1.4226737022399902,
+      "learning_rate": 4.56171715457118e-06,
+      "loss": 0.8447,
+      "step": 355
+    },
+    {
+      "epoch": 1.9243243243243242,
+      "grad_norm": 1.2292863130569458,
+      "learning_rate": 4.559313031525331e-06,
+      "loss": 0.4845,
+      "step": 356
+    },
+    {
+      "epoch": 1.9297297297297298,
+      "grad_norm": 1.283419132232666,
+      "learning_rate": 4.55690296995499e-06,
+      "loss": 0.5727,
+      "step": 357
+    },
+    {
+      "epoch": 1.9351351351351351,
+      "grad_norm": 1.5438536405563354,
+      "learning_rate": 4.554486976810149e-06,
+      "loss": 0.9613,
+      "step": 358
+    },
+    {
+      "epoch": 1.9405405405405407,
+      "grad_norm": 1.3380683660507202,
+      "learning_rate": 4.552065059057906e-06,
+      "loss": 0.6487,
+      "step": 359
+    },
+    {
+      "epoch": 1.945945945945946,
+      "grad_norm": 1.5532201528549194,
+      "learning_rate": 4.549637223682441e-06,
+      "loss": 1.0415,
+      "step": 360
+    },
+    {
+      "epoch": 1.9513513513513514,
+      "grad_norm": 1.449385643005371,
+      "learning_rate": 4.547203477685005e-06,
+      "loss": 0.7341,
+      "step": 361
+    },
+    {
+      "epoch": 1.9567567567567568,
+      "grad_norm": 1.1266181468963623,
+      "learning_rate": 4.544763828083888e-06,
+      "loss": 0.5195,
+      "step": 362
+    },
+    {
+      "epoch": 1.962162162162162,
+      "grad_norm": 1.336837649345398,
+      "learning_rate": 4.542318281914405e-06,
+      "loss": 0.7062,
+      "step": 363
+    },
+    {
+      "epoch": 1.9675675675675675,
+      "grad_norm": 1.5888166427612305,
+      "learning_rate": 4.53986684622888e-06,
+      "loss": 0.7589,
+      "step": 364
+    },
+    {
+      "epoch": 1.972972972972973,
+      "grad_norm": 1.2040711641311646,
+      "learning_rate": 4.537409528096615e-06,
+      "loss": 0.5315,
+      "step": 365
+    },
+    {
+      "epoch": 1.9783783783783784,
+      "grad_norm": 1.4700770378112793,
+      "learning_rate": 4.534946334603879e-06,
+      "loss": 0.4812,
+      "step": 366
+    },
+    {
+      "epoch": 1.983783783783784,
+      "grad_norm": 1.3596259355545044,
+      "learning_rate": 4.532477272853882e-06,
+      "loss": 0.4959,
+      "step": 367
+    },
+    {
+      "epoch": 1.9891891891891893,
+      "grad_norm": 1.2517650127410889,
+      "learning_rate": 4.530002349966759e-06,
+      "loss": 0.3696,
+      "step": 368
+    },
+    {
+      "epoch": 1.9945945945945946,
+      "grad_norm": 2.6605710983276367,
+      "learning_rate": 4.5275215730795445e-06,
+      "loss": 0.5731,
+      "step": 369
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.7627352476119995,
+      "learning_rate": 4.525034949346156e-06,
+      "loss": 0.5182,
+      "step": 370
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1850,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0251101581973914e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-370/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-555/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-555/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.55.0"
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen2_5_math_7b/limo_filtered_incorrect/checkpoint-740/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff