KublaiKhan1 commited on Sep 2, 2025

Commit

dae8088

verified ·

1 Parent(s): 8f4ada1

Delete qwen2_5_7b_instruct

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

qwen2_5_7b_instruct/limo/checkpoint-205/added_tokens.json +0 -24
qwen2_5_7b_instruct/limo/checkpoint-205/chat_template.jinja +0 -54
qwen2_5_7b_instruct/limo/checkpoint-205/config.json +0 -58
qwen2_5_7b_instruct/limo/checkpoint-205/generation_config.json +0 -7
qwen2_5_7b_instruct/limo/checkpoint-205/merges.txt +0 -0
qwen2_5_7b_instruct/limo/checkpoint-205/model-00001-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00002-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00003-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00004-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00005-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00006-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model-00007-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/model.safetensors.index.json +0 -347
qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_0.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_1.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_2.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_3.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/scheduler.pt +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/special_tokens_map.json +0 -31
qwen2_5_7b_instruct/limo/checkpoint-205/tokenizer.json +0 -3
qwen2_5_7b_instruct/limo/checkpoint-205/tokenizer_config.json +0 -208
qwen2_5_7b_instruct/limo/checkpoint-205/trainer_state.json +0 -1469
qwen2_5_7b_instruct/limo/checkpoint-205/vocab.json +0 -0
qwen2_5_7b_instruct/limo/checkpoint-410/added_tokens.json +0 -24
qwen2_5_7b_instruct/limo/checkpoint-410/chat_template.jinja +0 -54
qwen2_5_7b_instruct/limo/checkpoint-410/config.json +0 -58
qwen2_5_7b_instruct/limo/checkpoint-410/generation_config.json +0 -7
qwen2_5_7b_instruct/limo/checkpoint-410/merges.txt +0 -0
qwen2_5_7b_instruct/limo/checkpoint-410/model-00001-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00002-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00003-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00004-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00005-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00006-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model-00007-of-00007.safetensors +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/model.safetensors.index.json +0 -347
qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_0.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_1.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_2.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_3.pth +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/scheduler.pt +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/special_tokens_map.json +0 -31
qwen2_5_7b_instruct/limo/checkpoint-410/tokenizer.json +0 -3
qwen2_5_7b_instruct/limo/checkpoint-410/tokenizer_config.json +0 -208
qwen2_5_7b_instruct/limo/checkpoint-410/trainer_state.json +0 -2904
qwen2_5_7b_instruct/limo/checkpoint-410/vocab.json +0 -0
qwen2_5_7b_instruct/limo/checkpoint-615/added_tokens.json +0 -24
qwen2_5_7b_instruct/limo/checkpoint-615/chat_template.jinja +0 -54
qwen2_5_7b_instruct/limo/checkpoint-615/config.json +0 -58
qwen2_5_7b_instruct/limo/checkpoint-615/generation_config.json +0 -7

qwen2_5_7b_instruct/limo/checkpoint-205/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

qwen2_5_7b_instruct/limo/checkpoint-205/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

qwen2_5_7b_instruct/limo/checkpoint-205/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 32768,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 1000000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

qwen2_5_7b_instruct/limo/checkpoint-205/generation_config.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "transformers_version": "4.55.0",
-  "use_cache": false
-}

qwen2_5_7b_instruct/limo/checkpoint-205/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_7b_instruct/limo/checkpoint-205/model-00001-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:73777262838c632161e2dd7e94d6778e7f788163394d5f8ebcc520f3f23735bf
-size 4976687216

qwen2_5_7b_instruct/limo/checkpoint-205/model-00002-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f37cfafe4e28a97d86378857f0a2c9279eb1d834d58c38f9532126650013cf01
-size 4778622352

qwen2_5_7b_instruct/limo/checkpoint-205/model-00003-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c16b67f2c440ba9e48b542d6fb8e2a2d7314aafdf5c5e84d24d4a4f28b9fa649
-size 4932743960

qwen2_5_7b_instruct/limo/checkpoint-205/model-00004-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5eb92011bc553a0d2d3632065b18f04dce95da7d1756a5223ee2d3dc8076025b
-size 4932743992

qwen2_5_7b_instruct/limo/checkpoint-205/model-00005-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1b098a7099babb3aca0fa240e6780a7a96275e5785261544fdbe8c8f5845ef1c
-size 4998852296

qwen2_5_7b_instruct/limo/checkpoint-205/model-00006-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2d13e4625ed1f92df939a8f0b972735d8ad58dfc8498fd520b0bd64cfdb9af3f
-size 3662865184

qwen2_5_7b_instruct/limo/checkpoint-205/model-00007-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e2fc618cbeb9f42ae86b4dc8efcb23f7af1a7c3d308771d9459873167d5b5030
-size 2179989632

qwen2_5_7b_instruct/limo/checkpoint-205/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_0.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:92cc13315f24c28015d695b6cde08bb1cd6fea4cbc435998485ed6fbe4c91285
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_1.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f4c154b6a63e0b1f98f7d2847944398f99f1657d35e8eddf7fdf0ae2c24b0552
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_2.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f784c6a9507b51189f2caffbd178ea9882103b75852e31c15f47fdae6a43af1d
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-205/rng_state_3.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:34b023e05bc2d12b91dc436d4922b990d50ec8dc56d40dc3e36b3bb34fc81341
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-205/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a16163f34db040e2b0bd4461bd027c667560718df79714f98787d5971da9120b
-size 1064

qwen2_5_7b_instruct/limo/checkpoint-205/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

qwen2_5_7b_instruct/limo/checkpoint-205/tokenizer.json DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
-size 11421896

qwen2_5_7b_instruct/limo/checkpoint-205/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

qwen2_5_7b_instruct/limo/checkpoint-205/trainer_state.json DELETED Viewed

@@ -1,1469 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "eval_steps": 500,
-  "global_step": 205,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.004878048780487805,
-      "grad_norm": 6.251913070678711,
-      "learning_rate": 5e-06,
-      "loss": 0.7742,
-      "step": 1
-    },
-    {
-      "epoch": 0.00975609756097561,
-      "grad_norm": 6.38546085357666,
-      "learning_rate": 4.999997064365715e-06,
-      "loss": 1.0365,
-      "step": 2
-    },
-    {
-      "epoch": 0.014634146341463415,
-      "grad_norm": 3.223087787628174,
-      "learning_rate": 4.999988257469751e-06,
-      "loss": 0.6448,
-      "step": 3
-    },
-    {
-      "epoch": 0.01951219512195122,
-      "grad_norm": 2.750905752182007,
-      "learning_rate": 4.999973579332793e-06,
-      "loss": 0.6328,
-      "step": 4
-    },
-    {
-      "epoch": 0.024390243902439025,
-      "grad_norm": 4.2081828117370605,
-      "learning_rate": 4.999953029989312e-06,
-      "loss": 0.6984,
-      "step": 5
-    },
-    {
-      "epoch": 0.02926829268292683,
-      "grad_norm": 4.167655944824219,
-      "learning_rate": 4.999926609487568e-06,
-      "loss": 0.9847,
-      "step": 6
-    },
-    {
-      "epoch": 0.03414634146341464,
-      "grad_norm": 4.408457279205322,
-      "learning_rate": 4.9998943178896106e-06,
-      "loss": 0.8203,
-      "step": 7
-    },
-    {
-      "epoch": 0.03902439024390244,
-      "grad_norm": 3.1360676288604736,
-      "learning_rate": 4.999856155271276e-06,
-      "loss": 0.6513,
-      "step": 8
-    },
-    {
-      "epoch": 0.04390243902439024,
-      "grad_norm": 3.3297390937805176,
-      "learning_rate": 4.999812121722191e-06,
-      "loss": 0.7803,
-      "step": 9
-    },
-    {
-      "epoch": 0.04878048780487805,
-      "grad_norm": 3.5323646068573,
-      "learning_rate": 4.999762217345766e-06,
-      "loss": 0.7527,
-      "step": 10
-    },
-    {
-      "epoch": 0.05365853658536585,
-      "grad_norm": 1.9139900207519531,
-      "learning_rate": 4.999706442259205e-06,
-      "loss": 0.5721,
-      "step": 11
-    },
-    {
-      "epoch": 0.05853658536585366,
-      "grad_norm": 2.2962052822113037,
-      "learning_rate": 4.999644796593492e-06,
-      "loss": 0.6354,
-      "step": 12
-    },
-    {
-      "epoch": 0.06341463414634146,
-      "grad_norm": 1.8342329263687134,
-      "learning_rate": 4.999577280493407e-06,
-      "loss": 0.5259,
-      "step": 13
-    },
-    {
-      "epoch": 0.06829268292682927,
-      "grad_norm": 2.8183422088623047,
-      "learning_rate": 4.99950389411751e-06,
-      "loss": 0.8089,
-      "step": 14
-    },
-    {
-      "epoch": 0.07317073170731707,
-      "grad_norm": 2.2182018756866455,
-      "learning_rate": 4.999424637638148e-06,
-      "loss": 0.6002,
-      "step": 15
-    },
-    {
-      "epoch": 0.07804878048780488,
-      "grad_norm": 2.4346132278442383,
-      "learning_rate": 4.999339511241458e-06,
-      "loss": 0.6651,
-      "step": 16
-    },
-    {
-      "epoch": 0.08292682926829269,
-      "grad_norm": 1.9976483583450317,
-      "learning_rate": 4.9992485151273584e-06,
-      "loss": 0.655,
-      "step": 17
-    },
-    {
-      "epoch": 0.08780487804878048,
-      "grad_norm": 2.1938087940216064,
-      "learning_rate": 4.999151649509554e-06,
-      "loss": 0.5523,
-      "step": 18
-    },
-    {
-      "epoch": 0.09268292682926829,
-      "grad_norm": 2.5118227005004883,
-      "learning_rate": 4.9990489146155356e-06,
-      "loss": 0.8695,
-      "step": 19
-    },
-    {
-      "epoch": 0.0975609756097561,
-      "grad_norm": 2.111804723739624,
-      "learning_rate": 4.9989403106865765e-06,
-      "loss": 0.8075,
-      "step": 20
-    },
-    {
-      "epoch": 0.1024390243902439,
-      "grad_norm": 2.2701148986816406,
-      "learning_rate": 4.9988258379777334e-06,
-      "loss": 0.6715,
-      "step": 21
-    },
-    {
-      "epoch": 0.1073170731707317,
-      "grad_norm": 2.2692644596099854,
-      "learning_rate": 4.998705496757846e-06,
-      "loss": 0.7627,
-      "step": 22
-    },
-    {
-      "epoch": 0.11219512195121951,
-      "grad_norm": 1.8187084197998047,
-      "learning_rate": 4.998579287309538e-06,
-      "loss": 0.9055,
-      "step": 23
-    },
-    {
-      "epoch": 0.11707317073170732,
-      "grad_norm": 1.498978614807129,
-      "learning_rate": 4.998447209929211e-06,
-      "loss": 0.4455,
-      "step": 24
-    },
-    {
-      "epoch": 0.12195121951219512,
-      "grad_norm": 2.2440743446350098,
-      "learning_rate": 4.998309264927053e-06,
-      "loss": 0.4843,
-      "step": 25
-    },
-    {
-      "epoch": 0.12682926829268293,
-      "grad_norm": 1.8050298690795898,
-      "learning_rate": 4.998165452627025e-06,
-      "loss": 0.6016,
-      "step": 26
-    },
-    {
-      "epoch": 0.13170731707317074,
-      "grad_norm": 1.9306098222732544,
-      "learning_rate": 4.998015773366874e-06,
-      "loss": 0.5469,
-      "step": 27
-    },
-    {
-      "epoch": 0.13658536585365855,
-      "grad_norm": 2.152693510055542,
-      "learning_rate": 4.997860227498122e-06,
-      "loss": 0.5583,
-      "step": 28
-    },
-    {
-      "epoch": 0.14146341463414633,
-      "grad_norm": 2.3152549266815186,
-      "learning_rate": 4.99769881538607e-06,
-      "loss": 0.6947,
-      "step": 29
-    },
-    {
-      "epoch": 0.14634146341463414,
-      "grad_norm": 1.830079197883606,
-      "learning_rate": 4.997531537409794e-06,
-      "loss": 0.6863,
-      "step": 30
-    },
-    {
-      "epoch": 0.15121951219512195,
-      "grad_norm": 2.574989080429077,
-      "learning_rate": 4.99735839396215e-06,
-      "loss": 0.6081,
-      "step": 31
-    },
-    {
-      "epoch": 0.15609756097560976,
-      "grad_norm": 1.9973617792129517,
-      "learning_rate": 4.9971793854497655e-06,
-      "loss": 0.5624,
-      "step": 32
-    },
-    {
-      "epoch": 0.16097560975609757,
-      "grad_norm": 1.7976499795913696,
-      "learning_rate": 4.996994512293042e-06,
-      "loss": 0.514,
-      "step": 33
-    },
-    {
-      "epoch": 0.16585365853658537,
-      "grad_norm": 1.865333914756775,
-      "learning_rate": 4.996803774926157e-06,
-      "loss": 0.5389,
-      "step": 34
-    },
-    {
-      "epoch": 0.17073170731707318,
-      "grad_norm": 2.7497925758361816,
-      "learning_rate": 4.996607173797059e-06,
-      "loss": 1.092,
-      "step": 35
-    },
-    {
-      "epoch": 0.17560975609756097,
-      "grad_norm": 2.1576943397521973,
-      "learning_rate": 4.996404709367466e-06,
-      "loss": 0.6338,
-      "step": 36
-    },
-    {
-      "epoch": 0.18048780487804877,
-      "grad_norm": 1.9310261011123657,
-      "learning_rate": 4.996196382112868e-06,
-      "loss": 0.5288,
-      "step": 37
-    },
-    {
-      "epoch": 0.18536585365853658,
-      "grad_norm": 2.566770553588867,
-      "learning_rate": 4.9959821925225235e-06,
-      "loss": 0.7568,
-      "step": 38
-    },
-    {
-      "epoch": 0.1902439024390244,
-      "grad_norm": 1.8456333875656128,
-      "learning_rate": 4.995762141099456e-06,
-      "loss": 0.6288,
-      "step": 39
-    },
-    {
-      "epoch": 0.1951219512195122,
-      "grad_norm": 2.9497272968292236,
-      "learning_rate": 4.995536228360461e-06,
-      "loss": 0.8085,
-      "step": 40
-    },
-    {
-      "epoch": 0.2,
-      "grad_norm": 2.113572359085083,
-      "learning_rate": 4.995304454836095e-06,
-      "loss": 0.7446,
-      "step": 41
-    },
-    {
-      "epoch": 0.2048780487804878,
-      "grad_norm": 2.083073139190674,
-      "learning_rate": 4.9950668210706795e-06,
-      "loss": 0.61,
-      "step": 42
-    },
-    {
-      "epoch": 0.2097560975609756,
-      "grad_norm": 1.7291383743286133,
-      "learning_rate": 4.994823327622299e-06,
-      "loss": 0.4961,
-      "step": 43
-    },
-    {
-      "epoch": 0.2146341463414634,
-      "grad_norm": 2.4040563106536865,
-      "learning_rate": 4.9945739750628e-06,
-      "loss": 0.6091,
-      "step": 44
-    },
-    {
-      "epoch": 0.21951219512195122,
-      "grad_norm": 1.6997170448303223,
-      "learning_rate": 4.994318763977789e-06,
-      "loss": 0.6408,
-      "step": 45
-    },
-    {
-      "epoch": 0.22439024390243903,
-      "grad_norm": 1.5265686511993408,
-      "learning_rate": 4.994057694966632e-06,
-      "loss": 0.4422,
-      "step": 46
-    },
-    {
-      "epoch": 0.22926829268292684,
-      "grad_norm": 1.6987519264221191,
-      "learning_rate": 4.993790768642449e-06,
-      "loss": 0.8084,
-      "step": 47
-    },
-    {
-      "epoch": 0.23414634146341465,
-      "grad_norm": 1.9533758163452148,
-      "learning_rate": 4.99351798563212e-06,
-      "loss": 0.9267,
-      "step": 48
-    },
-    {
-      "epoch": 0.23902439024390243,
-      "grad_norm": 2.0147147178649902,
-      "learning_rate": 4.993239346576278e-06,
-      "loss": 0.7258,
-      "step": 49
-    },
-    {
-      "epoch": 0.24390243902439024,
-      "grad_norm": 1.7322336435317993,
-      "learning_rate": 4.99295485212931e-06,
-      "loss": 0.7664,
-      "step": 50
-    },
-    {
-      "epoch": 0.24878048780487805,
-      "grad_norm": 1.972558856010437,
-      "learning_rate": 4.992664502959351e-06,
-      "loss": 0.6476,
-      "step": 51
-    },
-    {
-      "epoch": 0.25365853658536586,
-      "grad_norm": 2.168142557144165,
-      "learning_rate": 4.99236829974829e-06,
-      "loss": 0.6274,
-      "step": 52
-    },
-    {
-      "epoch": 0.25853658536585367,
-      "grad_norm": 2.1706929206848145,
-      "learning_rate": 4.992066243191762e-06,
-      "loss": 0.8237,
-      "step": 53
-    },
-    {
-      "epoch": 0.2634146341463415,
-      "grad_norm": 1.7400177717208862,
-      "learning_rate": 4.991758333999148e-06,
-      "loss": 0.6377,
-      "step": 54
-    },
-    {
-      "epoch": 0.2682926829268293,
-      "grad_norm": 2.02597713470459,
-      "learning_rate": 4.991444572893575e-06,
-      "loss": 0.5368,
-      "step": 55
-    },
-    {
-      "epoch": 0.2731707317073171,
-      "grad_norm": 1.9592632055282593,
-      "learning_rate": 4.991124960611916e-06,
-      "loss": 0.4826,
-      "step": 56
-    },
-    {
-      "epoch": 0.2780487804878049,
-      "grad_norm": 1.6813147068023682,
-      "learning_rate": 4.99079949790478e-06,
-      "loss": 0.5786,
-      "step": 57
-    },
-    {
-      "epoch": 0.28292682926829266,
-      "grad_norm": 1.5665404796600342,
-      "learning_rate": 4.99046818553652e-06,
-      "loss": 0.6276,
-      "step": 58
-    },
-    {
-      "epoch": 0.28780487804878047,
-      "grad_norm": 1.9345953464508057,
-      "learning_rate": 4.9901310242852246e-06,
-      "loss": 0.5943,
-      "step": 59
-    },
-    {
-      "epoch": 0.2926829268292683,
-      "grad_norm": 1.4303550720214844,
-      "learning_rate": 4.9897880149427206e-06,
-      "loss": 0.5156,
-      "step": 60
-    },
-    {
-      "epoch": 0.2975609756097561,
-      "grad_norm": 2.3535423278808594,
-      "learning_rate": 4.989439158314566e-06,
-      "loss": 0.6139,
-      "step": 61
-    },
-    {
-      "epoch": 0.3024390243902439,
-      "grad_norm": 1.617553949356079,
-      "learning_rate": 4.989084455220056e-06,
-      "loss": 0.4543,
-      "step": 62
-    },
-    {
-      "epoch": 0.3073170731707317,
-      "grad_norm": 2.2876179218292236,
-      "learning_rate": 4.988723906492212e-06,
-      "loss": 0.8291,
-      "step": 63
-    },
-    {
-      "epoch": 0.3121951219512195,
-      "grad_norm": 1.781219720840454,
-      "learning_rate": 4.988357512977785e-06,
-      "loss": 0.4443,
-      "step": 64
-    },
-    {
-      "epoch": 0.3170731707317073,
-      "grad_norm": 1.8858840465545654,
-      "learning_rate": 4.987985275537252e-06,
-      "loss": 0.4885,
-      "step": 65
-    },
-    {
-      "epoch": 0.32195121951219513,
-      "grad_norm": 1.685311198234558,
-      "learning_rate": 4.9876071950448185e-06,
-      "loss": 0.6638,
-      "step": 66
-    },
-    {
-      "epoch": 0.32682926829268294,
-      "grad_norm": 1.711588740348816,
-      "learning_rate": 4.987223272388407e-06,
-      "loss": 0.4916,
-      "step": 67
-    },
-    {
-      "epoch": 0.33170731707317075,
-      "grad_norm": 1.9743118286132812,
-      "learning_rate": 4.986833508469663e-06,
-      "loss": 0.837,
-      "step": 68
-    },
-    {
-      "epoch": 0.33658536585365856,
-      "grad_norm": 1.3840869665145874,
-      "learning_rate": 4.98643790420395e-06,
-      "loss": 0.4716,
-      "step": 69
-    },
-    {
-      "epoch": 0.34146341463414637,
-      "grad_norm": 2.4423623085021973,
-      "learning_rate": 4.986036460520348e-06,
-      "loss": 0.7045,
-      "step": 70
-    },
-    {
-      "epoch": 0.3463414634146341,
-      "grad_norm": 1.9470542669296265,
-      "learning_rate": 4.98562917836165e-06,
-      "loss": 0.6841,
-      "step": 71
-    },
-    {
-      "epoch": 0.35121951219512193,
-      "grad_norm": 1.357690691947937,
-      "learning_rate": 4.985216058684362e-06,
-      "loss": 0.4278,
-      "step": 72
-    },
-    {
-      "epoch": 0.35609756097560974,
-      "grad_norm": 1.6999742984771729,
-      "learning_rate": 4.984797102458697e-06,
-      "loss": 0.8335,
-      "step": 73
-    },
-    {
-      "epoch": 0.36097560975609755,
-      "grad_norm": 2.0041823387145996,
-      "learning_rate": 4.984372310668579e-06,
-      "loss": 0.5316,
-      "step": 74
-    },
-    {
-      "epoch": 0.36585365853658536,
-      "grad_norm": 1.8468217849731445,
-      "learning_rate": 4.983941684311633e-06,
-      "loss": 1.0183,
-      "step": 75
-    },
-    {
-      "epoch": 0.37073170731707317,
-      "grad_norm": 1.5536184310913086,
-      "learning_rate": 4.983505224399188e-06,
-      "loss": 0.4932,
-      "step": 76
-    },
-    {
-      "epoch": 0.375609756097561,
-      "grad_norm": 1.3191509246826172,
-      "learning_rate": 4.983062931956275e-06,
-      "loss": 0.5752,
-      "step": 77
-    },
-    {
-      "epoch": 0.3804878048780488,
-      "grad_norm": 1.9427785873413086,
-      "learning_rate": 4.9826148080216195e-06,
-      "loss": 0.6428,
-      "step": 78
-    },
-    {
-      "epoch": 0.3853658536585366,
-      "grad_norm": 2.217280387878418,
-      "learning_rate": 4.9821608536476445e-06,
-      "loss": 1.0444,
-      "step": 79
-    },
-    {
-      "epoch": 0.3902439024390244,
-      "grad_norm": 1.7984737157821655,
-      "learning_rate": 4.981701069900465e-06,
-      "loss": 0.5578,
-      "step": 80
-    },
-    {
-      "epoch": 0.3951219512195122,
-      "grad_norm": 1.859869122505188,
-      "learning_rate": 4.9812354578598876e-06,
-      "loss": 0.5875,
-      "step": 81
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 1.8699328899383545,
-      "learning_rate": 4.980764018619405e-06,
-      "loss": 0.6775,
-      "step": 82
-    },
-    {
-      "epoch": 0.40487804878048783,
-      "grad_norm": 1.6898409128189087,
-      "learning_rate": 4.980286753286196e-06,
-      "loss": 0.6081,
-      "step": 83
-    },
-    {
-      "epoch": 0.4097560975609756,
-      "grad_norm": 1.5678975582122803,
-      "learning_rate": 4.97980366298112e-06,
-      "loss": 0.5573,
-      "step": 84
-    },
-    {
-      "epoch": 0.4146341463414634,
-      "grad_norm": 1.4087779521942139,
-      "learning_rate": 4.97931474883872e-06,
-      "loss": 0.6142,
-      "step": 85
-    },
-    {
-      "epoch": 0.4195121951219512,
-      "grad_norm": 1.8441438674926758,
-      "learning_rate": 4.978820012007213e-06,
-      "loss": 0.6677,
-      "step": 86
-    },
-    {
-      "epoch": 0.424390243902439,
-      "grad_norm": 1.7426705360412598,
-      "learning_rate": 4.978319453648495e-06,
-      "loss": 0.7166,
-      "step": 87
-    },
-    {
-      "epoch": 0.4292682926829268,
-      "grad_norm": 1.7627829313278198,
-      "learning_rate": 4.977813074938128e-06,
-      "loss": 0.5965,
-      "step": 88
-    },
-    {
-      "epoch": 0.43414634146341463,
-      "grad_norm": 1.6656118631362915,
-      "learning_rate": 4.977300877065347e-06,
-      "loss": 0.5908,
-      "step": 89
-    },
-    {
-      "epoch": 0.43902439024390244,
-      "grad_norm": 1.2669886350631714,
-      "learning_rate": 4.976782861233053e-06,
-      "loss": 0.4368,
-      "step": 90
-    },
-    {
-      "epoch": 0.44390243902439025,
-      "grad_norm": 1.2918105125427246,
-      "learning_rate": 4.976259028657812e-06,
-      "loss": 0.3848,
-      "step": 91
-    },
-    {
-      "epoch": 0.44878048780487806,
-      "grad_norm": 1.3664082288742065,
-      "learning_rate": 4.975729380569845e-06,
-      "loss": 0.5376,
-      "step": 92
-    },
-    {
-      "epoch": 0.45365853658536587,
-      "grad_norm": 1.9810562133789062,
-      "learning_rate": 4.975193918213035e-06,
-      "loss": 0.4396,
-      "step": 93
-    },
-    {
-      "epoch": 0.4585365853658537,
-      "grad_norm": 1.5167036056518555,
-      "learning_rate": 4.974652642844921e-06,
-      "loss": 0.5573,
-      "step": 94
-    },
-    {
-      "epoch": 0.4634146341463415,
-      "grad_norm": 3.6640360355377197,
-      "learning_rate": 4.974105555736693e-06,
-      "loss": 0.8419,
-      "step": 95
-    },
-    {
-      "epoch": 0.4682926829268293,
-      "grad_norm": 2.480140209197998,
-      "learning_rate": 4.973552658173186e-06,
-      "loss": 0.6014,
-      "step": 96
-    },
-    {
-      "epoch": 0.47317073170731705,
-      "grad_norm": 1.6618154048919678,
-      "learning_rate": 4.972993951452887e-06,
-      "loss": 0.5581,
-      "step": 97
-    },
-    {
-      "epoch": 0.47804878048780486,
-      "grad_norm": 1.291348934173584,
-      "learning_rate": 4.9724294368879214e-06,
-      "loss": 0.4499,
-      "step": 98
-    },
-    {
-      "epoch": 0.48292682926829267,
-      "grad_norm": 1.8929156064987183,
-      "learning_rate": 4.971859115804055e-06,
-      "loss": 0.7873,
-      "step": 99
-    },
-    {
-      "epoch": 0.4878048780487805,
-      "grad_norm": 1.57858145236969,
-      "learning_rate": 4.9712829895406935e-06,
-      "loss": 0.5793,
-      "step": 100
-    },
-    {
-      "epoch": 0.4926829268292683,
-      "grad_norm": 1.1852738857269287,
-      "learning_rate": 4.970701059450872e-06,
-      "loss": 0.3179,
-      "step": 101
-    },
-    {
-      "epoch": 0.4975609756097561,
-      "grad_norm": 1.8145536184310913,
-      "learning_rate": 4.970113326901258e-06,
-      "loss": 0.7649,
-      "step": 102
-    },
-    {
-      "epoch": 0.5024390243902439,
-      "grad_norm": 1.5796900987625122,
-      "learning_rate": 4.9695197932721455e-06,
-      "loss": 0.6736,
-      "step": 103
-    },
-    {
-      "epoch": 0.5073170731707317,
-      "grad_norm": 1.4091283082962036,
-      "learning_rate": 4.968920459957453e-06,
-      "loss": 0.6019,
-      "step": 104
-    },
-    {
-      "epoch": 0.5121951219512195,
-      "grad_norm": 2.3007757663726807,
-      "learning_rate": 4.968315328364719e-06,
-      "loss": 0.8106,
-      "step": 105
-    },
-    {
-      "epoch": 0.5170731707317073,
-      "grad_norm": 2.226351499557495,
-      "learning_rate": 4.9677043999151e-06,
-      "loss": 0.9389,
-      "step": 106
-    },
-    {
-      "epoch": 0.5219512195121951,
-      "grad_norm": 1.713365912437439,
-      "learning_rate": 4.967087676043366e-06,
-      "loss": 0.3773,
-      "step": 107
-    },
-    {
-      "epoch": 0.526829268292683,
-      "grad_norm": 1.6297917366027832,
-      "learning_rate": 4.966465158197897e-06,
-      "loss": 0.6278,
-      "step": 108
-    },
-    {
-      "epoch": 0.5317073170731708,
-      "grad_norm": 1.7754937410354614,
-      "learning_rate": 4.965836847840681e-06,
-      "loss": 0.5086,
-      "step": 109
-    },
-    {
-      "epoch": 0.5365853658536586,
-      "grad_norm": 1.6794660091400146,
-      "learning_rate": 4.96520274644731e-06,
-      "loss": 0.6123,
-      "step": 110
-    },
-    {
-      "epoch": 0.5414634146341464,
-      "grad_norm": 1.934241533279419,
-      "learning_rate": 4.964562855506976e-06,
-      "loss": 0.5779,
-      "step": 111
-    },
-    {
-      "epoch": 0.5463414634146342,
-      "grad_norm": 1.2584961652755737,
-      "learning_rate": 4.963917176522466e-06,
-      "loss": 0.4115,
-      "step": 112
-    },
-    {
-      "epoch": 0.551219512195122,
-      "grad_norm": 2.1711580753326416,
-      "learning_rate": 4.963265711010164e-06,
-      "loss": 0.7418,
-      "step": 113
-    },
-    {
-      "epoch": 0.5560975609756098,
-      "grad_norm": 1.650855541229248,
-      "learning_rate": 4.9626084605000395e-06,
-      "loss": 0.5725,
-      "step": 114
-    },
-    {
-      "epoch": 0.5609756097560976,
-      "grad_norm": 1.9013773202896118,
-      "learning_rate": 4.961945426535652e-06,
-      "loss": 0.4464,
-      "step": 115
-    },
-    {
-      "epoch": 0.5658536585365853,
-      "grad_norm": 1.4872888326644897,
-      "learning_rate": 4.961276610674141e-06,
-      "loss": 0.6751,
-      "step": 116
-    },
-    {
-      "epoch": 0.5707317073170731,
-      "grad_norm": 1.5318901538848877,
-      "learning_rate": 4.960602014486225e-06,
-      "loss": 0.7975,
-      "step": 117
-    },
-    {
-      "epoch": 0.5756097560975609,
-      "grad_norm": 1.2589044570922852,
-      "learning_rate": 4.959921639556199e-06,
-      "loss": 0.4939,
-      "step": 118
-    },
-    {
-      "epoch": 0.5804878048780487,
-      "grad_norm": 1.881285548210144,
-      "learning_rate": 4.959235487481928e-06,
-      "loss": 0.8222,
-      "step": 119
-    },
-    {
-      "epoch": 0.5853658536585366,
-      "grad_norm": 1.576146125793457,
-      "learning_rate": 4.958543559874846e-06,
-      "loss": 0.4076,
-      "step": 120
-    },
-    {
-      "epoch": 0.5902439024390244,
-      "grad_norm": 2.0078847408294678,
-      "learning_rate": 4.9578458583599495e-06,
-      "loss": 0.562,
-      "step": 121
-    },
-    {
-      "epoch": 0.5951219512195122,
-      "grad_norm": 1.4955941438674927,
-      "learning_rate": 4.957142384575795e-06,
-      "loss": 0.5184,
-      "step": 122
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 1.9556761980056763,
-      "learning_rate": 4.956433140174498e-06,
-      "loss": 0.7036,
-      "step": 123
-    },
-    {
-      "epoch": 0.6048780487804878,
-      "grad_norm": 1.9274554252624512,
-      "learning_rate": 4.9557181268217225e-06,
-      "loss": 0.7137,
-      "step": 124
-    },
-    {
-      "epoch": 0.6097560975609756,
-      "grad_norm": 1.672255277633667,
-      "learning_rate": 4.954997346196683e-06,
-      "loss": 1.0138,
-      "step": 125
-    },
-    {
-      "epoch": 0.6146341463414634,
-      "grad_norm": 1.6470623016357422,
-      "learning_rate": 4.954270799992138e-06,
-      "loss": 0.6059,
-      "step": 126
-    },
-    {
-      "epoch": 0.6195121951219512,
-      "grad_norm": 2.0698301792144775,
-      "learning_rate": 4.953538489914387e-06,
-      "loss": 0.6224,
-      "step": 127
-    },
-    {
-      "epoch": 0.624390243902439,
-      "grad_norm": 1.7772653102874756,
-      "learning_rate": 4.9528004176832654e-06,
-      "loss": 0.4795,
-      "step": 128
-    },
-    {
-      "epoch": 0.6292682926829268,
-      "grad_norm": 2.276451587677002,
-      "learning_rate": 4.952056585032142e-06,
-      "loss": 0.8591,
-      "step": 129
-    },
-    {
-      "epoch": 0.6341463414634146,
-      "grad_norm": 2.058436870574951,
-      "learning_rate": 4.951306993707913e-06,
-      "loss": 0.6678,
-      "step": 130
-    },
-    {
-      "epoch": 0.6390243902439025,
-      "grad_norm": 1.8003332614898682,
-      "learning_rate": 4.950551645470998e-06,
-      "loss": 0.617,
-      "step": 131
-    },
-    {
-      "epoch": 0.6439024390243903,
-      "grad_norm": 2.0872535705566406,
-      "learning_rate": 4.9497905420953406e-06,
-      "loss": 0.611,
-      "step": 132
-    },
-    {
-      "epoch": 0.6487804878048781,
-      "grad_norm": 2.1815896034240723,
-      "learning_rate": 4.949023685368395e-06,
-      "loss": 0.6445,
-      "step": 133
-    },
-    {
-      "epoch": 0.6536585365853659,
-      "grad_norm": 1.7983999252319336,
-      "learning_rate": 4.948251077091131e-06,
-      "loss": 0.8733,
-      "step": 134
-    },
-    {
-      "epoch": 0.6585365853658537,
-      "grad_norm": 1.6845791339874268,
-      "learning_rate": 4.947472719078025e-06,
-      "loss": 0.6613,
-      "step": 135
-    },
-    {
-      "epoch": 0.6634146341463415,
-      "grad_norm": 1.6869384050369263,
-      "learning_rate": 4.9466886131570565e-06,
-      "loss": 0.7319,
-      "step": 136
-    },
-    {
-      "epoch": 0.6682926829268293,
-      "grad_norm": 1.9151450395584106,
-      "learning_rate": 4.945898761169704e-06,
-      "loss": 0.8795,
-      "step": 137
-    },
-    {
-      "epoch": 0.6731707317073171,
-      "grad_norm": 1.3423423767089844,
-      "learning_rate": 4.945103164970941e-06,
-      "loss": 0.4385,
-      "step": 138
-    },
-    {
-      "epoch": 0.6780487804878049,
-      "grad_norm": 1.4854035377502441,
-      "learning_rate": 4.9443018264292304e-06,
-      "loss": 0.5341,
-      "step": 139
-    },
-    {
-      "epoch": 0.6829268292682927,
-      "grad_norm": 1.805953025817871,
-      "learning_rate": 4.9434947474265225e-06,
-      "loss": 0.6463,
-      "step": 140
-    },
-    {
-      "epoch": 0.6878048780487804,
-      "grad_norm": 1.7254730463027954,
-      "learning_rate": 4.942681929858249e-06,
-      "loss": 0.8897,
-      "step": 141
-    },
-    {
-      "epoch": 0.6926829268292682,
-      "grad_norm": 1.9024320840835571,
-      "learning_rate": 4.941863375633315e-06,
-      "loss": 0.7033,
-      "step": 142
-    },
-    {
-      "epoch": 0.697560975609756,
-      "grad_norm": 1.4351361989974976,
-      "learning_rate": 4.9410390866741056e-06,
-      "loss": 0.527,
-      "step": 143
-    },
-    {
-      "epoch": 0.7024390243902439,
-      "grad_norm": 1.4365131855010986,
-      "learning_rate": 4.9402090649164655e-06,
-      "loss": 0.5458,
-      "step": 144
-    },
-    {
-      "epoch": 0.7073170731707317,
-      "grad_norm": 2.144742965698242,
-      "learning_rate": 4.9393733123097085e-06,
-      "loss": 0.8133,
-      "step": 145
-    },
-    {
-      "epoch": 0.7121951219512195,
-      "grad_norm": 2.066554546356201,
-      "learning_rate": 4.9385318308166065e-06,
-      "loss": 0.7282,
-      "step": 146
-    },
-    {
-      "epoch": 0.7170731707317073,
-      "grad_norm": 1.5883394479751587,
-      "learning_rate": 4.937684622413385e-06,
-      "loss": 0.4144,
-      "step": 147
-    },
-    {
-      "epoch": 0.7219512195121951,
-      "grad_norm": 2.329960346221924,
-      "learning_rate": 4.9368316890897185e-06,
-      "loss": 0.8182,
-      "step": 148
-    },
-    {
-      "epoch": 0.7268292682926829,
-      "grad_norm": 1.5622303485870361,
-      "learning_rate": 4.9359730328487264e-06,
-      "loss": 0.412,
-      "step": 149
-    },
-    {
-      "epoch": 0.7317073170731707,
-      "grad_norm": 1.3020845651626587,
-      "learning_rate": 4.935108655706972e-06,
-      "loss": 0.5607,
-      "step": 150
-    },
-    {
-      "epoch": 0.7365853658536585,
-      "grad_norm": 2.0023865699768066,
-      "learning_rate": 4.934238559694448e-06,
-      "loss": 0.9273,
-      "step": 151
-    },
-    {
-      "epoch": 0.7414634146341463,
-      "grad_norm": 1.6495121717453003,
-      "learning_rate": 4.9333627468545845e-06,
-      "loss": 0.4775,
-      "step": 152
-    },
-    {
-      "epoch": 0.7463414634146341,
-      "grad_norm": 1.4878952503204346,
-      "learning_rate": 4.932481219244231e-06,
-      "loss": 0.562,
-      "step": 153
-    },
-    {
-      "epoch": 0.751219512195122,
-      "grad_norm": 2.352097511291504,
-      "learning_rate": 4.931593978933666e-06,
-      "loss": 0.6151,
-      "step": 154
-    },
-    {
-      "epoch": 0.7560975609756098,
-      "grad_norm": 1.3260765075683594,
-      "learning_rate": 4.930701028006577e-06,
-      "loss": 0.6572,
-      "step": 155
-    },
-    {
-      "epoch": 0.7609756097560976,
-      "grad_norm": 1.3987398147583008,
-      "learning_rate": 4.929802368560066e-06,
-      "loss": 0.5205,
-      "step": 156
-    },
-    {
-      "epoch": 0.7658536585365854,
-      "grad_norm": 2.636143922805786,
-      "learning_rate": 4.928898002704642e-06,
-      "loss": 0.7562,
-      "step": 157
-    },
-    {
-      "epoch": 0.7707317073170732,
-      "grad_norm": 2.312101125717163,
-      "learning_rate": 4.927987932564215e-06,
-      "loss": 0.6415,
-      "step": 158
-    },
-    {
-      "epoch": 0.775609756097561,
-      "grad_norm": 1.6384342908859253,
-      "learning_rate": 4.927072160276092e-06,
-      "loss": 0.6148,
-      "step": 159
-    },
-    {
-      "epoch": 0.7804878048780488,
-      "grad_norm": 1.3910821676254272,
-      "learning_rate": 4.926150687990969e-06,
-      "loss": 0.3866,
-      "step": 160
-    },
-    {
-      "epoch": 0.7853658536585366,
-      "grad_norm": 1.7929809093475342,
-      "learning_rate": 4.925223517872934e-06,
-      "loss": 0.7282,
-      "step": 161
-    },
-    {
-      "epoch": 0.7902439024390244,
-      "grad_norm": 2.1226377487182617,
-      "learning_rate": 4.9242906520994484e-06,
-      "loss": 0.8234,
-      "step": 162
-    },
-    {
-      "epoch": 0.7951219512195122,
-      "grad_norm": 1.6692653894424438,
-      "learning_rate": 4.923352092861358e-06,
-      "loss": 0.7111,
-      "step": 163
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 1.7468419075012207,
-      "learning_rate": 4.922407842362875e-06,
-      "loss": 0.4963,
-      "step": 164
-    },
-    {
-      "epoch": 0.8048780487804879,
-      "grad_norm": 1.5026869773864746,
-      "learning_rate": 4.921457902821578e-06,
-      "loss": 0.7182,
-      "step": 165
-    },
-    {
-      "epoch": 0.8097560975609757,
-      "grad_norm": 1.565578818321228,
-      "learning_rate": 4.920502276468408e-06,
-      "loss": 0.6331,
-      "step": 166
-    },
-    {
-      "epoch": 0.8146341463414634,
-      "grad_norm": 1.5285255908966064,
-      "learning_rate": 4.9195409655476605e-06,
-      "loss": 0.5216,
-      "step": 167
-    },
-    {
-      "epoch": 0.8195121951219512,
-      "grad_norm": 2.1599016189575195,
-      "learning_rate": 4.918573972316982e-06,
-      "loss": 0.8197,
-      "step": 168
-    },
-    {
-      "epoch": 0.824390243902439,
-      "grad_norm": 1.9766514301300049,
-      "learning_rate": 4.917601299047361e-06,
-      "loss": 0.6364,
-      "step": 169
-    },
-    {
-      "epoch": 0.8292682926829268,
-      "grad_norm": 1.6226218938827515,
-      "learning_rate": 4.916622948023129e-06,
-      "loss": 0.5688,
-      "step": 170
-    },
-    {
-      "epoch": 0.8341463414634146,
-      "grad_norm": 2.169351100921631,
-      "learning_rate": 4.915638921541952e-06,
-      "loss": 0.5144,
-      "step": 171
-    },
-    {
-      "epoch": 0.8390243902439024,
-      "grad_norm": 2.0374093055725098,
-      "learning_rate": 4.914649221914822e-06,
-      "loss": 0.6684,
-      "step": 172
-    },
-    {
-      "epoch": 0.8439024390243902,
-      "grad_norm": 1.8811930418014526,
-      "learning_rate": 4.913653851466057e-06,
-      "loss": 0.4537,
-      "step": 173
-    },
-    {
-      "epoch": 0.848780487804878,
-      "grad_norm": 1.7003443241119385,
-      "learning_rate": 4.912652812533291e-06,
-      "loss": 0.5926,
-      "step": 174
-    },
-    {
-      "epoch": 0.8536585365853658,
-      "grad_norm": 1.6899495124816895,
-      "learning_rate": 4.911646107467472e-06,
-      "loss": 0.6797,
-      "step": 175
-    },
-    {
-      "epoch": 0.8585365853658536,
-      "grad_norm": 1.5597474575042725,
-      "learning_rate": 4.9106337386328524e-06,
-      "loss": 0.7363,
-      "step": 176
-    },
-    {
-      "epoch": 0.8634146341463415,
-      "grad_norm": 1.7820264101028442,
-      "learning_rate": 4.909615708406991e-06,
-      "loss": 0.7277,
-      "step": 177
-    },
-    {
-      "epoch": 0.8682926829268293,
-      "grad_norm": 1.5444871187210083,
-      "learning_rate": 4.908592019180738e-06,
-      "loss": 0.4991,
-      "step": 178
-    },
-    {
-      "epoch": 0.8731707317073171,
-      "grad_norm": 1.1890966892242432,
-      "learning_rate": 4.907562673358234e-06,
-      "loss": 0.4345,
-      "step": 179
-    },
-    {
-      "epoch": 0.8780487804878049,
-      "grad_norm": 1.6008920669555664,
-      "learning_rate": 4.906527673356907e-06,
-      "loss": 0.506,
-      "step": 180
-    },
-    {
-      "epoch": 0.8829268292682927,
-      "grad_norm": 1.3028374910354614,
-      "learning_rate": 4.905487021607462e-06,
-      "loss": 0.4031,
-      "step": 181
-    },
-    {
-      "epoch": 0.8878048780487805,
-      "grad_norm": 2.086660146713257,
-      "learning_rate": 4.904440720553876e-06,
-      "loss": 0.6167,
-      "step": 182
-    },
-    {
-      "epoch": 0.8926829268292683,
-      "grad_norm": 1.5964947938919067,
-      "learning_rate": 4.903388772653396e-06,
-      "loss": 0.5923,
-      "step": 183
-    },
-    {
-      "epoch": 0.8975609756097561,
-      "grad_norm": 1.7292804718017578,
-      "learning_rate": 4.902331180376529e-06,
-      "loss": 0.6047,
-      "step": 184
-    },
-    {
-      "epoch": 0.9024390243902439,
-      "grad_norm": 1.6994556188583374,
-      "learning_rate": 4.901267946207038e-06,
-      "loss": 0.7615,
-      "step": 185
-    },
-    {
-      "epoch": 0.9073170731707317,
-      "grad_norm": 1.9247877597808838,
-      "learning_rate": 4.900199072641937e-06,
-      "loss": 0.5834,
-      "step": 186
-    },
-    {
-      "epoch": 0.9121951219512195,
-      "grad_norm": 1.4916514158248901,
-      "learning_rate": 4.899124562191484e-06,
-      "loss": 0.4737,
-      "step": 187
-    },
-    {
-      "epoch": 0.9170731707317074,
-      "grad_norm": 1.9706366062164307,
-      "learning_rate": 4.8980444173791735e-06,
-      "loss": 0.4418,
-      "step": 188
-    },
-    {
-      "epoch": 0.9219512195121952,
-      "grad_norm": 2.295691728591919,
-      "learning_rate": 4.896958640741735e-06,
-      "loss": 0.7035,
-      "step": 189
-    },
-    {
-      "epoch": 0.926829268292683,
-      "grad_norm": 2.459785223007202,
-      "learning_rate": 4.895867234829121e-06,
-      "loss": 0.7988,
-      "step": 190
-    },
-    {
-      "epoch": 0.9317073170731708,
-      "grad_norm": 1.6266491413116455,
-      "learning_rate": 4.894770202204509e-06,
-      "loss": 0.5665,
-      "step": 191
-    },
-    {
-      "epoch": 0.9365853658536586,
-      "grad_norm": 1.549321174621582,
-      "learning_rate": 4.893667545444285e-06,
-      "loss": 0.5774,
-      "step": 192
-    },
-    {
-      "epoch": 0.9414634146341463,
-      "grad_norm": 2.014610767364502,
-      "learning_rate": 4.8925592671380495e-06,
-      "loss": 0.5668,
-      "step": 193
-    },
-    {
-      "epoch": 0.9463414634146341,
-      "grad_norm": 1.3015650510787964,
-      "learning_rate": 4.891445369888601e-06,
-      "loss": 0.427,
-      "step": 194
-    },
-    {
-      "epoch": 0.9512195121951219,
-      "grad_norm": 1.6933586597442627,
-      "learning_rate": 4.890325856311936e-06,
-      "loss": 0.7354,
-      "step": 195
-    },
-    {
-      "epoch": 0.9560975609756097,
-      "grad_norm": 2.1092705726623535,
-      "learning_rate": 4.889200729037241e-06,
-      "loss": 0.7039,
-      "step": 196
-    },
-    {
-      "epoch": 0.9609756097560975,
-      "grad_norm": 1.625111699104309,
-      "learning_rate": 4.888069990706884e-06,
-      "loss": 0.5369,
-      "step": 197
-    },
-    {
-      "epoch": 0.9658536585365853,
-      "grad_norm": 1.4547514915466309,
-      "learning_rate": 4.886933643976414e-06,
-      "loss": 0.3645,
-      "step": 198
-    },
-    {
-      "epoch": 0.9707317073170731,
-      "grad_norm": 1.832529902458191,
-      "learning_rate": 4.885791691514548e-06,
-      "loss": 0.422,
-      "step": 199
-    },
-    {
-      "epoch": 0.975609756097561,
-      "grad_norm": 1.533402442932129,
-      "learning_rate": 4.884644136003172e-06,
-      "loss": 0.4698,
-      "step": 200
-    },
-    {
-      "epoch": 0.9804878048780488,
-      "grad_norm": 1.9563912153244019,
-      "learning_rate": 4.883490980137327e-06,
-      "loss": 1.1273,
-      "step": 201
-    },
-    {
-      "epoch": 0.9853658536585366,
-      "grad_norm": 1.7044615745544434,
-      "learning_rate": 4.882332226625208e-06,
-      "loss": 0.6056,
-      "step": 202
-    },
-    {
-      "epoch": 0.9902439024390244,
-      "grad_norm": 1.6405285596847534,
-      "learning_rate": 4.881167878188158e-06,
-      "loss": 0.7204,
-      "step": 203
-    },
-    {
-      "epoch": 0.9951219512195122,
-      "grad_norm": 1.5838991403579712,
-      "learning_rate": 4.8799979375606565e-06,
-      "loss": 0.553,
-      "step": 204
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 1.6604121923446655,
-      "learning_rate": 4.878822407490319e-06,
-      "loss": 0.4694,
-      "step": 205
-    }
-  ],
-  "logging_steps": 1,
-  "max_steps": 2050,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 208,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 6.049419025291674e+16,
-  "train_batch_size": 1,
-  "trial_name": null,
-  "trial_params": null
-}

qwen2_5_7b_instruct/limo/checkpoint-205/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_7b_instruct/limo/checkpoint-410/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

qwen2_5_7b_instruct/limo/checkpoint-410/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

qwen2_5_7b_instruct/limo/checkpoint-410/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 32768,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 1000000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

qwen2_5_7b_instruct/limo/checkpoint-410/generation_config.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "transformers_version": "4.55.0",
-  "use_cache": false
-}

qwen2_5_7b_instruct/limo/checkpoint-410/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_7b_instruct/limo/checkpoint-410/model-00001-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d82701ff300ebad903415b176cfa777e8714b24f3ecb003b1ed41d703ac54631
-size 4976687216

qwen2_5_7b_instruct/limo/checkpoint-410/model-00002-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:629a3c5e12ada93dbd0cb38bb8c182ef74ada5c74aa9a23f311c0e797f0cf077
-size 4778622352

qwen2_5_7b_instruct/limo/checkpoint-410/model-00003-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3503850784b9e095887624738d4bcf3eaf85c4ffa6a53fa32b1459cfb8862a0a
-size 4932743960

qwen2_5_7b_instruct/limo/checkpoint-410/model-00004-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c6e39e5ff4440720d3fb16192d6d955ec17611b78a6098ec03364674b6f27eda
-size 4932743992

qwen2_5_7b_instruct/limo/checkpoint-410/model-00005-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:cb1a973da6a002aea3c7ec28073ea9e65f8368291aad4514baa4db323c3c3a25
-size 4998852296

qwen2_5_7b_instruct/limo/checkpoint-410/model-00006-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6c91bf3f8eb74b488d22e86b10b1e45955db12071ec0e7c4ba8234180a03b26f
-size 3662865184

qwen2_5_7b_instruct/limo/checkpoint-410/model-00007-of-00007.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e1bc69adefa7f4de04da5c4e75e123a8fedb8bf1cadc60d995f8524ecc925b5d
-size 2179989632

qwen2_5_7b_instruct/limo/checkpoint-410/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_0.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bbe0d720c4c75a6a04213fa3b64bacbe794718a53e2b56ebb67a1a795014dfad
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_1.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:72452d3138d0ca2ff89429e3294a834ae7a68e8596fc757735ca56ae52509d57
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_2.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f36e306fb8ebcf53a167bfd6c9af74db410a269ada1e619e3e816f5269543b9d
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-410/rng_state_3.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bb47ce0c6f815a6f8302b0e3819b4c2315ca71dae3138d97fdceb765cdd0a039
-size 15024

qwen2_5_7b_instruct/limo/checkpoint-410/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:64b87c070356d49af38984aef4437a4edcf8b6880ba0aec9af0e093c40c21ff3
-size 1064

qwen2_5_7b_instruct/limo/checkpoint-410/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

qwen2_5_7b_instruct/limo/checkpoint-410/tokenizer.json DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
-size 11421896

qwen2_5_7b_instruct/limo/checkpoint-410/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

qwen2_5_7b_instruct/limo/checkpoint-410/trainer_state.json DELETED Viewed

@@ -1,2904 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.0,
-  "eval_steps": 500,
-  "global_step": 410,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.004878048780487805,
-      "grad_norm": 6.251913070678711,
-      "learning_rate": 5e-06,
-      "loss": 0.7742,
-      "step": 1
-    },
-    {
-      "epoch": 0.00975609756097561,
-      "grad_norm": 6.38546085357666,
-      "learning_rate": 4.999997064365715e-06,
-      "loss": 1.0365,
-      "step": 2
-    },
-    {
-      "epoch": 0.014634146341463415,
-      "grad_norm": 3.223087787628174,
-      "learning_rate": 4.999988257469751e-06,
-      "loss": 0.6448,
-      "step": 3
-    },
-    {
-      "epoch": 0.01951219512195122,
-      "grad_norm": 2.750905752182007,
-      "learning_rate": 4.999973579332793e-06,
-      "loss": 0.6328,
-      "step": 4
-    },
-    {
-      "epoch": 0.024390243902439025,
-      "grad_norm": 4.2081828117370605,
-      "learning_rate": 4.999953029989312e-06,
-      "loss": 0.6984,
-      "step": 5
-    },
-    {
-      "epoch": 0.02926829268292683,
-      "grad_norm": 4.167655944824219,
-      "learning_rate": 4.999926609487568e-06,
-      "loss": 0.9847,
-      "step": 6
-    },
-    {
-      "epoch": 0.03414634146341464,
-      "grad_norm": 4.408457279205322,
-      "learning_rate": 4.9998943178896106e-06,
-      "loss": 0.8203,
-      "step": 7
-    },
-    {
-      "epoch": 0.03902439024390244,
-      "grad_norm": 3.1360676288604736,
-      "learning_rate": 4.999856155271276e-06,
-      "loss": 0.6513,
-      "step": 8
-    },
-    {
-      "epoch": 0.04390243902439024,
-      "grad_norm": 3.3297390937805176,
-      "learning_rate": 4.999812121722191e-06,
-      "loss": 0.7803,
-      "step": 9
-    },
-    {
-      "epoch": 0.04878048780487805,
-      "grad_norm": 3.5323646068573,
-      "learning_rate": 4.999762217345766e-06,
-      "loss": 0.7527,
-      "step": 10
-    },
-    {
-      "epoch": 0.05365853658536585,
-      "grad_norm": 1.9139900207519531,
-      "learning_rate": 4.999706442259205e-06,
-      "loss": 0.5721,
-      "step": 11
-    },
-    {
-      "epoch": 0.05853658536585366,
-      "grad_norm": 2.2962052822113037,
-      "learning_rate": 4.999644796593492e-06,
-      "loss": 0.6354,
-      "step": 12
-    },
-    {
-      "epoch": 0.06341463414634146,
-      "grad_norm": 1.8342329263687134,
-      "learning_rate": 4.999577280493407e-06,
-      "loss": 0.5259,
-      "step": 13
-    },
-    {
-      "epoch": 0.06829268292682927,
-      "grad_norm": 2.8183422088623047,
-      "learning_rate": 4.99950389411751e-06,
-      "loss": 0.8089,
-      "step": 14
-    },
-    {
-      "epoch": 0.07317073170731707,
-      "grad_norm": 2.2182018756866455,
-      "learning_rate": 4.999424637638148e-06,
-      "loss": 0.6002,
-      "step": 15
-    },
-    {
-      "epoch": 0.07804878048780488,
-      "grad_norm": 2.4346132278442383,
-      "learning_rate": 4.999339511241458e-06,
-      "loss": 0.6651,
-      "step": 16
-    },
-    {
-      "epoch": 0.08292682926829269,
-      "grad_norm": 1.9976483583450317,
-      "learning_rate": 4.9992485151273584e-06,
-      "loss": 0.655,
-      "step": 17
-    },
-    {
-      "epoch": 0.08780487804878048,
-      "grad_norm": 2.1938087940216064,
-      "learning_rate": 4.999151649509554e-06,
-      "loss": 0.5523,
-      "step": 18
-    },
-    {
-      "epoch": 0.09268292682926829,
-      "grad_norm": 2.5118227005004883,
-      "learning_rate": 4.9990489146155356e-06,
-      "loss": 0.8695,
-      "step": 19
-    },
-    {
-      "epoch": 0.0975609756097561,
-      "grad_norm": 2.111804723739624,
-      "learning_rate": 4.9989403106865765e-06,
-      "loss": 0.8075,
-      "step": 20
-    },
-    {
-      "epoch": 0.1024390243902439,
-      "grad_norm": 2.2701148986816406,
-      "learning_rate": 4.9988258379777334e-06,
-      "loss": 0.6715,
-      "step": 21
-    },
-    {
-      "epoch": 0.1073170731707317,
-      "grad_norm": 2.2692644596099854,
-      "learning_rate": 4.998705496757846e-06,
-      "loss": 0.7627,
-      "step": 22
-    },
-    {
-      "epoch": 0.11219512195121951,
-      "grad_norm": 1.8187084197998047,
-      "learning_rate": 4.998579287309538e-06,
-      "loss": 0.9055,
-      "step": 23
-    },
-    {
-      "epoch": 0.11707317073170732,
-      "grad_norm": 1.498978614807129,
-      "learning_rate": 4.998447209929211e-06,
-      "loss": 0.4455,
-      "step": 24
-    },
-    {
-      "epoch": 0.12195121951219512,
-      "grad_norm": 2.2440743446350098,
-      "learning_rate": 4.998309264927053e-06,
-      "loss": 0.4843,
-      "step": 25
-    },
-    {
-      "epoch": 0.12682926829268293,
-      "grad_norm": 1.8050298690795898,
-      "learning_rate": 4.998165452627025e-06,
-      "loss": 0.6016,
-      "step": 26
-    },
-    {
-      "epoch": 0.13170731707317074,
-      "grad_norm": 1.9306098222732544,
-      "learning_rate": 4.998015773366874e-06,
-      "loss": 0.5469,
-      "step": 27
-    },
-    {
-      "epoch": 0.13658536585365855,
-      "grad_norm": 2.152693510055542,
-      "learning_rate": 4.997860227498122e-06,
-      "loss": 0.5583,
-      "step": 28
-    },
-    {
-      "epoch": 0.14146341463414633,
-      "grad_norm": 2.3152549266815186,
-      "learning_rate": 4.99769881538607e-06,
-      "loss": 0.6947,
-      "step": 29
-    },
-    {
-      "epoch": 0.14634146341463414,
-      "grad_norm": 1.830079197883606,
-      "learning_rate": 4.997531537409794e-06,
-      "loss": 0.6863,
-      "step": 30
-    },
-    {
-      "epoch": 0.15121951219512195,
-      "grad_norm": 2.574989080429077,
-      "learning_rate": 4.99735839396215e-06,
-      "loss": 0.6081,
-      "step": 31
-    },
-    {
-      "epoch": 0.15609756097560976,
-      "grad_norm": 1.9973617792129517,
-      "learning_rate": 4.9971793854497655e-06,
-      "loss": 0.5624,
-      "step": 32
-    },
-    {
-      "epoch": 0.16097560975609757,
-      "grad_norm": 1.7976499795913696,
-      "learning_rate": 4.996994512293042e-06,
-      "loss": 0.514,
-      "step": 33
-    },
-    {
-      "epoch": 0.16585365853658537,
-      "grad_norm": 1.865333914756775,
-      "learning_rate": 4.996803774926157e-06,
-      "loss": 0.5389,
-      "step": 34
-    },
-    {
-      "epoch": 0.17073170731707318,
-      "grad_norm": 2.7497925758361816,
-      "learning_rate": 4.996607173797059e-06,
-      "loss": 1.092,
-      "step": 35
-    },
-    {
-      "epoch": 0.17560975609756097,
-      "grad_norm": 2.1576943397521973,
-      "learning_rate": 4.996404709367466e-06,
-      "loss": 0.6338,
-      "step": 36
-    },
-    {
-      "epoch": 0.18048780487804877,
-      "grad_norm": 1.9310261011123657,
-      "learning_rate": 4.996196382112868e-06,
-      "loss": 0.5288,
-      "step": 37
-    },
-    {
-      "epoch": 0.18536585365853658,
-      "grad_norm": 2.566770553588867,
-      "learning_rate": 4.9959821925225235e-06,
-      "loss": 0.7568,
-      "step": 38
-    },
-    {
-      "epoch": 0.1902439024390244,
-      "grad_norm": 1.8456333875656128,
-      "learning_rate": 4.995762141099456e-06,
-      "loss": 0.6288,
-      "step": 39
-    },
-    {
-      "epoch": 0.1951219512195122,
-      "grad_norm": 2.9497272968292236,
-      "learning_rate": 4.995536228360461e-06,
-      "loss": 0.8085,
-      "step": 40
-    },
-    {
-      "epoch": 0.2,
-      "grad_norm": 2.113572359085083,
-      "learning_rate": 4.995304454836095e-06,
-      "loss": 0.7446,
-      "step": 41
-    },
-    {
-      "epoch": 0.2048780487804878,
-      "grad_norm": 2.083073139190674,
-      "learning_rate": 4.9950668210706795e-06,
-      "loss": 0.61,
-      "step": 42
-    },
-    {
-      "epoch": 0.2097560975609756,
-      "grad_norm": 1.7291383743286133,
-      "learning_rate": 4.994823327622299e-06,
-      "loss": 0.4961,
-      "step": 43
-    },
-    {
-      "epoch": 0.2146341463414634,
-      "grad_norm": 2.4040563106536865,
-      "learning_rate": 4.9945739750628e-06,
-      "loss": 0.6091,
-      "step": 44
-    },
-    {
-      "epoch": 0.21951219512195122,
-      "grad_norm": 1.6997170448303223,
-      "learning_rate": 4.994318763977789e-06,
-      "loss": 0.6408,
-      "step": 45
-    },
-    {
-      "epoch": 0.22439024390243903,
-      "grad_norm": 1.5265686511993408,
-      "learning_rate": 4.994057694966632e-06,
-      "loss": 0.4422,
-      "step": 46
-    },
-    {
-      "epoch": 0.22926829268292684,
-      "grad_norm": 1.6987519264221191,
-      "learning_rate": 4.993790768642449e-06,
-      "loss": 0.8084,
-      "step": 47
-    },
-    {
-      "epoch": 0.23414634146341465,
-      "grad_norm": 1.9533758163452148,
-      "learning_rate": 4.99351798563212e-06,
-      "loss": 0.9267,
-      "step": 48
-    },
-    {
-      "epoch": 0.23902439024390243,
-      "grad_norm": 2.0147147178649902,
-      "learning_rate": 4.993239346576278e-06,
-      "loss": 0.7258,
-      "step": 49
-    },
-    {
-      "epoch": 0.24390243902439024,
-      "grad_norm": 1.7322336435317993,
-      "learning_rate": 4.99295485212931e-06,
-      "loss": 0.7664,
-      "step": 50
-    },
-    {
-      "epoch": 0.24878048780487805,
-      "grad_norm": 1.972558856010437,
-      "learning_rate": 4.992664502959351e-06,
-      "loss": 0.6476,
-      "step": 51
-    },
-    {
-      "epoch": 0.25365853658536586,
-      "grad_norm": 2.168142557144165,
-      "learning_rate": 4.99236829974829e-06,
-      "loss": 0.6274,
-      "step": 52
-    },
-    {
-      "epoch": 0.25853658536585367,
-      "grad_norm": 2.1706929206848145,
-      "learning_rate": 4.992066243191762e-06,
-      "loss": 0.8237,
-      "step": 53
-    },
-    {
-      "epoch": 0.2634146341463415,
-      "grad_norm": 1.7400177717208862,
-      "learning_rate": 4.991758333999148e-06,
-      "loss": 0.6377,
-      "step": 54
-    },
-    {
-      "epoch": 0.2682926829268293,
-      "grad_norm": 2.02597713470459,
-      "learning_rate": 4.991444572893575e-06,
-      "loss": 0.5368,
-      "step": 55
-    },
-    {
-      "epoch": 0.2731707317073171,
-      "grad_norm": 1.9592632055282593,
-      "learning_rate": 4.991124960611916e-06,
-      "loss": 0.4826,
-      "step": 56
-    },
-    {
-      "epoch": 0.2780487804878049,
-      "grad_norm": 1.6813147068023682,
-      "learning_rate": 4.99079949790478e-06,
-      "loss": 0.5786,
-      "step": 57
-    },
-    {
-      "epoch": 0.28292682926829266,
-      "grad_norm": 1.5665404796600342,
-      "learning_rate": 4.99046818553652e-06,
-      "loss": 0.6276,
-      "step": 58
-    },
-    {
-      "epoch": 0.28780487804878047,
-      "grad_norm": 1.9345953464508057,
-      "learning_rate": 4.9901310242852246e-06,
-      "loss": 0.5943,
-      "step": 59
-    },
-    {
-      "epoch": 0.2926829268292683,
-      "grad_norm": 1.4303550720214844,
-      "learning_rate": 4.9897880149427206e-06,
-      "loss": 0.5156,
-      "step": 60
-    },
-    {
-      "epoch": 0.2975609756097561,
-      "grad_norm": 2.3535423278808594,
-      "learning_rate": 4.989439158314566e-06,
-      "loss": 0.6139,
-      "step": 61
-    },
-    {
-      "epoch": 0.3024390243902439,
-      "grad_norm": 1.617553949356079,
-      "learning_rate": 4.989084455220056e-06,
-      "loss": 0.4543,
-      "step": 62
-    },
-    {
-      "epoch": 0.3073170731707317,
-      "grad_norm": 2.2876179218292236,
-      "learning_rate": 4.988723906492212e-06,
-      "loss": 0.8291,
-      "step": 63
-    },
-    {
-      "epoch": 0.3121951219512195,
-      "grad_norm": 1.781219720840454,
-      "learning_rate": 4.988357512977785e-06,
-      "loss": 0.4443,
-      "step": 64
-    },
-    {
-      "epoch": 0.3170731707317073,
-      "grad_norm": 1.8858840465545654,
-      "learning_rate": 4.987985275537252e-06,
-      "loss": 0.4885,
-      "step": 65
-    },
-    {
-      "epoch": 0.32195121951219513,
-      "grad_norm": 1.685311198234558,
-      "learning_rate": 4.9876071950448185e-06,
-      "loss": 0.6638,
-      "step": 66
-    },
-    {
-      "epoch": 0.32682926829268294,
-      "grad_norm": 1.711588740348816,
-      "learning_rate": 4.987223272388407e-06,
-      "loss": 0.4916,
-      "step": 67
-    },
-    {
-      "epoch": 0.33170731707317075,
-      "grad_norm": 1.9743118286132812,
-      "learning_rate": 4.986833508469663e-06,
-      "loss": 0.837,
-      "step": 68
-    },
-    {
-      "epoch": 0.33658536585365856,
-      "grad_norm": 1.3840869665145874,
-      "learning_rate": 4.98643790420395e-06,
-      "loss": 0.4716,
-      "step": 69
-    },
-    {
-      "epoch": 0.34146341463414637,
-      "grad_norm": 2.4423623085021973,
-      "learning_rate": 4.986036460520348e-06,
-      "loss": 0.7045,
-      "step": 70
-    },
-    {
-      "epoch": 0.3463414634146341,
-      "grad_norm": 1.9470542669296265,
-      "learning_rate": 4.98562917836165e-06,
-      "loss": 0.6841,
-      "step": 71
-    },
-    {
-      "epoch": 0.35121951219512193,
-      "grad_norm": 1.357690691947937,
-      "learning_rate": 4.985216058684362e-06,
-      "loss": 0.4278,
-      "step": 72
-    },
-    {
-      "epoch": 0.35609756097560974,
-      "grad_norm": 1.6999742984771729,
-      "learning_rate": 4.984797102458697e-06,
-      "loss": 0.8335,
-      "step": 73
-    },
-    {
-      "epoch": 0.36097560975609755,
-      "grad_norm": 2.0041823387145996,
-      "learning_rate": 4.984372310668579e-06,
-      "loss": 0.5316,
-      "step": 74
-    },
-    {
-      "epoch": 0.36585365853658536,
-      "grad_norm": 1.8468217849731445,
-      "learning_rate": 4.983941684311633e-06,
-      "loss": 1.0183,
-      "step": 75
-    },
-    {
-      "epoch": 0.37073170731707317,
-      "grad_norm": 1.5536184310913086,
-      "learning_rate": 4.983505224399188e-06,
-      "loss": 0.4932,
-      "step": 76
-    },
-    {
-      "epoch": 0.375609756097561,
-      "grad_norm": 1.3191509246826172,
-      "learning_rate": 4.983062931956275e-06,
-      "loss": 0.5752,
-      "step": 77
-    },
-    {
-      "epoch": 0.3804878048780488,
-      "grad_norm": 1.9427785873413086,
-      "learning_rate": 4.9826148080216195e-06,
-      "loss": 0.6428,
-      "step": 78
-    },
-    {
-      "epoch": 0.3853658536585366,
-      "grad_norm": 2.217280387878418,
-      "learning_rate": 4.9821608536476445e-06,
-      "loss": 1.0444,
-      "step": 79
-    },
-    {
-      "epoch": 0.3902439024390244,
-      "grad_norm": 1.7984737157821655,
-      "learning_rate": 4.981701069900465e-06,
-      "loss": 0.5578,
-      "step": 80
-    },
-    {
-      "epoch": 0.3951219512195122,
-      "grad_norm": 1.859869122505188,
-      "learning_rate": 4.9812354578598876e-06,
-      "loss": 0.5875,
-      "step": 81
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 1.8699328899383545,
-      "learning_rate": 4.980764018619405e-06,
-      "loss": 0.6775,
-      "step": 82
-    },
-    {
-      "epoch": 0.40487804878048783,
-      "grad_norm": 1.6898409128189087,
-      "learning_rate": 4.980286753286196e-06,
-      "loss": 0.6081,
-      "step": 83
-    },
-    {
-      "epoch": 0.4097560975609756,
-      "grad_norm": 1.5678975582122803,
-      "learning_rate": 4.97980366298112e-06,
-      "loss": 0.5573,
-      "step": 84
-    },
-    {
-      "epoch": 0.4146341463414634,
-      "grad_norm": 1.4087779521942139,
-      "learning_rate": 4.97931474883872e-06,
-      "loss": 0.6142,
-      "step": 85
-    },
-    {
-      "epoch": 0.4195121951219512,
-      "grad_norm": 1.8441438674926758,
-      "learning_rate": 4.978820012007213e-06,
-      "loss": 0.6677,
-      "step": 86
-    },
-    {
-      "epoch": 0.424390243902439,
-      "grad_norm": 1.7426705360412598,
-      "learning_rate": 4.978319453648495e-06,
-      "loss": 0.7166,
-      "step": 87
-    },
-    {
-      "epoch": 0.4292682926829268,
-      "grad_norm": 1.7627829313278198,
-      "learning_rate": 4.977813074938128e-06,
-      "loss": 0.5965,
-      "step": 88
-    },
-    {
-      "epoch": 0.43414634146341463,
-      "grad_norm": 1.6656118631362915,
-      "learning_rate": 4.977300877065347e-06,
-      "loss": 0.5908,
-      "step": 89
-    },
-    {
-      "epoch": 0.43902439024390244,
-      "grad_norm": 1.2669886350631714,
-      "learning_rate": 4.976782861233053e-06,
-      "loss": 0.4368,
-      "step": 90
-    },
-    {
-      "epoch": 0.44390243902439025,
-      "grad_norm": 1.2918105125427246,
-      "learning_rate": 4.976259028657812e-06,
-      "loss": 0.3848,
-      "step": 91
-    },
-    {
-      "epoch": 0.44878048780487806,
-      "grad_norm": 1.3664082288742065,
-      "learning_rate": 4.975729380569845e-06,
-      "loss": 0.5376,
-      "step": 92
-    },
-    {
-      "epoch": 0.45365853658536587,
-      "grad_norm": 1.9810562133789062,
-      "learning_rate": 4.975193918213035e-06,
-      "loss": 0.4396,
-      "step": 93
-    },
-    {
-      "epoch": 0.4585365853658537,
-      "grad_norm": 1.5167036056518555,
-      "learning_rate": 4.974652642844921e-06,
-      "loss": 0.5573,
-      "step": 94
-    },
-    {
-      "epoch": 0.4634146341463415,
-      "grad_norm": 3.6640360355377197,
-      "learning_rate": 4.974105555736693e-06,
-      "loss": 0.8419,
-      "step": 95
-    },
-    {
-      "epoch": 0.4682926829268293,
-      "grad_norm": 2.480140209197998,
-      "learning_rate": 4.973552658173186e-06,
-      "loss": 0.6014,
-      "step": 96
-    },
-    {
-      "epoch": 0.47317073170731705,
-      "grad_norm": 1.6618154048919678,
-      "learning_rate": 4.972993951452887e-06,
-      "loss": 0.5581,
-      "step": 97
-    },
-    {
-      "epoch": 0.47804878048780486,
-      "grad_norm": 1.291348934173584,
-      "learning_rate": 4.9724294368879214e-06,
-      "loss": 0.4499,
-      "step": 98
-    },
-    {
-      "epoch": 0.48292682926829267,
-      "grad_norm": 1.8929156064987183,
-      "learning_rate": 4.971859115804055e-06,
-      "loss": 0.7873,
-      "step": 99
-    },
-    {
-      "epoch": 0.4878048780487805,
-      "grad_norm": 1.57858145236969,
-      "learning_rate": 4.9712829895406935e-06,
-      "loss": 0.5793,
-      "step": 100
-    },
-    {
-      "epoch": 0.4926829268292683,
-      "grad_norm": 1.1852738857269287,
-      "learning_rate": 4.970701059450872e-06,
-      "loss": 0.3179,
-      "step": 101
-    },
-    {
-      "epoch": 0.4975609756097561,
-      "grad_norm": 1.8145536184310913,
-      "learning_rate": 4.970113326901258e-06,
-      "loss": 0.7649,
-      "step": 102
-    },
-    {
-      "epoch": 0.5024390243902439,
-      "grad_norm": 1.5796900987625122,
-      "learning_rate": 4.9695197932721455e-06,
-      "loss": 0.6736,
-      "step": 103
-    },
-    {
-      "epoch": 0.5073170731707317,
-      "grad_norm": 1.4091283082962036,
-      "learning_rate": 4.968920459957453e-06,
-      "loss": 0.6019,
-      "step": 104
-    },
-    {
-      "epoch": 0.5121951219512195,
-      "grad_norm": 2.3007757663726807,
-      "learning_rate": 4.968315328364719e-06,
-      "loss": 0.8106,
-      "step": 105
-    },
-    {
-      "epoch": 0.5170731707317073,
-      "grad_norm": 2.226351499557495,
-      "learning_rate": 4.9677043999151e-06,
-      "loss": 0.9389,
-      "step": 106
-    },
-    {
-      "epoch": 0.5219512195121951,
-      "grad_norm": 1.713365912437439,
-      "learning_rate": 4.967087676043366e-06,
-      "loss": 0.3773,
-      "step": 107
-    },
-    {
-      "epoch": 0.526829268292683,
-      "grad_norm": 1.6297917366027832,
-      "learning_rate": 4.966465158197897e-06,
-      "loss": 0.6278,
-      "step": 108
-    },
-    {
-      "epoch": 0.5317073170731708,
-      "grad_norm": 1.7754937410354614,
-      "learning_rate": 4.965836847840681e-06,
-      "loss": 0.5086,
-      "step": 109
-    },
-    {
-      "epoch": 0.5365853658536586,
-      "grad_norm": 1.6794660091400146,
-      "learning_rate": 4.96520274644731e-06,
-      "loss": 0.6123,
-      "step": 110
-    },
-    {
-      "epoch": 0.5414634146341464,
-      "grad_norm": 1.934241533279419,
-      "learning_rate": 4.964562855506976e-06,
-      "loss": 0.5779,
-      "step": 111
-    },
-    {
-      "epoch": 0.5463414634146342,
-      "grad_norm": 1.2584961652755737,
-      "learning_rate": 4.963917176522466e-06,
-      "loss": 0.4115,
-      "step": 112
-    },
-    {
-      "epoch": 0.551219512195122,
-      "grad_norm": 2.1711580753326416,
-      "learning_rate": 4.963265711010164e-06,
-      "loss": 0.7418,
-      "step": 113
-    },
-    {
-      "epoch": 0.5560975609756098,
-      "grad_norm": 1.650855541229248,
-      "learning_rate": 4.9626084605000395e-06,
-      "loss": 0.5725,
-      "step": 114
-    },
-    {
-      "epoch": 0.5609756097560976,
-      "grad_norm": 1.9013773202896118,
-      "learning_rate": 4.961945426535652e-06,
-      "loss": 0.4464,
-      "step": 115
-    },
-    {
-      "epoch": 0.5658536585365853,
-      "grad_norm": 1.4872888326644897,
-      "learning_rate": 4.961276610674141e-06,
-      "loss": 0.6751,
-      "step": 116
-    },
-    {
-      "epoch": 0.5707317073170731,
-      "grad_norm": 1.5318901538848877,
-      "learning_rate": 4.960602014486225e-06,
-      "loss": 0.7975,
-      "step": 117
-    },
-    {
-      "epoch": 0.5756097560975609,
-      "grad_norm": 1.2589044570922852,
-      "learning_rate": 4.959921639556199e-06,
-      "loss": 0.4939,
-      "step": 118
-    },
-    {
-      "epoch": 0.5804878048780487,
-      "grad_norm": 1.881285548210144,
-      "learning_rate": 4.959235487481928e-06,
-      "loss": 0.8222,
-      "step": 119
-    },
-    {
-      "epoch": 0.5853658536585366,
-      "grad_norm": 1.576146125793457,
-      "learning_rate": 4.958543559874846e-06,
-      "loss": 0.4076,
-      "step": 120
-    },
-    {
-      "epoch": 0.5902439024390244,
-      "grad_norm": 2.0078847408294678,
-      "learning_rate": 4.9578458583599495e-06,
-      "loss": 0.562,
-      "step": 121
-    },
-    {
-      "epoch": 0.5951219512195122,
-      "grad_norm": 1.4955941438674927,
-      "learning_rate": 4.957142384575795e-06,
-      "loss": 0.5184,
-      "step": 122
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 1.9556761980056763,
-      "learning_rate": 4.956433140174498e-06,
-      "loss": 0.7036,
-      "step": 123
-    },
-    {
-      "epoch": 0.6048780487804878,
-      "grad_norm": 1.9274554252624512,
-      "learning_rate": 4.9557181268217225e-06,
-      "loss": 0.7137,
-      "step": 124
-    },
-    {
-      "epoch": 0.6097560975609756,
-      "grad_norm": 1.672255277633667,
-      "learning_rate": 4.954997346196683e-06,
-      "loss": 1.0138,
-      "step": 125
-    },
-    {
-      "epoch": 0.6146341463414634,
-      "grad_norm": 1.6470623016357422,
-      "learning_rate": 4.954270799992138e-06,
-      "loss": 0.6059,
-      "step": 126
-    },
-    {
-      "epoch": 0.6195121951219512,
-      "grad_norm": 2.0698301792144775,
-      "learning_rate": 4.953538489914387e-06,
-      "loss": 0.6224,
-      "step": 127
-    },
-    {
-      "epoch": 0.624390243902439,
-      "grad_norm": 1.7772653102874756,
-      "learning_rate": 4.9528004176832654e-06,
-      "loss": 0.4795,
-      "step": 128
-    },
-    {
-      "epoch": 0.6292682926829268,
-      "grad_norm": 2.276451587677002,
-      "learning_rate": 4.952056585032142e-06,
-      "loss": 0.8591,
-      "step": 129
-    },
-    {
-      "epoch": 0.6341463414634146,
-      "grad_norm": 2.058436870574951,
-      "learning_rate": 4.951306993707913e-06,
-      "loss": 0.6678,
-      "step": 130
-    },
-    {
-      "epoch": 0.6390243902439025,
-      "grad_norm": 1.8003332614898682,
-      "learning_rate": 4.950551645470998e-06,
-      "loss": 0.617,
-      "step": 131
-    },
-    {
-      "epoch": 0.6439024390243903,
-      "grad_norm": 2.0872535705566406,
-      "learning_rate": 4.9497905420953406e-06,
-      "loss": 0.611,
-      "step": 132
-    },
-    {
-      "epoch": 0.6487804878048781,
-      "grad_norm": 2.1815896034240723,
-      "learning_rate": 4.949023685368395e-06,
-      "loss": 0.6445,
-      "step": 133
-    },
-    {
-      "epoch": 0.6536585365853659,
-      "grad_norm": 1.7983999252319336,
-      "learning_rate": 4.948251077091131e-06,
-      "loss": 0.8733,
-      "step": 134
-    },
-    {
-      "epoch": 0.6585365853658537,
-      "grad_norm": 1.6845791339874268,
-      "learning_rate": 4.947472719078025e-06,
-      "loss": 0.6613,
-      "step": 135
-    },
-    {
-      "epoch": 0.6634146341463415,
-      "grad_norm": 1.6869384050369263,
-      "learning_rate": 4.9466886131570565e-06,
-      "loss": 0.7319,
-      "step": 136
-    },
-    {
-      "epoch": 0.6682926829268293,
-      "grad_norm": 1.9151450395584106,
-      "learning_rate": 4.945898761169704e-06,
-      "loss": 0.8795,
-      "step": 137
-    },
-    {
-      "epoch": 0.6731707317073171,
-      "grad_norm": 1.3423423767089844,
-      "learning_rate": 4.945103164970941e-06,
-      "loss": 0.4385,
-      "step": 138
-    },
-    {
-      "epoch": 0.6780487804878049,
-      "grad_norm": 1.4854035377502441,
-      "learning_rate": 4.9443018264292304e-06,
-      "loss": 0.5341,
-      "step": 139
-    },
-    {
-      "epoch": 0.6829268292682927,
-      "grad_norm": 1.805953025817871,
-      "learning_rate": 4.9434947474265225e-06,
-      "loss": 0.6463,
-      "step": 140
-    },
-    {
-      "epoch": 0.6878048780487804,
-      "grad_norm": 1.7254730463027954,
-      "learning_rate": 4.942681929858249e-06,
-      "loss": 0.8897,
-      "step": 141
-    },
-    {
-      "epoch": 0.6926829268292682,
-      "grad_norm": 1.9024320840835571,
-      "learning_rate": 4.941863375633315e-06,
-      "loss": 0.7033,
-      "step": 142
-    },
-    {
-      "epoch": 0.697560975609756,
-      "grad_norm": 1.4351361989974976,
-      "learning_rate": 4.9410390866741056e-06,
-      "loss": 0.527,
-      "step": 143
-    },
-    {
-      "epoch": 0.7024390243902439,
-      "grad_norm": 1.4365131855010986,
-      "learning_rate": 4.9402090649164655e-06,
-      "loss": 0.5458,
-      "step": 144
-    },
-    {
-      "epoch": 0.7073170731707317,
-      "grad_norm": 2.144742965698242,
-      "learning_rate": 4.9393733123097085e-06,
-      "loss": 0.8133,
-      "step": 145
-    },
-    {
-      "epoch": 0.7121951219512195,
-      "grad_norm": 2.066554546356201,
-      "learning_rate": 4.9385318308166065e-06,
-      "loss": 0.7282,
-      "step": 146
-    },
-    {
-      "epoch": 0.7170731707317073,
-      "grad_norm": 1.5883394479751587,
-      "learning_rate": 4.937684622413385e-06,
-      "loss": 0.4144,
-      "step": 147
-    },
-    {
-      "epoch": 0.7219512195121951,
-      "grad_norm": 2.329960346221924,
-      "learning_rate": 4.9368316890897185e-06,
-      "loss": 0.8182,
-      "step": 148
-    },
-    {
-      "epoch": 0.7268292682926829,
-      "grad_norm": 1.5622303485870361,
-      "learning_rate": 4.9359730328487264e-06,
-      "loss": 0.412,
-      "step": 149
-    },
-    {
-      "epoch": 0.7317073170731707,
-      "grad_norm": 1.3020845651626587,
-      "learning_rate": 4.935108655706972e-06,
-      "loss": 0.5607,
-      "step": 150
-    },
-    {
-      "epoch": 0.7365853658536585,
-      "grad_norm": 2.0023865699768066,
-      "learning_rate": 4.934238559694448e-06,
-      "loss": 0.9273,
-      "step": 151
-    },
-    {
-      "epoch": 0.7414634146341463,
-      "grad_norm": 1.6495121717453003,
-      "learning_rate": 4.9333627468545845e-06,
-      "loss": 0.4775,
-      "step": 152
-    },
-    {
-      "epoch": 0.7463414634146341,
-      "grad_norm": 1.4878952503204346,
-      "learning_rate": 4.932481219244231e-06,
-      "loss": 0.562,
-      "step": 153
-    },
-    {
-      "epoch": 0.751219512195122,
-      "grad_norm": 2.352097511291504,
-      "learning_rate": 4.931593978933666e-06,
-      "loss": 0.6151,
-      "step": 154
-    },
-    {
-      "epoch": 0.7560975609756098,
-      "grad_norm": 1.3260765075683594,
-      "learning_rate": 4.930701028006577e-06,
-      "loss": 0.6572,
-      "step": 155
-    },
-    {
-      "epoch": 0.7609756097560976,
-      "grad_norm": 1.3987398147583008,
-      "learning_rate": 4.929802368560066e-06,
-      "loss": 0.5205,
-      "step": 156
-    },
-    {
-      "epoch": 0.7658536585365854,
-      "grad_norm": 2.636143922805786,
-      "learning_rate": 4.928898002704642e-06,
-      "loss": 0.7562,
-      "step": 157
-    },
-    {
-      "epoch": 0.7707317073170732,
-      "grad_norm": 2.312101125717163,
-      "learning_rate": 4.927987932564215e-06,
-      "loss": 0.6415,
-      "step": 158
-    },
-    {
-      "epoch": 0.775609756097561,
-      "grad_norm": 1.6384342908859253,
-      "learning_rate": 4.927072160276092e-06,
-      "loss": 0.6148,
-      "step": 159
-    },
-    {
-      "epoch": 0.7804878048780488,
-      "grad_norm": 1.3910821676254272,
-      "learning_rate": 4.926150687990969e-06,
-      "loss": 0.3866,
-      "step": 160
-    },
-    {
-      "epoch": 0.7853658536585366,
-      "grad_norm": 1.7929809093475342,
-      "learning_rate": 4.925223517872934e-06,
-      "loss": 0.7282,
-      "step": 161
-    },
-    {
-      "epoch": 0.7902439024390244,
-      "grad_norm": 2.1226377487182617,
-      "learning_rate": 4.9242906520994484e-06,
-      "loss": 0.8234,
-      "step": 162
-    },
-    {
-      "epoch": 0.7951219512195122,
-      "grad_norm": 1.6692653894424438,
-      "learning_rate": 4.923352092861358e-06,
-      "loss": 0.7111,
-      "step": 163
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 1.7468419075012207,
-      "learning_rate": 4.922407842362875e-06,
-      "loss": 0.4963,
-      "step": 164
-    },
-    {
-      "epoch": 0.8048780487804879,
-      "grad_norm": 1.5026869773864746,
-      "learning_rate": 4.921457902821578e-06,
-      "loss": 0.7182,
-      "step": 165
-    },
-    {
-      "epoch": 0.8097560975609757,
-      "grad_norm": 1.565578818321228,
-      "learning_rate": 4.920502276468408e-06,
-      "loss": 0.6331,
-      "step": 166
-    },
-    {
-      "epoch": 0.8146341463414634,
-      "grad_norm": 1.5285255908966064,
-      "learning_rate": 4.9195409655476605e-06,
-      "loss": 0.5216,
-      "step": 167
-    },
-    {
-      "epoch": 0.8195121951219512,
-      "grad_norm": 2.1599016189575195,
-      "learning_rate": 4.918573972316982e-06,
-      "loss": 0.8197,
-      "step": 168
-    },
-    {
-      "epoch": 0.824390243902439,
-      "grad_norm": 1.9766514301300049,
-      "learning_rate": 4.917601299047361e-06,
-      "loss": 0.6364,
-      "step": 169
-    },
-    {
-      "epoch": 0.8292682926829268,
-      "grad_norm": 1.6226218938827515,
-      "learning_rate": 4.916622948023129e-06,
-      "loss": 0.5688,
-      "step": 170
-    },
-    {
-      "epoch": 0.8341463414634146,
-      "grad_norm": 2.169351100921631,
-      "learning_rate": 4.915638921541952e-06,
-      "loss": 0.5144,
-      "step": 171
-    },
-    {
-      "epoch": 0.8390243902439024,
-      "grad_norm": 2.0374093055725098,
-      "learning_rate": 4.914649221914822e-06,
-      "loss": 0.6684,
-      "step": 172
-    },
-    {
-      "epoch": 0.8439024390243902,
-      "grad_norm": 1.8811930418014526,
-      "learning_rate": 4.913653851466057e-06,
-      "loss": 0.4537,
-      "step": 173
-    },
-    {
-      "epoch": 0.848780487804878,
-      "grad_norm": 1.7003443241119385,
-      "learning_rate": 4.912652812533291e-06,
-      "loss": 0.5926,
-      "step": 174
-    },
-    {
-      "epoch": 0.8536585365853658,
-      "grad_norm": 1.6899495124816895,
-      "learning_rate": 4.911646107467472e-06,
-      "loss": 0.6797,
-      "step": 175
-    },
-    {
-      "epoch": 0.8585365853658536,
-      "grad_norm": 1.5597474575042725,
-      "learning_rate": 4.9106337386328524e-06,
-      "loss": 0.7363,
-      "step": 176
-    },
-    {
-      "epoch": 0.8634146341463415,
-      "grad_norm": 1.7820264101028442,
-      "learning_rate": 4.909615708406991e-06,
-      "loss": 0.7277,
-      "step": 177
-    },
-    {
-      "epoch": 0.8682926829268293,
-      "grad_norm": 1.5444871187210083,
-      "learning_rate": 4.908592019180738e-06,
-      "loss": 0.4991,
-      "step": 178
-    },
-    {
-      "epoch": 0.8731707317073171,
-      "grad_norm": 1.1890966892242432,
-      "learning_rate": 4.907562673358234e-06,
-      "loss": 0.4345,
-      "step": 179
-    },
-    {
-      "epoch": 0.8780487804878049,
-      "grad_norm": 1.6008920669555664,
-      "learning_rate": 4.906527673356907e-06,
-      "loss": 0.506,
-      "step": 180
-    },
-    {
-      "epoch": 0.8829268292682927,
-      "grad_norm": 1.3028374910354614,
-      "learning_rate": 4.905487021607462e-06,
-      "loss": 0.4031,
-      "step": 181
-    },
-    {
-      "epoch": 0.8878048780487805,
-      "grad_norm": 2.086660146713257,
-      "learning_rate": 4.904440720553876e-06,
-      "loss": 0.6167,
-      "step": 182
-    },
-    {
-      "epoch": 0.8926829268292683,
-      "grad_norm": 1.5964947938919067,
-      "learning_rate": 4.903388772653396e-06,
-      "loss": 0.5923,
-      "step": 183
-    },
-    {
-      "epoch": 0.8975609756097561,
-      "grad_norm": 1.7292804718017578,
-      "learning_rate": 4.902331180376529e-06,
-      "loss": 0.6047,
-      "step": 184
-    },
-    {
-      "epoch": 0.9024390243902439,
-      "grad_norm": 1.6994556188583374,
-      "learning_rate": 4.901267946207038e-06,
-      "loss": 0.7615,
-      "step": 185
-    },
-    {
-      "epoch": 0.9073170731707317,
-      "grad_norm": 1.9247877597808838,
-      "learning_rate": 4.900199072641937e-06,
-      "loss": 0.5834,
-      "step": 186
-    },
-    {
-      "epoch": 0.9121951219512195,
-      "grad_norm": 1.4916514158248901,
-      "learning_rate": 4.899124562191484e-06,
-      "loss": 0.4737,
-      "step": 187
-    },
-    {
-      "epoch": 0.9170731707317074,
-      "grad_norm": 1.9706366062164307,
-      "learning_rate": 4.8980444173791735e-06,
-      "loss": 0.4418,
-      "step": 188
-    },
-    {
-      "epoch": 0.9219512195121952,
-      "grad_norm": 2.295691728591919,
-      "learning_rate": 4.896958640741735e-06,
-      "loss": 0.7035,
-      "step": 189
-    },
-    {
-      "epoch": 0.926829268292683,
-      "grad_norm": 2.459785223007202,
-      "learning_rate": 4.895867234829121e-06,
-      "loss": 0.7988,
-      "step": 190
-    },
-    {
-      "epoch": 0.9317073170731708,
-      "grad_norm": 1.6266491413116455,
-      "learning_rate": 4.894770202204509e-06,
-      "loss": 0.5665,
-      "step": 191
-    },
-    {
-      "epoch": 0.9365853658536586,
-      "grad_norm": 1.549321174621582,
-      "learning_rate": 4.893667545444285e-06,
-      "loss": 0.5774,
-      "step": 192
-    },
-    {
-      "epoch": 0.9414634146341463,
-      "grad_norm": 2.014610767364502,
-      "learning_rate": 4.8925592671380495e-06,
-      "loss": 0.5668,
-      "step": 193
-    },
-    {
-      "epoch": 0.9463414634146341,
-      "grad_norm": 1.3015650510787964,
-      "learning_rate": 4.891445369888601e-06,
-      "loss": 0.427,
-      "step": 194
-    },
-    {
-      "epoch": 0.9512195121951219,
-      "grad_norm": 1.6933586597442627,
-      "learning_rate": 4.890325856311936e-06,
-      "loss": 0.7354,
-      "step": 195
-    },
-    {
-      "epoch": 0.9560975609756097,
-      "grad_norm": 2.1092705726623535,
-      "learning_rate": 4.889200729037241e-06,
-      "loss": 0.7039,
-      "step": 196
-    },
-    {
-      "epoch": 0.9609756097560975,
-      "grad_norm": 1.625111699104309,
-      "learning_rate": 4.888069990706884e-06,
-      "loss": 0.5369,
-      "step": 197
-    },
-    {
-      "epoch": 0.9658536585365853,
-      "grad_norm": 1.4547514915466309,
-      "learning_rate": 4.886933643976414e-06,
-      "loss": 0.3645,
-      "step": 198
-    },
-    {
-      "epoch": 0.9707317073170731,
-      "grad_norm": 1.832529902458191,
-      "learning_rate": 4.885791691514548e-06,
-      "loss": 0.422,
-      "step": 199
-    },
-    {
-      "epoch": 0.975609756097561,
-      "grad_norm": 1.533402442932129,
-      "learning_rate": 4.884644136003172e-06,
-      "loss": 0.4698,
-      "step": 200
-    },
-    {
-      "epoch": 0.9804878048780488,
-      "grad_norm": 1.9563912153244019,
-      "learning_rate": 4.883490980137327e-06,
-      "loss": 1.1273,
-      "step": 201
-    },
-    {
-      "epoch": 0.9853658536585366,
-      "grad_norm": 1.7044615745544434,
-      "learning_rate": 4.882332226625208e-06,
-      "loss": 0.6056,
-      "step": 202
-    },
-    {
-      "epoch": 0.9902439024390244,
-      "grad_norm": 1.6405285596847534,
-      "learning_rate": 4.881167878188158e-06,
-      "loss": 0.7204,
-      "step": 203
-    },
-    {
-      "epoch": 0.9951219512195122,
-      "grad_norm": 1.5838991403579712,
-      "learning_rate": 4.8799979375606565e-06,
-      "loss": 0.553,
-      "step": 204
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 1.6604121923446655,
-      "learning_rate": 4.878822407490319e-06,
-      "loss": 0.4694,
-      "step": 205
-    },
-    {
-      "epoch": 1.0048780487804878,
-      "grad_norm": 1.4410219192504883,
-      "learning_rate": 4.8776412907378845e-06,
-      "loss": 0.3954,
-      "step": 206
-    },
-    {
-      "epoch": 1.0097560975609756,
-      "grad_norm": 1.3399821519851685,
-      "learning_rate": 4.876454590077216e-06,
-      "loss": 0.4453,
-      "step": 207
-    },
-    {
-      "epoch": 1.0146341463414634,
-      "grad_norm": 1.3594847917556763,
-      "learning_rate": 4.875262308295289e-06,
-      "loss": 0.5706,
-      "step": 208
-    },
-    {
-      "epoch": 1.0195121951219512,
-      "grad_norm": 1.4475713968276978,
-      "learning_rate": 4.874064448192185e-06,
-      "loss": 0.4708,
-      "step": 209
-    },
-    {
-      "epoch": 1.024390243902439,
-      "grad_norm": 2.237009286880493,
-      "learning_rate": 4.872861012581088e-06,
-      "loss": 0.4116,
-      "step": 210
-    },
-    {
-      "epoch": 1.0292682926829269,
-      "grad_norm": 1.9443275928497314,
-      "learning_rate": 4.871652004288275e-06,
-      "loss": 0.5268,
-      "step": 211
-    },
-    {
-      "epoch": 1.0341463414634147,
-      "grad_norm": 2.032132387161255,
-      "learning_rate": 4.870437426153113e-06,
-      "loss": 0.5144,
-      "step": 212
-    },
-    {
-      "epoch": 1.0390243902439025,
-      "grad_norm": 2.908564329147339,
-      "learning_rate": 4.869217281028045e-06,
-      "loss": 0.6369,
-      "step": 213
-    },
-    {
-      "epoch": 1.0439024390243903,
-      "grad_norm": 1.9555280208587646,
-      "learning_rate": 4.867991571778592e-06,
-      "loss": 0.6615,
-      "step": 214
-    },
-    {
-      "epoch": 1.048780487804878,
-      "grad_norm": 1.4361177682876587,
-      "learning_rate": 4.866760301283342e-06,
-      "loss": 0.3721,
-      "step": 215
-    },
-    {
-      "epoch": 1.053658536585366,
-      "grad_norm": 1.5162372589111328,
-      "learning_rate": 4.865523472433942e-06,
-      "loss": 0.5117,
-      "step": 216
-    },
-    {
-      "epoch": 1.0585365853658537,
-      "grad_norm": 1.4366101026535034,
-      "learning_rate": 4.8642810881350935e-06,
-      "loss": 0.4239,
-      "step": 217
-    },
-    {
-      "epoch": 1.0634146341463415,
-      "grad_norm": 1.6032313108444214,
-      "learning_rate": 4.863033151304546e-06,
-      "loss": 0.4752,
-      "step": 218
-    },
-    {
-      "epoch": 1.0682926829268293,
-      "grad_norm": 9.823326110839844,
-      "learning_rate": 4.861779664873088e-06,
-      "loss": 0.7429,
-      "step": 219
-    },
-    {
-      "epoch": 1.0731707317073171,
-      "grad_norm": 2.1821725368499756,
-      "learning_rate": 4.8605206317845425e-06,
-      "loss": 0.5409,
-      "step": 220
-    },
-    {
-      "epoch": 1.078048780487805,
-      "grad_norm": 1.8968735933303833,
-      "learning_rate": 4.859256054995758e-06,
-      "loss": 0.6201,
-      "step": 221
-    },
-    {
-      "epoch": 1.0829268292682928,
-      "grad_norm": 1.3566253185272217,
-      "learning_rate": 4.8579859374766e-06,
-      "loss": 0.3323,
-      "step": 222
-    },
-    {
-      "epoch": 1.0878048780487806,
-      "grad_norm": 1.2179781198501587,
-      "learning_rate": 4.856710282209952e-06,
-      "loss": 0.2767,
-      "step": 223
-    },
-    {
-      "epoch": 1.0926829268292684,
-      "grad_norm": 1.5012304782867432,
-      "learning_rate": 4.855429092191698e-06,
-      "loss": 0.5419,
-      "step": 224
-    },
-    {
-      "epoch": 1.0975609756097562,
-      "grad_norm": 1.361253261566162,
-      "learning_rate": 4.854142370430725e-06,
-      "loss": 0.4209,
-      "step": 225
-    },
-    {
-      "epoch": 1.102439024390244,
-      "grad_norm": 1.694344162940979,
-      "learning_rate": 4.8528501199489045e-06,
-      "loss": 0.5328,
-      "step": 226
-    },
-    {
-      "epoch": 1.1073170731707318,
-      "grad_norm": 1.9685852527618408,
-      "learning_rate": 4.851552343781099e-06,
-      "loss": 0.66,
-      "step": 227
-    },
-    {
-      "epoch": 1.1121951219512196,
-      "grad_norm": 1.3181688785552979,
-      "learning_rate": 4.850249044975145e-06,
-      "loss": 0.533,
-      "step": 228
-    },
-    {
-      "epoch": 1.1170731707317074,
-      "grad_norm": 1.7146031856536865,
-      "learning_rate": 4.848940226591849e-06,
-      "loss": 0.8205,
-      "step": 229
-    },
-    {
-      "epoch": 1.1219512195121952,
-      "grad_norm": 1.6150505542755127,
-      "learning_rate": 4.847625891704982e-06,
-      "loss": 0.4771,
-      "step": 230
-    },
-    {
-      "epoch": 1.126829268292683,
-      "grad_norm": 1.6849442720413208,
-      "learning_rate": 4.846306043401268e-06,
-      "loss": 0.4493,
-      "step": 231
-    },
-    {
-      "epoch": 1.1317073170731708,
-      "grad_norm": 1.8745028972625732,
-      "learning_rate": 4.844980684780381e-06,
-      "loss": 0.4396,
-      "step": 232
-    },
-    {
-      "epoch": 1.1365853658536587,
-      "grad_norm": 1.984281301498413,
-      "learning_rate": 4.8436498189549345e-06,
-      "loss": 0.4695,
-      "step": 233
-    },
-    {
-      "epoch": 1.1414634146341462,
-      "grad_norm": 1.1260443925857544,
-      "learning_rate": 4.842313449050477e-06,
-      "loss": 0.3695,
-      "step": 234
-    },
-    {
-      "epoch": 1.146341463414634,
-      "grad_norm": 1.3031764030456543,
-      "learning_rate": 4.840971578205486e-06,
-      "loss": 0.341,
-      "step": 235
-    },
-    {
-      "epoch": 1.1512195121951219,
-      "grad_norm": 1.3267005681991577,
-      "learning_rate": 4.839624209571352e-06,
-      "loss": 0.2757,
-      "step": 236
-    },
-    {
-      "epoch": 1.1560975609756097,
-      "grad_norm": 1.595441460609436,
-      "learning_rate": 4.838271346312381e-06,
-      "loss": 0.6283,
-      "step": 237
-    },
-    {
-      "epoch": 1.1609756097560975,
-      "grad_norm": 1.6265649795532227,
-      "learning_rate": 4.836912991605782e-06,
-      "loss": 0.6538,
-      "step": 238
-    },
-    {
-      "epoch": 1.1658536585365853,
-      "grad_norm": 1.6886593103408813,
-      "learning_rate": 4.835549148641663e-06,
-      "loss": 0.4063,
-      "step": 239
-    },
-    {
-      "epoch": 1.170731707317073,
-      "grad_norm": 1.7404961585998535,
-      "learning_rate": 4.834179820623018e-06,
-      "loss": 0.5187,
-      "step": 240
-    },
-    {
-      "epoch": 1.175609756097561,
-      "grad_norm": 1.246699571609497,
-      "learning_rate": 4.832805010765724e-06,
-      "loss": 0.4216,
-      "step": 241
-    },
-    {
-      "epoch": 1.1804878048780487,
-      "grad_norm": 1.2928248643875122,
-      "learning_rate": 4.831424722298531e-06,
-      "loss": 0.4373,
-      "step": 242
-    },
-    {
-      "epoch": 1.1853658536585365,
-      "grad_norm": 1.948778510093689,
-      "learning_rate": 4.830038958463061e-06,
-      "loss": 0.496,
-      "step": 243
-    },
-    {
-      "epoch": 1.1902439024390243,
-      "grad_norm": 1.8547722101211548,
-      "learning_rate": 4.828647722513785e-06,
-      "loss": 0.6239,
-      "step": 244
-    },
-    {
-      "epoch": 1.1951219512195121,
-      "grad_norm": 2.0558724403381348,
-      "learning_rate": 4.827251017718034e-06,
-      "loss": 0.6466,
-      "step": 245
-    },
-    {
-      "epoch": 1.2,
-      "grad_norm": 1.8790161609649658,
-      "learning_rate": 4.8258488473559794e-06,
-      "loss": 0.6918,
-      "step": 246
-    },
-    {
-      "epoch": 1.2048780487804878,
-      "grad_norm": 1.9804240465164185,
-      "learning_rate": 4.824441214720629e-06,
-      "loss": 0.6641,
-      "step": 247
-    },
-    {
-      "epoch": 1.2097560975609756,
-      "grad_norm": 1.229308009147644,
-      "learning_rate": 4.823028123117818e-06,
-      "loss": 0.267,
-      "step": 248
-    },
-    {
-      "epoch": 1.2146341463414634,
-      "grad_norm": 1.3673735857009888,
-      "learning_rate": 4.8216095758662015e-06,
-      "loss": 0.543,
-      "step": 249
-    },
-    {
-      "epoch": 1.2195121951219512,
-      "grad_norm": 1.4206926822662354,
-      "learning_rate": 4.82018557629725e-06,
-      "loss": 0.6299,
-      "step": 250
-    },
-    {
-      "epoch": 1.224390243902439,
-      "grad_norm": 1.400539517402649,
-      "learning_rate": 4.8187561277552376e-06,
-      "loss": 0.4163,
-      "step": 251
-    },
-    {
-      "epoch": 1.2292682926829268,
-      "grad_norm": 1.3771297931671143,
-      "learning_rate": 4.817321233597232e-06,
-      "loss": 0.6105,
-      "step": 252
-    },
-    {
-      "epoch": 1.2341463414634146,
-      "grad_norm": 1.6716666221618652,
-      "learning_rate": 4.815880897193095e-06,
-      "loss": 0.3741,
-      "step": 253
-    },
-    {
-      "epoch": 1.2390243902439024,
-      "grad_norm": 1.9220954179763794,
-      "learning_rate": 4.814435121925466e-06,
-      "loss": 0.6125,
-      "step": 254
-    },
-    {
-      "epoch": 1.2439024390243902,
-      "grad_norm": 1.3171087503433228,
-      "learning_rate": 4.812983911189761e-06,
-      "loss": 0.4345,
-      "step": 255
-    },
-    {
-      "epoch": 1.248780487804878,
-      "grad_norm": 1.500893473625183,
-      "learning_rate": 4.811527268394157e-06,
-      "loss": 0.3848,
-      "step": 256
-    },
-    {
-      "epoch": 1.2536585365853659,
-      "grad_norm": 1.8701486587524414,
-      "learning_rate": 4.810065196959591e-06,
-      "loss": 0.4871,
-      "step": 257
-    },
-    {
-      "epoch": 1.2585365853658537,
-      "grad_norm": 1.7081878185272217,
-      "learning_rate": 4.8085977003197496e-06,
-      "loss": 0.6514,
-      "step": 258
-    },
-    {
-      "epoch": 1.2634146341463415,
-      "grad_norm": 2.583132266998291,
-      "learning_rate": 4.807124781921059e-06,
-      "loss": 0.8608,
-      "step": 259
-    },
-    {
-      "epoch": 1.2682926829268293,
-      "grad_norm": 1.467129111289978,
-      "learning_rate": 4.805646445222679e-06,
-      "loss": 0.3865,
-      "step": 260
-    },
-    {
-      "epoch": 1.273170731707317,
-      "grad_norm": 1.349326729774475,
-      "learning_rate": 4.804162693696494e-06,
-      "loss": 0.376,
-      "step": 261
-    },
-    {
-      "epoch": 1.278048780487805,
-      "grad_norm": 1.9350008964538574,
-      "learning_rate": 4.802673530827105e-06,
-      "loss": 0.4269,
-      "step": 262
-    },
-    {
-      "epoch": 1.2829268292682927,
-      "grad_norm": 1.1973533630371094,
-      "learning_rate": 4.801178960111823e-06,
-      "loss": 0.4611,
-      "step": 263
-    },
-    {
-      "epoch": 1.2878048780487805,
-      "grad_norm": 1.703409194946289,
-      "learning_rate": 4.799678985060658e-06,
-      "loss": 0.664,
-      "step": 264
-    },
-    {
-      "epoch": 1.2926829268292683,
-      "grad_norm": 1.3793981075286865,
-      "learning_rate": 4.798173609196314e-06,
-      "loss": 0.6515,
-      "step": 265
-    },
-    {
-      "epoch": 1.2975609756097561,
-      "grad_norm": 1.6443597078323364,
-      "learning_rate": 4.796662836054176e-06,
-      "loss": 0.3316,
-      "step": 266
-    },
-    {
-      "epoch": 1.302439024390244,
-      "grad_norm": 1.2548167705535889,
-      "learning_rate": 4.795146669182304e-06,
-      "loss": 0.4344,
-      "step": 267
-    },
-    {
-      "epoch": 1.3073170731707318,
-      "grad_norm": 1.4349764585494995,
-      "learning_rate": 4.793625112141431e-06,
-      "loss": 0.3804,
-      "step": 268
-    },
-    {
-      "epoch": 1.3121951219512196,
-      "grad_norm": 1.5517576932907104,
-      "learning_rate": 4.792098168504943e-06,
-      "loss": 0.4546,
-      "step": 269
-    },
-    {
-      "epoch": 1.3170731707317074,
-      "grad_norm": 1.3105218410491943,
-      "learning_rate": 4.790565841858879e-06,
-      "loss": 0.3096,
-      "step": 270
-    },
-    {
-      "epoch": 1.3219512195121952,
-      "grad_norm": 1.6386523246765137,
-      "learning_rate": 4.789028135801919e-06,
-      "loss": 0.6408,
-      "step": 271
-    },
-    {
-      "epoch": 1.326829268292683,
-      "grad_norm": 2.0389583110809326,
-      "learning_rate": 4.787485053945377e-06,
-      "loss": 0.7108,
-      "step": 272
-    },
-    {
-      "epoch": 1.3317073170731708,
-      "grad_norm": 1.4428800344467163,
-      "learning_rate": 4.785936599913193e-06,
-      "loss": 0.5489,
-      "step": 273
-    },
-    {
-      "epoch": 1.3365853658536586,
-      "grad_norm": 1.7775859832763672,
-      "learning_rate": 4.784382777341922e-06,
-      "loss": 0.5516,
-      "step": 274
-    },
-    {
-      "epoch": 1.3414634146341464,
-      "grad_norm": 2.048654794692993,
-      "learning_rate": 4.782823589880729e-06,
-      "loss": 0.8822,
-      "step": 275
-    },
-    {
-      "epoch": 1.346341463414634,
-      "grad_norm": 1.6368885040283203,
-      "learning_rate": 4.7812590411913755e-06,
-      "loss": 0.6008,
-      "step": 276
-    },
-    {
-      "epoch": 1.3512195121951218,
-      "grad_norm": 1.6349594593048096,
-      "learning_rate": 4.779689134948217e-06,
-      "loss": 0.8552,
-      "step": 277
-    },
-    {
-      "epoch": 1.3560975609756096,
-      "grad_norm": 2.0282487869262695,
-      "learning_rate": 4.77811387483819e-06,
-      "loss": 0.399,
-      "step": 278
-    },
-    {
-      "epoch": 1.3609756097560974,
-      "grad_norm": 1.902794599533081,
-      "learning_rate": 4.776533264560804e-06,
-      "loss": 0.583,
-      "step": 279
-    },
-    {
-      "epoch": 1.3658536585365852,
-      "grad_norm": 1.82004714012146,
-      "learning_rate": 4.774947307828134e-06,
-      "loss": 0.7195,
-      "step": 280
-    },
-    {
-      "epoch": 1.370731707317073,
-      "grad_norm": 1.4813153743743896,
-      "learning_rate": 4.773356008364812e-06,
-      "loss": 0.4371,
-      "step": 281
-    },
-    {
-      "epoch": 1.3756097560975609,
-      "grad_norm": 1.408211588859558,
-      "learning_rate": 4.771759369908017e-06,
-      "loss": 0.3133,
-      "step": 282
-    },
-    {
-      "epoch": 1.3804878048780487,
-      "grad_norm": 1.4923700094223022,
-      "learning_rate": 4.7701573962074635e-06,
-      "loss": 0.4993,
-      "step": 283
-    },
-    {
-      "epoch": 1.3853658536585365,
-      "grad_norm": 1.2863298654556274,
-      "learning_rate": 4.7685500910254015e-06,
-      "loss": 0.3568,
-      "step": 284
-    },
-    {
-      "epoch": 1.3902439024390243,
-      "grad_norm": 1.2870134115219116,
-      "learning_rate": 4.766937458136598e-06,
-      "loss": 0.5413,
-      "step": 285
-    },
-    {
-      "epoch": 1.395121951219512,
-      "grad_norm": 1.6780668497085571,
-      "learning_rate": 4.765319501328332e-06,
-      "loss": 0.6028,
-      "step": 286
-    },
-    {
-      "epoch": 1.4,
-      "grad_norm": 1.4770684242248535,
-      "learning_rate": 4.763696224400391e-06,
-      "loss": 0.3658,
-      "step": 287
-    },
-    {
-      "epoch": 1.4048780487804877,
-      "grad_norm": 1.2198718786239624,
-      "learning_rate": 4.762067631165049e-06,
-      "loss": 0.3817,
-      "step": 288
-    },
-    {
-      "epoch": 1.4097560975609755,
-      "grad_norm": 1.5318330526351929,
-      "learning_rate": 4.760433725447071e-06,
-      "loss": 0.5163,
-      "step": 289
-    },
-    {
-      "epoch": 1.4146341463414633,
-      "grad_norm": 1.849548578262329,
-      "learning_rate": 4.758794511083697e-06,
-      "loss": 0.6594,
-      "step": 290
-    },
-    {
-      "epoch": 1.4195121951219511,
-      "grad_norm": 1.7906076908111572,
-      "learning_rate": 4.757149991924633e-06,
-      "loss": 0.5289,
-      "step": 291
-    },
-    {
-      "epoch": 1.424390243902439,
-      "grad_norm": 1.328231930732727,
-      "learning_rate": 4.755500171832045e-06,
-      "loss": 0.3258,
-      "step": 292
-    },
-    {
-      "epoch": 1.4292682926829268,
-      "grad_norm": 1.619766354560852,
-      "learning_rate": 4.753845054680548e-06,
-      "loss": 0.4876,
-      "step": 293
-    },
-    {
-      "epoch": 1.4341463414634146,
-      "grad_norm": 1.6691818237304688,
-      "learning_rate": 4.752184644357197e-06,
-      "loss": 0.3899,
-      "step": 294
-    },
-    {
-      "epoch": 1.4390243902439024,
-      "grad_norm": 1.4808595180511475,
-      "learning_rate": 4.750518944761477e-06,
-      "loss": 0.4277,
-      "step": 295
-    },
-    {
-      "epoch": 1.4439024390243902,
-      "grad_norm": 1.71161687374115,
-      "learning_rate": 4.748847959805297e-06,
-      "loss": 0.4172,
-      "step": 296
-    },
-    {
-      "epoch": 1.448780487804878,
-      "grad_norm": 1.4367694854736328,
-      "learning_rate": 4.7471716934129774e-06,
-      "loss": 0.4121,
-      "step": 297
-    },
-    {
-      "epoch": 1.4536585365853658,
-      "grad_norm": 1.582480549812317,
-      "learning_rate": 4.745490149521242e-06,
-      "loss": 0.392,
-      "step": 298
-    },
-    {
-      "epoch": 1.4585365853658536,
-      "grad_norm": 1.9606919288635254,
-      "learning_rate": 4.743803332079209e-06,
-      "loss": 0.4478,
-      "step": 299
-    },
-    {
-      "epoch": 1.4634146341463414,
-      "grad_norm": 1.3635920286178589,
-      "learning_rate": 4.742111245048382e-06,
-      "loss": 0.3971,
-      "step": 300
-    },
-    {
-      "epoch": 1.4682926829268292,
-      "grad_norm": 1.2133499383926392,
-      "learning_rate": 4.740413892402639e-06,
-      "loss": 0.3502,
-      "step": 301
-    },
-    {
-      "epoch": 1.473170731707317,
-      "grad_norm": 1.5149365663528442,
-      "learning_rate": 4.738711278128228e-06,
-      "loss": 0.4716,
-      "step": 302
-    },
-    {
-      "epoch": 1.4780487804878049,
-      "grad_norm": 1.8573330640792847,
-      "learning_rate": 4.7370034062237476e-06,
-      "loss": 0.3264,
-      "step": 303
-    },
-    {
-      "epoch": 1.4829268292682927,
-      "grad_norm": 1.2374138832092285,
-      "learning_rate": 4.73529028070015e-06,
-      "loss": 0.4316,
-      "step": 304
-    },
-    {
-      "epoch": 1.4878048780487805,
-      "grad_norm": 1.797386646270752,
-      "learning_rate": 4.733571905580723e-06,
-      "loss": 0.7425,
-      "step": 305
-    },
-    {
-      "epoch": 1.4926829268292683,
-      "grad_norm": 1.6922880411148071,
-      "learning_rate": 4.731848284901082e-06,
-      "loss": 0.6001,
-      "step": 306
-    },
-    {
-      "epoch": 1.497560975609756,
-      "grad_norm": 1.5501389503479004,
-      "learning_rate": 4.730119422709165e-06,
-      "loss": 0.3536,
-      "step": 307
-    },
-    {
-      "epoch": 1.502439024390244,
-      "grad_norm": 1.9408127069473267,
-      "learning_rate": 4.728385323065215e-06,
-      "loss": 0.5422,
-      "step": 308
-    },
-    {
-      "epoch": 1.5073170731707317,
-      "grad_norm": 1.4196149110794067,
-      "learning_rate": 4.7266459900417815e-06,
-      "loss": 0.3504,
-      "step": 309
-    },
-    {
-      "epoch": 1.5121951219512195,
-      "grad_norm": 1.5519887208938599,
-      "learning_rate": 4.724901427723698e-06,
-      "loss": 0.6354,
-      "step": 310
-    },
-    {
-      "epoch": 1.5170731707317073,
-      "grad_norm": 1.867122769355774,
-      "learning_rate": 4.723151640208084e-06,
-      "loss": 0.3166,
-      "step": 311
-    },
-    {
-      "epoch": 1.5219512195121951,
-      "grad_norm": 1.6368682384490967,
-      "learning_rate": 4.721396631604327e-06,
-      "loss": 0.3401,
-      "step": 312
-    },
-    {
-      "epoch": 1.526829268292683,
-      "grad_norm": 1.2231279611587524,
-      "learning_rate": 4.7196364060340785e-06,
-      "loss": 0.3504,
-      "step": 313
-    },
-    {
-      "epoch": 1.5317073170731708,
-      "grad_norm": 1.622697353363037,
-      "learning_rate": 4.7178709676312416e-06,
-      "loss": 0.6338,
-      "step": 314
-    },
-    {
-      "epoch": 1.5365853658536586,
-      "grad_norm": 1.7756884098052979,
-      "learning_rate": 4.716100320541961e-06,
-      "loss": 0.8673,
-      "step": 315
-    },
-    {
-      "epoch": 1.5414634146341464,
-      "grad_norm": 1.6664738655090332,
-      "learning_rate": 4.714324468924614e-06,
-      "loss": 0.5582,
-      "step": 316
-    },
-    {
-      "epoch": 1.5463414634146342,
-      "grad_norm": 1.8026777505874634,
-      "learning_rate": 4.712543416949803e-06,
-      "loss": 0.6161,
-      "step": 317
-    },
-    {
-      "epoch": 1.551219512195122,
-      "grad_norm": 2.3471832275390625,
-      "learning_rate": 4.71075716880034e-06,
-      "loss": 0.5923,
-      "step": 318
-    },
-    {
-      "epoch": 1.5560975609756098,
-      "grad_norm": 1.9087973833084106,
-      "learning_rate": 4.708965728671243e-06,
-      "loss": 0.7339,
-      "step": 319
-    },
-    {
-      "epoch": 1.5609756097560976,
-      "grad_norm": 1.8473851680755615,
-      "learning_rate": 4.7071691007697214e-06,
-      "loss": 0.5554,
-      "step": 320
-    },
-    {
-      "epoch": 1.5658536585365854,
-      "grad_norm": 1.3977913856506348,
-      "learning_rate": 4.705367289315172e-06,
-      "loss": 0.5699,
-      "step": 321
-    },
-    {
-      "epoch": 1.5707317073170732,
-      "grad_norm": 1.6106524467468262,
-      "learning_rate": 4.703560298539158e-06,
-      "loss": 0.3525,
-      "step": 322
-    },
-    {
-      "epoch": 1.575609756097561,
-      "grad_norm": 1.5842078924179077,
-      "learning_rate": 4.701748132685415e-06,
-      "loss": 0.3749,
-      "step": 323
-    },
-    {
-      "epoch": 1.5804878048780489,
-      "grad_norm": 1.3624794483184814,
-      "learning_rate": 4.699930796009825e-06,
-      "loss": 0.4388,
-      "step": 324
-    },
-    {
-      "epoch": 1.5853658536585367,
-      "grad_norm": 1.9962315559387207,
-      "learning_rate": 4.698108292780418e-06,
-      "loss": 0.6069,
-      "step": 325
-    },
-    {
-      "epoch": 1.5902439024390245,
-      "grad_norm": 1.354267954826355,
-      "learning_rate": 4.696280627277356e-06,
-      "loss": 0.4206,
-      "step": 326
-    },
-    {
-      "epoch": 1.5951219512195123,
-      "grad_norm": 1.3546578884124756,
-      "learning_rate": 4.6944478037929255e-06,
-      "loss": 0.416,
-      "step": 327
-    },
-    {
-      "epoch": 1.6,
-      "grad_norm": 1.5159077644348145,
-      "learning_rate": 4.692609826631525e-06,
-      "loss": 0.4456,
-      "step": 328
-    },
-    {
-      "epoch": 1.604878048780488,
-      "grad_norm": 1.7104778289794922,
-      "learning_rate": 4.690766700109659e-06,
-      "loss": 0.295,
-      "step": 329
-    },
-    {
-      "epoch": 1.6097560975609757,
-      "grad_norm": 1.1690094470977783,
-      "learning_rate": 4.6889184285559234e-06,
-      "loss": 0.2971,
-      "step": 330
-    },
-    {
-      "epoch": 1.6146341463414635,
-      "grad_norm": 2.9057915210723877,
-      "learning_rate": 4.687065016310996e-06,
-      "loss": 0.6427,
-      "step": 331
-    },
-    {
-      "epoch": 1.6195121951219513,
-      "grad_norm": 1.862723469734192,
-      "learning_rate": 4.685206467727631e-06,
-      "loss": 0.5023,
-      "step": 332
-    },
-    {
-      "epoch": 1.6243902439024391,
-      "grad_norm": 1.4070931673049927,
-      "learning_rate": 4.683342787170644e-06,
-      "loss": 0.4218,
-      "step": 333
-    },
-    {
-      "epoch": 1.629268292682927,
-      "grad_norm": 1.7011152505874634,
-      "learning_rate": 4.6814739790169006e-06,
-      "loss": 0.4429,
-      "step": 334
-    },
-    {
-      "epoch": 1.6341463414634148,
-      "grad_norm": 1.8267077207565308,
-      "learning_rate": 4.679600047655313e-06,
-      "loss": 0.6062,
-      "step": 335
-    },
-    {
-      "epoch": 1.6390243902439026,
-      "grad_norm": 2.120957612991333,
-      "learning_rate": 4.6777209974868194e-06,
-      "loss": 0.9207,
-      "step": 336
-    },
-    {
-      "epoch": 1.6439024390243904,
-      "grad_norm": 1.6445318460464478,
-      "learning_rate": 4.675836832924387e-06,
-      "loss": 0.4324,
-      "step": 337
-    },
-    {
-      "epoch": 1.6487804878048782,
-      "grad_norm": 1.2712141275405884,
-      "learning_rate": 4.673947558392989e-06,
-      "loss": 0.2775,
-      "step": 338
-    },
-    {
-      "epoch": 1.653658536585366,
-      "grad_norm": 1.1474132537841797,
-      "learning_rate": 4.6720531783296e-06,
-      "loss": 0.3437,
-      "step": 339
-    },
-    {
-      "epoch": 1.6585365853658538,
-      "grad_norm": 1.6361477375030518,
-      "learning_rate": 4.670153697183185e-06,
-      "loss": 0.4716,
-      "step": 340
-    },
-    {
-      "epoch": 1.6634146341463416,
-      "grad_norm": 1.6338160037994385,
-      "learning_rate": 4.668249119414692e-06,
-      "loss": 0.4693,
-      "step": 341
-    },
-    {
-      "epoch": 1.6682926829268294,
-      "grad_norm": 1.531384825706482,
-      "learning_rate": 4.666339449497033e-06,
-      "loss": 0.5064,
-      "step": 342
-    },
-    {
-      "epoch": 1.6731707317073172,
-      "grad_norm": 1.8817652463912964,
-      "learning_rate": 4.664424691915084e-06,
-      "loss": 0.4733,
-      "step": 343
-    },
-    {
-      "epoch": 1.678048780487805,
-      "grad_norm": 2.0723443031311035,
-      "learning_rate": 4.6625048511656675e-06,
-      "loss": 0.48,
-      "step": 344
-    },
-    {
-      "epoch": 1.6829268292682928,
-      "grad_norm": 1.6939678192138672,
-      "learning_rate": 4.660579931757543e-06,
-      "loss": 0.3561,
-      "step": 345
-    },
-    {
-      "epoch": 1.6878048780487804,
-      "grad_norm": 1.1976394653320312,
-      "learning_rate": 4.6586499382113985e-06,
-      "loss": 0.405,
-      "step": 346
-    },
-    {
-      "epoch": 1.6926829268292682,
-      "grad_norm": 1.6529325246810913,
-      "learning_rate": 4.6567148750598375e-06,
-      "loss": 0.6813,
-      "step": 347
-    },
-    {
-      "epoch": 1.697560975609756,
-      "grad_norm": 2.042006492614746,
-      "learning_rate": 4.6547747468473705e-06,
-      "loss": 0.7769,
-      "step": 348
-    },
-    {
-      "epoch": 1.7024390243902439,
-      "grad_norm": 1.7209240198135376,
-      "learning_rate": 4.652829558130404e-06,
-      "loss": 0.3444,
-      "step": 349
-    },
-    {
-      "epoch": 1.7073170731707317,
-      "grad_norm": 1.9713730812072754,
-      "learning_rate": 4.6508793134772265e-06,
-      "loss": 0.4758,
-      "step": 350
-    },
-    {
-      "epoch": 1.7121951219512195,
-      "grad_norm": 1.1846798658370972,
-      "learning_rate": 4.648924017468003e-06,
-      "loss": 0.3516,
-      "step": 351
-    },
-    {
-      "epoch": 1.7170731707317073,
-      "grad_norm": 1.9596673250198364,
-      "learning_rate": 4.646963674694761e-06,
-      "loss": 0.6718,
-      "step": 352
-    },
-    {
-      "epoch": 1.721951219512195,
-      "grad_norm": 1.368725061416626,
-      "learning_rate": 4.64499828976138e-06,
-      "loss": 0.2733,
-      "step": 353
-    },
-    {
-      "epoch": 1.726829268292683,
-      "grad_norm": 1.7530791759490967,
-      "learning_rate": 4.64302786728358e-06,
-      "loss": 0.384,
-      "step": 354
-    },
-    {
-      "epoch": 1.7317073170731707,
-      "grad_norm": 1.4671913385391235,
-      "learning_rate": 4.641052411888913e-06,
-      "loss": 0.4127,
-      "step": 355
-    },
-    {
-      "epoch": 1.7365853658536585,
-      "grad_norm": 2.0249969959259033,
-      "learning_rate": 4.6390719282167515e-06,
-      "loss": 0.3638,
-      "step": 356
-    },
-    {
-      "epoch": 1.7414634146341463,
-      "grad_norm": 1.5483126640319824,
-      "learning_rate": 4.637086420918276e-06,
-      "loss": 0.6348,
-      "step": 357
-    },
-    {
-      "epoch": 1.7463414634146341,
-      "grad_norm": 1.5062689781188965,
-      "learning_rate": 4.635095894656465e-06,
-      "loss": 0.5401,
-      "step": 358
-    },
-    {
-      "epoch": 1.751219512195122,
-      "grad_norm": 1.1978603601455688,
-      "learning_rate": 4.633100354106085e-06,
-      "loss": 0.2961,
-      "step": 359
-    },
-    {
-      "epoch": 1.7560975609756098,
-      "grad_norm": 1.768799901008606,
-      "learning_rate": 4.631099803953677e-06,
-      "loss": 0.7047,
-      "step": 360
-    },
-    {
-      "epoch": 1.7609756097560976,
-      "grad_norm": 1.4491766691207886,
-      "learning_rate": 4.629094248897546e-06,
-      "loss": 0.3413,
-      "step": 361
-    },
-    {
-      "epoch": 1.7658536585365854,
-      "grad_norm": 1.5324903726577759,
-      "learning_rate": 4.627083693647757e-06,
-      "loss": 0.3901,
-      "step": 362
-    },
-    {
-      "epoch": 1.7707317073170732,
-      "grad_norm": 1.591989517211914,
-      "learning_rate": 4.625068142926111e-06,
-      "loss": 0.6385,
-      "step": 363
-    },
-    {
-      "epoch": 1.775609756097561,
-      "grad_norm": 1.3414136171340942,
-      "learning_rate": 4.623047601466144e-06,
-      "loss": 0.4892,
-      "step": 364
-    },
-    {
-      "epoch": 1.7804878048780488,
-      "grad_norm": 1.4184423685073853,
-      "learning_rate": 4.621022074013114e-06,
-      "loss": 0.458,
-      "step": 365
-    },
-    {
-      "epoch": 1.7853658536585366,
-      "grad_norm": 1.8010565042495728,
-      "learning_rate": 4.618991565323987e-06,
-      "loss": 0.4202,
-      "step": 366
-    },
-    {
-      "epoch": 1.7902439024390244,
-      "grad_norm": 1.34525728225708,
-      "learning_rate": 4.616956080167426e-06,
-      "loss": 0.4154,
-      "step": 367
-    },
-    {
-      "epoch": 1.7951219512195122,
-      "grad_norm": 1.8559147119522095,
-      "learning_rate": 4.614915623323786e-06,
-      "loss": 0.7751,
-      "step": 368
-    },
-    {
-      "epoch": 1.8,
-      "grad_norm": 1.462708830833435,
-      "learning_rate": 4.612870199585092e-06,
-      "loss": 0.3168,
-      "step": 369
-    },
-    {
-      "epoch": 1.8048780487804879,
-      "grad_norm": 1.8187520503997803,
-      "learning_rate": 4.610819813755038e-06,
-      "loss": 0.4109,
-      "step": 370
-    },
-    {
-      "epoch": 1.8097560975609757,
-      "grad_norm": 1.5606852769851685,
-      "learning_rate": 4.608764470648971e-06,
-      "loss": 0.3183,
-      "step": 371
-    },
-    {
-      "epoch": 1.8146341463414632,
-      "grad_norm": 1.7732083797454834,
-      "learning_rate": 4.606704175093879e-06,
-      "loss": 0.3698,
-      "step": 372
-    },
-    {
-      "epoch": 1.819512195121951,
-      "grad_norm": 1.7014015913009644,
-      "learning_rate": 4.604638931928383e-06,
-      "loss": 0.6874,
-      "step": 373
-    },
-    {
-      "epoch": 1.8243902439024389,
-      "grad_norm": 1.4034913778305054,
-      "learning_rate": 4.602568746002718e-06,
-      "loss": 0.3915,
-      "step": 374
-    },
-    {
-      "epoch": 1.8292682926829267,
-      "grad_norm": 1.9640151262283325,
-      "learning_rate": 4.600493622178734e-06,
-      "loss": 0.7138,
-      "step": 375
-    },
-    {
-      "epoch": 1.8341463414634145,
-      "grad_norm": 1.7484368085861206,
-      "learning_rate": 4.598413565329876e-06,
-      "loss": 0.4021,
-      "step": 376
-    },
-    {
-      "epoch": 1.8390243902439023,
-      "grad_norm": 1.303987979888916,
-      "learning_rate": 4.596328580341169e-06,
-      "loss": 0.435,
-      "step": 377
-    },
-    {
-      "epoch": 1.84390243902439,
-      "grad_norm": 1.7868525981903076,
-      "learning_rate": 4.5942386721092195e-06,
-      "loss": 0.5827,
-      "step": 378
-    },
-    {
-      "epoch": 1.848780487804878,
-      "grad_norm": 1.9132968187332153,
-      "learning_rate": 4.592143845542189e-06,
-      "loss": 0.5401,
-      "step": 379
-    },
-    {
-      "epoch": 1.8536585365853657,
-      "grad_norm": 1.8668831586837769,
-      "learning_rate": 4.590044105559797e-06,
-      "loss": 0.7394,
-      "step": 380
-    },
-    {
-      "epoch": 1.8585365853658535,
-      "grad_norm": 1.2784031629562378,
-      "learning_rate": 4.587939457093296e-06,
-      "loss": 0.378,
-      "step": 381
-    },
-    {
-      "epoch": 1.8634146341463413,
-      "grad_norm": 2.4104111194610596,
-      "learning_rate": 4.585829905085468e-06,
-      "loss": 0.5195,
-      "step": 382
-    },
-    {
-      "epoch": 1.8682926829268292,
-      "grad_norm": 1.7685518264770508,
-      "learning_rate": 4.5837154544906135e-06,
-      "loss": 0.649,
-      "step": 383
-    },
-    {
-      "epoch": 1.873170731707317,
-      "grad_norm": 1.6093931198120117,
-      "learning_rate": 4.581596110274535e-06,
-      "loss": 0.529,
-      "step": 384
-    },
-    {
-      "epoch": 1.8780487804878048,
-      "grad_norm": 1.6542202234268188,
-      "learning_rate": 4.579471877414527e-06,
-      "loss": 0.8192,
-      "step": 385
-    },
-    {
-      "epoch": 1.8829268292682926,
-      "grad_norm": 2.2171826362609863,
-      "learning_rate": 4.577342760899368e-06,
-      "loss": 0.5918,
-      "step": 386
-    },
-    {
-      "epoch": 1.8878048780487804,
-      "grad_norm": 1.5181479454040527,
-      "learning_rate": 4.575208765729302e-06,
-      "loss": 0.4064,
-      "step": 387
-    },
-    {
-      "epoch": 1.8926829268292682,
-      "grad_norm": 1.5646779537200928,
-      "learning_rate": 4.573069896916035e-06,
-      "loss": 0.6088,
-      "step": 388
-    },
-    {
-      "epoch": 1.897560975609756,
-      "grad_norm": 1.4816564321517944,
-      "learning_rate": 4.5709261594827125e-06,
-      "loss": 0.4965,
-      "step": 389
-    },
-    {
-      "epoch": 1.9024390243902438,
-      "grad_norm": 1.4817956686019897,
-      "learning_rate": 4.568777558463922e-06,
-      "loss": 0.3348,
-      "step": 390
-    },
-    {
-      "epoch": 1.9073170731707316,
-      "grad_norm": 1.482393503189087,
-      "learning_rate": 4.566624098905665e-06,
-      "loss": 0.5659,
-      "step": 391
-    },
-    {
-      "epoch": 1.9121951219512194,
-      "grad_norm": 1.7307995557785034,
-      "learning_rate": 4.564465785865359e-06,
-      "loss": 0.4202,
-      "step": 392
-    },
-    {
-      "epoch": 1.9170731707317072,
-      "grad_norm": 1.3334952592849731,
-      "learning_rate": 4.56230262441182e-06,
-      "loss": 0.3028,
-      "step": 393
-    },
-    {
-      "epoch": 1.921951219512195,
-      "grad_norm": 1.3310606479644775,
-      "learning_rate": 4.560134619625247e-06,
-      "loss": 0.4366,
-      "step": 394
-    },
-    {
-      "epoch": 1.9268292682926829,
-      "grad_norm": 1.4220263957977295,
-      "learning_rate": 4.5579617765972155e-06,
-      "loss": 0.4635,
-      "step": 395
-    },
-    {
-      "epoch": 1.9317073170731707,
-      "grad_norm": 1.6790047883987427,
-      "learning_rate": 4.555784100430662e-06,
-      "loss": 0.4049,
-      "step": 396
-    },
-    {
-      "epoch": 1.9365853658536585,
-      "grad_norm": 1.489020824432373,
-      "learning_rate": 4.553601596239877e-06,
-      "loss": 0.3564,
-      "step": 397
-    },
-    {
-      "epoch": 1.9414634146341463,
-      "grad_norm": 1.3163279294967651,
-      "learning_rate": 4.551414269150489e-06,
-      "loss": 0.3862,
-      "step": 398
-    },
-    {
-      "epoch": 1.946341463414634,
-      "grad_norm": 1.4149785041809082,
-      "learning_rate": 4.54922212429945e-06,
-      "loss": 0.3606,
-      "step": 399
-    },
-    {
-      "epoch": 1.951219512195122,
-      "grad_norm": 1.5937131643295288,
-      "learning_rate": 4.547025166835027e-06,
-      "loss": 0.506,
-      "step": 400
-    },
-    {
-      "epoch": 1.9560975609756097,
-      "grad_norm": 1.6854530572891235,
-      "learning_rate": 4.544823401916794e-06,
-      "loss": 0.6974,
-      "step": 401
-    },
-    {
-      "epoch": 1.9609756097560975,
-      "grad_norm": 1.5636667013168335,
-      "learning_rate": 4.542616834715612e-06,
-      "loss": 0.4172,
-      "step": 402
-    },
-    {
-      "epoch": 1.9658536585365853,
-      "grad_norm": 1.484148383140564,
-      "learning_rate": 4.540405470413618e-06,
-      "loss": 0.3189,
-      "step": 403
-    },
-    {
-      "epoch": 1.9707317073170731,
-      "grad_norm": 1.4421648979187012,
-      "learning_rate": 4.53818931420422e-06,
-      "loss": 0.5316,
-      "step": 404
-    },
-    {
-      "epoch": 1.975609756097561,
-      "grad_norm": 1.4186997413635254,
-      "learning_rate": 4.535968371292076e-06,
-      "loss": 0.4661,
-      "step": 405
-    },
-    {
-      "epoch": 1.9804878048780488,
-      "grad_norm": 1.2781983613967896,
-      "learning_rate": 4.533742646893086e-06,
-      "loss": 0.4689,
-      "step": 406
-    },
-    {
-      "epoch": 1.9853658536585366,
-      "grad_norm": 1.588996171951294,
-      "learning_rate": 4.531512146234383e-06,
-      "loss": 0.5309,
-      "step": 407
-    },
-    {
-      "epoch": 1.9902439024390244,
-      "grad_norm": 1.7258890867233276,
-      "learning_rate": 4.529276874554312e-06,
-      "loss": 0.7082,
-      "step": 408
-    },
-    {
-      "epoch": 1.9951219512195122,
-      "grad_norm": 1.4261395931243896,
-      "learning_rate": 4.527036837102426e-06,
-      "loss": 0.3534,
-      "step": 409
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 1.835606575012207,
-      "learning_rate": 4.524792039139471e-06,
-      "loss": 0.5411,
-      "step": 410
-    }
-  ],
-  "logging_steps": 1,
-  "max_steps": 2050,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 208,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.2119917182163354e+17,
-  "train_batch_size": 1,
-  "trial_name": null,
-  "trial_params": null
-}

qwen2_5_7b_instruct/limo/checkpoint-410/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

qwen2_5_7b_instruct/limo/checkpoint-615/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

qwen2_5_7b_instruct/limo/checkpoint-615/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

qwen2_5_7b_instruct/limo/checkpoint-615/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 32768,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 1000000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

qwen2_5_7b_instruct/limo/checkpoint-615/generation_config.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "transformers_version": "4.55.0",
-  "use_cache": false
-}