KublaiKhan1 commited on Aug 25, 2025

Commit

4d317de

verified ·

1 Parent(s): 4b58831

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/added_tokens.json +24 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/chat_template.jinja +54 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/config.json +58 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/generation_config.json +9 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/merges.txt +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/model.safetensors.index.json +347 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/special_tokens_map.json +31 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/tokenizer_config.json +208 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/trainer_state.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/vocab.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/added_tokens.json +24 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/chat_template.jinja +54 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/config.json +58 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/generation_config.json +9 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/merges.txt +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/model.safetensors.index.json +347 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/special_tokens_map.json +31 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/tokenizer_config.json +208 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/trainer_state.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/vocab.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/added_tokens.json +24 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/chat_template.jinja +54 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/config.json +58 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/generation_config.json +9 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/merges.txt +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/model.safetensors.index.json +347 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/special_tokens_map.json +31 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/trainer_state.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/added_tokens.json +24 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/chat_template.jinja +54 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/config.json +58 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/generation_config.json +9 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/merges.txt +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/model.safetensors.index.json +347 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/special_tokens_map.json +31 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/tokenizer_config.json +208 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/trainer_state.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/vocab.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-374/tokenizer_config.json +208 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/added_tokens.json +24 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/chat_template.jinja +54 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/config.json +58 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/generation_config.json +9 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/merges.txt +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/model.safetensors.index.json +347 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/special_tokens_map.json +31 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/tokenizer_config.json +208 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/trainer_state.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/vocab.json +0 -0
qwen_2_5_7b_math_instruct/limo_filtered_combined/trainer_log.jsonl +374 -0

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.55.0"
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1122/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.55.0"
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1309/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.55.0"
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1496/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.55.0"
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-1870/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-374/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.55.0"
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,347 @@

+{
+  "metadata": {
+    "total_parameters": 1903904128,
+    "total_size": 30462466048
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00006-of-00007.safetensors"
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/checkpoint-748/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

qwen_2_5_7b_math_instruct/limo_filtered_combined/trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,374 @@

+{"current_steps": 1, "total_steps": 1870, "loss": 3.2539, "lr": 5e-06, "epoch": 0.0053475935828877, "percentage": 0.05, "elapsed_time": "0:00:02", "remaining_time": "1:20:13"}
+{"current_steps": 2, "total_steps": 1870, "loss": 6.258, "lr": 4.99999647201733e-06, "epoch": 0.0106951871657754, "percentage": 0.11, "elapsed_time": "0:00:05", "remaining_time": "1:27:58"}
+{"current_steps": 3, "total_steps": 1870, "loss": 2.4767, "lr": 4.999985888079276e-06, "epoch": 0.016042780748663103, "percentage": 0.16, "elapsed_time": "0:00:07", "remaining_time": "1:15:35"}
+{"current_steps": 4, "total_steps": 1870, "loss": 5.4026, "lr": 4.999968248215712e-06, "epoch": 0.0213903743315508, "percentage": 0.21, "elapsed_time": "0:00:12", "remaining_time": "1:36:35"}
+{"current_steps": 5, "total_steps": 1870, "loss": 3.818, "lr": 4.999943552476422e-06, "epoch": 0.026737967914438502, "percentage": 0.27, "elapsed_time": "0:00:16", "remaining_time": "1:43:25"}
+{"current_steps": 6, "total_steps": 1870, "loss": 2.7186, "lr": 4.999911800931108e-06, "epoch": 0.03208556149732621, "percentage": 0.32, "elapsed_time": "0:00:20", "remaining_time": "1:45:18"}
+{"current_steps": 7, "total_steps": 1870, "loss": 1.2419, "lr": 4.999872993669387e-06, "epoch": 0.0374331550802139, "percentage": 0.37, "elapsed_time": "0:00:21", "remaining_time": "1:35:53"}
+{"current_steps": 8, "total_steps": 1870, "loss": 2.443, "lr": 4.999827130800785e-06, "epoch": 0.0427807486631016, "percentage": 0.43, "elapsed_time": "0:00:23", "remaining_time": "1:32:13"}
+{"current_steps": 9, "total_steps": 1870, "loss": 3.1664, "lr": 4.999774212454746e-06, "epoch": 0.0481283422459893, "percentage": 0.48, "elapsed_time": "0:00:26", "remaining_time": "1:32:41"}
+{"current_steps": 10, "total_steps": 1870, "loss": 2.4137, "lr": 4.999714238780626e-06, "epoch": 0.053475935828877004, "percentage": 0.53, "elapsed_time": "0:00:29", "remaining_time": "1:32:18"}
+{"current_steps": 11, "total_steps": 1870, "loss": 2.2937, "lr": 4.999647209947694e-06, "epoch": 0.058823529411764705, "percentage": 0.59, "elapsed_time": "0:00:33", "remaining_time": "1:33:29"}
+{"current_steps": 12, "total_steps": 1870, "loss": 2.1922, "lr": 4.999573126145132e-06, "epoch": 0.06417112299465241, "percentage": 0.64, "elapsed_time": "0:00:36", "remaining_time": "1:33:25"}
+{"current_steps": 13, "total_steps": 1870, "loss": 1.5914, "lr": 4.999491987582032e-06, "epoch": 0.06951871657754011, "percentage": 0.7, "elapsed_time": "0:00:39", "remaining_time": "1:34:45"}
+{"current_steps": 14, "total_steps": 1870, "loss": 2.5434, "lr": 4.999403794487399e-06, "epoch": 0.0748663101604278, "percentage": 0.75, "elapsed_time": "0:00:45", "remaining_time": "1:39:53"}
+{"current_steps": 15, "total_steps": 1870, "loss": 1.6044, "lr": 4.999308547110147e-06, "epoch": 0.08021390374331551, "percentage": 0.8, "elapsed_time": "0:00:47", "remaining_time": "1:37:34"}
+{"current_steps": 16, "total_steps": 1870, "loss": 1.6413, "lr": 4.9992062457191005e-06, "epoch": 0.0855614973262032, "percentage": 0.86, "elapsed_time": "0:00:48", "remaining_time": "1:34:30"}
+{"current_steps": 17, "total_steps": 1870, "loss": 1.601, "lr": 4.999096890602996e-06, "epoch": 0.09090909090909091, "percentage": 0.91, "elapsed_time": "0:00:52", "remaining_time": "1:36:07"}
+{"current_steps": 18, "total_steps": 1870, "loss": 1.7445, "lr": 4.998980482070473e-06, "epoch": 0.0962566844919786, "percentage": 0.96, "elapsed_time": "0:00:56", "remaining_time": "1:37:16"}
+{"current_steps": 19, "total_steps": 1870, "loss": 2.3176, "lr": 4.998857020450084e-06, "epoch": 0.10160427807486631, "percentage": 1.02, "elapsed_time": "0:01:02", "remaining_time": "1:40:52"}
+{"current_steps": 20, "total_steps": 1870, "loss": 1.3387, "lr": 4.998726506090283e-06, "epoch": 0.10695187165775401, "percentage": 1.07, "elapsed_time": "0:01:04", "remaining_time": "1:38:59"}
+{"current_steps": 21, "total_steps": 1870, "loss": 1.0422, "lr": 4.998588939359435e-06, "epoch": 0.11229946524064172, "percentage": 1.12, "elapsed_time": "0:01:05", "remaining_time": "1:36:24"}
+{"current_steps": 22, "total_steps": 1870, "loss": 1.8809, "lr": 4.998444320645803e-06, "epoch": 0.11764705882352941, "percentage": 1.18, "elapsed_time": "0:01:11", "remaining_time": "1:39:59"}
+{"current_steps": 23, "total_steps": 1870, "loss": 1.5926, "lr": 4.998292650357558e-06, "epoch": 0.12299465240641712, "percentage": 1.23, "elapsed_time": "0:01:15", "remaining_time": "1:40:23"}
+{"current_steps": 24, "total_steps": 1870, "loss": 2.4575, "lr": 4.998133928922773e-06, "epoch": 0.12834224598930483, "percentage": 1.28, "elapsed_time": "0:01:20", "remaining_time": "1:43:32"}
+{"current_steps": 25, "total_steps": 1870, "loss": 1.3485, "lr": 4.99796815678942e-06, "epoch": 0.13368983957219252, "percentage": 1.34, "elapsed_time": "0:01:23", "remaining_time": "1:43:09"}
+{"current_steps": 26, "total_steps": 1870, "loss": 1.9172, "lr": 4.997795334425372e-06, "epoch": 0.13903743315508021, "percentage": 1.39, "elapsed_time": "0:01:29", "remaining_time": "1:45:40"}
+{"current_steps": 27, "total_steps": 1870, "loss": 2.1168, "lr": 4.997615462318403e-06, "epoch": 0.1443850267379679, "percentage": 1.44, "elapsed_time": "0:01:33", "remaining_time": "1:46:52"}
+{"current_steps": 28, "total_steps": 1870, "loss": 1.5822, "lr": 4.997428540976177e-06, "epoch": 0.1497326203208556, "percentage": 1.5, "elapsed_time": "0:01:38", "remaining_time": "1:48:29"}
+{"current_steps": 29, "total_steps": 1870, "loss": 1.2184, "lr": 4.997234570926263e-06, "epoch": 0.15508021390374332, "percentage": 1.55, "elapsed_time": "0:01:42", "remaining_time": "1:48:05"}
+{"current_steps": 30, "total_steps": 1870, "loss": 1.0216, "lr": 4.997033552716116e-06, "epoch": 0.16042780748663102, "percentage": 1.6, "elapsed_time": "0:01:43", "remaining_time": "1:46:08"}
+{"current_steps": 31, "total_steps": 1870, "loss": 0.9795, "lr": 4.9968254869130885e-06, "epoch": 0.1657754010695187, "percentage": 1.66, "elapsed_time": "0:01:45", "remaining_time": "1:44:30"}
+{"current_steps": 32, "total_steps": 1870, "loss": 0.7698, "lr": 4.996610374104422e-06, "epoch": 0.1711229946524064, "percentage": 1.71, "elapsed_time": "0:01:46", "remaining_time": "1:41:52"}
+{"current_steps": 33, "total_steps": 1870, "loss": 1.3918, "lr": 4.9963882148972475e-06, "epoch": 0.17647058823529413, "percentage": 1.76, "elapsed_time": "0:01:47", "remaining_time": "1:39:56"}
+{"current_steps": 34, "total_steps": 1870, "loss": 1.1074, "lr": 4.996159009918586e-06, "epoch": 0.18181818181818182, "percentage": 1.82, "elapsed_time": "0:01:48", "remaining_time": "1:38:02"}
+{"current_steps": 35, "total_steps": 1870, "loss": 1.4097, "lr": 4.9959227598153395e-06, "epoch": 0.18716577540106952, "percentage": 1.87, "elapsed_time": "0:01:52", "remaining_time": "1:38:25"}
+{"current_steps": 36, "total_steps": 1870, "loss": 1.6475, "lr": 4.9956794652542994e-06, "epoch": 0.1925133689839572, "percentage": 1.93, "elapsed_time": "0:01:55", "remaining_time": "1:38:06"}
+{"current_steps": 37, "total_steps": 1870, "loss": 1.0298, "lr": 4.9954291269221364e-06, "epoch": 0.19786096256684493, "percentage": 1.98, "elapsed_time": "0:01:58", "remaining_time": "1:37:37"}
+{"current_steps": 38, "total_steps": 1870, "loss": 1.6997, "lr": 4.995171745525401e-06, "epoch": 0.20320855614973263, "percentage": 2.03, "elapsed_time": "0:02:02", "remaining_time": "1:38:43"}
+{"current_steps": 39, "total_steps": 1870, "loss": 1.4041, "lr": 4.994907321790524e-06, "epoch": 0.20855614973262032, "percentage": 2.09, "elapsed_time": "0:02:05", "remaining_time": "1:38:29"}
+{"current_steps": 40, "total_steps": 1870, "loss": 1.023, "lr": 4.994635856463811e-06, "epoch": 0.21390374331550802, "percentage": 2.14, "elapsed_time": "0:02:09", "remaining_time": "1:38:30"}
+{"current_steps": 41, "total_steps": 1870, "loss": 1.6556, "lr": 4.994357350311441e-06, "epoch": 0.2192513368983957, "percentage": 2.19, "elapsed_time": "0:02:14", "remaining_time": "1:40:18"}
+{"current_steps": 42, "total_steps": 1870, "loss": 1.2464, "lr": 4.994071804119467e-06, "epoch": 0.22459893048128343, "percentage": 2.25, "elapsed_time": "0:02:17", "remaining_time": "1:39:48"}
+{"current_steps": 43, "total_steps": 1870, "loss": 1.8306, "lr": 4.993779218693811e-06, "epoch": 0.22994652406417113, "percentage": 2.3, "elapsed_time": "0:02:20", "remaining_time": "1:39:29"}
+{"current_steps": 44, "total_steps": 1870, "loss": 1.0122, "lr": 4.99347959486026e-06, "epoch": 0.23529411764705882, "percentage": 2.35, "elapsed_time": "0:02:23", "remaining_time": "1:39:34"}
+{"current_steps": 45, "total_steps": 1870, "loss": 0.8706, "lr": 4.99317293346447e-06, "epoch": 0.24064171122994651, "percentage": 2.41, "elapsed_time": "0:02:26", "remaining_time": "1:39:02"}
+{"current_steps": 46, "total_steps": 1870, "loss": 0.7815, "lr": 4.992859235371958e-06, "epoch": 0.24598930481283424, "percentage": 2.46, "elapsed_time": "0:02:27", "remaining_time": "1:37:38"}
+{"current_steps": 47, "total_steps": 1870, "loss": 0.8891, "lr": 4.992538501468101e-06, "epoch": 0.25133689839572193, "percentage": 2.51, "elapsed_time": "0:02:31", "remaining_time": "1:37:39"}
+{"current_steps": 48, "total_steps": 1870, "loss": 1.3393, "lr": 4.992210732658132e-06, "epoch": 0.25668449197860965, "percentage": 2.57, "elapsed_time": "0:02:34", "remaining_time": "1:37:28"}
+{"current_steps": 49, "total_steps": 1870, "loss": 1.4412, "lr": 4.991875929867143e-06, "epoch": 0.2620320855614973, "percentage": 2.62, "elapsed_time": "0:02:36", "remaining_time": "1:37:12"}
+{"current_steps": 50, "total_steps": 1870, "loss": 0.8567, "lr": 4.991534094040077e-06, "epoch": 0.26737967914438504, "percentage": 2.67, "elapsed_time": "0:02:40", "remaining_time": "1:37:27"}
+{"current_steps": 51, "total_steps": 1870, "loss": 0.8855, "lr": 4.991185226141726e-06, "epoch": 0.2727272727272727, "percentage": 2.73, "elapsed_time": "0:02:41", "remaining_time": "1:36:09"}
+{"current_steps": 52, "total_steps": 1870, "loss": 1.1081, "lr": 4.990829327156729e-06, "epoch": 0.27807486631016043, "percentage": 2.78, "elapsed_time": "0:02:44", "remaining_time": "1:35:42"}
+{"current_steps": 53, "total_steps": 1870, "loss": 0.9124, "lr": 4.990466398089571e-06, "epoch": 0.28342245989304815, "percentage": 2.83, "elapsed_time": "0:02:45", "remaining_time": "1:34:31"}
+{"current_steps": 54, "total_steps": 1870, "loss": 0.6002, "lr": 4.99009643996458e-06, "epoch": 0.2887700534759358, "percentage": 2.89, "elapsed_time": "0:02:47", "remaining_time": "1:33:57"}
+{"current_steps": 55, "total_steps": 1870, "loss": 0.7522, "lr": 4.989719453825918e-06, "epoch": 0.29411764705882354, "percentage": 2.94, "elapsed_time": "0:02:49", "remaining_time": "1:33:15"}
+{"current_steps": 56, "total_steps": 1870, "loss": 0.7829, "lr": 4.989335440737587e-06, "epoch": 0.2994652406417112, "percentage": 2.99, "elapsed_time": "0:02:52", "remaining_time": "1:32:54"}
+{"current_steps": 57, "total_steps": 1870, "loss": 0.9124, "lr": 4.9889444017834185e-06, "epoch": 0.3048128342245989, "percentage": 3.05, "elapsed_time": "0:02:53", "remaining_time": "1:31:56"}
+{"current_steps": 58, "total_steps": 1870, "loss": 0.9708, "lr": 4.988546338067078e-06, "epoch": 0.31016042780748665, "percentage": 3.1, "elapsed_time": "0:02:55", "remaining_time": "1:31:38"}
+{"current_steps": 59, "total_steps": 1870, "loss": 1.1277, "lr": 4.988141250712053e-06, "epoch": 0.3155080213903743, "percentage": 3.16, "elapsed_time": "0:03:00", "remaining_time": "1:32:27"}
+{"current_steps": 60, "total_steps": 1870, "loss": 0.9477, "lr": 4.987729140861657e-06, "epoch": 0.32085561497326204, "percentage": 3.21, "elapsed_time": "0:03:02", "remaining_time": "1:31:32"}
+{"current_steps": 61, "total_steps": 1870, "loss": 0.9895, "lr": 4.987310009679023e-06, "epoch": 0.32620320855614976, "percentage": 3.26, "elapsed_time": "0:03:04", "remaining_time": "1:30:57"}
+{"current_steps": 62, "total_steps": 1870, "loss": 0.8927, "lr": 4.986883858347101e-06, "epoch": 0.3315508021390374, "percentage": 3.32, "elapsed_time": "0:03:05", "remaining_time": "1:30:15"}
+{"current_steps": 63, "total_steps": 1870, "loss": 0.657, "lr": 4.986450688068655e-06, "epoch": 0.33689839572192515, "percentage": 3.37, "elapsed_time": "0:03:08", "remaining_time": "1:29:54"}
+{"current_steps": 64, "total_steps": 1870, "loss": 0.8561, "lr": 4.986010500066258e-06, "epoch": 0.3422459893048128, "percentage": 3.42, "elapsed_time": "0:03:11", "remaining_time": "1:30:00"}
+{"current_steps": 65, "total_steps": 1870, "loss": 0.8016, "lr": 4.985563295582292e-06, "epoch": 0.34759358288770054, "percentage": 3.48, "elapsed_time": "0:03:13", "remaining_time": "1:29:19"}
+{"current_steps": 66, "total_steps": 1870, "loss": 0.9754, "lr": 4.98510907587894e-06, "epoch": 0.35294117647058826, "percentage": 3.53, "elapsed_time": "0:03:16", "remaining_time": "1:29:29"}
+{"current_steps": 67, "total_steps": 1870, "loss": 1.2643, "lr": 4.984647842238185e-06, "epoch": 0.3582887700534759, "percentage": 3.58, "elapsed_time": "0:03:22", "remaining_time": "1:30:37"}
+{"current_steps": 68, "total_steps": 1870, "loss": 0.6543, "lr": 4.984179595961806e-06, "epoch": 0.36363636363636365, "percentage": 3.64, "elapsed_time": "0:03:24", "remaining_time": "1:30:31"}
+{"current_steps": 69, "total_steps": 1870, "loss": 0.7784, "lr": 4.983704338371375e-06, "epoch": 0.3689839572192513, "percentage": 3.69, "elapsed_time": "0:03:26", "remaining_time": "1:29:50"}
+{"current_steps": 70, "total_steps": 1870, "loss": 0.6633, "lr": 4.983222070808255e-06, "epoch": 0.37433155080213903, "percentage": 3.74, "elapsed_time": "0:03:28", "remaining_time": "1:29:29"}
+{"current_steps": 71, "total_steps": 1870, "loss": 1.0887, "lr": 4.982732794633588e-06, "epoch": 0.37967914438502676, "percentage": 3.8, "elapsed_time": "0:03:30", "remaining_time": "1:29:03"}
+{"current_steps": 72, "total_steps": 1870, "loss": 0.8154, "lr": 4.982236511228301e-06, "epoch": 0.3850267379679144, "percentage": 3.85, "elapsed_time": "0:03:31", "remaining_time": "1:28:08"}
+{"current_steps": 73, "total_steps": 1870, "loss": 1.2385, "lr": 4.981733221993099e-06, "epoch": 0.39037433155080214, "percentage": 3.9, "elapsed_time": "0:03:35", "remaining_time": "1:28:15"}
+{"current_steps": 74, "total_steps": 1870, "loss": 1.0381, "lr": 4.981222928348456e-06, "epoch": 0.39572192513368987, "percentage": 3.96, "elapsed_time": "0:03:38", "remaining_time": "1:28:11"}
+{"current_steps": 75, "total_steps": 1870, "loss": 0.9279, "lr": 4.98070563173462e-06, "epoch": 0.40106951871657753, "percentage": 4.01, "elapsed_time": "0:03:40", "remaining_time": "1:27:53"}
+{"current_steps": 76, "total_steps": 1870, "loss": 0.7559, "lr": 4.980181333611601e-06, "epoch": 0.40641711229946526, "percentage": 4.06, "elapsed_time": "0:03:44", "remaining_time": "1:28:14"}
+{"current_steps": 77, "total_steps": 1870, "loss": 0.7301, "lr": 4.979650035459171e-06, "epoch": 0.4117647058823529, "percentage": 4.12, "elapsed_time": "0:03:45", "remaining_time": "1:27:37"}
+{"current_steps": 78, "total_steps": 1870, "loss": 1.1018, "lr": 4.9791117387768575e-06, "epoch": 0.41711229946524064, "percentage": 4.17, "elapsed_time": "0:03:47", "remaining_time": "1:27:09"}
+{"current_steps": 79, "total_steps": 1870, "loss": 0.6179, "lr": 4.978566445083942e-06, "epoch": 0.42245989304812837, "percentage": 4.22, "elapsed_time": "0:03:49", "remaining_time": "1:26:48"}
+{"current_steps": 80, "total_steps": 1870, "loss": 0.734, "lr": 4.978014155919455e-06, "epoch": 0.42780748663101603, "percentage": 4.28, "elapsed_time": "0:03:50", "remaining_time": "1:26:04"}
+{"current_steps": 81, "total_steps": 1870, "loss": 0.7967, "lr": 4.977454872842169e-06, "epoch": 0.43315508021390375, "percentage": 4.33, "elapsed_time": "0:03:53", "remaining_time": "1:25:51"}
+{"current_steps": 82, "total_steps": 1870, "loss": 1.0332, "lr": 4.976888597430597e-06, "epoch": 0.4385026737967914, "percentage": 4.39, "elapsed_time": "0:03:56", "remaining_time": "1:26:04"}
+{"current_steps": 83, "total_steps": 1870, "loss": 0.9266, "lr": 4.976315331282985e-06, "epoch": 0.44385026737967914, "percentage": 4.44, "elapsed_time": "0:04:00", "remaining_time": "1:26:22"}
+{"current_steps": 84, "total_steps": 1870, "loss": 0.7738, "lr": 4.9757350760173144e-06, "epoch": 0.44919786096256686, "percentage": 4.49, "elapsed_time": "0:04:03", "remaining_time": "1:26:18"}
+{"current_steps": 85, "total_steps": 1870, "loss": 1.0436, "lr": 4.975147833271288e-06, "epoch": 0.45454545454545453, "percentage": 4.55, "elapsed_time": "0:04:06", "remaining_time": "1:26:24"}
+{"current_steps": 86, "total_steps": 1870, "loss": 0.7659, "lr": 4.974553604702332e-06, "epoch": 0.45989304812834225, "percentage": 4.6, "elapsed_time": "0:04:10", "remaining_time": "1:26:44"}
+{"current_steps": 87, "total_steps": 1870, "loss": 0.8631, "lr": 4.973952391987589e-06, "epoch": 0.46524064171123, "percentage": 4.65, "elapsed_time": "0:04:12", "remaining_time": "1:26:07"}
+{"current_steps": 88, "total_steps": 1870, "loss": 1.1419, "lr": 4.9733441968239125e-06, "epoch": 0.47058823529411764, "percentage": 4.71, "elapsed_time": "0:04:14", "remaining_time": "1:25:44"}
+{"current_steps": 89, "total_steps": 1870, "loss": 0.6647, "lr": 4.972729020927866e-06, "epoch": 0.47593582887700536, "percentage": 4.76, "elapsed_time": "0:04:16", "remaining_time": "1:25:30"}
+{"current_steps": 90, "total_steps": 1870, "loss": 0.8533, "lr": 4.97210686603571e-06, "epoch": 0.48128342245989303, "percentage": 4.81, "elapsed_time": "0:04:18", "remaining_time": "1:25:04"}
+{"current_steps": 91, "total_steps": 1870, "loss": 0.7872, "lr": 4.97147773390341e-06, "epoch": 0.48663101604278075, "percentage": 4.87, "elapsed_time": "0:04:21", "remaining_time": "1:25:13"}
+{"current_steps": 92, "total_steps": 1870, "loss": 0.8983, "lr": 4.970841626306617e-06, "epoch": 0.4919786096256685, "percentage": 4.92, "elapsed_time": "0:04:24", "remaining_time": "1:25:04"}
+{"current_steps": 93, "total_steps": 1870, "loss": 1.0416, "lr": 4.970198545040673e-06, "epoch": 0.49732620320855614, "percentage": 4.97, "elapsed_time": "0:04:30", "remaining_time": "1:25:59"}
+{"current_steps": 94, "total_steps": 1870, "loss": 0.9088, "lr": 4.969548491920603e-06, "epoch": 0.5026737967914439, "percentage": 5.03, "elapsed_time": "0:04:33", "remaining_time": "1:26:13"}
+{"current_steps": 95, "total_steps": 1870, "loss": 0.9928, "lr": 4.968891468781105e-06, "epoch": 0.5080213903743316, "percentage": 5.08, "elapsed_time": "0:04:36", "remaining_time": "1:26:10"}
+{"current_steps": 96, "total_steps": 1870, "loss": 0.8154, "lr": 4.968227477476554e-06, "epoch": 0.5133689839572193, "percentage": 5.13, "elapsed_time": "0:04:37", "remaining_time": "1:25:35"}
+{"current_steps": 97, "total_steps": 1870, "loss": 1.1196, "lr": 4.9675565198809905e-06, "epoch": 0.5187165775401069, "percentage": 5.19, "elapsed_time": "0:04:42", "remaining_time": "1:26:03"}
+{"current_steps": 98, "total_steps": 1870, "loss": 0.966, "lr": 4.966878597888114e-06, "epoch": 0.5240641711229946, "percentage": 5.24, "elapsed_time": "0:04:45", "remaining_time": "1:25:59"}
+{"current_steps": 99, "total_steps": 1870, "loss": 0.6863, "lr": 4.966193713411284e-06, "epoch": 0.5294117647058824, "percentage": 5.29, "elapsed_time": "0:04:47", "remaining_time": "1:25:39"}
+{"current_steps": 100, "total_steps": 1870, "loss": 0.6748, "lr": 4.965501868383507e-06, "epoch": 0.5347593582887701, "percentage": 5.35, "elapsed_time": "0:04:51", "remaining_time": "1:26:05"}
+{"current_steps": 101, "total_steps": 1870, "loss": 0.9697, "lr": 4.964803064757438e-06, "epoch": 0.5401069518716578, "percentage": 5.4, "elapsed_time": "0:04:54", "remaining_time": "1:26:01"}
+{"current_steps": 102, "total_steps": 1870, "loss": 0.7805, "lr": 4.964097304505371e-06, "epoch": 0.5454545454545454, "percentage": 5.45, "elapsed_time": "0:04:57", "remaining_time": "1:26:00"}
+{"current_steps": 103, "total_steps": 1870, "loss": 0.6536, "lr": 4.963384589619233e-06, "epoch": 0.5508021390374331, "percentage": 5.51, "elapsed_time": "0:04:59", "remaining_time": "1:25:44"}
+{"current_steps": 104, "total_steps": 1870, "loss": 0.8689, "lr": 4.962664922110581e-06, "epoch": 0.5561497326203209, "percentage": 5.56, "elapsed_time": "0:05:01", "remaining_time": "1:25:11"}
+{"current_steps": 105, "total_steps": 1870, "loss": 0.9955, "lr": 4.9619383040105954e-06, "epoch": 0.5614973262032086, "percentage": 5.61, "elapsed_time": "0:05:02", "remaining_time": "1:24:45"}
+{"current_steps": 106, "total_steps": 1870, "loss": 0.9104, "lr": 4.961204737370071e-06, "epoch": 0.5668449197860963, "percentage": 5.67, "elapsed_time": "0:05:06", "remaining_time": "1:24:54"}
+{"current_steps": 107, "total_steps": 1870, "loss": 1.1661, "lr": 4.960464224259418e-06, "epoch": 0.5721925133689839, "percentage": 5.72, "elapsed_time": "0:05:11", "remaining_time": "1:25:37"}
+{"current_steps": 108, "total_steps": 1870, "loss": 0.5704, "lr": 4.95971676676865e-06, "epoch": 0.5775401069518716, "percentage": 5.78, "elapsed_time": "0:05:14", "remaining_time": "1:25:29"}
+{"current_steps": 109, "total_steps": 1870, "loss": 0.8837, "lr": 4.958962367007381e-06, "epoch": 0.5828877005347594, "percentage": 5.83, "elapsed_time": "0:05:16", "remaining_time": "1:25:06"}
+{"current_steps": 110, "total_steps": 1870, "loss": 0.7352, "lr": 4.958201027104818e-06, "epoch": 0.5882352941176471, "percentage": 5.88, "elapsed_time": "0:05:18", "remaining_time": "1:25:01"}
+{"current_steps": 111, "total_steps": 1870, "loss": 0.6904, "lr": 4.957432749209755e-06, "epoch": 0.5935828877005348, "percentage": 5.94, "elapsed_time": "0:05:21", "remaining_time": "1:24:58"}
+{"current_steps": 112, "total_steps": 1870, "loss": 0.8564, "lr": 4.95665753549057e-06, "epoch": 0.5989304812834224, "percentage": 5.99, "elapsed_time": "0:05:26", "remaining_time": "1:25:23"}
+{"current_steps": 113, "total_steps": 1870, "loss": 1.2627, "lr": 4.9558753881352165e-06, "epoch": 0.6042780748663101, "percentage": 6.04, "elapsed_time": "0:05:29", "remaining_time": "1:25:17"}
+{"current_steps": 114, "total_steps": 1870, "loss": 1.0371, "lr": 4.955086309351213e-06, "epoch": 0.6096256684491979, "percentage": 6.1, "elapsed_time": "0:05:31", "remaining_time": "1:25:04"}
+{"current_steps": 115, "total_steps": 1870, "loss": 0.5672, "lr": 4.9542903013656485e-06, "epoch": 0.6149732620320856, "percentage": 6.15, "elapsed_time": "0:05:32", "remaining_time": "1:24:37"}
+{"current_steps": 116, "total_steps": 1870, "loss": 0.7125, "lr": 4.953487366425163e-06, "epoch": 0.6203208556149733, "percentage": 6.2, "elapsed_time": "0:05:36", "remaining_time": "1:24:48"}
+{"current_steps": 117, "total_steps": 1870, "loss": 0.5989, "lr": 4.952677506795949e-06, "epoch": 0.6256684491978609, "percentage": 6.26, "elapsed_time": "0:05:37", "remaining_time": "1:24:22"}
+{"current_steps": 118, "total_steps": 1870, "loss": 0.7466, "lr": 4.951860724763743e-06, "epoch": 0.6310160427807486, "percentage": 6.31, "elapsed_time": "0:05:40", "remaining_time": "1:24:16"}
+{"current_steps": 119, "total_steps": 1870, "loss": 0.7379, "lr": 4.95103702263382e-06, "epoch": 0.6363636363636364, "percentage": 6.36, "elapsed_time": "0:05:42", "remaining_time": "1:24:00"}
+{"current_steps": 120, "total_steps": 1870, "loss": 0.7781, "lr": 4.950206402730984e-06, "epoch": 0.6417112299465241, "percentage": 6.42, "elapsed_time": "0:05:46", "remaining_time": "1:24:10"}
+{"current_steps": 121, "total_steps": 1870, "loss": 0.5383, "lr": 4.949368867399567e-06, "epoch": 0.6470588235294118, "percentage": 6.47, "elapsed_time": "0:05:47", "remaining_time": "1:23:49"}
+{"current_steps": 122, "total_steps": 1870, "loss": 1.185, "lr": 4.948524419003415e-06, "epoch": 0.6524064171122995, "percentage": 6.52, "elapsed_time": "0:05:50", "remaining_time": "1:23:44"}
+{"current_steps": 123, "total_steps": 1870, "loss": 0.8494, "lr": 4.947673059925889e-06, "epoch": 0.6577540106951871, "percentage": 6.58, "elapsed_time": "0:05:55", "remaining_time": "1:24:07"}
+{"current_steps": 124, "total_steps": 1870, "loss": 0.8941, "lr": 4.9468147925698525e-06, "epoch": 0.6631016042780749, "percentage": 6.63, "elapsed_time": "0:05:58", "remaining_time": "1:24:14"}
+{"current_steps": 125, "total_steps": 1870, "loss": 0.6798, "lr": 4.945949619357668e-06, "epoch": 0.6684491978609626, "percentage": 6.68, "elapsed_time": "0:06:00", "remaining_time": "1:23:55"}
+{"current_steps": 126, "total_steps": 1870, "loss": 0.5321, "lr": 4.945077542731188e-06, "epoch": 0.6737967914438503, "percentage": 6.74, "elapsed_time": "0:06:02", "remaining_time": "1:23:41"}
+{"current_steps": 127, "total_steps": 1870, "loss": 0.8688, "lr": 4.94419856515175e-06, "epoch": 0.679144385026738, "percentage": 6.79, "elapsed_time": "0:06:05", "remaining_time": "1:23:39"}
+{"current_steps": 128, "total_steps": 1870, "loss": 0.8504, "lr": 4.943312689100166e-06, "epoch": 0.6844919786096256, "percentage": 6.84, "elapsed_time": "0:06:07", "remaining_time": "1:23:23"}
+{"current_steps": 129, "total_steps": 1870, "loss": 0.6366, "lr": 4.942419917076723e-06, "epoch": 0.6898395721925134, "percentage": 6.9, "elapsed_time": "0:06:11", "remaining_time": "1:23:34"}
+{"current_steps": 130, "total_steps": 1870, "loss": 0.7544, "lr": 4.941520251601167e-06, "epoch": 0.6951871657754011, "percentage": 6.95, "elapsed_time": "0:06:13", "remaining_time": "1:23:19"}
+{"current_steps": 131, "total_steps": 1870, "loss": 0.4771, "lr": 4.940613695212702e-06, "epoch": 0.7005347593582888, "percentage": 7.01, "elapsed_time": "0:06:14", "remaining_time": "1:22:52"}
+{"current_steps": 132, "total_steps": 1870, "loss": 1.0403, "lr": 4.939700250469979e-06, "epoch": 0.7058823529411765, "percentage": 7.06, "elapsed_time": "0:06:18", "remaining_time": "1:23:01"}
+{"current_steps": 133, "total_steps": 1870, "loss": 0.8482, "lr": 4.938779919951092e-06, "epoch": 0.7112299465240641, "percentage": 7.11, "elapsed_time": "0:06:20", "remaining_time": "1:22:50"}
+{"current_steps": 134, "total_steps": 1870, "loss": 0.5515, "lr": 4.93785270625357e-06, "epoch": 0.7165775401069518, "percentage": 7.17, "elapsed_time": "0:06:23", "remaining_time": "1:22:47"}
+{"current_steps": 135, "total_steps": 1870, "loss": 0.706, "lr": 4.936918611994368e-06, "epoch": 0.7219251336898396, "percentage": 7.22, "elapsed_time": "0:06:26", "remaining_time": "1:22:44"}
+{"current_steps": 136, "total_steps": 1870, "loss": 0.8308, "lr": 4.935977639809861e-06, "epoch": 0.7272727272727273, "percentage": 7.27, "elapsed_time": "0:06:29", "remaining_time": "1:22:52"}
+{"current_steps": 137, "total_steps": 1870, "loss": 0.642, "lr": 4.935029792355834e-06, "epoch": 0.732620320855615, "percentage": 7.33, "elapsed_time": "0:06:34", "remaining_time": "1:23:06"}
+{"current_steps": 138, "total_steps": 1870, "loss": 1.0115, "lr": 4.934075072307481e-06, "epoch": 0.7379679144385026, "percentage": 7.38, "elapsed_time": "0:06:36", "remaining_time": "1:22:59"}
+{"current_steps": 139, "total_steps": 1870, "loss": 0.5455, "lr": 4.933113482359388e-06, "epoch": 0.7433155080213903, "percentage": 7.43, "elapsed_time": "0:06:38", "remaining_time": "1:22:40"}
+{"current_steps": 140, "total_steps": 1870, "loss": 0.6958, "lr": 4.932145025225535e-06, "epoch": 0.7486631016042781, "percentage": 7.49, "elapsed_time": "0:06:39", "remaining_time": "1:22:21"}
+{"current_steps": 141, "total_steps": 1870, "loss": 0.8664, "lr": 4.931169703639282e-06, "epoch": 0.7540106951871658, "percentage": 7.54, "elapsed_time": "0:06:41", "remaining_time": "1:22:07"}
+{"current_steps": 142, "total_steps": 1870, "loss": 0.7594, "lr": 4.930187520353363e-06, "epoch": 0.7593582887700535, "percentage": 7.59, "elapsed_time": "0:06:44", "remaining_time": "1:22:05"}
+{"current_steps": 143, "total_steps": 1870, "loss": 0.6382, "lr": 4.929198478139877e-06, "epoch": 0.7647058823529411, "percentage": 7.65, "elapsed_time": "0:06:47", "remaining_time": "1:21:56"}
+{"current_steps": 144, "total_steps": 1870, "loss": 0.5924, "lr": 4.928202579790285e-06, "epoch": 0.7700534759358288, "percentage": 7.7, "elapsed_time": "0:06:50", "remaining_time": "1:21:56"}
+{"current_steps": 145, "total_steps": 1870, "loss": 0.7163, "lr": 4.927199828115395e-06, "epoch": 0.7754010695187166, "percentage": 7.75, "elapsed_time": "0:06:51", "remaining_time": "1:21:34"}
+{"current_steps": 146, "total_steps": 1870, "loss": 0.8453, "lr": 4.9261902259453616e-06, "epoch": 0.7807486631016043, "percentage": 7.81, "elapsed_time": "0:06:54", "remaining_time": "1:21:40"}
+{"current_steps": 147, "total_steps": 1870, "loss": 1.0382, "lr": 4.925173776129669e-06, "epoch": 0.786096256684492, "percentage": 7.86, "elapsed_time": "0:07:00", "remaining_time": "1:22:08"}
+{"current_steps": 148, "total_steps": 1870, "loss": 0.4883, "lr": 4.9241504815371346e-06, "epoch": 0.7914438502673797, "percentage": 7.91, "elapsed_time": "0:07:01", "remaining_time": "1:21:49"}
+{"current_steps": 149, "total_steps": 1870, "loss": 0.7326, "lr": 4.923120345055887e-06, "epoch": 0.7967914438502673, "percentage": 7.97, "elapsed_time": "0:07:05", "remaining_time": "1:21:58"}
+{"current_steps": 150, "total_steps": 1870, "loss": 0.6372, "lr": 4.922083369593372e-06, "epoch": 0.8021390374331551, "percentage": 8.02, "elapsed_time": "0:07:07", "remaining_time": "1:21:41"}
+{"current_steps": 151, "total_steps": 1870, "loss": 0.9323, "lr": 4.921039558076335e-06, "epoch": 0.8074866310160428, "percentage": 8.07, "elapsed_time": "0:07:12", "remaining_time": "1:22:03"}
+{"current_steps": 152, "total_steps": 1870, "loss": 0.4532, "lr": 4.919988913450812e-06, "epoch": 0.8128342245989305, "percentage": 8.13, "elapsed_time": "0:07:15", "remaining_time": "1:22:00"}
+{"current_steps": 153, "total_steps": 1870, "loss": 0.8714, "lr": 4.918931438682132e-06, "epoch": 0.8181818181818182, "percentage": 8.18, "elapsed_time": "0:07:18", "remaining_time": "1:21:58"}
+{"current_steps": 154, "total_steps": 1870, "loss": 0.8822, "lr": 4.917867136754894e-06, "epoch": 0.8235294117647058, "percentage": 8.24, "elapsed_time": "0:07:20", "remaining_time": "1:21:48"}
+{"current_steps": 155, "total_steps": 1870, "loss": 0.7539, "lr": 4.916796010672969e-06, "epoch": 0.8288770053475936, "percentage": 8.29, "elapsed_time": "0:07:23", "remaining_time": "1:21:48"}
+{"current_steps": 156, "total_steps": 1870, "loss": 0.7797, "lr": 4.91571806345949e-06, "epoch": 0.8342245989304813, "percentage": 8.34, "elapsed_time": "0:07:25", "remaining_time": "1:21:35"}
+{"current_steps": 157, "total_steps": 1870, "loss": 0.8074, "lr": 4.91463329815684e-06, "epoch": 0.839572192513369, "percentage": 8.4, "elapsed_time": "0:07:27", "remaining_time": "1:21:19"}
+{"current_steps": 158, "total_steps": 1870, "loss": 0.5812, "lr": 4.913541717826645e-06, "epoch": 0.8449197860962567, "percentage": 8.45, "elapsed_time": "0:07:30", "remaining_time": "1:21:19"}
+{"current_steps": 159, "total_steps": 1870, "loss": 0.4967, "lr": 4.912443325549767e-06, "epoch": 0.8502673796791443, "percentage": 8.5, "elapsed_time": "0:07:34", "remaining_time": "1:21:28"}
+{"current_steps": 160, "total_steps": 1870, "loss": 0.7436, "lr": 4.911338124426291e-06, "epoch": 0.8556149732620321, "percentage": 8.56, "elapsed_time": "0:07:37", "remaining_time": "1:21:26"}
+{"current_steps": 161, "total_steps": 1870, "loss": 0.8118, "lr": 4.910226117575525e-06, "epoch": 0.8609625668449198, "percentage": 8.61, "elapsed_time": "0:07:40", "remaining_time": "1:21:29"}
+{"current_steps": 162, "total_steps": 1870, "loss": 0.5164, "lr": 4.909107308135978e-06, "epoch": 0.8663101604278075, "percentage": 8.66, "elapsed_time": "0:07:43", "remaining_time": "1:21:22"}
+{"current_steps": 163, "total_steps": 1870, "loss": 0.5894, "lr": 4.907981699265364e-06, "epoch": 0.8716577540106952, "percentage": 8.72, "elapsed_time": "0:07:44", "remaining_time": "1:21:04"}
+{"current_steps": 164, "total_steps": 1870, "loss": 0.8476, "lr": 4.906849294140587e-06, "epoch": 0.8770053475935828, "percentage": 8.77, "elapsed_time": "0:07:47", "remaining_time": "1:21:01"}
+{"current_steps": 165, "total_steps": 1870, "loss": 0.6834, "lr": 4.9057100959577285e-06, "epoch": 0.8823529411764706, "percentage": 8.82, "elapsed_time": "0:07:51", "remaining_time": "1:21:09"}
+{"current_steps": 166, "total_steps": 1870, "loss": 0.944, "lr": 4.904564107932048e-06, "epoch": 0.8877005347593583, "percentage": 8.88, "elapsed_time": "0:07:53", "remaining_time": "1:20:57"}
+{"current_steps": 167, "total_steps": 1870, "loss": 0.8709, "lr": 4.903411333297966e-06, "epoch": 0.893048128342246, "percentage": 8.93, "elapsed_time": "0:07:56", "remaining_time": "1:20:55"}
+{"current_steps": 168, "total_steps": 1870, "loss": 0.7839, "lr": 4.902251775309057e-06, "epoch": 0.8983957219251337, "percentage": 8.98, "elapsed_time": "0:07:59", "remaining_time": "1:20:54"}
+{"current_steps": 169, "total_steps": 1870, "loss": 0.5654, "lr": 4.901085437238041e-06, "epoch": 0.9037433155080213, "percentage": 9.04, "elapsed_time": "0:08:02", "remaining_time": "1:20:51"}
+{"current_steps": 170, "total_steps": 1870, "loss": 0.9413, "lr": 4.899912322376776e-06, "epoch": 0.9090909090909091, "percentage": 9.09, "elapsed_time": "0:08:03", "remaining_time": "1:20:35"}
+{"current_steps": 171, "total_steps": 1870, "loss": 0.8642, "lr": 4.8987324340362445e-06, "epoch": 0.9144385026737968, "percentage": 9.14, "elapsed_time": "0:08:07", "remaining_time": "1:20:46"}
+{"current_steps": 172, "total_steps": 1870, "loss": 0.7851, "lr": 4.897545775546545e-06, "epoch": 0.9197860962566845, "percentage": 9.2, "elapsed_time": "0:08:08", "remaining_time": "1:20:25"}
+{"current_steps": 173, "total_steps": 1870, "loss": 1.0241, "lr": 4.8963523502568886e-06, "epoch": 0.9251336898395722, "percentage": 9.25, "elapsed_time": "0:08:12", "remaining_time": "1:20:27"}
+{"current_steps": 174, "total_steps": 1870, "loss": 0.7254, "lr": 4.895152161535582e-06, "epoch": 0.93048128342246, "percentage": 9.3, "elapsed_time": "0:08:13", "remaining_time": "1:20:12"}
+{"current_steps": 175, "total_steps": 1870, "loss": 0.6877, "lr": 4.893945212770019e-06, "epoch": 0.9358288770053476, "percentage": 9.36, "elapsed_time": "0:08:16", "remaining_time": "1:20:13"}
+{"current_steps": 176, "total_steps": 1870, "loss": 0.8022, "lr": 4.892731507366678e-06, "epoch": 0.9411764705882353, "percentage": 9.41, "elapsed_time": "0:08:21", "remaining_time": "1:20:28"}
+{"current_steps": 177, "total_steps": 1870, "loss": 0.7123, "lr": 4.891511048751102e-06, "epoch": 0.946524064171123, "percentage": 9.47, "elapsed_time": "0:08:24", "remaining_time": "1:20:25"}
+{"current_steps": 178, "total_steps": 1870, "loss": 1.1568, "lr": 4.890283840367898e-06, "epoch": 0.9518716577540107, "percentage": 9.52, "elapsed_time": "0:08:29", "remaining_time": "1:20:41"}
+{"current_steps": 179, "total_steps": 1870, "loss": 0.7538, "lr": 4.889049885680721e-06, "epoch": 0.9572192513368984, "percentage": 9.57, "elapsed_time": "0:08:32", "remaining_time": "1:20:38"}
+{"current_steps": 180, "total_steps": 1870, "loss": 0.683, "lr": 4.887809188172268e-06, "epoch": 0.9625668449197861, "percentage": 9.63, "elapsed_time": "0:08:33", "remaining_time": "1:20:23"}
+{"current_steps": 181, "total_steps": 1870, "loss": 0.7824, "lr": 4.886561751344266e-06, "epoch": 0.9679144385026738, "percentage": 9.68, "elapsed_time": "0:08:35", "remaining_time": "1:20:10"}
+{"current_steps": 182, "total_steps": 1870, "loss": 0.7969, "lr": 4.885307578717464e-06, "epoch": 0.9732620320855615, "percentage": 9.73, "elapsed_time": "0:08:40", "remaining_time": "1:20:25"}
+{"current_steps": 183, "total_steps": 1870, "loss": 0.8376, "lr": 4.8840466738316216e-06, "epoch": 0.9786096256684492, "percentage": 9.79, "elapsed_time": "0:08:45", "remaining_time": "1:20:43"}
+{"current_steps": 184, "total_steps": 1870, "loss": 0.7356, "lr": 4.882779040245499e-06, "epoch": 0.983957219251337, "percentage": 9.84, "elapsed_time": "0:08:47", "remaining_time": "1:20:30"}
+{"current_steps": 185, "total_steps": 1870, "loss": 0.5837, "lr": 4.881504681536847e-06, "epoch": 0.9893048128342246, "percentage": 9.89, "elapsed_time": "0:08:52", "remaining_time": "1:20:48"}
+{"current_steps": 186, "total_steps": 1870, "loss": 0.5883, "lr": 4.880223601302398e-06, "epoch": 0.9946524064171123, "percentage": 9.95, "elapsed_time": "0:08:56", "remaining_time": "1:20:56"}
+{"current_steps": 187, "total_steps": 1870, "loss": 0.5789, "lr": 4.878935803157856e-06, "epoch": 1.0, "percentage": 10.0, "elapsed_time": "0:08:58", "remaining_time": "1:20:46"}
+{"current_steps": 188, "total_steps": 1870, "loss": 0.6833, "lr": 4.8776412907378845e-06, "epoch": 1.0053475935828877, "percentage": 10.05, "elapsed_time": "2:02:46", "remaining_time": "18:18:26"}
+{"current_steps": 189, "total_steps": 1870, "loss": 0.6703, "lr": 4.876340067696097e-06, "epoch": 1.0106951871657754, "percentage": 10.11, "elapsed_time": "2:02:49", "remaining_time": "18:12:21"}
+{"current_steps": 190, "total_steps": 1870, "loss": 0.6892, "lr": 4.875032137705047e-06, "epoch": 1.0160427807486632, "percentage": 10.16, "elapsed_time": "2:02:51", "remaining_time": "18:06:22"}
+{"current_steps": 191, "total_steps": 1870, "loss": 0.7901, "lr": 4.873717504456219e-06, "epoch": 1.0213903743315509, "percentage": 10.21, "elapsed_time": "2:02:57", "remaining_time": "18:00:51"}
+{"current_steps": 192, "total_steps": 1870, "loss": 0.4369, "lr": 4.872396171660014e-06, "epoch": 1.0267379679144386, "percentage": 10.27, "elapsed_time": "2:02:59", "remaining_time": "17:54:58"}
+{"current_steps": 193, "total_steps": 1870, "loss": 0.6376, "lr": 4.8710681430457466e-06, "epoch": 1.032085561497326, "percentage": 10.32, "elapsed_time": "2:03:05", "remaining_time": "17:49:33"}
+{"current_steps": 194, "total_steps": 1870, "loss": 0.965, "lr": 4.8697334223616226e-06, "epoch": 1.0374331550802138, "percentage": 10.37, "elapsed_time": "2:03:09", "remaining_time": "17:43:57"}
+{"current_steps": 195, "total_steps": 1870, "loss": 0.6179, "lr": 4.8683920133747405e-06, "epoch": 1.0427807486631016, "percentage": 10.43, "elapsed_time": "2:03:13", "remaining_time": "17:38:28"}
+{"current_steps": 196, "total_steps": 1870, "loss": 0.5569, "lr": 4.867043919871076e-06, "epoch": 1.0481283422459893, "percentage": 10.48, "elapsed_time": "2:03:15", "remaining_time": "17:32:44"}
+{"current_steps": 197, "total_steps": 1870, "loss": 0.6457, "lr": 4.865689145655467e-06, "epoch": 1.053475935828877, "percentage": 10.53, "elapsed_time": "2:03:20", "remaining_time": "17:27:27"}
+{"current_steps": 198, "total_steps": 1870, "loss": 0.6222, "lr": 4.864327694551612e-06, "epoch": 1.0588235294117647, "percentage": 10.59, "elapsed_time": "2:03:22", "remaining_time": "17:21:50"}
+{"current_steps": 199, "total_steps": 1870, "loss": 1.001, "lr": 4.86295957040205e-06, "epoch": 1.0641711229946524, "percentage": 10.64, "elapsed_time": "2:03:24", "remaining_time": "17:16:12"}
+{"current_steps": 200, "total_steps": 1870, "loss": 0.7615, "lr": 4.861584777068154e-06, "epoch": 1.0695187165775402, "percentage": 10.7, "elapsed_time": "2:03:29", "remaining_time": "17:11:11"}
+{"current_steps": 201, "total_steps": 1870, "loss": 0.3626, "lr": 4.860203318430126e-06, "epoch": 1.0748663101604279, "percentage": 10.75, "elapsed_time": "2:03:30", "remaining_time": "17:05:36"}
+{"current_steps": 202, "total_steps": 1870, "loss": 0.6864, "lr": 4.858815198386973e-06, "epoch": 1.0802139037433156, "percentage": 10.8, "elapsed_time": "2:03:32", "remaining_time": "17:00:11"}
+{"current_steps": 203, "total_steps": 1870, "loss": 0.6175, "lr": 4.8574204208565056e-06, "epoch": 1.085561497326203, "percentage": 10.86, "elapsed_time": "2:03:35", "remaining_time": "16:54:56"}
+{"current_steps": 204, "total_steps": 1870, "loss": 0.6102, "lr": 4.856018989775326e-06, "epoch": 1.0909090909090908, "percentage": 10.91, "elapsed_time": "2:03:39", "remaining_time": "16:49:49"}
+{"current_steps": 205, "total_steps": 1870, "loss": 0.7121, "lr": 4.854610909098813e-06, "epoch": 1.0962566844919786, "percentage": 10.96, "elapsed_time": "2:03:41", "remaining_time": "16:44:33"}
+{"current_steps": 206, "total_steps": 1870, "loss": 1.0842, "lr": 4.853196182801112e-06, "epoch": 1.1016042780748663, "percentage": 11.02, "elapsed_time": "2:03:43", "remaining_time": "16:39:22"}
+{"current_steps": 207, "total_steps": 1870, "loss": 0.724, "lr": 4.851774814875131e-06, "epoch": 1.106951871657754, "percentage": 11.07, "elapsed_time": "2:03:48", "remaining_time": "16:34:42"}
+{"current_steps": 208, "total_steps": 1870, "loss": 0.743, "lr": 4.850346809332515e-06, "epoch": 1.1122994652406417, "percentage": 11.12, "elapsed_time": "2:03:50", "remaining_time": "16:29:32"}
+{"current_steps": 209, "total_steps": 1870, "loss": 0.7808, "lr": 4.8489121702036515e-06, "epoch": 1.1176470588235294, "percentage": 11.18, "elapsed_time": "2:03:55", "remaining_time": "16:24:50"}
+{"current_steps": 210, "total_steps": 1870, "loss": 0.7324, "lr": 4.847470901537642e-06, "epoch": 1.1229946524064172, "percentage": 11.23, "elapsed_time": "2:04:00", "remaining_time": "16:20:17"}
+{"current_steps": 211, "total_steps": 1870, "loss": 0.5396, "lr": 4.846023007402305e-06, "epoch": 1.1283422459893049, "percentage": 11.28, "elapsed_time": "2:04:02", "remaining_time": "16:15:15"}
+{"current_steps": 212, "total_steps": 1870, "loss": 0.4034, "lr": 4.844568491884156e-06, "epoch": 1.1336898395721926, "percentage": 11.34, "elapsed_time": "2:04:03", "remaining_time": "16:10:15"}
+{"current_steps": 213, "total_steps": 1870, "loss": 0.5972, "lr": 4.843107359088402e-06, "epoch": 1.1390374331550803, "percentage": 11.39, "elapsed_time": "2:04:05", "remaining_time": "16:05:22"}
+{"current_steps": 214, "total_steps": 1870, "loss": 0.6523, "lr": 4.84163961313892e-06, "epoch": 1.1443850267379678, "percentage": 11.44, "elapsed_time": "2:04:10", "remaining_time": "16:00:52"}
+{"current_steps": 215, "total_steps": 1870, "loss": 0.6095, "lr": 4.840165258178259e-06, "epoch": 1.1497326203208555, "percentage": 11.5, "elapsed_time": "2:04:12", "remaining_time": "15:56:05"}
+{"current_steps": 216, "total_steps": 1870, "loss": 0.8149, "lr": 4.838684298367616e-06, "epoch": 1.1550802139037433, "percentage": 11.55, "elapsed_time": "2:04:13", "remaining_time": "15:51:17"}
+{"current_steps": 217, "total_steps": 1870, "loss": 0.8383, "lr": 4.837196737886834e-06, "epoch": 1.160427807486631, "percentage": 11.6, "elapsed_time": "2:04:16", "remaining_time": "15:46:37"}
+{"current_steps": 218, "total_steps": 1870, "loss": 0.8655, "lr": 4.83570258093438e-06, "epoch": 1.1657754010695187, "percentage": 11.66, "elapsed_time": "2:04:19", "remaining_time": "15:42:11"}
+{"current_steps": 219, "total_steps": 1870, "loss": 0.5591, "lr": 4.834201831727343e-06, "epoch": 1.1711229946524064, "percentage": 11.71, "elapsed_time": "2:04:25", "remaining_time": "15:37:58"}
+{"current_steps": 220, "total_steps": 1870, "loss": 0.632, "lr": 4.832694494501417e-06, "epoch": 1.1764705882352942, "percentage": 11.76, "elapsed_time": "2:04:26", "remaining_time": "15:33:21"}
+{"current_steps": 221, "total_steps": 1870, "loss": 0.4222, "lr": 4.83118057351089e-06, "epoch": 1.1818181818181819, "percentage": 11.82, "elapsed_time": "2:04:28", "remaining_time": "15:28:49"}
+{"current_steps": 222, "total_steps": 1870, "loss": 0.5776, "lr": 4.829660073028631e-06, "epoch": 1.1871657754010696, "percentage": 11.87, "elapsed_time": "2:04:31", "remaining_time": "15:24:26"}
+{"current_steps": 223, "total_steps": 1870, "loss": 0.5522, "lr": 4.82813299734608e-06, "epoch": 1.192513368983957, "percentage": 11.93, "elapsed_time": "2:04:34", "remaining_time": "15:20:03"}
+{"current_steps": 224, "total_steps": 1870, "loss": 0.481, "lr": 4.826599350773234e-06, "epoch": 1.1978609625668448, "percentage": 11.98, "elapsed_time": "2:04:35", "remaining_time": "15:15:33"}
+{"current_steps": 225, "total_steps": 1870, "loss": 0.8765, "lr": 4.825059137638636e-06, "epoch": 1.2032085561497325, "percentage": 12.03, "elapsed_time": "2:04:37", "remaining_time": "15:11:09"}
+{"current_steps": 226, "total_steps": 1870, "loss": 0.6584, "lr": 4.823512362289362e-06, "epoch": 1.2085561497326203, "percentage": 12.09, "elapsed_time": "2:04:39", "remaining_time": "15:06:48"}
+{"current_steps": 227, "total_steps": 1870, "loss": 0.6329, "lr": 4.821959029091009e-06, "epoch": 1.213903743315508, "percentage": 12.14, "elapsed_time": "2:04:42", "remaining_time": "15:02:40"}
+{"current_steps": 228, "total_steps": 1870, "loss": 0.6185, "lr": 4.820399142427684e-06, "epoch": 1.2192513368983957, "percentage": 12.19, "elapsed_time": "2:04:46", "remaining_time": "14:58:36"}
+{"current_steps": 229, "total_steps": 1870, "loss": 0.5047, "lr": 4.818832706701989e-06, "epoch": 1.2245989304812834, "percentage": 12.25, "elapsed_time": "2:04:50", "remaining_time": "14:54:35"}
+{"current_steps": 230, "total_steps": 1870, "loss": 0.9021, "lr": 4.817259726335009e-06, "epoch": 1.2299465240641712, "percentage": 12.3, "elapsed_time": "2:04:51", "remaining_time": "14:50:19"}
+{"current_steps": 231, "total_steps": 1870, "loss": 0.8384, "lr": 4.815680205766304e-06, "epoch": 1.2352941176470589, "percentage": 12.35, "elapsed_time": "2:04:54", "remaining_time": "14:46:16"}
+{"current_steps": 232, "total_steps": 1870, "loss": 0.4269, "lr": 4.814094149453891e-06, "epoch": 1.2406417112299466, "percentage": 12.41, "elapsed_time": "2:04:57", "remaining_time": "14:42:12"}
+{"current_steps": 233, "total_steps": 1870, "loss": 0.736, "lr": 4.812501561874232e-06, "epoch": 1.2459893048128343, "percentage": 12.46, "elapsed_time": "2:04:59", "remaining_time": "14:38:11"}
+{"current_steps": 234, "total_steps": 1870, "loss": 0.7585, "lr": 4.8109024475222255e-06, "epoch": 1.251336898395722, "percentage": 12.51, "elapsed_time": "2:05:03", "remaining_time": "14:34:17"}
+{"current_steps": 235, "total_steps": 1870, "loss": 0.8914, "lr": 4.809296810911188e-06, "epoch": 1.2566844919786098, "percentage": 12.57, "elapsed_time": "2:05:04", "remaining_time": "14:30:14"}
+{"current_steps": 236, "total_steps": 1870, "loss": 0.9168, "lr": 4.8076846565728475e-06, "epoch": 1.2620320855614973, "percentage": 12.62, "elapsed_time": "2:05:10", "remaining_time": "14:26:42"}
+{"current_steps": 237, "total_steps": 1870, "loss": 0.6726, "lr": 4.806065989057326e-06, "epoch": 1.267379679144385, "percentage": 12.67, "elapsed_time": "2:05:13", "remaining_time": "14:22:52"}
+{"current_steps": 238, "total_steps": 1870, "loss": 0.4672, "lr": 4.8044408129331266e-06, "epoch": 1.2727272727272727, "percentage": 12.73, "elapsed_time": "2:05:15", "remaining_time": "14:18:56"}
+{"current_steps": 239, "total_steps": 1870, "loss": 0.6626, "lr": 4.802809132787125e-06, "epoch": 1.2780748663101604, "percentage": 12.78, "elapsed_time": "2:05:17", "remaining_time": "14:15:00"}
+{"current_steps": 240, "total_steps": 1870, "loss": 0.7978, "lr": 4.801170953224554e-06, "epoch": 1.2834224598930482, "percentage": 12.83, "elapsed_time": "2:05:19", "remaining_time": "14:11:08"}
+{"current_steps": 241, "total_steps": 1870, "loss": 0.4659, "lr": 4.7995262788689865e-06, "epoch": 1.2887700534759359, "percentage": 12.89, "elapsed_time": "2:05:22", "remaining_time": "14:07:28"}
+{"current_steps": 242, "total_steps": 1870, "loss": 0.5869, "lr": 4.797875114362331e-06, "epoch": 1.2941176470588236, "percentage": 12.94, "elapsed_time": "2:05:24", "remaining_time": "14:03:36"}
+{"current_steps": 243, "total_steps": 1870, "loss": 0.7182, "lr": 4.796217464364808e-06, "epoch": 1.299465240641711, "percentage": 12.99, "elapsed_time": "2:05:26", "remaining_time": "13:59:55"}
+{"current_steps": 244, "total_steps": 1870, "loss": 0.7407, "lr": 4.794553333554949e-06, "epoch": 1.3048128342245988, "percentage": 13.05, "elapsed_time": "2:05:31", "remaining_time": "13:56:29"}
+{"current_steps": 245, "total_steps": 1870, "loss": 0.6166, "lr": 4.792882726629572e-06, "epoch": 1.3101604278074865, "percentage": 13.1, "elapsed_time": "2:05:35", "remaining_time": "13:52:57"}
+{"current_steps": 246, "total_steps": 1870, "loss": 0.9115, "lr": 4.791205648303775e-06, "epoch": 1.3155080213903743, "percentage": 13.16, "elapsed_time": "2:05:39", "remaining_time": "13:49:30"}
+{"current_steps": 247, "total_steps": 1870, "loss": 0.6453, "lr": 4.789522103310922e-06, "epoch": 1.320855614973262, "percentage": 13.21, "elapsed_time": "2:05:43", "remaining_time": "13:46:08"}
+{"current_steps": 248, "total_steps": 1870, "loss": 0.6885, "lr": 4.787832096402626e-06, "epoch": 1.3262032085561497, "percentage": 13.26, "elapsed_time": "2:05:48", "remaining_time": "13:42:46"}
+{"current_steps": 249, "total_steps": 1870, "loss": 0.7032, "lr": 4.786135632348738e-06, "epoch": 1.3315508021390374, "percentage": 13.32, "elapsed_time": "2:05:50", "remaining_time": "13:39:16"}
+{"current_steps": 250, "total_steps": 1870, "loss": 0.8887, "lr": 4.7844327159373365e-06, "epoch": 1.3368983957219251, "percentage": 13.37, "elapsed_time": "2:05:53", "remaining_time": "13:35:49"}
+{"current_steps": 251, "total_steps": 1870, "loss": 0.57, "lr": 4.782723351974708e-06, "epoch": 1.3422459893048129, "percentage": 13.42, "elapsed_time": "2:05:57", "remaining_time": "13:32:29"}
+{"current_steps": 252, "total_steps": 1870, "loss": 0.7283, "lr": 4.7810075452853385e-06, "epoch": 1.3475935828877006, "percentage": 13.48, "elapsed_time": "2:06:00", "remaining_time": "13:29:04"}
+{"current_steps": 253, "total_steps": 1870, "loss": 0.6978, "lr": 4.779285300711897e-06, "epoch": 1.3529411764705883, "percentage": 13.53, "elapsed_time": "2:06:04", "remaining_time": "13:25:47"}
+{"current_steps": 254, "total_steps": 1870, "loss": 0.3905, "lr": 4.7775566231152216e-06, "epoch": 1.358288770053476, "percentage": 13.58, "elapsed_time": "2:06:05", "remaining_time": "13:22:15"}
+{"current_steps": 255, "total_steps": 1870, "loss": 0.9105, "lr": 4.775821517374308e-06, "epoch": 1.3636363636363638, "percentage": 13.64, "elapsed_time": "2:06:08", "remaining_time": "13:18:52"}
+{"current_steps": 256, "total_steps": 1870, "loss": 0.5157, "lr": 4.7740799883862966e-06, "epoch": 1.3689839572192513, "percentage": 13.69, "elapsed_time": "2:06:09", "remaining_time": "13:15:26"}
+{"current_steps": 257, "total_steps": 1870, "loss": 0.4811, "lr": 4.772332041066452e-06, "epoch": 1.374331550802139, "percentage": 13.74, "elapsed_time": "2:06:13", "remaining_time": "13:12:14"}
+{"current_steps": 258, "total_steps": 1870, "loss": 0.9231, "lr": 4.770577680348159e-06, "epoch": 1.3796791443850267, "percentage": 13.8, "elapsed_time": "2:06:17", "remaining_time": "13:09:03"}
+{"current_steps": 259, "total_steps": 1870, "loss": 0.4701, "lr": 4.768816911182899e-06, "epoch": 1.3850267379679144, "percentage": 13.85, "elapsed_time": "2:06:18", "remaining_time": "13:05:40"}
+{"current_steps": 260, "total_steps": 1870, "loss": 0.5733, "lr": 4.767049738540244e-06, "epoch": 1.3903743315508021, "percentage": 13.9, "elapsed_time": "2:06:20", "remaining_time": "13:02:23"}
+{"current_steps": 261, "total_steps": 1870, "loss": 0.4447, "lr": 4.765276167407836e-06, "epoch": 1.3957219251336899, "percentage": 13.96, "elapsed_time": "2:06:23", "remaining_time": "12:59:10"}
+{"current_steps": 262, "total_steps": 1870, "loss": 0.8066, "lr": 4.7634962027913784e-06, "epoch": 1.4010695187165776, "percentage": 14.01, "elapsed_time": "2:06:26", "remaining_time": "12:56:00"}
+{"current_steps": 263, "total_steps": 1870, "loss": 0.6019, "lr": 4.761709849714619e-06, "epoch": 1.4064171122994653, "percentage": 14.06, "elapsed_time": "2:06:27", "remaining_time": "12:52:44"}
+{"current_steps": 264, "total_steps": 1870, "loss": 0.722, "lr": 4.7599171132193355e-06, "epoch": 1.4117647058823528, "percentage": 14.12, "elapsed_time": "2:06:30", "remaining_time": "12:49:33"}
+{"current_steps": 265, "total_steps": 1870, "loss": 0.6637, "lr": 4.7581179983653224e-06, "epoch": 1.4171122994652405, "percentage": 14.17, "elapsed_time": "2:06:33", "remaining_time": "12:46:32"}
+{"current_steps": 266, "total_steps": 1870, "loss": 0.4131, "lr": 4.756312510230377e-06, "epoch": 1.4224598930481283, "percentage": 14.22, "elapsed_time": "2:06:34", "remaining_time": "12:43:17"}
+{"current_steps": 267, "total_steps": 1870, "loss": 0.6263, "lr": 4.754500653910284e-06, "epoch": 1.427807486631016, "percentage": 14.28, "elapsed_time": "2:06:36", "remaining_time": "12:40:08"}
+{"current_steps": 268, "total_steps": 1870, "loss": 0.6356, "lr": 4.752682434518801e-06, "epoch": 1.4331550802139037, "percentage": 14.33, "elapsed_time": "2:06:38", "remaining_time": "12:36:59"}
+{"current_steps": 269, "total_steps": 1870, "loss": 0.4897, "lr": 4.750857857187645e-06, "epoch": 1.4385026737967914, "percentage": 14.39, "elapsed_time": "2:06:40", "remaining_time": "12:33:54"}
+{"current_steps": 270, "total_steps": 1870, "loss": 0.8329, "lr": 4.749026927066479e-06, "epoch": 1.4438502673796791, "percentage": 14.44, "elapsed_time": "2:06:44", "remaining_time": "12:31:03"}
+{"current_steps": 271, "total_steps": 1870, "loss": 0.5533, "lr": 4.747189649322894e-06, "epoch": 1.4491978609625669, "percentage": 14.49, "elapsed_time": "2:06:48", "remaining_time": "12:28:13"}
+{"current_steps": 272, "total_steps": 1870, "loss": 0.6923, "lr": 4.745346029142397e-06, "epoch": 1.4545454545454546, "percentage": 14.55, "elapsed_time": "2:06:51", "remaining_time": "12:25:16"}
+{"current_steps": 273, "total_steps": 1870, "loss": 0.6841, "lr": 4.743496071728396e-06, "epoch": 1.4598930481283423, "percentage": 14.6, "elapsed_time": "2:06:55", "remaining_time": "12:22:28"}
+{"current_steps": 274, "total_steps": 1870, "loss": 0.4724, "lr": 4.741639782302187e-06, "epoch": 1.46524064171123, "percentage": 14.65, "elapsed_time": "2:06:59", "remaining_time": "12:19:42"}
+{"current_steps": 275, "total_steps": 1870, "loss": 0.5368, "lr": 4.739777166102933e-06, "epoch": 1.4705882352941178, "percentage": 14.71, "elapsed_time": "2:07:00", "remaining_time": "12:16:41"}
+{"current_steps": 276, "total_steps": 1870, "loss": 0.6126, "lr": 4.737908228387656e-06, "epoch": 1.4759358288770055, "percentage": 14.76, "elapsed_time": "2:07:06", "remaining_time": "12:14:03"}
+{"current_steps": 277, "total_steps": 1870, "loss": 0.5297, "lr": 4.736032974431222e-06, "epoch": 1.481283422459893, "percentage": 14.81, "elapsed_time": "2:07:08", "remaining_time": "12:11:13"}
+{"current_steps": 278, "total_steps": 1870, "loss": 0.5035, "lr": 4.7341514095263214e-06, "epoch": 1.4866310160427807, "percentage": 14.87, "elapsed_time": "2:07:11", "remaining_time": "12:08:21"}
+{"current_steps": 279, "total_steps": 1870, "loss": 0.6486, "lr": 4.732263538983456e-06, "epoch": 1.4919786096256684, "percentage": 14.92, "elapsed_time": "2:07:12", "remaining_time": "12:05:25"}
+{"current_steps": 280, "total_steps": 1870, "loss": 0.6931, "lr": 4.730369368130925e-06, "epoch": 1.4973262032085561, "percentage": 14.97, "elapsed_time": "2:07:14", "remaining_time": "12:02:30"}
+{"current_steps": 281, "total_steps": 1870, "loss": 1.3412, "lr": 4.728468902314811e-06, "epoch": 1.5026737967914439, "percentage": 15.03, "elapsed_time": "2:07:17", "remaining_time": "11:59:46"}
+{"current_steps": 282, "total_steps": 1870, "loss": 0.6971, "lr": 4.726562146898963e-06, "epoch": 1.5080213903743316, "percentage": 15.08, "elapsed_time": "2:07:19", "remaining_time": "11:57:00"}
+{"current_steps": 283, "total_steps": 1870, "loss": 0.5344, "lr": 4.72464910726498e-06, "epoch": 1.5133689839572193, "percentage": 15.13, "elapsed_time": "2:07:22", "remaining_time": "11:54:17"}
+{"current_steps": 284, "total_steps": 1870, "loss": 0.8123, "lr": 4.7227297888121985e-06, "epoch": 1.5187165775401068, "percentage": 15.19, "elapsed_time": "2:07:25", "remaining_time": "11:51:35"}
+{"current_steps": 285, "total_steps": 1870, "loss": 0.6436, "lr": 4.720804196957676e-06, "epoch": 1.5240641711229945, "percentage": 15.24, "elapsed_time": "2:07:26", "remaining_time": "11:48:45"}
+{"current_steps": 286, "total_steps": 1870, "loss": 0.8569, "lr": 4.718872337136176e-06, "epoch": 1.5294117647058822, "percentage": 15.29, "elapsed_time": "2:07:28", "remaining_time": "11:45:58"}
+{"current_steps": 287, "total_steps": 1870, "loss": 1.076, "lr": 4.716934214800155e-06, "epoch": 1.53475935828877, "percentage": 15.35, "elapsed_time": "2:07:30", "remaining_time": "11:43:18"}
+{"current_steps": 288, "total_steps": 1870, "loss": 0.6449, "lr": 4.714989835419741e-06, "epoch": 1.5401069518716577, "percentage": 15.4, "elapsed_time": "2:07:36", "remaining_time": "11:40:55"}
+{"current_steps": 289, "total_steps": 1870, "loss": 0.523, "lr": 4.713039204482723e-06, "epoch": 1.5454545454545454, "percentage": 15.45, "elapsed_time": "2:07:37", "remaining_time": "11:38:11"}
+{"current_steps": 290, "total_steps": 1870, "loss": 0.7842, "lr": 4.711082327494536e-06, "epoch": 1.5508021390374331, "percentage": 15.51, "elapsed_time": "2:07:38", "remaining_time": "11:35:26"}
+{"current_steps": 291, "total_steps": 1870, "loss": 0.5315, "lr": 4.709119209978242e-06, "epoch": 1.5561497326203209, "percentage": 15.56, "elapsed_time": "2:07:40", "remaining_time": "11:32:47"}
+{"current_steps": 292, "total_steps": 1870, "loss": 0.4314, "lr": 4.707149857474516e-06, "epoch": 1.5614973262032086, "percentage": 15.61, "elapsed_time": "2:07:42", "remaining_time": "11:30:07"}
+{"current_steps": 293, "total_steps": 1870, "loss": 0.5611, "lr": 4.705174275541632e-06, "epoch": 1.5668449197860963, "percentage": 15.67, "elapsed_time": "2:07:46", "remaining_time": "11:27:40"}
+{"current_steps": 294, "total_steps": 1870, "loss": 0.6688, "lr": 4.703192469755444e-06, "epoch": 1.572192513368984, "percentage": 15.72, "elapsed_time": "2:07:51", "remaining_time": "11:25:21"}
+{"current_steps": 295, "total_steps": 1870, "loss": 0.6951, "lr": 4.701204445709375e-06, "epoch": 1.5775401069518717, "percentage": 15.78, "elapsed_time": "2:07:54", "remaining_time": "11:22:51"}
+{"current_steps": 296, "total_steps": 1870, "loss": 0.7152, "lr": 4.699210209014394e-06, "epoch": 1.5828877005347595, "percentage": 15.83, "elapsed_time": "2:07:55", "remaining_time": "11:20:16"}
+{"current_steps": 297, "total_steps": 1870, "loss": 0.5512, "lr": 4.69720976529901e-06, "epoch": 1.5882352941176472, "percentage": 15.88, "elapsed_time": "2:07:59", "remaining_time": "11:17:52"}
+{"current_steps": 298, "total_steps": 1870, "loss": 0.5045, "lr": 4.695203120209245e-06, "epoch": 1.593582887700535, "percentage": 15.94, "elapsed_time": "2:08:00", "remaining_time": "11:15:17"}
+{"current_steps": 299, "total_steps": 1870, "loss": 0.4894, "lr": 4.693190279408628e-06, "epoch": 1.5989304812834224, "percentage": 15.99, "elapsed_time": "2:08:05", "remaining_time": "11:13:02"}
+{"current_steps": 300, "total_steps": 1870, "loss": 0.527, "lr": 4.691171248578172e-06, "epoch": 1.6042780748663101, "percentage": 16.04, "elapsed_time": "2:08:08", "remaining_time": "11:10:35"}
+{"current_steps": 301, "total_steps": 1870, "loss": 0.7315, "lr": 4.689146033416362e-06, "epoch": 1.6096256684491979, "percentage": 16.1, "elapsed_time": "2:08:09", "remaining_time": "11:08:04"}
+{"current_steps": 302, "total_steps": 1870, "loss": 0.45, "lr": 4.687114639639136e-06, "epoch": 1.6149732620320856, "percentage": 16.15, "elapsed_time": "2:08:12", "remaining_time": "11:05:41"}
+{"current_steps": 303, "total_steps": 1870, "loss": 0.4806, "lr": 4.685077072979874e-06, "epoch": 1.6203208556149733, "percentage": 16.2, "elapsed_time": "2:08:14", "remaining_time": "11:03:15"}
+{"current_steps": 304, "total_steps": 1870, "loss": 0.4868, "lr": 4.683033339189375e-06, "epoch": 1.6256684491978608, "percentage": 16.26, "elapsed_time": "2:08:17", "remaining_time": "11:00:49"}
+{"current_steps": 305, "total_steps": 1870, "loss": 0.7806, "lr": 4.680983444035843e-06, "epoch": 1.6310160427807485, "percentage": 16.31, "elapsed_time": "2:08:21", "remaining_time": "10:58:38"}
+{"current_steps": 306, "total_steps": 1870, "loss": 0.3745, "lr": 4.678927393304877e-06, "epoch": 1.6363636363636362, "percentage": 16.36, "elapsed_time": "2:08:22", "remaining_time": "10:56:09"}
+{"current_steps": 307, "total_steps": 1870, "loss": 0.4956, "lr": 4.676865192799443e-06, "epoch": 1.641711229946524, "percentage": 16.42, "elapsed_time": "2:08:25", "remaining_time": "10:53:47"}
+{"current_steps": 308, "total_steps": 1870, "loss": 0.8249, "lr": 4.6747968483398695e-06, "epoch": 1.6470588235294117, "percentage": 16.47, "elapsed_time": "2:08:26", "remaining_time": "10:51:22"}
+{"current_steps": 309, "total_steps": 1870, "loss": 0.3828, "lr": 4.672722365763821e-06, "epoch": 1.6524064171122994, "percentage": 16.52, "elapsed_time": "2:08:28", "remaining_time": "10:49:01"}
+{"current_steps": 310, "total_steps": 1870, "loss": 0.5838, "lr": 4.6706417509262905e-06, "epoch": 1.6577540106951871, "percentage": 16.58, "elapsed_time": "2:08:30", "remaining_time": "10:46:40"}
+{"current_steps": 311, "total_steps": 1870, "loss": 0.5199, "lr": 4.668555009699575e-06, "epoch": 1.6631016042780749, "percentage": 16.63, "elapsed_time": "2:08:33", "remaining_time": "10:44:26"}
+{"current_steps": 312, "total_steps": 1870, "loss": 0.6609, "lr": 4.666462147973264e-06, "epoch": 1.6684491978609626, "percentage": 16.68, "elapsed_time": "2:08:35", "remaining_time": "10:42:08"}
+{"current_steps": 313, "total_steps": 1870, "loss": 0.7081, "lr": 4.664363171654223e-06, "epoch": 1.6737967914438503, "percentage": 16.74, "elapsed_time": "2:08:38", "remaining_time": "10:39:56"}
+{"current_steps": 314, "total_steps": 1870, "loss": 0.9374, "lr": 4.662258086666571e-06, "epoch": 1.679144385026738, "percentage": 16.79, "elapsed_time": "2:08:40", "remaining_time": "10:37:36"}
+{"current_steps": 315, "total_steps": 1870, "loss": 0.8417, "lr": 4.660146898951674e-06, "epoch": 1.6844919786096257, "percentage": 16.84, "elapsed_time": "2:08:44", "remaining_time": "10:35:31"}
+{"current_steps": 316, "total_steps": 1870, "loss": 0.7526, "lr": 4.6580296144681155e-06, "epoch": 1.6898395721925135, "percentage": 16.9, "elapsed_time": "2:08:49", "remaining_time": "10:33:29"}
+{"current_steps": 317, "total_steps": 1870, "loss": 0.7914, "lr": 4.655906239191693e-06, "epoch": 1.6951871657754012, "percentage": 16.95, "elapsed_time": "2:08:51", "remaining_time": "10:31:14"}
+{"current_steps": 318, "total_steps": 1870, "loss": 0.6896, "lr": 4.653776779115389e-06, "epoch": 1.700534759358289, "percentage": 17.01, "elapsed_time": "2:08:53", "remaining_time": "10:29:04"}
+{"current_steps": 319, "total_steps": 1870, "loss": 0.4713, "lr": 4.651641240249364e-06, "epoch": 1.7058823529411766, "percentage": 17.06, "elapsed_time": "2:08:56", "remaining_time": "10:26:55"}
+{"current_steps": 320, "total_steps": 1870, "loss": 0.4205, "lr": 4.649499628620931e-06, "epoch": 1.7112299465240641, "percentage": 17.11, "elapsed_time": "2:08:58", "remaining_time": "10:24:43"}
+{"current_steps": 321, "total_steps": 1870, "loss": 0.6683, "lr": 4.647351950274548e-06, "epoch": 1.7165775401069518, "percentage": 17.17, "elapsed_time": "2:09:01", "remaining_time": "10:22:36"}
+{"current_steps": 322, "total_steps": 1870, "loss": 0.6939, "lr": 4.6451982112717896e-06, "epoch": 1.7219251336898396, "percentage": 17.22, "elapsed_time": "2:09:03", "remaining_time": "10:20:25"}
+{"current_steps": 323, "total_steps": 1870, "loss": 0.5317, "lr": 4.643038417691341e-06, "epoch": 1.7272727272727273, "percentage": 17.27, "elapsed_time": "2:09:06", "remaining_time": "10:18:21"}
+{"current_steps": 324, "total_steps": 1870, "loss": 0.4685, "lr": 4.640872575628973e-06, "epoch": 1.732620320855615, "percentage": 17.33, "elapsed_time": "2:09:10", "remaining_time": "10:16:21"}
+{"current_steps": 325, "total_steps": 1870, "loss": 0.7376, "lr": 4.6387006911975275e-06, "epoch": 1.7379679144385025, "percentage": 17.38, "elapsed_time": "2:09:12", "remaining_time": "10:14:14"}
+{"current_steps": 326, "total_steps": 1870, "loss": 0.7099, "lr": 4.6365227705269026e-06, "epoch": 1.7433155080213902, "percentage": 17.43, "elapsed_time": "2:09:14", "remaining_time": "10:12:06"}
+{"current_steps": 327, "total_steps": 1870, "loss": 0.605, "lr": 4.634338819764029e-06, "epoch": 1.748663101604278, "percentage": 17.49, "elapsed_time": "2:09:17", "remaining_time": "10:10:03"}
+{"current_steps": 328, "total_steps": 1870, "loss": 0.5171, "lr": 4.632148845072861e-06, "epoch": 1.7540106951871657, "percentage": 17.54, "elapsed_time": "2:09:18", "remaining_time": "10:07:53"}
+{"current_steps": 329, "total_steps": 1870, "loss": 0.5983, "lr": 4.6299528526343525e-06, "epoch": 1.7593582887700534, "percentage": 17.59, "elapsed_time": "2:09:22", "remaining_time": "10:05:57"}
+{"current_steps": 330, "total_steps": 1870, "loss": 0.9565, "lr": 4.627750848646443e-06, "epoch": 1.7647058823529411, "percentage": 17.65, "elapsed_time": "2:09:25", "remaining_time": "10:03:59"}
+{"current_steps": 331, "total_steps": 1870, "loss": 0.6215, "lr": 4.625542839324036e-06, "epoch": 1.7700534759358288, "percentage": 17.7, "elapsed_time": "2:09:31", "remaining_time": "10:02:11"}
+{"current_steps": 332, "total_steps": 1870, "loss": 0.4276, "lr": 4.6233288308989874e-06, "epoch": 1.7754010695187166, "percentage": 17.75, "elapsed_time": "2:09:33", "remaining_time": "10:00:12"}
+{"current_steps": 333, "total_steps": 1870, "loss": 0.45, "lr": 4.6211088296200834e-06, "epoch": 1.7807486631016043, "percentage": 17.81, "elapsed_time": "2:09:35", "remaining_time": "9:58:10"}
+{"current_steps": 334, "total_steps": 1870, "loss": 0.6616, "lr": 4.618882841753026e-06, "epoch": 1.786096256684492, "percentage": 17.86, "elapsed_time": "2:09:38", "remaining_time": "9:56:11"}
+{"current_steps": 335, "total_steps": 1870, "loss": 0.6469, "lr": 4.616650873580411e-06, "epoch": 1.7914438502673797, "percentage": 17.91, "elapsed_time": "2:09:40", "remaining_time": "9:54:13"}
+{"current_steps": 336, "total_steps": 1870, "loss": 0.5521, "lr": 4.614412931401715e-06, "epoch": 1.7967914438502675, "percentage": 17.97, "elapsed_time": "2:09:44", "remaining_time": "9:52:18"}
+{"current_steps": 337, "total_steps": 1870, "loss": 0.5198, "lr": 4.612169021533276e-06, "epoch": 1.8021390374331552, "percentage": 18.02, "elapsed_time": "2:09:47", "remaining_time": "9:50:25"}
+{"current_steps": 338, "total_steps": 1870, "loss": 0.6327, "lr": 4.609919150308273e-06, "epoch": 1.807486631016043, "percentage": 18.07, "elapsed_time": "2:09:49", "remaining_time": "9:48:27"}
+{"current_steps": 339, "total_steps": 1870, "loss": 0.5429, "lr": 4.607663324076711e-06, "epoch": 1.8128342245989306, "percentage": 18.13, "elapsed_time": "2:09:50", "remaining_time": "9:46:24"}
+{"current_steps": 340, "total_steps": 1870, "loss": 0.7332, "lr": 4.605401549205404e-06, "epoch": 1.8181818181818183, "percentage": 18.18, "elapsed_time": "2:09:52", "remaining_time": "9:44:27"}
+{"current_steps": 341, "total_steps": 1870, "loss": 0.6233, "lr": 4.603133832077953e-06, "epoch": 1.8235294117647058, "percentage": 18.24, "elapsed_time": "2:09:54", "remaining_time": "9:42:30"}
+{"current_steps": 342, "total_steps": 1870, "loss": 0.6921, "lr": 4.600860179094732e-06, "epoch": 1.8288770053475936, "percentage": 18.29, "elapsed_time": "2:09:58", "remaining_time": "9:40:42"}
+{"current_steps": 343, "total_steps": 1870, "loss": 0.6652, "lr": 4.5985805966728675e-06, "epoch": 1.8342245989304813, "percentage": 18.34, "elapsed_time": "2:09:59", "remaining_time": "9:38:41"}
+{"current_steps": 344, "total_steps": 1870, "loss": 0.5388, "lr": 4.596295091246221e-06, "epoch": 1.839572192513369, "percentage": 18.4, "elapsed_time": "2:10:01", "remaining_time": "9:36:49"}
+{"current_steps": 345, "total_steps": 1870, "loss": 0.6082, "lr": 4.594003669265371e-06, "epoch": 1.8449197860962567, "percentage": 18.45, "elapsed_time": "2:10:04", "remaining_time": "9:34:55"}
+{"current_steps": 346, "total_steps": 1870, "loss": 0.6658, "lr": 4.591706337197597e-06, "epoch": 1.8502673796791442, "percentage": 18.5, "elapsed_time": "2:10:06", "remaining_time": "9:33:06"}
+{"current_steps": 347, "total_steps": 1870, "loss": 0.4768, "lr": 4.589403101526854e-06, "epoch": 1.855614973262032, "percentage": 18.56, "elapsed_time": "2:10:10", "remaining_time": "9:31:18"}
+{"current_steps": 348, "total_steps": 1870, "loss": 0.6738, "lr": 4.587093968753765e-06, "epoch": 1.8609625668449197, "percentage": 18.61, "elapsed_time": "2:10:12", "remaining_time": "9:29:28"}
+{"current_steps": 349, "total_steps": 1870, "loss": 0.4697, "lr": 4.584778945395594e-06, "epoch": 1.8663101604278074, "percentage": 18.66, "elapsed_time": "2:10:16", "remaining_time": "9:27:45"}
+{"current_steps": 350, "total_steps": 1870, "loss": 0.6812, "lr": 4.582458037986231e-06, "epoch": 1.8716577540106951, "percentage": 18.72, "elapsed_time": "2:10:17", "remaining_time": "9:25:49"}
+{"current_steps": 351, "total_steps": 1870, "loss": 0.9615, "lr": 4.580131253076171e-06, "epoch": 1.8770053475935828, "percentage": 18.77, "elapsed_time": "2:10:20", "remaining_time": "9:24:02"}
+{"current_steps": 352, "total_steps": 1870, "loss": 0.6229, "lr": 4.5777985972325016e-06, "epoch": 1.8823529411764706, "percentage": 18.82, "elapsed_time": "2:10:23", "remaining_time": "9:22:16"}
+{"current_steps": 353, "total_steps": 1870, "loss": 0.4036, "lr": 4.575460077038877e-06, "epoch": 1.8877005347593583, "percentage": 18.88, "elapsed_time": "2:10:27", "remaining_time": "9:20:39"}
+{"current_steps": 354, "total_steps": 1870, "loss": 0.9407, "lr": 4.573115699095505e-06, "epoch": 1.893048128342246, "percentage": 18.93, "elapsed_time": "2:10:31", "remaining_time": "9:18:56"}
+{"current_steps": 355, "total_steps": 1870, "loss": 0.4744, "lr": 4.570765470019125e-06, "epoch": 1.8983957219251337, "percentage": 18.98, "elapsed_time": "2:10:32", "remaining_time": "9:17:07"}
+{"current_steps": 356, "total_steps": 1870, "loss": 0.6402, "lr": 4.5684093964429906e-06, "epoch": 1.9037433155080214, "percentage": 19.04, "elapsed_time": "2:10:36", "remaining_time": "9:15:25"}
+{"current_steps": 357, "total_steps": 1870, "loss": 0.4854, "lr": 4.566047485016853e-06, "epoch": 1.9090909090909092, "percentage": 19.09, "elapsed_time": "2:10:40", "remaining_time": "9:13:48"}
+{"current_steps": 358, "total_steps": 1870, "loss": 0.6738, "lr": 4.563679742406935e-06, "epoch": 1.914438502673797, "percentage": 19.14, "elapsed_time": "2:10:42", "remaining_time": "9:12:01"}
+{"current_steps": 359, "total_steps": 1870, "loss": 1.179, "lr": 4.5613061752959236e-06, "epoch": 1.9197860962566846, "percentage": 19.2, "elapsed_time": "2:10:45", "remaining_time": "9:10:19"}
+{"current_steps": 360, "total_steps": 1870, "loss": 0.9302, "lr": 4.558926790382941e-06, "epoch": 1.9251336898395723, "percentage": 19.25, "elapsed_time": "2:10:48", "remaining_time": "9:08:38"}
+{"current_steps": 361, "total_steps": 1870, "loss": 0.6235, "lr": 4.556541594383528e-06, "epoch": 1.93048128342246, "percentage": 19.3, "elapsed_time": "2:10:49", "remaining_time": "9:06:52"}
+{"current_steps": 362, "total_steps": 1870, "loss": 0.3158, "lr": 4.554150594029631e-06, "epoch": 1.9358288770053476, "percentage": 19.36, "elapsed_time": "2:10:51", "remaining_time": "9:05:08"}
+{"current_steps": 363, "total_steps": 1870, "loss": 0.6294, "lr": 4.551753796069577e-06, "epoch": 1.9411764705882353, "percentage": 19.41, "elapsed_time": "2:10:57", "remaining_time": "9:03:40"}
+{"current_steps": 364, "total_steps": 1870, "loss": 0.6297, "lr": 4.5493512072680535e-06, "epoch": 1.946524064171123, "percentage": 19.47, "elapsed_time": "2:11:02", "remaining_time": "9:02:09"}
+{"current_steps": 365, "total_steps": 1870, "loss": 0.7989, "lr": 4.546942834406094e-06, "epoch": 1.9518716577540107, "percentage": 19.52, "elapsed_time": "2:11:05", "remaining_time": "9:00:30"}
+{"current_steps": 366, "total_steps": 1870, "loss": 0.4971, "lr": 4.544528684281056e-06, "epoch": 1.9572192513368984, "percentage": 19.57, "elapsed_time": "2:11:06", "remaining_time": "8:58:45"}
+{"current_steps": 367, "total_steps": 1870, "loss": 0.4967, "lr": 4.5421087637066065e-06, "epoch": 1.962566844919786, "percentage": 19.63, "elapsed_time": "2:11:09", "remaining_time": "8:57:09"}
+{"current_steps": 368, "total_steps": 1870, "loss": 0.7244, "lr": 4.539683079512692e-06, "epoch": 1.9679144385026737, "percentage": 19.68, "elapsed_time": "2:11:11", "remaining_time": "8:55:28"}
+{"current_steps": 369, "total_steps": 1870, "loss": 0.5883, "lr": 4.537251638545532e-06, "epoch": 1.9732620320855614, "percentage": 19.73, "elapsed_time": "2:11:17", "remaining_time": "8:54:03"}
+{"current_steps": 370, "total_steps": 1870, "loss": 0.3087, "lr": 4.534814447667591e-06, "epoch": 1.9786096256684491, "percentage": 19.79, "elapsed_time": "2:11:19", "remaining_time": "8:52:22"}
+{"current_steps": 371, "total_steps": 1870, "loss": 0.5159, "lr": 4.532371513757564e-06, "epoch": 1.9839572192513368, "percentage": 19.84, "elapsed_time": "2:11:22", "remaining_time": "8:50:50"}
+{"current_steps": 372, "total_steps": 1870, "loss": 0.6802, "lr": 4.529922843710354e-06, "epoch": 1.9893048128342246, "percentage": 19.89, "elapsed_time": "2:11:26", "remaining_time": "8:49:16"}
+{"current_steps": 373, "total_steps": 1870, "loss": 0.6612, "lr": 4.52746844443705e-06, "epoch": 1.9946524064171123, "percentage": 19.95, "elapsed_time": "2:11:28", "remaining_time": "8:47:40"}
+{"current_steps": 374, "total_steps": 1870, "loss": 0.6732, "lr": 4.525008322864917e-06, "epoch": 2.0, "percentage": 20.0, "elapsed_time": "2:11:31", "remaining_time": "8:46:07"}