KublaiKhan1 commited on Aug 25, 2025

Commit

744d283

verified ·

1 Parent(s): c807c6e

Delete limo_filtered_combined

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

limo_filtered_combined/checkpoint-1122/added_tokens.json +0 -24
limo_filtered_combined/checkpoint-1122/chat_template.jinja +0 -54
limo_filtered_combined/checkpoint-1122/config.json +0 -58
limo_filtered_combined/checkpoint-1122/generation_config.json +0 -9
limo_filtered_combined/checkpoint-1122/merges.txt +0 -0
limo_filtered_combined/checkpoint-1122/model.safetensors.index.json +0 -347
limo_filtered_combined/checkpoint-1122/special_tokens_map.json +0 -31
limo_filtered_combined/checkpoint-1122/tokenizer_config.json +0 -208
limo_filtered_combined/checkpoint-1122/trainer_state.json +0 -0
limo_filtered_combined/checkpoint-1122/vocab.json +0 -0
limo_filtered_combined/checkpoint-1309/added_tokens.json +0 -24
limo_filtered_combined/checkpoint-1309/chat_template.jinja +0 -54
limo_filtered_combined/checkpoint-1309/config.json +0 -58
limo_filtered_combined/checkpoint-1309/generation_config.json +0 -9
limo_filtered_combined/checkpoint-1309/merges.txt +0 -0
limo_filtered_combined/checkpoint-1309/model.safetensors.index.json +0 -347
limo_filtered_combined/checkpoint-1309/special_tokens_map.json +0 -31
limo_filtered_combined/checkpoint-1309/tokenizer_config.json +0 -208
limo_filtered_combined/checkpoint-1309/trainer_state.json +0 -0
limo_filtered_combined/checkpoint-1309/vocab.json +0 -0
limo_filtered_combined/checkpoint-1496/added_tokens.json +0 -24
limo_filtered_combined/checkpoint-1496/chat_template.jinja +0 -54
limo_filtered_combined/checkpoint-1496/config.json +0 -58
limo_filtered_combined/checkpoint-1496/generation_config.json +0 -9
limo_filtered_combined/checkpoint-1496/merges.txt +0 -0
limo_filtered_combined/checkpoint-1496/model.safetensors.index.json +0 -347
limo_filtered_combined/checkpoint-1496/special_tokens_map.json +0 -31
limo_filtered_combined/checkpoint-1496/tokenizer_config.json +0 -208
limo_filtered_combined/checkpoint-1496/trainer_state.json +0 -0
limo_filtered_combined/checkpoint-1496/vocab.json +0 -0
limo_filtered_combined/checkpoint-1683/added_tokens.json +0 -24
limo_filtered_combined/checkpoint-1683/chat_template.jinja +0 -54
limo_filtered_combined/checkpoint-1683/config.json +0 -58
limo_filtered_combined/checkpoint-1683/generation_config.json +0 -9
limo_filtered_combined/checkpoint-1683/merges.txt +0 -0
limo_filtered_combined/checkpoint-1683/model.safetensors.index.json +0 -347
limo_filtered_combined/checkpoint-1683/special_tokens_map.json +0 -31
limo_filtered_combined/checkpoint-1683/tokenizer_config.json +0 -208
limo_filtered_combined/checkpoint-1683/trainer_state.json +0 -0
limo_filtered_combined/checkpoint-1683/vocab.json +0 -0
limo_filtered_combined/checkpoint-187/added_tokens.json +0 -24
limo_filtered_combined/checkpoint-187/chat_template.jinja +0 -54
limo_filtered_combined/checkpoint-187/config.json +0 -58
limo_filtered_combined/checkpoint-187/generation_config.json +0 -9
limo_filtered_combined/checkpoint-187/merges.txt +0 -0
limo_filtered_combined/checkpoint-187/model.safetensors.index.json +0 -347
limo_filtered_combined/checkpoint-187/special_tokens_map.json +0 -31
limo_filtered_combined/checkpoint-187/tokenizer_config.json +0 -208
limo_filtered_combined/checkpoint-187/trainer_state.json +0 -1343
limo_filtered_combined/checkpoint-187/vocab.json +0 -0

limo_filtered_combined/checkpoint-1122/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

limo_filtered_combined/checkpoint-1122/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

limo_filtered_combined/checkpoint-1122/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 4096,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

limo_filtered_combined/checkpoint-1122/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "bos_token_id": 151643,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "transformers_version": "4.55.0"
-}

limo_filtered_combined/checkpoint-1122/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1122/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

limo_filtered_combined/checkpoint-1122/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

limo_filtered_combined/checkpoint-1122/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

limo_filtered_combined/checkpoint-1122/trainer_state.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1122/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1309/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

limo_filtered_combined/checkpoint-1309/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

limo_filtered_combined/checkpoint-1309/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 4096,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

limo_filtered_combined/checkpoint-1309/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "bos_token_id": 151643,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "transformers_version": "4.55.0"
-}

limo_filtered_combined/checkpoint-1309/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1309/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

limo_filtered_combined/checkpoint-1309/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

limo_filtered_combined/checkpoint-1309/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

limo_filtered_combined/checkpoint-1309/trainer_state.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1309/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1496/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

limo_filtered_combined/checkpoint-1496/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

limo_filtered_combined/checkpoint-1496/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 4096,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

limo_filtered_combined/checkpoint-1496/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "bos_token_id": 151643,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "transformers_version": "4.55.0"
-}

limo_filtered_combined/checkpoint-1496/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1496/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

limo_filtered_combined/checkpoint-1496/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

limo_filtered_combined/checkpoint-1496/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

limo_filtered_combined/checkpoint-1496/trainer_state.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1496/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1683/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

limo_filtered_combined/checkpoint-1683/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

limo_filtered_combined/checkpoint-1683/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 4096,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

limo_filtered_combined/checkpoint-1683/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "bos_token_id": 151643,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "transformers_version": "4.55.0"
-}

limo_filtered_combined/checkpoint-1683/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1683/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

limo_filtered_combined/checkpoint-1683/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

limo_filtered_combined/checkpoint-1683/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

limo_filtered_combined/checkpoint-1683/trainer_state.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-1683/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-187/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

limo_filtered_combined/checkpoint-187/chat_template.jinja DELETED Viewed

@@ -1,54 +0,0 @@
-{%- if tools %}
-    {{- '<|im_start|>system\n' }}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- messages[0]['content'] }}
-    {%- else %}
-        {{- 'Please reason step by step, and put your final answer within \\boxed{}.' }}
-    {%- endif %}
-    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
-    {%- for tool in tools %}
-        {{- "\n" }}
-        {{- tool | tojson }}
-    {%- endfor %}
-    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
-{%- else %}
-    {%- if messages[0]['role'] == 'system' %}
-        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
-    {%- else %}
-        {{- '<|im_start|>system\nPlease reason step by step, and put your final answer within \\boxed{}.<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in messages %}
-    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
-    {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content %}
-            {{- '\n' + message.content }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n{"name": "' }}
-            {{- tool_call.name }}
-            {{- '", "arguments": ' }}
-            {{- tool_call.arguments | tojson }}
-            {{- '}\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "tool" %}
-        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
-            {{- '<|im_start|>user' }}
-        {%- endif %}
-        {{- '\n<tool_response>\n' }}
-        {{- message.content }}
-        {{- '\n</tool_response>' }}
-        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
-            {{- '<|im_end|>\n' }}
-        {%- endif %}
-    {%- endif %}
-{%- endfor %}
-{%- if add_generation_prompt %}
-    {{- '<|im_start|>assistant\n' }}
-{%- endif %}

limo_filtered_combined/checkpoint-187/config.json DELETED Viewed

@@ -1,58 +0,0 @@
-{
-  "architectures": [
-    "Qwen2ForCausalLM"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "layer_types": [
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention"
-  ],
-  "max_position_embeddings": 4096,
-  "max_window_layers": 28,
-  "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "sliding_window": null,
-  "tie_word_embeddings": false,
-  "torch_dtype": "float32",
-  "transformers_version": "4.55.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "vocab_size": 152064
-}

limo_filtered_combined/checkpoint-187/generation_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "bos_token_id": 151643,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "transformers_version": "4.55.0"
-}

limo_filtered_combined/checkpoint-187/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

limo_filtered_combined/checkpoint-187/model.safetensors.index.json DELETED Viewed

@@ -1,347 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 1903904128,
-    "total_size": 30462466048
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00007-of-00007.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
-    "model.norm.weight": "model-00006-of-00007.safetensors"
-  }
-}

limo_filtered_combined/checkpoint-187/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

limo_filtered_combined/checkpoint-187/tokenizer_config.json DELETED Viewed

@@ -1,208 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "padding_side": "right",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

limo_filtered_combined/checkpoint-187/trainer_state.json DELETED Viewed

@@ -1,1343 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "eval_steps": 500,
-  "global_step": 187,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0053475935828877,
-      "grad_norm": 32.667198181152344,
-      "learning_rate": 5e-06,
-      "loss": 3.2539,
-      "step": 1
-    },
-    {
-      "epoch": 0.0106951871657754,
-      "grad_norm": 38.2481803894043,
-      "learning_rate": 4.99999647201733e-06,
-      "loss": 6.258,
-      "step": 2
-    },
-    {
-      "epoch": 0.016042780748663103,
-      "grad_norm": 26.6931209564209,
-      "learning_rate": 4.999985888079276e-06,
-      "loss": 2.4767,
-      "step": 3
-    },
-    {
-      "epoch": 0.0213903743315508,
-      "grad_norm": 36.4799919128418,
-      "learning_rate": 4.999968248215712e-06,
-      "loss": 5.4026,
-      "step": 4
-    },
-    {
-      "epoch": 0.026737967914438502,
-      "grad_norm": 23.325607299804688,
-      "learning_rate": 4.999943552476422e-06,
-      "loss": 3.818,
-      "step": 5
-    },
-    {
-      "epoch": 0.03208556149732621,
-      "grad_norm": 17.09689712524414,
-      "learning_rate": 4.999911800931108e-06,
-      "loss": 2.7186,
-      "step": 6
-    },
-    {
-      "epoch": 0.0374331550802139,
-      "grad_norm": 6.150149345397949,
-      "learning_rate": 4.999872993669387e-06,
-      "loss": 1.2419,
-      "step": 7
-    },
-    {
-      "epoch": 0.0427807486631016,
-      "grad_norm": 8.962457656860352,
-      "learning_rate": 4.999827130800785e-06,
-      "loss": 2.443,
-      "step": 8
-    },
-    {
-      "epoch": 0.0481283422459893,
-      "grad_norm": 17.777889251708984,
-      "learning_rate": 4.999774212454746e-06,
-      "loss": 3.1664,
-      "step": 9
-    },
-    {
-      "epoch": 0.053475935828877004,
-      "grad_norm": 6.9644694328308105,
-      "learning_rate": 4.999714238780626e-06,
-      "loss": 2.4137,
-      "step": 10
-    },
-    {
-      "epoch": 0.058823529411764705,
-      "grad_norm": 7.578589916229248,
-      "learning_rate": 4.999647209947694e-06,
-      "loss": 2.2937,
-      "step": 11
-    },
-    {
-      "epoch": 0.06417112299465241,
-      "grad_norm": 5.47304630279541,
-      "learning_rate": 4.999573126145132e-06,
-      "loss": 2.1922,
-      "step": 12
-    },
-    {
-      "epoch": 0.06951871657754011,
-      "grad_norm": 4.273566246032715,
-      "learning_rate": 4.999491987582032e-06,
-      "loss": 1.5914,
-      "step": 13
-    },
-    {
-      "epoch": 0.0748663101604278,
-      "grad_norm": 7.62272310256958,
-      "learning_rate": 4.999403794487399e-06,
-      "loss": 2.5434,
-      "step": 14
-    },
-    {
-      "epoch": 0.08021390374331551,
-      "grad_norm": 4.374003887176514,
-      "learning_rate": 4.999308547110147e-06,
-      "loss": 1.6044,
-      "step": 15
-    },
-    {
-      "epoch": 0.0855614973262032,
-      "grad_norm": 3.7834177017211914,
-      "learning_rate": 4.9992062457191005e-06,
-      "loss": 1.6413,
-      "step": 16
-    },
-    {
-      "epoch": 0.09090909090909091,
-      "grad_norm": 3.5481460094451904,
-      "learning_rate": 4.999096890602996e-06,
-      "loss": 1.601,
-      "step": 17
-    },
-    {
-      "epoch": 0.0962566844919786,
-      "grad_norm": 4.520628452301025,
-      "learning_rate": 4.998980482070473e-06,
-      "loss": 1.7445,
-      "step": 18
-    },
-    {
-      "epoch": 0.10160427807486631,
-      "grad_norm": 4.576196670532227,
-      "learning_rate": 4.998857020450084e-06,
-      "loss": 2.3176,
-      "step": 19
-    },
-    {
-      "epoch": 0.10695187165775401,
-      "grad_norm": 3.1453230381011963,
-      "learning_rate": 4.998726506090283e-06,
-      "loss": 1.3387,
-      "step": 20
-    },
-    {
-      "epoch": 0.11229946524064172,
-      "grad_norm": 2.1666250228881836,
-      "learning_rate": 4.998588939359435e-06,
-      "loss": 1.0422,
-      "step": 21
-    },
-    {
-      "epoch": 0.11764705882352941,
-      "grad_norm": 4.155343532562256,
-      "learning_rate": 4.998444320645803e-06,
-      "loss": 1.8809,
-      "step": 22
-    },
-    {
-      "epoch": 0.12299465240641712,
-      "grad_norm": 3.580847978591919,
-      "learning_rate": 4.998292650357558e-06,
-      "loss": 1.5926,
-      "step": 23
-    },
-    {
-      "epoch": 0.12834224598930483,
-      "grad_norm": 5.140923976898193,
-      "learning_rate": 4.998133928922773e-06,
-      "loss": 2.4575,
-      "step": 24
-    },
-    {
-      "epoch": 0.13368983957219252,
-      "grad_norm": 4.047446250915527,
-      "learning_rate": 4.99796815678942e-06,
-      "loss": 1.3485,
-      "step": 25
-    },
-    {
-      "epoch": 0.13903743315508021,
-      "grad_norm": 4.0677571296691895,
-      "learning_rate": 4.997795334425372e-06,
-      "loss": 1.9172,
-      "step": 26
-    },
-    {
-      "epoch": 0.1443850267379679,
-      "grad_norm": 5.883276462554932,
-      "learning_rate": 4.997615462318403e-06,
-      "loss": 2.1168,
-      "step": 27
-    },
-    {
-      "epoch": 0.1497326203208556,
-      "grad_norm": 3.6615514755249023,
-      "learning_rate": 4.997428540976177e-06,
-      "loss": 1.5822,
-      "step": 28
-    },
-    {
-      "epoch": 0.15508021390374332,
-      "grad_norm": 2.608039617538452,
-      "learning_rate": 4.997234570926263e-06,
-      "loss": 1.2184,
-      "step": 29
-    },
-    {
-      "epoch": 0.16042780748663102,
-      "grad_norm": 2.280423879623413,
-      "learning_rate": 4.997033552716116e-06,
-      "loss": 1.0216,
-      "step": 30
-    },
-    {
-      "epoch": 0.1657754010695187,
-      "grad_norm": 1.7143268585205078,
-      "learning_rate": 4.9968254869130885e-06,
-      "loss": 0.9795,
-      "step": 31
-    },
-    {
-      "epoch": 0.1711229946524064,
-      "grad_norm": 1.4858453273773193,
-      "learning_rate": 4.996610374104422e-06,
-      "loss": 0.7698,
-      "step": 32
-    },
-    {
-      "epoch": 0.17647058823529413,
-      "grad_norm": 1.51152503490448,
-      "learning_rate": 4.9963882148972475e-06,
-      "loss": 1.3918,
-      "step": 33
-    },
-    {
-      "epoch": 0.18181818181818182,
-      "grad_norm": 1.6170848608016968,
-      "learning_rate": 4.996159009918586e-06,
-      "loss": 1.1074,
-      "step": 34
-    },
-    {
-      "epoch": 0.18716577540106952,
-      "grad_norm": 2.591637372970581,
-      "learning_rate": 4.9959227598153395e-06,
-      "loss": 1.4097,
-      "step": 35
-    },
-    {
-      "epoch": 0.1925133689839572,
-      "grad_norm": 2.9409682750701904,
-      "learning_rate": 4.9956794652542994e-06,
-      "loss": 1.6475,
-      "step": 36
-    },
-    {
-      "epoch": 0.19786096256684493,
-      "grad_norm": 1.9114937782287598,
-      "learning_rate": 4.9954291269221364e-06,
-      "loss": 1.0298,
-      "step": 37
-    },
-    {
-      "epoch": 0.20320855614973263,
-      "grad_norm": 4.106937408447266,
-      "learning_rate": 4.995171745525401e-06,
-      "loss": 1.6997,
-      "step": 38
-    },
-    {
-      "epoch": 0.20855614973262032,
-      "grad_norm": 4.7484822273254395,
-      "learning_rate": 4.994907321790524e-06,
-      "loss": 1.4041,
-      "step": 39
-    },
-    {
-      "epoch": 0.21390374331550802,
-      "grad_norm": 2.5232057571411133,
-      "learning_rate": 4.994635856463811e-06,
-      "loss": 1.023,
-      "step": 40
-    },
-    {
-      "epoch": 0.2192513368983957,
-      "grad_norm": 2.975825548171997,
-      "learning_rate": 4.994357350311441e-06,
-      "loss": 1.6556,
-      "step": 41
-    },
-    {
-      "epoch": 0.22459893048128343,
-      "grad_norm": 2.3416595458984375,
-      "learning_rate": 4.994071804119467e-06,
-      "loss": 1.2464,
-      "step": 42
-    },
-    {
-      "epoch": 0.22994652406417113,
-      "grad_norm": 3.6734139919281006,
-      "learning_rate": 4.993779218693811e-06,
-      "loss": 1.8306,
-      "step": 43
-    },
-    {
-      "epoch": 0.23529411764705882,
-      "grad_norm": 2.287463903427124,
-      "learning_rate": 4.99347959486026e-06,
-      "loss": 1.0122,
-      "step": 44
-    },
-    {
-      "epoch": 0.24064171122994651,
-      "grad_norm": 1.5980703830718994,
-      "learning_rate": 4.99317293346447e-06,
-      "loss": 0.8706,
-      "step": 45
-    },
-    {
-      "epoch": 0.24598930481283424,
-      "grad_norm": 1.4346195459365845,
-      "learning_rate": 4.992859235371958e-06,
-      "loss": 0.7815,
-      "step": 46
-    },
-    {
-      "epoch": 0.25133689839572193,
-      "grad_norm": 1.635718822479248,
-      "learning_rate": 4.992538501468101e-06,
-      "loss": 0.8891,
-      "step": 47
-    },
-    {
-      "epoch": 0.25668449197860965,
-      "grad_norm": 3.2847158908843994,
-      "learning_rate": 4.992210732658132e-06,
-      "loss": 1.3393,
-      "step": 48
-    },
-    {
-      "epoch": 0.2620320855614973,
-      "grad_norm": 3.3003337383270264,
-      "learning_rate": 4.991875929867143e-06,
-      "loss": 1.4412,
-      "step": 49
-    },
-    {
-      "epoch": 0.26737967914438504,
-      "grad_norm": 1.588843584060669,
-      "learning_rate": 4.991534094040077e-06,
-      "loss": 0.8567,
-      "step": 50
-    },
-    {
-      "epoch": 0.2727272727272727,
-      "grad_norm": 1.4450788497924805,
-      "learning_rate": 4.991185226141726e-06,
-      "loss": 0.8855,
-      "step": 51
-    },
-    {
-      "epoch": 0.27807486631016043,
-      "grad_norm": 1.6408952474594116,
-      "learning_rate": 4.990829327156729e-06,
-      "loss": 1.1081,
-      "step": 52
-    },
-    {
-      "epoch": 0.28342245989304815,
-      "grad_norm": 1.3315808773040771,
-      "learning_rate": 4.990466398089571e-06,
-      "loss": 0.9124,
-      "step": 53
-    },
-    {
-      "epoch": 0.2887700534759358,
-      "grad_norm": 1.460076928138733,
-      "learning_rate": 4.99009643996458e-06,
-      "loss": 0.6002,
-      "step": 54
-    },
-    {
-      "epoch": 0.29411764705882354,
-      "grad_norm": 1.4954642057418823,
-      "learning_rate": 4.989719453825918e-06,
-      "loss": 0.7522,
-      "step": 55
-    },
-    {
-      "epoch": 0.2994652406417112,
-      "grad_norm": 1.6860841512680054,
-      "learning_rate": 4.989335440737587e-06,
-      "loss": 0.7829,
-      "step": 56
-    },
-    {
-      "epoch": 0.3048128342245989,
-      "grad_norm": 1.5118118524551392,
-      "learning_rate": 4.9889444017834185e-06,
-      "loss": 0.9124,
-      "step": 57
-    },
-    {
-      "epoch": 0.31016042780748665,
-      "grad_norm": 1.4117275476455688,
-      "learning_rate": 4.988546338067078e-06,
-      "loss": 0.9708,
-      "step": 58
-    },
-    {
-      "epoch": 0.3155080213903743,
-      "grad_norm": 2.2665367126464844,
-      "learning_rate": 4.988141250712053e-06,
-      "loss": 1.1277,
-      "step": 59
-    },
-    {
-      "epoch": 0.32085561497326204,
-      "grad_norm": 1.3910932540893555,
-      "learning_rate": 4.987729140861657e-06,
-      "loss": 0.9477,
-      "step": 60
-    },
-    {
-      "epoch": 0.32620320855614976,
-      "grad_norm": 1.618573784828186,
-      "learning_rate": 4.987310009679023e-06,
-      "loss": 0.9895,
-      "step": 61
-    },
-    {
-      "epoch": 0.3315508021390374,
-      "grad_norm": 1.3848469257354736,
-      "learning_rate": 4.986883858347101e-06,
-      "loss": 0.8927,
-      "step": 62
-    },
-    {
-      "epoch": 0.33689839572192515,
-      "grad_norm": 1.4412480592727661,
-      "learning_rate": 4.986450688068655e-06,
-      "loss": 0.657,
-      "step": 63
-    },
-    {
-      "epoch": 0.3422459893048128,
-      "grad_norm": 1.462384819984436,
-      "learning_rate": 4.986010500066258e-06,
-      "loss": 0.8561,
-      "step": 64
-    },
-    {
-      "epoch": 0.34759358288770054,
-      "grad_norm": 1.3507061004638672,
-      "learning_rate": 4.985563295582292e-06,
-      "loss": 0.8016,
-      "step": 65
-    },
-    {
-      "epoch": 0.35294117647058826,
-      "grad_norm": 2.146437406539917,
-      "learning_rate": 4.98510907587894e-06,
-      "loss": 0.9754,
-      "step": 66
-    },
-    {
-      "epoch": 0.3582887700534759,
-      "grad_norm": 2.181367874145508,
-      "learning_rate": 4.984647842238185e-06,
-      "loss": 1.2643,
-      "step": 67
-    },
-    {
-      "epoch": 0.36363636363636365,
-      "grad_norm": 1.5960901975631714,
-      "learning_rate": 4.984179595961806e-06,
-      "loss": 0.6543,
-      "step": 68
-    },
-    {
-      "epoch": 0.3689839572192513,
-      "grad_norm": 1.0785574913024902,
-      "learning_rate": 4.983704338371375e-06,
-      "loss": 0.7784,
-      "step": 69
-    },
-    {
-      "epoch": 0.37433155080213903,
-      "grad_norm": 1.322706937789917,
-      "learning_rate": 4.983222070808255e-06,
-      "loss": 0.6633,
-      "step": 70
-    },
-    {
-      "epoch": 0.37967914438502676,
-      "grad_norm": 1.806099534034729,
-      "learning_rate": 4.982732794633588e-06,
-      "loss": 1.0887,
-      "step": 71
-    },
-    {
-      "epoch": 0.3850267379679144,
-      "grad_norm": 1.2431350946426392,
-      "learning_rate": 4.982236511228301e-06,
-      "loss": 0.8154,
-      "step": 72
-    },
-    {
-      "epoch": 0.39037433155080214,
-      "grad_norm": 2.1100635528564453,
-      "learning_rate": 4.981733221993099e-06,
-      "loss": 1.2385,
-      "step": 73
-    },
-    {
-      "epoch": 0.39572192513368987,
-      "grad_norm": 2.499673843383789,
-      "learning_rate": 4.981222928348456e-06,
-      "loss": 1.0381,
-      "step": 74
-    },
-    {
-      "epoch": 0.40106951871657753,
-      "grad_norm": 1.7459089756011963,
-      "learning_rate": 4.98070563173462e-06,
-      "loss": 0.9279,
-      "step": 75
-    },
-    {
-      "epoch": 0.40641711229946526,
-      "grad_norm": 1.6326146125793457,
-      "learning_rate": 4.980181333611601e-06,
-      "loss": 0.7559,
-      "step": 76
-    },
-    {
-      "epoch": 0.4117647058823529,
-      "grad_norm": 1.2402805089950562,
-      "learning_rate": 4.979650035459171e-06,
-      "loss": 0.7301,
-      "step": 77
-    },
-    {
-      "epoch": 0.41711229946524064,
-      "grad_norm": 1.5247249603271484,
-      "learning_rate": 4.9791117387768575e-06,
-      "loss": 1.1018,
-      "step": 78
-    },
-    {
-      "epoch": 0.42245989304812837,
-      "grad_norm": 1.19709312915802,
-      "learning_rate": 4.978566445083942e-06,
-      "loss": 0.6179,
-      "step": 79
-    },
-    {
-      "epoch": 0.42780748663101603,
-      "grad_norm": 1.3535789251327515,
-      "learning_rate": 4.978014155919455e-06,
-      "loss": 0.734,
-      "step": 80
-    },
-    {
-      "epoch": 0.43315508021390375,
-      "grad_norm": 1.3790255784988403,
-      "learning_rate": 4.977454872842169e-06,
-      "loss": 0.7967,
-      "step": 81
-    },
-    {
-      "epoch": 0.4385026737967914,
-      "grad_norm": 1.6345816850662231,
-      "learning_rate": 4.976888597430597e-06,
-      "loss": 1.0332,
-      "step": 82
-    },
-    {
-      "epoch": 0.44385026737967914,
-      "grad_norm": 1.5695714950561523,
-      "learning_rate": 4.976315331282985e-06,
-      "loss": 0.9266,
-      "step": 83
-    },
-    {
-      "epoch": 0.44919786096256686,
-      "grad_norm": 1.2244231700897217,
-      "learning_rate": 4.9757350760173144e-06,
-      "loss": 0.7738,
-      "step": 84
-    },
-    {
-      "epoch": 0.45454545454545453,
-      "grad_norm": 1.674436330795288,
-      "learning_rate": 4.975147833271288e-06,
-      "loss": 1.0436,
-      "step": 85
-    },
-    {
-      "epoch": 0.45989304812834225,
-      "grad_norm": 1.718598484992981,
-      "learning_rate": 4.974553604702332e-06,
-      "loss": 0.7659,
-      "step": 86
-    },
-    {
-      "epoch": 0.46524064171123,
-      "grad_norm": 1.2509411573410034,
-      "learning_rate": 4.973952391987589e-06,
-      "loss": 0.8631,
-      "step": 87
-    },
-    {
-      "epoch": 0.47058823529411764,
-      "grad_norm": 1.9576022624969482,
-      "learning_rate": 4.9733441968239125e-06,
-      "loss": 1.1419,
-      "step": 88
-    },
-    {
-      "epoch": 0.47593582887700536,
-      "grad_norm": 1.14915132522583,
-      "learning_rate": 4.972729020927866e-06,
-      "loss": 0.6647,
-      "step": 89
-    },
-    {
-      "epoch": 0.48128342245989303,
-      "grad_norm": 1.0880329608917236,
-      "learning_rate": 4.97210686603571e-06,
-      "loss": 0.8533,
-      "step": 90
-    },
-    {
-      "epoch": 0.48663101604278075,
-      "grad_norm": 1.60923171043396,
-      "learning_rate": 4.97147773390341e-06,
-      "loss": 0.7872,
-      "step": 91
-    },
-    {
-      "epoch": 0.4919786096256685,
-      "grad_norm": 2.191762685775757,
-      "learning_rate": 4.970841626306617e-06,
-      "loss": 0.8983,
-      "step": 92
-    },
-    {
-      "epoch": 0.49732620320855614,
-      "grad_norm": 1.805025577545166,
-      "learning_rate": 4.970198545040673e-06,
-      "loss": 1.0416,
-      "step": 93
-    },
-    {
-      "epoch": 0.5026737967914439,
-      "grad_norm": 1.670198917388916,
-      "learning_rate": 4.969548491920603e-06,
-      "loss": 0.9088,
-      "step": 94
-    },
-    {
-      "epoch": 0.5080213903743316,
-      "grad_norm": 1.5051180124282837,
-      "learning_rate": 4.968891468781105e-06,
-      "loss": 0.9928,
-      "step": 95
-    },
-    {
-      "epoch": 0.5133689839572193,
-      "grad_norm": 1.380786418914795,
-      "learning_rate": 4.968227477476554e-06,
-      "loss": 0.8154,
-      "step": 96
-    },
-    {
-      "epoch": 0.5187165775401069,
-      "grad_norm": 1.744243860244751,
-      "learning_rate": 4.9675565198809905e-06,
-      "loss": 1.1196,
-      "step": 97
-    },
-    {
-      "epoch": 0.5240641711229946,
-      "grad_norm": 3.3793137073516846,
-      "learning_rate": 4.966878597888114e-06,
-      "loss": 0.966,
-      "step": 98
-    },
-    {
-      "epoch": 0.5294117647058824,
-      "grad_norm": 1.2802485227584839,
-      "learning_rate": 4.966193713411284e-06,
-      "loss": 0.6863,
-      "step": 99
-    },
-    {
-      "epoch": 0.5347593582887701,
-      "grad_norm": 1.1910849809646606,
-      "learning_rate": 4.965501868383507e-06,
-      "loss": 0.6748,
-      "step": 100
-    },
-    {
-      "epoch": 0.5401069518716578,
-      "grad_norm": 2.020167827606201,
-      "learning_rate": 4.964803064757438e-06,
-      "loss": 0.9697,
-      "step": 101
-    },
-    {
-      "epoch": 0.5454545454545454,
-      "grad_norm": 1.1739224195480347,
-      "learning_rate": 4.964097304505371e-06,
-      "loss": 0.7805,
-      "step": 102
-    },
-    {
-      "epoch": 0.5508021390374331,
-      "grad_norm": 1.1704705953598022,
-      "learning_rate": 4.963384589619233e-06,
-      "loss": 0.6536,
-      "step": 103
-    },
-    {
-      "epoch": 0.5561497326203209,
-      "grad_norm": 1.3174995183944702,
-      "learning_rate": 4.962664922110581e-06,
-      "loss": 0.8689,
-      "step": 104
-    },
-    {
-      "epoch": 0.5614973262032086,
-      "grad_norm": 1.2126598358154297,
-      "learning_rate": 4.9619383040105954e-06,
-      "loss": 0.9955,
-      "step": 105
-    },
-    {
-      "epoch": 0.5668449197860963,
-      "grad_norm": 1.365536093711853,
-      "learning_rate": 4.961204737370071e-06,
-      "loss": 0.9104,
-      "step": 106
-    },
-    {
-      "epoch": 0.5721925133689839,
-      "grad_norm": 1.4193490743637085,
-      "learning_rate": 4.960464224259418e-06,
-      "loss": 1.1661,
-      "step": 107
-    },
-    {
-      "epoch": 0.5775401069518716,
-      "grad_norm": 1.108224868774414,
-      "learning_rate": 4.95971676676865e-06,
-      "loss": 0.5704,
-      "step": 108
-    },
-    {
-      "epoch": 0.5828877005347594,
-      "grad_norm": 1.0754598379135132,
-      "learning_rate": 4.958962367007381e-06,
-      "loss": 0.8837,
-      "step": 109
-    },
-    {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 1.194149374961853,
-      "learning_rate": 4.958201027104818e-06,
-      "loss": 0.7352,
-      "step": 110
-    },
-    {
-      "epoch": 0.5935828877005348,
-      "grad_norm": 3.193861246109009,
-      "learning_rate": 4.957432749209755e-06,
-      "loss": 0.6904,
-      "step": 111
-    },
-    {
-      "epoch": 0.5989304812834224,
-      "grad_norm": 1.7174736261367798,
-      "learning_rate": 4.95665753549057e-06,
-      "loss": 0.8564,
-      "step": 112
-    },
-    {
-      "epoch": 0.6042780748663101,
-      "grad_norm": 1.452724814414978,
-      "learning_rate": 4.9558753881352165e-06,
-      "loss": 1.2627,
-      "step": 113
-    },
-    {
-      "epoch": 0.6096256684491979,
-      "grad_norm": 1.489687442779541,
-      "learning_rate": 4.955086309351213e-06,
-      "loss": 1.0371,
-      "step": 114
-    },
-    {
-      "epoch": 0.6149732620320856,
-      "grad_norm": 1.0586612224578857,
-      "learning_rate": 4.9542903013656485e-06,
-      "loss": 0.5672,
-      "step": 115
-    },
-    {
-      "epoch": 0.6203208556149733,
-      "grad_norm": 1.2536990642547607,
-      "learning_rate": 4.953487366425163e-06,
-      "loss": 0.7125,
-      "step": 116
-    },
-    {
-      "epoch": 0.6256684491978609,
-      "grad_norm": 1.1650030612945557,
-      "learning_rate": 4.952677506795949e-06,
-      "loss": 0.5989,
-      "step": 117
-    },
-    {
-      "epoch": 0.6310160427807486,
-      "grad_norm": 1.286164402961731,
-      "learning_rate": 4.951860724763743e-06,
-      "loss": 0.7466,
-      "step": 118
-    },
-    {
-      "epoch": 0.6363636363636364,
-      "grad_norm": 1.132703423500061,
-      "learning_rate": 4.95103702263382e-06,
-      "loss": 0.7379,
-      "step": 119
-    },
-    {
-      "epoch": 0.6417112299465241,
-      "grad_norm": 1.340989589691162,
-      "learning_rate": 4.950206402730984e-06,
-      "loss": 0.7781,
-      "step": 120
-    },
-    {
-      "epoch": 0.6470588235294118,
-      "grad_norm": 1.0583947896957397,
-      "learning_rate": 4.949368867399567e-06,
-      "loss": 0.5383,
-      "step": 121
-    },
-    {
-      "epoch": 0.6524064171122995,
-      "grad_norm": 1.2740116119384766,
-      "learning_rate": 4.948524419003415e-06,
-      "loss": 1.185,
-      "step": 122
-    },
-    {
-      "epoch": 0.6577540106951871,
-      "grad_norm": 1.3854238986968994,
-      "learning_rate": 4.947673059925889e-06,
-      "loss": 0.8494,
-      "step": 123
-    },
-    {
-      "epoch": 0.6631016042780749,
-      "grad_norm": 1.0074819326400757,
-      "learning_rate": 4.9468147925698525e-06,
-      "loss": 0.8941,
-      "step": 124
-    },
-    {
-      "epoch": 0.6684491978609626,
-      "grad_norm": 1.1346782445907593,
-      "learning_rate": 4.945949619357668e-06,
-      "loss": 0.6798,
-      "step": 125
-    },
-    {
-      "epoch": 0.6737967914438503,
-      "grad_norm": 1.1151247024536133,
-      "learning_rate": 4.945077542731188e-06,
-      "loss": 0.5321,
-      "step": 126
-    },
-    {
-      "epoch": 0.679144385026738,
-      "grad_norm": 1.3562278747558594,
-      "learning_rate": 4.94419856515175e-06,
-      "loss": 0.8688,
-      "step": 127
-    },
-    {
-      "epoch": 0.6844919786096256,
-      "grad_norm": 1.1577609777450562,
-      "learning_rate": 4.943312689100166e-06,
-      "loss": 0.8504,
-      "step": 128
-    },
-    {
-      "epoch": 0.6898395721925134,
-      "grad_norm": 1.0710453987121582,
-      "learning_rate": 4.942419917076723e-06,
-      "loss": 0.6366,
-      "step": 129
-    },
-    {
-      "epoch": 0.6951871657754011,
-      "grad_norm": 1.153254508972168,
-      "learning_rate": 4.941520251601167e-06,
-      "loss": 0.7544,
-      "step": 130
-    },
-    {
-      "epoch": 0.7005347593582888,
-      "grad_norm": 0.9147224426269531,
-      "learning_rate": 4.940613695212702e-06,
-      "loss": 0.4771,
-      "step": 131
-    },
-    {
-      "epoch": 0.7058823529411765,
-      "grad_norm": 1.7819873094558716,
-      "learning_rate": 4.939700250469979e-06,
-      "loss": 1.0403,
-      "step": 132
-    },
-    {
-      "epoch": 0.7112299465240641,
-      "grad_norm": 1.1828848123550415,
-      "learning_rate": 4.938779919951092e-06,
-      "loss": 0.8482,
-      "step": 133
-    },
-    {
-      "epoch": 0.7165775401069518,
-      "grad_norm": 1.1376489400863647,
-      "learning_rate": 4.93785270625357e-06,
-      "loss": 0.5515,
-      "step": 134
-    },
-    {
-      "epoch": 0.7219251336898396,
-      "grad_norm": 1.601025938987732,
-      "learning_rate": 4.936918611994368e-06,
-      "loss": 0.706,
-      "step": 135
-    },
-    {
-      "epoch": 0.7272727272727273,
-      "grad_norm": 1.2240617275238037,
-      "learning_rate": 4.935977639809861e-06,
-      "loss": 0.8308,
-      "step": 136
-    },
-    {
-      "epoch": 0.732620320855615,
-      "grad_norm": 1.088484287261963,
-      "learning_rate": 4.935029792355834e-06,
-      "loss": 0.642,
-      "step": 137
-    },
-    {
-      "epoch": 0.7379679144385026,
-      "grad_norm": 1.3206232786178589,
-      "learning_rate": 4.934075072307481e-06,
-      "loss": 1.0115,
-      "step": 138
-    },
-    {
-      "epoch": 0.7433155080213903,
-      "grad_norm": 1.1618086099624634,
-      "learning_rate": 4.933113482359388e-06,
-      "loss": 0.5455,
-      "step": 139
-    },
-    {
-      "epoch": 0.7486631016042781,
-      "grad_norm": 1.2013949155807495,
-      "learning_rate": 4.932145025225535e-06,
-      "loss": 0.6958,
-      "step": 140
-    },
-    {
-      "epoch": 0.7540106951871658,
-      "grad_norm": 1.3020150661468506,
-      "learning_rate": 4.931169703639282e-06,
-      "loss": 0.8664,
-      "step": 141
-    },
-    {
-      "epoch": 0.7593582887700535,
-      "grad_norm": 1.3776401281356812,
-      "learning_rate": 4.930187520353363e-06,
-      "loss": 0.7594,
-      "step": 142
-    },
-    {
-      "epoch": 0.7647058823529411,
-      "grad_norm": 1.0648787021636963,
-      "learning_rate": 4.929198478139877e-06,
-      "loss": 0.6382,
-      "step": 143
-    },
-    {
-      "epoch": 0.7700534759358288,
-      "grad_norm": 1.1864025592803955,
-      "learning_rate": 4.928202579790285e-06,
-      "loss": 0.5924,
-      "step": 144
-    },
-    {
-      "epoch": 0.7754010695187166,
-      "grad_norm": 1.1243900060653687,
-      "learning_rate": 4.927199828115395e-06,
-      "loss": 0.7163,
-      "step": 145
-    },
-    {
-      "epoch": 0.7807486631016043,
-      "grad_norm": 1.2532908916473389,
-      "learning_rate": 4.9261902259453616e-06,
-      "loss": 0.8453,
-      "step": 146
-    },
-    {
-      "epoch": 0.786096256684492,
-      "grad_norm": 1.3941049575805664,
-      "learning_rate": 4.925173776129669e-06,
-      "loss": 1.0382,
-      "step": 147
-    },
-    {
-      "epoch": 0.7914438502673797,
-      "grad_norm": 0.9239159822463989,
-      "learning_rate": 4.9241504815371346e-06,
-      "loss": 0.4883,
-      "step": 148
-    },
-    {
-      "epoch": 0.7967914438502673,
-      "grad_norm": 1.1004669666290283,
-      "learning_rate": 4.923120345055887e-06,
-      "loss": 0.7326,
-      "step": 149
-    },
-    {
-      "epoch": 0.8021390374331551,
-      "grad_norm": 1.2339757680892944,
-      "learning_rate": 4.922083369593372e-06,
-      "loss": 0.6372,
-      "step": 150
-    },
-    {
-      "epoch": 0.8074866310160428,
-      "grad_norm": 1.3842638731002808,
-      "learning_rate": 4.921039558076335e-06,
-      "loss": 0.9323,
-      "step": 151
-    },
-    {
-      "epoch": 0.8128342245989305,
-      "grad_norm": 1.7399688959121704,
-      "learning_rate": 4.919988913450812e-06,
-      "loss": 0.4532,
-      "step": 152
-    },
-    {
-      "epoch": 0.8181818181818182,
-      "grad_norm": 1.526694893836975,
-      "learning_rate": 4.918931438682132e-06,
-      "loss": 0.8714,
-      "step": 153
-    },
-    {
-      "epoch": 0.8235294117647058,
-      "grad_norm": 1.208390712738037,
-      "learning_rate": 4.917867136754894e-06,
-      "loss": 0.8822,
-      "step": 154
-    },
-    {
-      "epoch": 0.8288770053475936,
-      "grad_norm": 1.0740225315093994,
-      "learning_rate": 4.916796010672969e-06,
-      "loss": 0.7539,
-      "step": 155
-    },
-    {
-      "epoch": 0.8342245989304813,
-      "grad_norm": 1.097008228302002,
-      "learning_rate": 4.91571806345949e-06,
-      "loss": 0.7797,
-      "step": 156
-    },
-    {
-      "epoch": 0.839572192513369,
-      "grad_norm": 1.231980800628662,
-      "learning_rate": 4.91463329815684e-06,
-      "loss": 0.8074,
-      "step": 157
-    },
-    {
-      "epoch": 0.8449197860962567,
-      "grad_norm": 1.1179982423782349,
-      "learning_rate": 4.913541717826645e-06,
-      "loss": 0.5812,
-      "step": 158
-    },
-    {
-      "epoch": 0.8502673796791443,
-      "grad_norm": 0.9882096648216248,
-      "learning_rate": 4.912443325549767e-06,
-      "loss": 0.4967,
-      "step": 159
-    },
-    {
-      "epoch": 0.8556149732620321,
-      "grad_norm": 1.3861775398254395,
-      "learning_rate": 4.911338124426291e-06,
-      "loss": 0.7436,
-      "step": 160
-    },
-    {
-      "epoch": 0.8609625668449198,
-      "grad_norm": 1.204852819442749,
-      "learning_rate": 4.910226117575525e-06,
-      "loss": 0.8118,
-      "step": 161
-    },
-    {
-      "epoch": 0.8663101604278075,
-      "grad_norm": 0.9527103304862976,
-      "learning_rate": 4.909107308135978e-06,
-      "loss": 0.5164,
-      "step": 162
-    },
-    {
-      "epoch": 0.8716577540106952,
-      "grad_norm": 1.0612897872924805,
-      "learning_rate": 4.907981699265364e-06,
-      "loss": 0.5894,
-      "step": 163
-    },
-    {
-      "epoch": 0.8770053475935828,
-      "grad_norm": 1.610545039176941,
-      "learning_rate": 4.906849294140587e-06,
-      "loss": 0.8476,
-      "step": 164
-    },
-    {
-      "epoch": 0.8823529411764706,
-      "grad_norm": 1.483162760734558,
-      "learning_rate": 4.9057100959577285e-06,
-      "loss": 0.6834,
-      "step": 165
-    },
-    {
-      "epoch": 0.8877005347593583,
-      "grad_norm": 1.2938721179962158,
-      "learning_rate": 4.904564107932048e-06,
-      "loss": 0.944,
-      "step": 166
-    },
-    {
-      "epoch": 0.893048128342246,
-      "grad_norm": 1.2777775526046753,
-      "learning_rate": 4.903411333297966e-06,
-      "loss": 0.8709,
-      "step": 167
-    },
-    {
-      "epoch": 0.8983957219251337,
-      "grad_norm": 1.1637930870056152,
-      "learning_rate": 4.902251775309057e-06,
-      "loss": 0.7839,
-      "step": 168
-    },
-    {
-      "epoch": 0.9037433155080213,
-      "grad_norm": 2.035766363143921,
-      "learning_rate": 4.901085437238041e-06,
-      "loss": 0.5654,
-      "step": 169
-    },
-    {
-      "epoch": 0.9090909090909091,
-      "grad_norm": 1.155563473701477,
-      "learning_rate": 4.899912322376776e-06,
-      "loss": 0.9413,
-      "step": 170
-    },
-    {
-      "epoch": 0.9144385026737968,
-      "grad_norm": 1.466346263885498,
-      "learning_rate": 4.8987324340362445e-06,
-      "loss": 0.8642,
-      "step": 171
-    },
-    {
-      "epoch": 0.9197860962566845,
-      "grad_norm": 1.1183879375457764,
-      "learning_rate": 4.897545775546545e-06,
-      "loss": 0.7851,
-      "step": 172
-    },
-    {
-      "epoch": 0.9251336898395722,
-      "grad_norm": 1.460421085357666,
-      "learning_rate": 4.8963523502568886e-06,
-      "loss": 1.0241,
-      "step": 173
-    },
-    {
-      "epoch": 0.93048128342246,
-      "grad_norm": 1.4027538299560547,
-      "learning_rate": 4.895152161535582e-06,
-      "loss": 0.7254,
-      "step": 174
-    },
-    {
-      "epoch": 0.9358288770053476,
-      "grad_norm": 1.183846116065979,
-      "learning_rate": 4.893945212770019e-06,
-      "loss": 0.6877,
-      "step": 175
-    },
-    {
-      "epoch": 0.9411764705882353,
-      "grad_norm": 1.288653016090393,
-      "learning_rate": 4.892731507366678e-06,
-      "loss": 0.8022,
-      "step": 176
-    },
-    {
-      "epoch": 0.946524064171123,
-      "grad_norm": 1.063643455505371,
-      "learning_rate": 4.891511048751102e-06,
-      "loss": 0.7123,
-      "step": 177
-    },
-    {
-      "epoch": 0.9518716577540107,
-      "grad_norm": 1.2285932302474976,
-      "learning_rate": 4.890283840367898e-06,
-      "loss": 1.1568,
-      "step": 178
-    },
-    {
-      "epoch": 0.9572192513368984,
-      "grad_norm": 1.3358500003814697,
-      "learning_rate": 4.889049885680721e-06,
-      "loss": 0.7538,
-      "step": 179
-    },
-    {
-      "epoch": 0.9625668449197861,
-      "grad_norm": 1.2650320529937744,
-      "learning_rate": 4.887809188172268e-06,
-      "loss": 0.683,
-      "step": 180
-    },
-    {
-      "epoch": 0.9679144385026738,
-      "grad_norm": 1.1596193313598633,
-      "learning_rate": 4.886561751344266e-06,
-      "loss": 0.7824,
-      "step": 181
-    },
-    {
-      "epoch": 0.9732620320855615,
-      "grad_norm": 1.2235304117202759,
-      "learning_rate": 4.885307578717464e-06,
-      "loss": 0.7969,
-      "step": 182
-    },
-    {
-      "epoch": 0.9786096256684492,
-      "grad_norm": 1.364279866218567,
-      "learning_rate": 4.8840466738316216e-06,
-      "loss": 0.8376,
-      "step": 183
-    },
-    {
-      "epoch": 0.983957219251337,
-      "grad_norm": 1.3247216939926147,
-      "learning_rate": 4.882779040245499e-06,
-      "loss": 0.7356,
-      "step": 184
-    },
-    {
-      "epoch": 0.9893048128342246,
-      "grad_norm": 1.0848944187164307,
-      "learning_rate": 4.881504681536847e-06,
-      "loss": 0.5837,
-      "step": 185
-    },
-    {
-      "epoch": 0.9946524064171123,
-      "grad_norm": 1.0679181814193726,
-      "learning_rate": 4.880223601302398e-06,
-      "loss": 0.5883,
-      "step": 186
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 1.0577597618103027,
-      "learning_rate": 4.878935803157856e-06,
-      "loss": 0.5789,
-      "step": 187
-    }
-  ],
-  "logging_steps": 1,
-  "max_steps": 1870,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 208,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 5.12625839397929e+16,
-  "train_batch_size": 1,
-  "trial_name": null,
-  "trial_params": null
-}

limo_filtered_combined/checkpoint-187/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff