Ba2han commited on Nov 16, 2025

Commit

10b5e77

verified ·

1 Parent(s): 2769598

Training in progress, step 263, checkpoint

Browse files

Files changed (19) hide show

.gitattributes +1 -0
last-checkpoint/added_tokens.json +3 -0
last-checkpoint/chat_template.jinja +47 -0
last-checkpoint/config.json +100 -0
last-checkpoint/generation_config.json +10 -0
last-checkpoint/model-00001-of-00002.safetensors +3 -0
last-checkpoint/model-00002-of-00002.safetensors +3 -0
last-checkpoint/model.safetensors.index.json +891 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/preprocessor_config.json +29 -0
last-checkpoint/processor_config.json +4 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +33 -0
last-checkpoint/tokenizer.json +3 -0
last-checkpoint/tokenizer.model +3 -0
last-checkpoint/tokenizer_config.json +0 -0
last-checkpoint/trainer_state.json +1875 -0
last-checkpoint/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text

last-checkpoint/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

last-checkpoint/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{ '<start_of_turn>model
+' }}
+{%- endif -%}

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,100 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 106,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "cache_implementation": "hybrid",
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 2560,
+    "initializer_range": 0.02,
+    "intermediate_size": 10240,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 8,
+    "num_hidden_layers": 34,
+    "num_key_value_heads": 4,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_bidirectional_attention": false,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.57.1",
+  "unsloth_fixed": true,
+  "unsloth_version": "2025.11.3",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": [
+    106
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.57.1"
+}

last-checkpoint/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03c697183ec3d4c9ee41fb5d7eb5497a2276ae4bb9712e636c229f91a877bdd7
+size 4961251752

last-checkpoint/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f23e1978c0181acc10e8ddd3143d44875ac855750d9cbd324267aa4a6cc3670
+size 3639026128

last-checkpoint/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,891 @@

+{
+  "metadata": {
+    "total_parameters": 4300079472,
+    "total_size": 8600158944
+  },
+  "weight_map": {
+    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
+    "multi_modal_projector.mm_input_projection_weight": "model-00001-of-00002.safetensors",
+    "multi_modal_projector.mm_soft_emb_norm.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d9e8ae18452278b808cfcebf861894adb0a1396067774b811c476c206ae8f04
+size 11890947145

last-checkpoint/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pan_and_scan": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Gemma3ImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "pan_and_scan_max_num_crops": null,
+  "pan_and_scan_min_crop_size": null,
+  "pan_and_scan_min_ratio_to_activate": null,
+  "processor_class": "Gemma3Processor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 896,
+    "width": 896
+  }
+}

last-checkpoint/processor_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "image_seq_length": 256,
+  "processor_class": "Gemma3Processor"
+}

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1d565802a8e26c4e8a31328752b7a7fdc186d9401aa008e65697d0ad8c22e33
+size 14645

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb088b53c1bbdda30530e9a2f6310b5323c6a896d711e49c8a265e58e230b2d
+size 1465

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<end_of_turn>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

last-checkpoint/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

last-checkpoint/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1875 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.32444101773323053,
+  "eval_steps": 500,
+  "global_step": 263,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.001233616037008481,
+      "grad_norm": 6.71875,
+      "learning_rate": 0.0,
+      "loss": 1.248,
+      "step": 1
+    },
+    {
+      "epoch": 0.002467232074016962,
+      "grad_norm": 7.0625,
+      "learning_rate": 1e-06,
+      "loss": 1.3869,
+      "step": 2
+    },
+    {
+      "epoch": 0.0037008481110254433,
+      "grad_norm": 6.4375,
+      "learning_rate": 2e-06,
+      "loss": 1.1873,
+      "step": 3
+    },
+    {
+      "epoch": 0.004934464148033924,
+      "grad_norm": 6.0,
+      "learning_rate": 3e-06,
+      "loss": 1.307,
+      "step": 4
+    },
+    {
+      "epoch": 0.006168080185042405,
+      "grad_norm": 5.65625,
+      "learning_rate": 4e-06,
+      "loss": 1.3342,
+      "step": 5
+    },
+    {
+      "epoch": 0.0074016962220508865,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 1.1798,
+      "step": 6
+    },
+    {
+      "epoch": 0.008635312259059369,
+      "grad_norm": 4.75,
+      "learning_rate": 6e-06,
+      "loss": 1.1951,
+      "step": 7
+    },
+    {
+      "epoch": 0.009868928296067848,
+      "grad_norm": 4.46875,
+      "learning_rate": 7e-06,
+      "loss": 1.2497,
+      "step": 8
+    },
+    {
+      "epoch": 0.01110254433307633,
+      "grad_norm": 4.4375,
+      "learning_rate": 8e-06,
+      "loss": 1.2303,
+      "step": 9
+    },
+    {
+      "epoch": 0.01233616037008481,
+      "grad_norm": 3.84375,
+      "learning_rate": 9e-06,
+      "loss": 1.077,
+      "step": 10
+    },
+    {
+      "epoch": 0.013569776407093292,
+      "grad_norm": 3.375,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.1018,
+      "step": 11
+    },
+    {
+      "epoch": 0.014803392444101773,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.1e-05,
+      "loss": 1.1497,
+      "step": 12
+    },
+    {
+      "epoch": 0.016037008481110254,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.2e-05,
+      "loss": 1.1544,
+      "step": 13
+    },
+    {
+      "epoch": 0.017270624518118737,
+      "grad_norm": 3.328125,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.1325,
+      "step": 14
+    },
+    {
+      "epoch": 0.018504240555127217,
+      "grad_norm": 3.703125,
+      "learning_rate": 1.4e-05,
+      "loss": 1.2333,
+      "step": 15
+    },
+    {
+      "epoch": 0.019737856592135696,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.5e-05,
+      "loss": 1.1316,
+      "step": 16
+    },
+    {
+      "epoch": 0.02097147262914418,
+      "grad_norm": 3.3125,
+      "learning_rate": 1.4999968269041147e-05,
+      "loss": 1.0587,
+      "step": 17
+    },
+    {
+      "epoch": 0.02220508866615266,
+      "grad_norm": 3.265625,
+      "learning_rate": 1.4999873076433081e-05,
+      "loss": 1.1082,
+      "step": 18
+    },
+    {
+      "epoch": 0.02343870470316114,
+      "grad_norm": 2.875,
+      "learning_rate": 1.4999714422981284e-05,
+      "loss": 0.9257,
+      "step": 19
+    },
+    {
+      "epoch": 0.02467232074016962,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.4999492310028218e-05,
+      "loss": 0.9563,
+      "step": 20
+    },
+    {
+      "epoch": 0.025905936777178104,
+      "grad_norm": 2.875,
+      "learning_rate": 1.4999206739453307e-05,
+      "loss": 1.023,
+      "step": 21
+    },
+    {
+      "epoch": 0.027139552814186584,
+      "grad_norm": 3.0,
+      "learning_rate": 1.4998857713672935e-05,
+      "loss": 0.9719,
+      "step": 22
+    },
+    {
+      "epoch": 0.028373168851195067,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.4998445235640414e-05,
+      "loss": 1.0854,
+      "step": 23
+    },
+    {
+      "epoch": 0.029606784888203546,
+      "grad_norm": 3.09375,
+      "learning_rate": 1.4997969308845963e-05,
+      "loss": 1.0053,
+      "step": 24
+    },
+    {
+      "epoch": 0.03084040092521203,
+      "grad_norm": 2.859375,
+      "learning_rate": 1.4997429937316679e-05,
+      "loss": 0.9063,
+      "step": 25
+    },
+    {
+      "epoch": 0.03207401696222051,
+      "grad_norm": 2.71875,
+      "learning_rate": 1.4996827125616506e-05,
+      "loss": 0.8936,
+      "step": 26
+    },
+    {
+      "epoch": 0.03330763299922899,
+      "grad_norm": 3.0,
+      "learning_rate": 1.4996160878846183e-05,
+      "loss": 1.0101,
+      "step": 27
+    },
+    {
+      "epoch": 0.034541249036237474,
+      "grad_norm": 2.9375,
+      "learning_rate": 1.4995431202643219e-05,
+      "loss": 1.0398,
+      "step": 28
+    },
+    {
+      "epoch": 0.035774865073245954,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4994638103181834e-05,
+      "loss": 0.899,
+      "step": 29
+    },
+    {
+      "epoch": 0.03700848111025443,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.499378158717291e-05,
+      "loss": 0.9018,
+      "step": 30
+    },
+    {
+      "epoch": 0.03824209714726291,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.4992861661863935e-05,
+      "loss": 0.9789,
+      "step": 31
+    },
+    {
+      "epoch": 0.03947571318427139,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.4991878335038935e-05,
+      "loss": 1.0518,
+      "step": 32
+    },
+    {
+      "epoch": 0.04070932922127988,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.499083161501842e-05,
+      "loss": 0.9835,
+      "step": 33
+    },
+    {
+      "epoch": 0.04194294525828836,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4989721510659303e-05,
+      "loss": 0.9702,
+      "step": 34
+    },
+    {
+      "epoch": 0.04317656129529684,
+      "grad_norm": 2.625,
+      "learning_rate": 1.4988548031354836e-05,
+      "loss": 0.9326,
+      "step": 35
+    },
+    {
+      "epoch": 0.04441017733230532,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4987311187034512e-05,
+      "loss": 0.8922,
+      "step": 36
+    },
+    {
+      "epoch": 0.045643793369313804,
+      "grad_norm": 3.078125,
+      "learning_rate": 1.4986010988164002e-05,
+      "loss": 1.0141,
+      "step": 37
+    },
+    {
+      "epoch": 0.04687740940632228,
+      "grad_norm": 2.890625,
+      "learning_rate": 1.4984647445745055e-05,
+      "loss": 0.9227,
+      "step": 38
+    },
+    {
+      "epoch": 0.04811102544333076,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4983220571315407e-05,
+      "loss": 0.8882,
+      "step": 39
+    },
+    {
+      "epoch": 0.04934464148033924,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.4981730376948682e-05,
+      "loss": 0.9169,
+      "step": 40
+    },
+    {
+      "epoch": 0.05057825751734773,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4980176875254293e-05,
+      "loss": 0.8736,
+      "step": 41
+    },
+    {
+      "epoch": 0.05181187355435621,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4978560079377331e-05,
+      "loss": 1.0533,
+      "step": 42
+    },
+    {
+      "epoch": 0.05304548959136469,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.497688000299846e-05,
+      "loss": 0.8594,
+      "step": 43
+    },
+    {
+      "epoch": 0.05427910562837317,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4975136660333796e-05,
+      "loss": 0.8611,
+      "step": 44
+    },
+    {
+      "epoch": 0.05551272166538165,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4973330066134787e-05,
+      "loss": 0.8746,
+      "step": 45
+    },
+    {
+      "epoch": 0.05674633770239013,
+      "grad_norm": 2.6875,
+      "learning_rate": 1.4971460235688093e-05,
+      "loss": 0.8591,
+      "step": 46
+    },
+    {
+      "epoch": 0.05797995373939861,
+      "grad_norm": 2.4375,
+      "learning_rate": 1.4969527184815445e-05,
+      "loss": 0.807,
+      "step": 47
+    },
+    {
+      "epoch": 0.05921356977640709,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4967530929873532e-05,
+      "loss": 1.0917,
+      "step": 48
+    },
+    {
+      "epoch": 0.06044718581341557,
+      "grad_norm": 2.9375,
+      "learning_rate": 1.4965471487753841e-05,
+      "loss": 0.9761,
+      "step": 49
+    },
+    {
+      "epoch": 0.06168080185042406,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.4963348875882524e-05,
+      "loss": 0.8561,
+      "step": 50
+    },
+    {
+      "epoch": 0.06291441788743253,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.4961163112220248e-05,
+      "loss": 0.9811,
+      "step": 51
+    },
+    {
+      "epoch": 0.06414803392444102,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.495891421526205e-05,
+      "loss": 0.8307,
+      "step": 52
+    },
+    {
+      "epoch": 0.0653816499614495,
+      "grad_norm": 2.859375,
+      "learning_rate": 1.4956602204037171e-05,
+      "loss": 0.8901,
+      "step": 53
+    },
+    {
+      "epoch": 0.06661526599845798,
+      "grad_norm": 2.71875,
+      "learning_rate": 1.49542270981089e-05,
+      "loss": 0.923,
+      "step": 54
+    },
+    {
+      "epoch": 0.06784888203546646,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.4951788917574407e-05,
+      "loss": 0.9071,
+      "step": 55
+    },
+    {
+      "epoch": 0.06908249807247495,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.4949287683064572e-05,
+      "loss": 0.9699,
+      "step": 56
+    },
+    {
+      "epoch": 0.07031611410948342,
+      "grad_norm": 2.625,
+      "learning_rate": 1.4946723415743818e-05,
+      "loss": 0.8934,
+      "step": 57
+    },
+    {
+      "epoch": 0.07154973014649191,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.4944096137309916e-05,
+      "loss": 0.8535,
+      "step": 58
+    },
+    {
+      "epoch": 0.07278334618350038,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.494140586999382e-05,
+      "loss": 0.8834,
+      "step": 59
+    },
+    {
+      "epoch": 0.07401696222050887,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.4938652636559461e-05,
+      "loss": 0.8252,
+      "step": 60
+    },
+    {
+      "epoch": 0.07525057825751735,
+      "grad_norm": 2.75,
+      "learning_rate": 1.4935836460303579e-05,
+      "loss": 0.9216,
+      "step": 61
+    },
+    {
+      "epoch": 0.07648419429452583,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.493295736505549e-05,
+      "loss": 0.9662,
+      "step": 62
+    },
+    {
+      "epoch": 0.07771781033153431,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.493001537517692e-05,
+      "loss": 0.9442,
+      "step": 63
+    },
+    {
+      "epoch": 0.07895142636854278,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4927010515561777e-05,
+      "loss": 0.8907,
+      "step": 64
+    },
+    {
+      "epoch": 0.08018504240555127,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4923942811635948e-05,
+      "loss": 0.8383,
+      "step": 65
+    },
+    {
+      "epoch": 0.08141865844255976,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.4920812289357082e-05,
+      "loss": 0.9024,
+      "step": 66
+    },
+    {
+      "epoch": 0.08265227447956823,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4917618975214377e-05,
+      "loss": 0.8793,
+      "step": 67
+    },
+    {
+      "epoch": 0.08388589051657672,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4914362896228338e-05,
+      "loss": 0.8629,
+      "step": 68
+    },
+    {
+      "epoch": 0.0851195065535852,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.491104407995057e-05,
+      "loss": 0.8802,
+      "step": 69
+    },
+    {
+      "epoch": 0.08635312259059368,
+      "grad_norm": 2.75,
+      "learning_rate": 1.4907662554463534e-05,
+      "loss": 0.8722,
+      "step": 70
+    },
+    {
+      "epoch": 0.08758673862760216,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4904218348380306e-05,
+      "loss": 0.8971,
+      "step": 71
+    },
+    {
+      "epoch": 0.08882035466461063,
+      "grad_norm": 2.578125,
+      "learning_rate": 1.4900711490844346e-05,
+      "loss": 0.8287,
+      "step": 72
+    },
+    {
+      "epoch": 0.09005397070161912,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4897142011529236e-05,
+      "loss": 0.9449,
+      "step": 73
+    },
+    {
+      "epoch": 0.09128758673862761,
+      "grad_norm": 2.9375,
+      "learning_rate": 1.4893509940638448e-05,
+      "loss": 0.9576,
+      "step": 74
+    },
+    {
+      "epoch": 0.09252120277563608,
+      "grad_norm": 3.046875,
+      "learning_rate": 1.4889815308905071e-05,
+      "loss": 0.9262,
+      "step": 75
+    },
+    {
+      "epoch": 0.09375481881264457,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.488605814759156e-05,
+      "loss": 0.9876,
+      "step": 76
+    },
+    {
+      "epoch": 0.09498843484965304,
+      "grad_norm": 2.96875,
+      "learning_rate": 1.4882238488489474e-05,
+      "loss": 0.8828,
+      "step": 77
+    },
+    {
+      "epoch": 0.09622205088666153,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.487835636391919e-05,
+      "loss": 0.8688,
+      "step": 78
+    },
+    {
+      "epoch": 0.09745566692367001,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.487441180672966e-05,
+      "loss": 0.9276,
+      "step": 79
+    },
+    {
+      "epoch": 0.09868928296067848,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.48704048502981e-05,
+      "loss": 0.927,
+      "step": 80
+    },
+    {
+      "epoch": 0.09992289899768697,
+      "grad_norm": 2.578125,
+      "learning_rate": 1.486633552852973e-05,
+      "loss": 0.7675,
+      "step": 81
+    },
+    {
+      "epoch": 0.10115651503469546,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.486220387585748e-05,
+      "loss": 0.8741,
+      "step": 82
+    },
+    {
+      "epoch": 0.10239013107170393,
+      "grad_norm": 3.078125,
+      "learning_rate": 1.4858009927241694e-05,
+      "loss": 1.0708,
+      "step": 83
+    },
+    {
+      "epoch": 0.10362374710871242,
+      "grad_norm": 2.96875,
+      "learning_rate": 1.4853753718169845e-05,
+      "loss": 0.9001,
+      "step": 84
+    },
+    {
+      "epoch": 0.10485736314572089,
+      "grad_norm": 2.890625,
+      "learning_rate": 1.4849435284656223e-05,
+      "loss": 0.914,
+      "step": 85
+    },
+    {
+      "epoch": 0.10609097918272938,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4845054663241638e-05,
+      "loss": 0.884,
+      "step": 86
+    },
+    {
+      "epoch": 0.10732459521973786,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.4840611890993105e-05,
+      "loss": 0.9372,
+      "step": 87
+    },
+    {
+      "epoch": 0.10855821125674633,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4836107005503543e-05,
+      "loss": 0.9541,
+      "step": 88
+    },
+    {
+      "epoch": 0.10979182729375482,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4831540044891436e-05,
+      "loss": 0.9014,
+      "step": 89
+    },
+    {
+      "epoch": 0.1110254433307633,
+      "grad_norm": 2.578125,
+      "learning_rate": 1.4826911047800533e-05,
+      "loss": 0.805,
+      "step": 90
+    },
+    {
+      "epoch": 0.11225905936777178,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.4822220053399501e-05,
+      "loss": 0.9061,
+      "step": 91
+    },
+    {
+      "epoch": 0.11349267540478027,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.4817467101381607e-05,
+      "loss": 0.8259,
+      "step": 92
+    },
+    {
+      "epoch": 0.11472629144178874,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.481265223196438e-05,
+      "loss": 0.7689,
+      "step": 93
+    },
+    {
+      "epoch": 0.11595990747879723,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4807775485889265e-05,
+      "loss": 0.8978,
+      "step": 94
+    },
+    {
+      "epoch": 0.11719352351580571,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4802836904421283e-05,
+      "loss": 0.8649,
+      "step": 95
+    },
+    {
+      "epoch": 0.11842713955281418,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.479783652934868e-05,
+      "loss": 0.9111,
+      "step": 96
+    },
+    {
+      "epoch": 0.11966075558982267,
+      "grad_norm": 2.765625,
+      "learning_rate": 1.4792774402982574e-05,
+      "loss": 0.8746,
+      "step": 97
+    },
+    {
+      "epoch": 0.12089437162683114,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4787650568156603e-05,
+      "loss": 0.8713,
+      "step": 98
+    },
+    {
+      "epoch": 0.12212798766383963,
+      "grad_norm": 3.0,
+      "learning_rate": 1.4782465068226546e-05,
+      "loss": 1.0504,
+      "step": 99
+    },
+    {
+      "epoch": 0.12336160370084812,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.4777217947069972e-05,
+      "loss": 0.836,
+      "step": 100
+    },
+    {
+      "epoch": 0.12459521973785659,
+      "grad_norm": 2.625,
+      "learning_rate": 1.477190924908587e-05,
+      "loss": 0.9062,
+      "step": 101
+    },
+    {
+      "epoch": 0.12582883577486506,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4766539019194254e-05,
+      "loss": 0.8326,
+      "step": 102
+    },
+    {
+      "epoch": 0.12706245181187356,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4761107302835808e-05,
+      "loss": 1.0209,
+      "step": 103
+    },
+    {
+      "epoch": 0.12829606784888203,
+      "grad_norm": 3.171875,
+      "learning_rate": 1.475561414597148e-05,
+      "loss": 0.8731,
+      "step": 104
+    },
+    {
+      "epoch": 0.1295296838858905,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.4750059595082105e-05,
+      "loss": 1.0162,
+      "step": 105
+    },
+    {
+      "epoch": 0.130763299922899,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.4744443697168013e-05,
+      "loss": 0.8062,
+      "step": 106
+    },
+    {
+      "epoch": 0.13199691595990748,
+      "grad_norm": 2.75,
+      "learning_rate": 1.4738766499748621e-05,
+      "loss": 0.8803,
+      "step": 107
+    },
+    {
+      "epoch": 0.13323053199691595,
+      "grad_norm": 2.859375,
+      "learning_rate": 1.4733028050862042e-05,
+      "loss": 0.8974,
+      "step": 108
+    },
+    {
+      "epoch": 0.13446414803392445,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4727228399064672e-05,
+      "loss": 0.9204,
+      "step": 109
+    },
+    {
+      "epoch": 0.13569776407093292,
+      "grad_norm": 2.890625,
+      "learning_rate": 1.4721367593430782e-05,
+      "loss": 0.9693,
+      "step": 110
+    },
+    {
+      "epoch": 0.1369313801079414,
+      "grad_norm": 3.0625,
+      "learning_rate": 1.4715445683552098e-05,
+      "loss": 0.9835,
+      "step": 111
+    },
+    {
+      "epoch": 0.1381649961449499,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.4709462719537392e-05,
+      "loss": 0.947,
+      "step": 112
+    },
+    {
+      "epoch": 0.13939861218195837,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4703418752012042e-05,
+      "loss": 0.8622,
+      "step": 113
+    },
+    {
+      "epoch": 0.14063222821896684,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.469731383211762e-05,
+      "loss": 0.8848,
+      "step": 114
+    },
+    {
+      "epoch": 0.14186584425597532,
+      "grad_norm": 3.203125,
+      "learning_rate": 1.4691148011511447e-05,
+      "loss": 0.9425,
+      "step": 115
+    },
+    {
+      "epoch": 0.14309946029298382,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4684921342366167e-05,
+      "loss": 0.8893,
+      "step": 116
+    },
+    {
+      "epoch": 0.1443330763299923,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.467863387736929e-05,
+      "loss": 0.7976,
+      "step": 117
+    },
+    {
+      "epoch": 0.14556669236700076,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.4672285669722767e-05,
+      "loss": 0.843,
+      "step": 118
+    },
+    {
+      "epoch": 0.14680030840400926,
+      "grad_norm": 3.015625,
+      "learning_rate": 1.4665876773142517e-05,
+      "loss": 0.9341,
+      "step": 119
+    },
+    {
+      "epoch": 0.14803392444101773,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.4659407241857991e-05,
+      "loss": 0.9336,
+      "step": 120
+    },
+    {
+      "epoch": 0.1492675404780262,
+      "grad_norm": 2.6875,
+      "learning_rate": 1.4652877130611702e-05,
+      "loss": 0.8282,
+      "step": 121
+    },
+    {
+      "epoch": 0.1505011565150347,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.4646286494658772e-05,
+      "loss": 0.9196,
+      "step": 122
+    },
+    {
+      "epoch": 0.15173477255204318,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4639635389766448e-05,
+      "loss": 0.8443,
+      "step": 123
+    },
+    {
+      "epoch": 0.15296838858905165,
+      "grad_norm": 3.09375,
+      "learning_rate": 1.4632923872213653e-05,
+      "loss": 1.0012,
+      "step": 124
+    },
+    {
+      "epoch": 0.15420200462606015,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.4626151998790484e-05,
+      "loss": 0.7756,
+      "step": 125
+    },
+    {
+      "epoch": 0.15543562066306862,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4619319826797755e-05,
+      "loss": 0.9635,
+      "step": 126
+    },
+    {
+      "epoch": 0.1566692367000771,
+      "grad_norm": 3.09375,
+      "learning_rate": 1.4612427414046496e-05,
+      "loss": 0.9628,
+      "step": 127
+    },
+    {
+      "epoch": 0.15790285273708557,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.460547481885747e-05,
+      "loss": 0.7604,
+      "step": 128
+    },
+    {
+      "epoch": 0.15913646877409407,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.4598462100060683e-05,
+      "loss": 0.7931,
+      "step": 129
+    },
+    {
+      "epoch": 0.16037008481110254,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4591389316994878e-05,
+      "loss": 0.9052,
+      "step": 130
+    },
+    {
+      "epoch": 0.16160370084811101,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.4584256529507036e-05,
+      "loss": 0.7923,
+      "step": 131
+    },
+    {
+      "epoch": 0.16283731688511952,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4577063797951877e-05,
+      "loss": 0.812,
+      "step": 132
+    },
+    {
+      "epoch": 0.164070932922128,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.456981118319134e-05,
+      "loss": 0.909,
+      "step": 133
+    },
+    {
+      "epoch": 0.16530454895913646,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.4562498746594067e-05,
+      "loss": 0.8217,
+      "step": 134
+    },
+    {
+      "epoch": 0.16653816499614496,
+      "grad_norm": 2.875,
+      "learning_rate": 1.455512655003489e-05,
+      "loss": 0.848,
+      "step": 135
+    },
+    {
+      "epoch": 0.16777178103315343,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.4547694655894313e-05,
+      "loss": 0.8453,
+      "step": 136
+    },
+    {
+      "epoch": 0.1690053970701619,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4540203127057964e-05,
+      "loss": 0.8832,
+      "step": 137
+    },
+    {
+      "epoch": 0.1702390131071704,
+      "grad_norm": 3.3125,
+      "learning_rate": 1.4532652026916087e-05,
+      "loss": 0.8883,
+      "step": 138
+    },
+    {
+      "epoch": 0.17147262914417888,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4525041419362983e-05,
+      "loss": 0.9908,
+      "step": 139
+    },
+    {
+      "epoch": 0.17270624518118735,
+      "grad_norm": 2.625,
+      "learning_rate": 1.4517371368796487e-05,
+      "loss": 0.8058,
+      "step": 140
+    },
+    {
+      "epoch": 0.17393986121819582,
+      "grad_norm": 2.890625,
+      "learning_rate": 1.4509641940117414e-05,
+      "loss": 0.9513,
+      "step": 141
+    },
+    {
+      "epoch": 0.17517347725520432,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.4501853198729012e-05,
+      "loss": 0.9095,
+      "step": 142
+    },
+    {
+      "epoch": 0.1764070932922128,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.4494005210536415e-05,
+      "loss": 0.8964,
+      "step": 143
+    },
+    {
+      "epoch": 0.17764070932922127,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4486098041946069e-05,
+      "loss": 0.8261,
+      "step": 144
+    },
+    {
+      "epoch": 0.17887432536622977,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4478131759865184e-05,
+      "loss": 0.9094,
+      "step": 145
+    },
+    {
+      "epoch": 0.18010794140323824,
+      "grad_norm": 2.5625,
+      "learning_rate": 1.4470106431701167e-05,
+      "loss": 0.8588,
+      "step": 146
+    },
+    {
+      "epoch": 0.18134155744024671,
+      "grad_norm": 3.0,
+      "learning_rate": 1.4462022125361049e-05,
+      "loss": 0.91,
+      "step": 147
+    },
+    {
+      "epoch": 0.18257517347725521,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4453878909250906e-05,
+      "loss": 0.8121,
+      "step": 148
+    },
+    {
+      "epoch": 0.1838087895142637,
+      "grad_norm": 2.75,
+      "learning_rate": 1.4445676852275284e-05,
+      "loss": 0.7903,
+      "step": 149
+    },
+    {
+      "epoch": 0.18504240555127216,
+      "grad_norm": 3.0625,
+      "learning_rate": 1.443741602383662e-05,
+      "loss": 0.9914,
+      "step": 150
+    },
+    {
+      "epoch": 0.18627602158828066,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.4429096493834651e-05,
+      "loss": 0.888,
+      "step": 151
+    },
+    {
+      "epoch": 0.18750963762528913,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.4420718332665817e-05,
+      "loss": 0.9122,
+      "step": 152
+    },
+    {
+      "epoch": 0.1887432536622976,
+      "grad_norm": 2.53125,
+      "learning_rate": 1.441228161122268e-05,
+      "loss": 0.7929,
+      "step": 153
+    },
+    {
+      "epoch": 0.18997686969930608,
+      "grad_norm": 3.046875,
+      "learning_rate": 1.4403786400893304e-05,
+      "loss": 0.8813,
+      "step": 154
+    },
+    {
+      "epoch": 0.19121048573631458,
+      "grad_norm": 2.453125,
+      "learning_rate": 1.4395232773560669e-05,
+      "loss": 0.8264,
+      "step": 155
+    },
+    {
+      "epoch": 0.19244410177332305,
+      "grad_norm": 2.578125,
+      "learning_rate": 1.4386620801602056e-05,
+      "loss": 0.7507,
+      "step": 156
+    },
+    {
+      "epoch": 0.19367771781033152,
+      "grad_norm": 2.5625,
+      "learning_rate": 1.437795055788843e-05,
+      "loss": 0.8193,
+      "step": 157
+    },
+    {
+      "epoch": 0.19491133384734002,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.4369222115783834e-05,
+      "loss": 0.8513,
+      "step": 158
+    },
+    {
+      "epoch": 0.1961449498843485,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4360435549144754e-05,
+      "loss": 0.8354,
+      "step": 159
+    },
+    {
+      "epoch": 0.19737856592135697,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.4351590932319506e-05,
+      "loss": 0.9582,
+      "step": 160
+    },
+    {
+      "epoch": 0.19861218195836547,
+      "grad_norm": 3.234375,
+      "learning_rate": 1.4342688340147608e-05,
+      "loss": 0.7834,
+      "step": 161
+    },
+    {
+      "epoch": 0.19984579799537394,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.4333727847959127e-05,
+      "loss": 0.8968,
+      "step": 162
+    },
+    {
+      "epoch": 0.20107941403238241,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4324709531574074e-05,
+      "loss": 0.8036,
+      "step": 163
+    },
+    {
+      "epoch": 0.20231303006939091,
+      "grad_norm": 2.875,
+      "learning_rate": 1.4315633467301734e-05,
+      "loss": 0.8167,
+      "step": 164
+    },
+    {
+      "epoch": 0.2035466461063994,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.4306499731940028e-05,
+      "loss": 0.9044,
+      "step": 165
+    },
+    {
+      "epoch": 0.20478026214340786,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4297308402774876e-05,
+      "loss": 0.9659,
+      "step": 166
+    },
+    {
+      "epoch": 0.20601387818041633,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.4288059557579525e-05,
+      "loss": 0.7808,
+      "step": 167
+    },
+    {
+      "epoch": 0.20724749421742483,
+      "grad_norm": 2.875,
+      "learning_rate": 1.4278753274613905e-05,
+      "loss": 0.8324,
+      "step": 168
+    },
+    {
+      "epoch": 0.2084811102544333,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4269389632623956e-05,
+      "loss": 0.9517,
+      "step": 169
+    },
+    {
+      "epoch": 0.20971472629144178,
+      "grad_norm": 2.765625,
+      "learning_rate": 1.4259968710840966e-05,
+      "loss": 0.8388,
+      "step": 170
+    },
+    {
+      "epoch": 0.21094834232845028,
+      "grad_norm": 3.3125,
+      "learning_rate": 1.4250490588980909e-05,
+      "loss": 0.9859,
+      "step": 171
+    },
+    {
+      "epoch": 0.21218195836545875,
+      "grad_norm": 3.0625,
+      "learning_rate": 1.4240955347243754e-05,
+      "loss": 0.9722,
+      "step": 172
+    },
+    {
+      "epoch": 0.21341557440246722,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.4231363066312796e-05,
+      "loss": 0.8547,
+      "step": 173
+    },
+    {
+      "epoch": 0.21464919043947572,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.4221713827353977e-05,
+      "loss": 0.9056,
+      "step": 174
+    },
+    {
+      "epoch": 0.2158828064764842,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.4212007712015189e-05,
+      "loss": 0.9332,
+      "step": 175
+    },
+    {
+      "epoch": 0.21711642251349267,
+      "grad_norm": 2.6875,
+      "learning_rate": 1.4202244802425593e-05,
+      "loss": 0.8194,
+      "step": 176
+    },
+    {
+      "epoch": 0.21835003855050117,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4192425181194916e-05,
+      "loss": 0.8258,
+      "step": 177
+    },
+    {
+      "epoch": 0.21958365458750964,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.4182548931412758e-05,
+      "loss": 0.8196,
+      "step": 178
+    },
+    {
+      "epoch": 0.2208172706245181,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.417261613664789e-05,
+      "loss": 0.9566,
+      "step": 179
+    },
+    {
+      "epoch": 0.2220508866615266,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4162626880947532e-05,
+      "loss": 0.8546,
+      "step": 180
+    },
+    {
+      "epoch": 0.2232845026985351,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.4152581248836662e-05,
+      "loss": 0.8267,
+      "step": 181
+    },
+    {
+      "epoch": 0.22451811873554356,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.4142479325317296e-05,
+      "loss": 0.8538,
+      "step": 182
+    },
+    {
+      "epoch": 0.22575173477255203,
+      "grad_norm": 2.75,
+      "learning_rate": 1.4132321195867752e-05,
+      "loss": 0.905,
+      "step": 183
+    },
+    {
+      "epoch": 0.22698535080956053,
+      "grad_norm": 2.40625,
+      "learning_rate": 1.4122106946441953e-05,
+      "loss": 0.7483,
+      "step": 184
+    },
+    {
+      "epoch": 0.228218966846569,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.4111836663468674e-05,
+      "loss": 0.794,
+      "step": 185
+    },
+    {
+      "epoch": 0.22945258288357748,
+      "grad_norm": 2.515625,
+      "learning_rate": 1.4101510433850832e-05,
+      "loss": 0.8334,
+      "step": 186
+    },
+    {
+      "epoch": 0.23068619892058598,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.409112834496474e-05,
+      "loss": 0.9246,
+      "step": 187
+    },
+    {
+      "epoch": 0.23191981495759445,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.4080690484659364e-05,
+      "loss": 0.9389,
+      "step": 188
+    },
+    {
+      "epoch": 0.23315343099460292,
+      "grad_norm": 2.34375,
+      "learning_rate": 1.407019694125559e-05,
+      "loss": 0.8251,
+      "step": 189
+    },
+    {
+      "epoch": 0.23438704703161142,
+      "grad_norm": 2.71875,
+      "learning_rate": 1.4059647803545468e-05,
+      "loss": 0.8254,
+      "step": 190
+    },
+    {
+      "epoch": 0.2356206630686199,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.404904316079147e-05,
+      "loss": 0.836,
+      "step": 191
+    },
+    {
+      "epoch": 0.23685427910562837,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.4038383102725718e-05,
+      "loss": 0.7996,
+      "step": 192
+    },
+    {
+      "epoch": 0.23808789514263684,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4027667719549248e-05,
+      "loss": 0.8071,
+      "step": 193
+    },
+    {
+      "epoch": 0.23932151117964534,
+      "grad_norm": 2.6875,
+      "learning_rate": 1.4016897101931226e-05,
+      "loss": 0.871,
+      "step": 194
+    },
+    {
+      "epoch": 0.2405551272166538,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.4006071341008194e-05,
+      "loss": 0.8901,
+      "step": 195
+    },
+    {
+      "epoch": 0.24178874325366229,
+      "grad_norm": 2.484375,
+      "learning_rate": 1.3995190528383292e-05,
+      "loss": 0.7841,
+      "step": 196
+    },
+    {
+      "epoch": 0.2430223592906708,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.398425475612548e-05,
+      "loss": 0.9283,
+      "step": 197
+    },
+    {
+      "epoch": 0.24425597532767926,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.3973264116768773e-05,
+      "loss": 0.8176,
+      "step": 198
+    },
+    {
+      "epoch": 0.24548959136468773,
+      "grad_norm": 2.453125,
+      "learning_rate": 1.3962218703311444e-05,
+      "loss": 0.7888,
+      "step": 199
+    },
+    {
+      "epoch": 0.24672320740169623,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.3951118609215242e-05,
+      "loss": 0.9003,
+      "step": 200
+    },
+    {
+      "epoch": 0.2479568234387047,
+      "grad_norm": 2.828125,
+      "learning_rate": 1.39399639284046e-05,
+      "loss": 0.9171,
+      "step": 201
+    },
+    {
+      "epoch": 0.24919043947571318,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.3928754755265844e-05,
+      "loss": 0.9043,
+      "step": 202
+    },
+    {
+      "epoch": 0.2504240555127217,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.391749118464639e-05,
+      "loss": 0.9581,
+      "step": 203
+    },
+    {
+      "epoch": 0.2516576715497301,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.3906173311853943e-05,
+      "loss": 0.8983,
+      "step": 204
+    },
+    {
+      "epoch": 0.2528912875867386,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.3894801232655692e-05,
+      "loss": 0.7514,
+      "step": 205
+    },
+    {
+      "epoch": 0.2541249036237471,
+      "grad_norm": 3.78125,
+      "learning_rate": 1.3883375043277498e-05,
+      "loss": 1.0556,
+      "step": 206
+    },
+    {
+      "epoch": 0.25535851966075557,
+      "grad_norm": 3.125,
+      "learning_rate": 1.387189484040308e-05,
+      "loss": 0.9795,
+      "step": 207
+    },
+    {
+      "epoch": 0.25659213569776407,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.3860360721173195e-05,
+      "loss": 0.8939,
+      "step": 208
+    },
+    {
+      "epoch": 0.25782575173477257,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.384877278318482e-05,
+      "loss": 0.7896,
+      "step": 209
+    },
+    {
+      "epoch": 0.259059367771781,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.3837131124490328e-05,
+      "loss": 0.928,
+      "step": 210
+    },
+    {
+      "epoch": 0.2602929838087895,
+      "grad_norm": 2.625,
+      "learning_rate": 1.3825435843596644e-05,
+      "loss": 0.8116,
+      "step": 211
+    },
+    {
+      "epoch": 0.261526599845798,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.3813687039464431e-05,
+      "loss": 0.8786,
+      "step": 212
+    },
+    {
+      "epoch": 0.26276021588280646,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.3801884811507244e-05,
+      "loss": 0.8351,
+      "step": 213
+    },
+    {
+      "epoch": 0.26399383191981496,
+      "grad_norm": 2.875,
+      "learning_rate": 1.3790029259590681e-05,
+      "loss": 1.0575,
+      "step": 214
+    },
+    {
+      "epoch": 0.26522744795682346,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.3778120484031554e-05,
+      "loss": 0.9084,
+      "step": 215
+    },
+    {
+      "epoch": 0.2664610639938319,
+      "grad_norm": 2.890625,
+      "learning_rate": 1.3766158585597025e-05,
+      "loss": 0.8379,
+      "step": 216
+    },
+    {
+      "epoch": 0.2676946800308404,
+      "grad_norm": 2.53125,
+      "learning_rate": 1.3754143665503761e-05,
+      "loss": 0.7727,
+      "step": 217
+    },
+    {
+      "epoch": 0.2689282960678489,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.3742075825417085e-05,
+      "loss": 0.8714,
+      "step": 218
+    },
+    {
+      "epoch": 0.27016191210485735,
+      "grad_norm": 2.8125,
+      "learning_rate": 1.3729955167450092e-05,
+      "loss": 0.8959,
+      "step": 219
+    },
+    {
+      "epoch": 0.27139552814186585,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.3717781794162813e-05,
+      "loss": 0.8023,
+      "step": 220
+    },
+    {
+      "epoch": 0.27262914417887435,
+      "grad_norm": 2.625,
+      "learning_rate": 1.3705555808561329e-05,
+      "loss": 0.8788,
+      "step": 221
+    },
+    {
+      "epoch": 0.2738627602158828,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.3693277314096907e-05,
+      "loss": 0.8071,
+      "step": 222
+    },
+    {
+      "epoch": 0.2750963762528913,
+      "grad_norm": 2.984375,
+      "learning_rate": 1.3680946414665117e-05,
+      "loss": 1.037,
+      "step": 223
+    },
+    {
+      "epoch": 0.2763299922898998,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.3668563214604968e-05,
+      "loss": 0.8609,
+      "step": 224
+    },
+    {
+      "epoch": 0.27756360832690824,
+      "grad_norm": 2.6875,
+      "learning_rate": 1.3656127818698005e-05,
+      "loss": 0.8023,
+      "step": 225
+    },
+    {
+      "epoch": 0.27879722436391674,
+      "grad_norm": 2.9375,
+      "learning_rate": 1.364364033216744e-05,
+      "loss": 0.8773,
+      "step": 226
+    },
+    {
+      "epoch": 0.2800308404009252,
+      "grad_norm": 2.875,
+      "learning_rate": 1.363110086067725e-05,
+      "loss": 0.8701,
+      "step": 227
+    },
+    {
+      "epoch": 0.2812644564379337,
+      "grad_norm": 3.0,
+      "learning_rate": 1.3618509510331292e-05,
+      "loss": 1.0324,
+      "step": 228
+    },
+    {
+      "epoch": 0.2824980724749422,
+      "grad_norm": 2.421875,
+      "learning_rate": 1.3605866387672396e-05,
+      "loss": 0.7342,
+      "step": 229
+    },
+    {
+      "epoch": 0.28373168851195063,
+      "grad_norm": 3.0625,
+      "learning_rate": 1.3593171599681469e-05,
+      "loss": 1.0176,
+      "step": 230
+    },
+    {
+      "epoch": 0.28496530454895913,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.3580425253776593e-05,
+      "loss": 0.7673,
+      "step": 231
+    },
+    {
+      "epoch": 0.28619892058596763,
+      "grad_norm": 2.4375,
+      "learning_rate": 1.3567627457812107e-05,
+      "loss": 0.7595,
+      "step": 232
+    },
+    {
+      "epoch": 0.2874325366229761,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.35547783200777e-05,
+      "loss": 0.8567,
+      "step": 233
+    },
+    {
+      "epoch": 0.2886661526599846,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.3541877949297497e-05,
+      "loss": 0.7637,
+      "step": 234
+    },
+    {
+      "epoch": 0.2898997686969931,
+      "grad_norm": 2.765625,
+      "learning_rate": 1.3528926454629128e-05,
+      "loss": 0.8102,
+      "step": 235
+    },
+    {
+      "epoch": 0.2911333847340015,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.3515923945662829e-05,
+      "loss": 0.8473,
+      "step": 236
+    },
+    {
+      "epoch": 0.29236700077101,
+      "grad_norm": 3.296875,
+      "learning_rate": 1.3502870532420477e-05,
+      "loss": 0.8666,
+      "step": 237
+    },
+    {
+      "epoch": 0.2936006168080185,
+      "grad_norm": 2.78125,
+      "learning_rate": 1.3489766325354697e-05,
+      "loss": 0.8621,
+      "step": 238
+    },
+    {
+      "epoch": 0.29483423284502697,
+      "grad_norm": 2.71875,
+      "learning_rate": 1.3476611435347898e-05,
+      "loss": 0.8762,
+      "step": 239
+    },
+    {
+      "epoch": 0.29606784888203547,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.3463405973711359e-05,
+      "loss": 0.834,
+      "step": 240
+    },
+    {
+      "epoch": 0.29730146491904397,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.3450150052184264e-05,
+      "loss": 0.8045,
+      "step": 241
+    },
+    {
+      "epoch": 0.2985350809560524,
+      "grad_norm": 2.796875,
+      "learning_rate": 1.3436843782932776e-05,
+      "loss": 0.8966,
+      "step": 242
+    },
+    {
+      "epoch": 0.2997686969930609,
+      "grad_norm": 2.625,
+      "learning_rate": 1.3423487278549074e-05,
+      "loss": 0.816,
+      "step": 243
+    },
+    {
+      "epoch": 0.3010023130300694,
+      "grad_norm": 2.9375,
+      "learning_rate": 1.3410080652050414e-05,
+      "loss": 1.0124,
+      "step": 244
+    },
+    {
+      "epoch": 0.30223592906707786,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.3396624016878157e-05,
+      "loss": 0.9205,
+      "step": 245
+    },
+    {
+      "epoch": 0.30346954510408636,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.3383117486896819e-05,
+      "loss": 0.8574,
+      "step": 246
+    },
+    {
+      "epoch": 0.30470316114109486,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.3369561176393105e-05,
+      "loss": 0.7445,
+      "step": 247
+    },
+    {
+      "epoch": 0.3059367771781033,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.3355955200074944e-05,
+      "loss": 0.8033,
+      "step": 248
+    },
+    {
+      "epoch": 0.3071703932151118,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.3342299673070518e-05,
+      "loss": 0.7991,
+      "step": 249
+    },
+    {
+      "epoch": 0.3084040092521203,
+      "grad_norm": 2.921875,
+      "learning_rate": 1.3328594710927282e-05,
+      "loss": 0.845,
+      "step": 250
+    },
+    {
+      "epoch": 0.30963762528912875,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.3314840429610994e-05,
+      "loss": 0.8651,
+      "step": 251
+    },
+    {
+      "epoch": 0.31087124132613725,
+      "grad_norm": 3.1875,
+      "learning_rate": 1.3301036945504729e-05,
+      "loss": 0.8845,
+      "step": 252
+    },
+    {
+      "epoch": 0.3121048573631457,
+      "grad_norm": 2.765625,
+      "learning_rate": 1.32871843754079e-05,
+      "loss": 0.8365,
+      "step": 253
+    },
+    {
+      "epoch": 0.3133384734001542,
+      "grad_norm": 3.140625,
+      "learning_rate": 1.3273282836535258e-05,
+      "loss": 0.944,
+      "step": 254
+    },
+    {
+      "epoch": 0.3145720894371627,
+      "grad_norm": 2.75,
+      "learning_rate": 1.3259332446515915e-05,
+      "loss": 0.8001,
+      "step": 255
+    },
+    {
+      "epoch": 0.31580570547417114,
+      "grad_norm": 2.609375,
+      "learning_rate": 1.3245333323392335e-05,
+      "loss": 0.8206,
+      "step": 256
+    },
+    {
+      "epoch": 0.31703932151117964,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.3231285585619347e-05,
+      "loss": 0.9388,
+      "step": 257
+    },
+    {
+      "epoch": 0.31827293754818814,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.3217189352063137e-05,
+      "loss": 0.9575,
+      "step": 258
+    },
+    {
+      "epoch": 0.3195065535851966,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.3203044742000232e-05,
+      "loss": 0.8216,
+      "step": 259
+    },
+    {
+      "epoch": 0.3207401696222051,
+      "grad_norm": 3.25,
+      "learning_rate": 1.3188851875116517e-05,
+      "loss": 0.8773,
+      "step": 260
+    },
+    {
+      "epoch": 0.3219737856592136,
+      "grad_norm": 2.5625,
+      "learning_rate": 1.3174610871506197e-05,
+      "loss": 0.7536,
+      "step": 261
+    },
+    {
+      "epoch": 0.32320740169622203,
+      "grad_norm": 3.234375,
+      "learning_rate": 1.316032185167079e-05,
+      "loss": 0.9915,
+      "step": 262
+    },
+    {
+      "epoch": 0.32444101773323053,
+      "grad_norm": 2.671875,
+      "learning_rate": 1.3145984936518113e-05,
+      "loss": 0.7831,
+      "step": 263
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1095,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 263,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.54765681289696e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e820973b850a8a27748f78ed62e9249dc3221b0b56cb992844b2506032fb8870
+size 6353