Upload content from checkpoint-320

Browse files

Files changed (13) hide show

.gitattributes +1 -0
config.json +64 -0
generation_config.json +13 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +890 -0
optimizer.pt +3 -0
scheduler.pt +3 -0
special_tokens_map.json +33 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
trainer_state.json +2594 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "eoi_token_index": 256000,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "id2label": {},
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "label2id": {},
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "cache_implementation": "hybrid",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 2560,
+    "initializer_range": 0.02,
+    "intermediate_size": 10240,
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 8,
+    "num_hidden_layers": 34,
+    "num_key_value_heads": 4,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "sliding_window_pattern": 6,
+    "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.0",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "torch_dtype": "bfloat16",
+    "vision_use_head": false
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.51.0"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ccb5a7035e39b4d6ff3e62888e49d8e8d22be89b7fbc17320e3c8c893e802d3
+size 4961251752

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90cf4c40dfa2006871c9383b76d697d767169a818405cbd390a5d49d11a3a7a8
+size 3639026128

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,890 @@

+{
+  "metadata": {
+    "total_size": 8600158944
+  },
+  "weight_map": {
+    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
+    "multi_modal_projector.mm_input_projection_weight": "model-00001-of-00002.safetensors",
+    "multi_modal_projector.mm_soft_emb_norm.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8381a213499166575e049232c9c96aabb2b14d85f92aa2d37cc2023d486ec710
+size 15521442051

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4080383105c41fd955839a60c3413533684abc23df5fedd23f2777e562a6ce35
+size 1465

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2594 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 100.0,
+  "global_step": 320,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.015625,
+      "grad_norm": 179.0,
+      "learning_rate": 0.0,
+      "loss": 5.2367,
+      "mean_token_accuracy": 0.43311607837677,
+      "step": 1
+    },
+    {
+      "epoch": 0.03125,
+      "grad_norm": 198.0,
+      "learning_rate": 3.75e-07,
+      "loss": 5.5486,
+      "mean_token_accuracy": 0.4108841121196747,
+      "step": 2
+    },
+    {
+      "epoch": 0.046875,
+      "grad_norm": 178.0,
+      "learning_rate": 7.5e-07,
+      "loss": 5.2141,
+      "mean_token_accuracy": 0.4345736503601074,
+      "step": 3
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 172.0,
+      "learning_rate": 1.125e-06,
+      "loss": 5.5836,
+      "mean_token_accuracy": 0.41250425577163696,
+      "step": 4
+    },
+    {
+      "epoch": 0.078125,
+      "grad_norm": 152.0,
+      "learning_rate": 1.5e-06,
+      "loss": 5.2296,
+      "mean_token_accuracy": 0.4149760901927948,
+      "step": 5
+    },
+    {
+      "epoch": 0.09375,
+      "grad_norm": 126.5,
+      "learning_rate": 1.875e-06,
+      "loss": 4.6572,
+      "mean_token_accuracy": 0.4508528411388397,
+      "step": 6
+    },
+    {
+      "epoch": 0.109375,
+      "grad_norm": 122.0,
+      "learning_rate": 2.25e-06,
+      "loss": 4.8441,
+      "mean_token_accuracy": 0.4253324270248413,
+      "step": 7
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 93.5,
+      "learning_rate": 2.6250000000000003e-06,
+      "loss": 4.3849,
+      "mean_token_accuracy": 0.4506120979785919,
+      "step": 8
+    },
+    {
+      "epoch": 0.140625,
+      "grad_norm": 73.0,
+      "learning_rate": 3e-06,
+      "loss": 4.0401,
+      "mean_token_accuracy": 0.45889315009117126,
+      "step": 9
+    },
+    {
+      "epoch": 0.15625,
+      "grad_norm": 60.75,
+      "learning_rate": 2.9903846153846156e-06,
+      "loss": 3.8834,
+      "mean_token_accuracy": 0.47038498520851135,
+      "step": 10
+    },
+    {
+      "epoch": 0.171875,
+      "grad_norm": 50.5,
+      "learning_rate": 2.9807692307692307e-06,
+      "loss": 3.6623,
+      "mean_token_accuracy": 0.4854481816291809,
+      "step": 11
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 43.5,
+      "learning_rate": 2.9711538461538463e-06,
+      "loss": 3.4374,
+      "mean_token_accuracy": 0.4968532621860504,
+      "step": 12
+    },
+    {
+      "epoch": 0.203125,
+      "grad_norm": 45.5,
+      "learning_rate": 2.961538461538462e-06,
+      "loss": 3.2283,
+      "mean_token_accuracy": 0.513970673084259,
+      "step": 13
+    },
+    {
+      "epoch": 0.21875,
+      "grad_norm": 35.25,
+      "learning_rate": 2.951923076923077e-06,
+      "loss": 3.1423,
+      "mean_token_accuracy": 0.5192499160766602,
+      "step": 14
+    },
+    {
+      "epoch": 0.234375,
+      "grad_norm": 32.0,
+      "learning_rate": 2.942307692307692e-06,
+      "loss": 2.9815,
+      "mean_token_accuracy": 0.5281234383583069,
+      "step": 15
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 32.5,
+      "learning_rate": 2.9326923076923076e-06,
+      "loss": 2.863,
+      "mean_token_accuracy": 0.5459433197975159,
+      "step": 16
+    },
+    {
+      "epoch": 0.265625,
+      "grad_norm": 27.5,
+      "learning_rate": 2.923076923076923e-06,
+      "loss": 2.8314,
+      "mean_token_accuracy": 0.5349738597869873,
+      "step": 17
+    },
+    {
+      "epoch": 0.28125,
+      "grad_norm": 26.125,
+      "learning_rate": 2.9134615384615387e-06,
+      "loss": 2.7488,
+      "mean_token_accuracy": 0.5427058339118958,
+      "step": 18
+    },
+    {
+      "epoch": 0.296875,
+      "grad_norm": 23.625,
+      "learning_rate": 2.903846153846154e-06,
+      "loss": 2.6134,
+      "mean_token_accuracy": 0.5453544855117798,
+      "step": 19
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 23.75,
+      "learning_rate": 2.8942307692307693e-06,
+      "loss": 2.562,
+      "mean_token_accuracy": 0.5491897463798523,
+      "step": 20
+    },
+    {
+      "epoch": 0.328125,
+      "grad_norm": 22.625,
+      "learning_rate": 2.884615384615385e-06,
+      "loss": 2.4742,
+      "mean_token_accuracy": 0.5496063232421875,
+      "step": 21
+    },
+    {
+      "epoch": 0.34375,
+      "grad_norm": 21.875,
+      "learning_rate": 2.875e-06,
+      "loss": 2.3924,
+      "mean_token_accuracy": 0.5709417462348938,
+      "step": 22
+    },
+    {
+      "epoch": 0.359375,
+      "grad_norm": 22.625,
+      "learning_rate": 2.8653846153846155e-06,
+      "loss": 2.2842,
+      "mean_token_accuracy": 0.5809605717658997,
+      "step": 23
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 21.125,
+      "learning_rate": 2.8557692307692307e-06,
+      "loss": 2.1831,
+      "mean_token_accuracy": 0.5968478918075562,
+      "step": 24
+    },
+    {
+      "epoch": 0.390625,
+      "grad_norm": 21.875,
+      "learning_rate": 2.846153846153846e-06,
+      "loss": 2.1536,
+      "mean_token_accuracy": 0.602466344833374,
+      "step": 25
+    },
+    {
+      "epoch": 0.40625,
+      "grad_norm": 21.5,
+      "learning_rate": 2.8365384615384613e-06,
+      "loss": 2.0267,
+      "mean_token_accuracy": 0.6342177987098694,
+      "step": 26
+    },
+    {
+      "epoch": 0.421875,
+      "grad_norm": 23.25,
+      "learning_rate": 2.826923076923077e-06,
+      "loss": 1.9421,
+      "mean_token_accuracy": 0.6432027220726013,
+      "step": 27
+    },
+    {
+      "epoch": 0.4375,
+      "grad_norm": 23.5,
+      "learning_rate": 2.8173076923076924e-06,
+      "loss": 1.9156,
+      "mean_token_accuracy": 0.6579385995864868,
+      "step": 28
+    },
+    {
+      "epoch": 0.453125,
+      "grad_norm": 24.125,
+      "learning_rate": 2.807692307692308e-06,
+      "loss": 1.8596,
+      "mean_token_accuracy": 0.6711886525154114,
+      "step": 29
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 21.5,
+      "learning_rate": 2.798076923076923e-06,
+      "loss": 1.7841,
+      "mean_token_accuracy": 0.6769159436225891,
+      "step": 30
+    },
+    {
+      "epoch": 0.484375,
+      "grad_norm": 19.25,
+      "learning_rate": 2.7884615384615386e-06,
+      "loss": 1.7306,
+      "mean_token_accuracy": 0.6835744976997375,
+      "step": 31
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 19.375,
+      "learning_rate": 2.778846153846154e-06,
+      "loss": 1.6979,
+      "mean_token_accuracy": 0.6885009407997131,
+      "step": 32
+    },
+    {
+      "epoch": 0.515625,
+      "grad_norm": 19.625,
+      "learning_rate": 2.7692307692307693e-06,
+      "loss": 1.6705,
+      "mean_token_accuracy": 0.6899428963661194,
+      "step": 33
+    },
+    {
+      "epoch": 0.53125,
+      "grad_norm": 19.375,
+      "learning_rate": 2.7596153846153844e-06,
+      "loss": 1.5569,
+      "mean_token_accuracy": 0.7047604918479919,
+      "step": 34
+    },
+    {
+      "epoch": 0.546875,
+      "grad_norm": 25.25,
+      "learning_rate": 2.75e-06,
+      "loss": 1.5437,
+      "mean_token_accuracy": 0.7077205777168274,
+      "step": 35
+    },
+    {
+      "epoch": 0.5625,
+      "grad_norm": 18.0,
+      "learning_rate": 2.7403846153846155e-06,
+      "loss": 1.5079,
+      "mean_token_accuracy": 0.721455454826355,
+      "step": 36
+    },
+    {
+      "epoch": 0.578125,
+      "grad_norm": 16.125,
+      "learning_rate": 2.7307692307692306e-06,
+      "loss": 1.4751,
+      "mean_token_accuracy": 0.731259822845459,
+      "step": 37
+    },
+    {
+      "epoch": 0.59375,
+      "grad_norm": 13.875,
+      "learning_rate": 2.721153846153846e-06,
+      "loss": 1.4444,
+      "mean_token_accuracy": 0.721596896648407,
+      "step": 38
+    },
+    {
+      "epoch": 0.609375,
+      "grad_norm": 17.25,
+      "learning_rate": 2.7115384615384617e-06,
+      "loss": 1.4267,
+      "mean_token_accuracy": 0.7311121821403503,
+      "step": 39
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 14.6875,
+      "learning_rate": 2.7019230769230772e-06,
+      "loss": 1.4606,
+      "mean_token_accuracy": 0.7229064106941223,
+      "step": 40
+    },
+    {
+      "epoch": 0.640625,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.6923076923076923e-06,
+      "loss": 1.4415,
+      "mean_token_accuracy": 0.7228537201881409,
+      "step": 41
+    },
+    {
+      "epoch": 0.65625,
+      "grad_norm": 12.1875,
+      "learning_rate": 2.682692307692308e-06,
+      "loss": 1.3615,
+      "mean_token_accuracy": 0.7459965944290161,
+      "step": 42
+    },
+    {
+      "epoch": 0.671875,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.6730769230769234e-06,
+      "loss": 1.3769,
+      "mean_token_accuracy": 0.7359253764152527,
+      "step": 43
+    },
+    {
+      "epoch": 0.6875,
+      "grad_norm": 12.0,
+      "learning_rate": 2.6634615384615385e-06,
+      "loss": 1.3322,
+      "mean_token_accuracy": 0.7482958436012268,
+      "step": 44
+    },
+    {
+      "epoch": 0.703125,
+      "grad_norm": 11.3125,
+      "learning_rate": 2.6538461538461537e-06,
+      "loss": 1.3471,
+      "mean_token_accuracy": 0.738798975944519,
+      "step": 45
+    },
+    {
+      "epoch": 0.71875,
+      "grad_norm": 12.8125,
+      "learning_rate": 2.644230769230769e-06,
+      "loss": 1.2892,
+      "mean_token_accuracy": 0.7512567043304443,
+      "step": 46
+    },
+    {
+      "epoch": 0.734375,
+      "grad_norm": 12.25,
+      "learning_rate": 2.6346153846153847e-06,
+      "loss": 1.2592,
+      "mean_token_accuracy": 0.7561485171318054,
+      "step": 47
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 13.875,
+      "learning_rate": 2.6250000000000003e-06,
+      "loss": 1.289,
+      "mean_token_accuracy": 0.7504905462265015,
+      "step": 48
+    },
+    {
+      "epoch": 0.765625,
+      "grad_norm": 17.25,
+      "learning_rate": 2.6153846153846154e-06,
+      "loss": 1.2412,
+      "mean_token_accuracy": 0.7566288113594055,
+      "step": 49
+    },
+    {
+      "epoch": 0.78125,
+      "grad_norm": 24.375,
+      "learning_rate": 2.605769230769231e-06,
+      "loss": 1.2232,
+      "mean_token_accuracy": 0.7667444348335266,
+      "step": 50
+    },
+    {
+      "epoch": 0.796875,
+      "grad_norm": 34.25,
+      "learning_rate": 2.5961538461538465e-06,
+      "loss": 1.2176,
+      "mean_token_accuracy": 0.7597681879997253,
+      "step": 51
+    },
+    {
+      "epoch": 0.8125,
+      "grad_norm": 31.0,
+      "learning_rate": 2.5865384615384616e-06,
+      "loss": 1.2091,
+      "mean_token_accuracy": 0.7564249634742737,
+      "step": 52
+    },
+    {
+      "epoch": 0.828125,
+      "grad_norm": 9.4375,
+      "learning_rate": 2.5769230769230767e-06,
+      "loss": 1.1706,
+      "mean_token_accuracy": 0.7586262226104736,
+      "step": 53
+    },
+    {
+      "epoch": 0.84375,
+      "grad_norm": 9.3125,
+      "learning_rate": 2.5673076923076923e-06,
+      "loss": 1.2491,
+      "mean_token_accuracy": 0.7373932600021362,
+      "step": 54
+    },
+    {
+      "epoch": 0.859375,
+      "grad_norm": 8.8125,
+      "learning_rate": 2.557692307692308e-06,
+      "loss": 1.2008,
+      "mean_token_accuracy": 0.7576074004173279,
+      "step": 55
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 7.8125,
+      "learning_rate": 2.548076923076923e-06,
+      "loss": 1.1553,
+      "mean_token_accuracy": 0.7607351541519165,
+      "step": 56
+    },
+    {
+      "epoch": 0.890625,
+      "grad_norm": 7.875,
+      "learning_rate": 2.5384615384615385e-06,
+      "loss": 1.1896,
+      "mean_token_accuracy": 0.7548706531524658,
+      "step": 57
+    },
+    {
+      "epoch": 0.90625,
+      "grad_norm": 13.6875,
+      "learning_rate": 2.528846153846154e-06,
+      "loss": 1.156,
+      "mean_token_accuracy": 0.7589271664619446,
+      "step": 58
+    },
+    {
+      "epoch": 0.921875,
+      "grad_norm": 12.375,
+      "learning_rate": 2.5192307692307695e-06,
+      "loss": 1.1924,
+      "mean_token_accuracy": 0.7581174373626709,
+      "step": 59
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 8.875,
+      "learning_rate": 2.5096153846153847e-06,
+      "loss": 1.193,
+      "mean_token_accuracy": 0.7505763173103333,
+      "step": 60
+    },
+    {
+      "epoch": 0.953125,
+      "grad_norm": 7.53125,
+      "learning_rate": 2.5e-06,
+      "loss": 1.118,
+      "mean_token_accuracy": 0.7625401020050049,
+      "step": 61
+    },
+    {
+      "epoch": 0.96875,
+      "grad_norm": 7.03125,
+      "learning_rate": 2.4903846153846157e-06,
+      "loss": 1.1186,
+      "mean_token_accuracy": 0.7640949487686157,
+      "step": 62
+    },
+    {
+      "epoch": 0.984375,
+      "grad_norm": 6.9375,
+      "learning_rate": 2.480769230769231e-06,
+      "loss": 1.1178,
+      "mean_token_accuracy": 0.7689425945281982,
+      "step": 63
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 9.75,
+      "learning_rate": 2.471153846153846e-06,
+      "loss": 1.1485,
+      "mean_token_accuracy": 0.7646326422691345,
+      "step": 64
+    },
+    {
+      "epoch": 1.015625,
+      "grad_norm": 15.3125,
+      "learning_rate": 2.4615384615384615e-06,
+      "loss": 1.1362,
+      "mean_token_accuracy": 0.7596017122268677,
+      "step": 65
+    },
+    {
+      "epoch": 1.03125,
+      "grad_norm": 11.5625,
+      "learning_rate": 2.451923076923077e-06,
+      "loss": 1.1227,
+      "mean_token_accuracy": 0.7617481350898743,
+      "step": 66
+    },
+    {
+      "epoch": 1.046875,
+      "grad_norm": 29.125,
+      "learning_rate": 2.442307692307692e-06,
+      "loss": 1.0983,
+      "mean_token_accuracy": 0.7637330293655396,
+      "step": 67
+    },
+    {
+      "epoch": 1.0625,
+      "grad_norm": 11.0625,
+      "learning_rate": 2.4326923076923077e-06,
+      "loss": 1.1244,
+      "mean_token_accuracy": 0.75943922996521,
+      "step": 68
+    },
+    {
+      "epoch": 1.078125,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.4230769230769233e-06,
+      "loss": 1.1029,
+      "mean_token_accuracy": 0.7678335309028625,
+      "step": 69
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 8.25,
+      "learning_rate": 2.413461538461539e-06,
+      "loss": 1.1107,
+      "mean_token_accuracy": 0.766456127166748,
+      "step": 70
+    },
+    {
+      "epoch": 1.109375,
+      "grad_norm": 6.5,
+      "learning_rate": 2.403846153846154e-06,
+      "loss": 1.0539,
+      "mean_token_accuracy": 0.7779717445373535,
+      "step": 71
+    },
+    {
+      "epoch": 1.125,
+      "grad_norm": 11.125,
+      "learning_rate": 2.3942307692307695e-06,
+      "loss": 1.1745,
+      "mean_token_accuracy": 0.7527372241020203,
+      "step": 72
+    },
+    {
+      "epoch": 1.140625,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.3846153846153846e-06,
+      "loss": 1.1154,
+      "mean_token_accuracy": 0.7618581652641296,
+      "step": 73
+    },
+    {
+      "epoch": 1.15625,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.375e-06,
+      "loss": 1.0716,
+      "mean_token_accuracy": 0.7723715305328369,
+      "step": 74
+    },
+    {
+      "epoch": 1.171875,
+      "grad_norm": 7.09375,
+      "learning_rate": 2.3653846153846152e-06,
+      "loss": 1.0951,
+      "mean_token_accuracy": 0.7622343897819519,
+      "step": 75
+    },
+    {
+      "epoch": 1.1875,
+      "grad_norm": 6.375,
+      "learning_rate": 2.355769230769231e-06,
+      "loss": 1.1046,
+      "mean_token_accuracy": 0.768226146697998,
+      "step": 76
+    },
+    {
+      "epoch": 1.203125,
+      "grad_norm": 8.0,
+      "learning_rate": 2.3461538461538463e-06,
+      "loss": 1.1724,
+      "mean_token_accuracy": 0.7464057803153992,
+      "step": 77
+    },
+    {
+      "epoch": 1.21875,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.3365384615384615e-06,
+      "loss": 1.0518,
+      "mean_token_accuracy": 0.7725957036018372,
+      "step": 78
+    },
+    {
+      "epoch": 1.234375,
+      "grad_norm": 7.03125,
+      "learning_rate": 2.326923076923077e-06,
+      "loss": 1.0578,
+      "mean_token_accuracy": 0.7661430835723877,
+      "step": 79
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 7.15625,
+      "learning_rate": 2.3173076923076925e-06,
+      "loss": 1.0921,
+      "mean_token_accuracy": 0.7706676125526428,
+      "step": 80
+    },
+    {
+      "epoch": 1.265625,
+      "grad_norm": 7.9375,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 1.0947,
+      "mean_token_accuracy": 0.7600434422492981,
+      "step": 81
+    },
+    {
+      "epoch": 1.28125,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.298076923076923e-06,
+      "loss": 1.0152,
+      "mean_token_accuracy": 0.7791481614112854,
+      "step": 82
+    },
+    {
+      "epoch": 1.296875,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.2884615384615383e-06,
+      "loss": 1.1093,
+      "mean_token_accuracy": 0.7621586918830872,
+      "step": 83
+    },
+    {
+      "epoch": 1.3125,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.278846153846154e-06,
+      "loss": 1.0595,
+      "mean_token_accuracy": 0.7689430713653564,
+      "step": 84
+    },
+    {
+      "epoch": 1.328125,
+      "grad_norm": 25.625,
+      "learning_rate": 2.2692307692307694e-06,
+      "loss": 1.1264,
+      "mean_token_accuracy": 0.7479003667831421,
+      "step": 85
+    },
+    {
+      "epoch": 1.34375,
+      "grad_norm": 6.9375,
+      "learning_rate": 2.2596153846153845e-06,
+      "loss": 1.0278,
+      "mean_token_accuracy": 0.7810243964195251,
+      "step": 86
+    },
+    {
+      "epoch": 1.359375,
+      "grad_norm": 12.0,
+      "learning_rate": 2.25e-06,
+      "loss": 1.0898,
+      "mean_token_accuracy": 0.7608263492584229,
+      "step": 87
+    },
+    {
+      "epoch": 1.375,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.2403846153846156e-06,
+      "loss": 1.0646,
+      "mean_token_accuracy": 0.7628912925720215,
+      "step": 88
+    },
+    {
+      "epoch": 1.390625,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.2307692307692307e-06,
+      "loss": 1.1259,
+      "mean_token_accuracy": 0.747133195400238,
+      "step": 89
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.2211538461538463e-06,
+      "loss": 1.0527,
+      "mean_token_accuracy": 0.769545316696167,
+      "step": 90
+    },
+    {
+      "epoch": 1.421875,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.211538461538462e-06,
+      "loss": 1.0857,
+      "mean_token_accuracy": 0.7563959956169128,
+      "step": 91
+    },
+    {
+      "epoch": 1.4375,
+      "grad_norm": 6.6875,
+      "learning_rate": 2.201923076923077e-06,
+      "loss": 1.0779,
+      "mean_token_accuracy": 0.7625620365142822,
+      "step": 92
+    },
+    {
+      "epoch": 1.453125,
+      "grad_norm": 11.0,
+      "learning_rate": 2.192307692307692e-06,
+      "loss": 1.0615,
+      "mean_token_accuracy": 0.7684396505355835,
+      "step": 93
+    },
+    {
+      "epoch": 1.46875,
+      "grad_norm": 7.53125,
+      "learning_rate": 2.1826923076923076e-06,
+      "loss": 1.0067,
+      "mean_token_accuracy": 0.773740291595459,
+      "step": 94
+    },
+    {
+      "epoch": 1.484375,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.173076923076923e-06,
+      "loss": 1.0334,
+      "mean_token_accuracy": 0.7674839496612549,
+      "step": 95
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 9.3125,
+      "learning_rate": 2.1634615384615387e-06,
+      "loss": 1.0772,
+      "mean_token_accuracy": 0.7548962235450745,
+      "step": 96
+    },
+    {
+      "epoch": 1.515625,
+      "grad_norm": 20.25,
+      "learning_rate": 2.1538461538461538e-06,
+      "loss": 1.0953,
+      "mean_token_accuracy": 0.7568336129188538,
+      "step": 97
+    },
+    {
+      "epoch": 1.53125,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.1442307692307693e-06,
+      "loss": 1.0656,
+      "mean_token_accuracy": 0.7618821859359741,
+      "step": 98
+    },
+    {
+      "epoch": 1.546875,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.134615384615385e-06,
+      "loss": 0.9638,
+      "mean_token_accuracy": 0.7852028608322144,
+      "step": 99
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 16.25,
+      "learning_rate": 2.125e-06,
+      "loss": 1.057,
+      "mean_token_accuracy": 0.7648255228996277,
+      "step": 100
+    },
+    {
+      "epoch": 1.578125,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.1153846153846155e-06,
+      "loss": 1.0351,
+      "mean_token_accuracy": 0.7706173062324524,
+      "step": 101
+    },
+    {
+      "epoch": 1.59375,
+      "grad_norm": 19.375,
+      "learning_rate": 2.1057692307692306e-06,
+      "loss": 1.0262,
+      "mean_token_accuracy": 0.7676799297332764,
+      "step": 102
+    },
+    {
+      "epoch": 1.609375,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.096153846153846e-06,
+      "loss": 0.9901,
+      "mean_token_accuracy": 0.7759581208229065,
+      "step": 103
+    },
+    {
+      "epoch": 1.625,
+      "grad_norm": 8.5,
+      "learning_rate": 2.0865384615384613e-06,
+      "loss": 0.9888,
+      "mean_token_accuracy": 0.7782798409461975,
+      "step": 104
+    },
+    {
+      "epoch": 1.640625,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.076923076923077e-06,
+      "loss": 0.9912,
+      "mean_token_accuracy": 0.7795735001564026,
+      "step": 105
+    },
+    {
+      "epoch": 1.65625,
+      "grad_norm": 8.6875,
+      "learning_rate": 2.0673076923076924e-06,
+      "loss": 1.0046,
+      "mean_token_accuracy": 0.7750487923622131,
+      "step": 106
+    },
+    {
+      "epoch": 1.671875,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.057692307692308e-06,
+      "loss": 1.0527,
+      "mean_token_accuracy": 0.7730545997619629,
+      "step": 107
+    },
+    {
+      "epoch": 1.6875,
+      "grad_norm": 7.0,
+      "learning_rate": 2.048076923076923e-06,
+      "loss": 0.9943,
+      "mean_token_accuracy": 0.7790677547454834,
+      "step": 108
+    },
+    {
+      "epoch": 1.703125,
+      "grad_norm": 52.25,
+      "learning_rate": 2.0384615384615386e-06,
+      "loss": 1.0243,
+      "mean_token_accuracy": 0.7736808657646179,
+      "step": 109
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.028846153846154e-06,
+      "loss": 0.9599,
+      "mean_token_accuracy": 0.7829864025115967,
+      "step": 110
+    },
+    {
+      "epoch": 1.734375,
+      "grad_norm": 6.875,
+      "learning_rate": 2.0192307692307692e-06,
+      "loss": 0.993,
+      "mean_token_accuracy": 0.784246563911438,
+      "step": 111
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 15.9375,
+      "learning_rate": 2.0096153846153844e-06,
+      "loss": 1.0284,
+      "mean_token_accuracy": 0.7701562643051147,
+      "step": 112
+    },
+    {
+      "epoch": 1.765625,
+      "grad_norm": 11.25,
+      "learning_rate": 2e-06,
+      "loss": 1.0453,
+      "mean_token_accuracy": 0.765605092048645,
+      "step": 113
+    },
+    {
+      "epoch": 1.78125,
+      "grad_norm": 11.25,
+      "learning_rate": 1.9903846153846155e-06,
+      "loss": 0.9963,
+      "mean_token_accuracy": 0.7780460119247437,
+      "step": 114
+    },
+    {
+      "epoch": 1.796875,
+      "grad_norm": 7.8125,
+      "learning_rate": 1.9807692307692306e-06,
+      "loss": 1.0104,
+      "mean_token_accuracy": 0.7722231149673462,
+      "step": 115
+    },
+    {
+      "epoch": 1.8125,
+      "grad_norm": 7.46875,
+      "learning_rate": 1.971153846153846e-06,
+      "loss": 0.9977,
+      "mean_token_accuracy": 0.7763562798500061,
+      "step": 116
+    },
+    {
+      "epoch": 1.828125,
+      "grad_norm": 7.09375,
+      "learning_rate": 1.9615384615384617e-06,
+      "loss": 0.9994,
+      "mean_token_accuracy": 0.7727492451667786,
+      "step": 117
+    },
+    {
+      "epoch": 1.84375,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.951923076923077e-06,
+      "loss": 0.9729,
+      "mean_token_accuracy": 0.7792785167694092,
+      "step": 118
+    },
+    {
+      "epoch": 1.859375,
+      "grad_norm": 10.25,
+      "learning_rate": 1.9423076923076923e-06,
+      "loss": 1.0092,
+      "mean_token_accuracy": 0.7684956789016724,
+      "step": 119
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 7.53125,
+      "learning_rate": 1.932692307692308e-06,
+      "loss": 0.962,
+      "mean_token_accuracy": 0.7807108163833618,
+      "step": 120
+    },
+    {
+      "epoch": 1.890625,
+      "grad_norm": 7.0,
+      "learning_rate": 1.9230769230769234e-06,
+      "loss": 1.0035,
+      "mean_token_accuracy": 0.7749958634376526,
+      "step": 121
+    },
+    {
+      "epoch": 1.90625,
+      "grad_norm": 9.3125,
+      "learning_rate": 1.9134615384615385e-06,
+      "loss": 1.0121,
+      "mean_token_accuracy": 0.7693877816200256,
+      "step": 122
+    },
+    {
+      "epoch": 1.921875,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.9038461538461538e-06,
+      "loss": 0.9797,
+      "mean_token_accuracy": 0.7859560251235962,
+      "step": 123
+    },
+    {
+      "epoch": 1.9375,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.8942307692307692e-06,
+      "loss": 0.9071,
+      "mean_token_accuracy": 0.7927353978157043,
+      "step": 124
+    },
+    {
+      "epoch": 1.953125,
+      "grad_norm": 6.5,
+      "learning_rate": 1.8846153846153847e-06,
+      "loss": 0.8898,
+      "mean_token_accuracy": 0.7983871102333069,
+      "step": 125
+    },
+    {
+      "epoch": 1.96875,
+      "grad_norm": 11.625,
+      "learning_rate": 1.875e-06,
+      "loss": 0.9509,
+      "mean_token_accuracy": 0.7818240523338318,
+      "step": 126
+    },
+    {
+      "epoch": 1.984375,
+      "grad_norm": 23.0,
+      "learning_rate": 1.8653846153846154e-06,
+      "loss": 0.9974,
+      "mean_token_accuracy": 0.7754906415939331,
+      "step": 127
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 16.25,
+      "learning_rate": 1.855769230769231e-06,
+      "loss": 0.9983,
+      "mean_token_accuracy": 0.7626262903213501,
+      "step": 128
+    },
+    {
+      "epoch": 2.015625,
+      "grad_norm": 107.5,
+      "learning_rate": 1.8461538461538462e-06,
+      "loss": 0.981,
+      "mean_token_accuracy": 0.7775020599365234,
+      "step": 129
+    },
+    {
+      "epoch": 2.03125,
+      "grad_norm": 78.0,
+      "learning_rate": 1.8365384615384618e-06,
+      "loss": 1.0013,
+      "mean_token_accuracy": 0.777273416519165,
+      "step": 130
+    },
+    {
+      "epoch": 2.046875,
+      "grad_norm": 15.75,
+      "learning_rate": 1.826923076923077e-06,
+      "loss": 1.0124,
+      "mean_token_accuracy": 0.7745746970176697,
+      "step": 131
+    },
+    {
+      "epoch": 2.0625,
+      "grad_norm": 6.75,
+      "learning_rate": 1.8173076923076922e-06,
+      "loss": 1.0109,
+      "mean_token_accuracy": 0.7626786828041077,
+      "step": 132
+    },
+    {
+      "epoch": 2.078125,
+      "grad_norm": 10.75,
+      "learning_rate": 1.8076923076923076e-06,
+      "loss": 0.9854,
+      "mean_token_accuracy": 0.7782512903213501,
+      "step": 133
+    },
+    {
+      "epoch": 2.09375,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.7980769230769231e-06,
+      "loss": 0.9558,
+      "mean_token_accuracy": 0.7810325026512146,
+      "step": 134
+    },
+    {
+      "epoch": 2.109375,
+      "grad_norm": 9.875,
+      "learning_rate": 1.7884615384615384e-06,
+      "loss": 0.9925,
+      "mean_token_accuracy": 0.7802160978317261,
+      "step": 135
+    },
+    {
+      "epoch": 2.125,
+      "grad_norm": 7.40625,
+      "learning_rate": 1.778846153846154e-06,
+      "loss": 0.9899,
+      "mean_token_accuracy": 0.7759094834327698,
+      "step": 136
+    },
+    {
+      "epoch": 2.140625,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.7692307692307693e-06,
+      "loss": 0.9509,
+      "mean_token_accuracy": 0.7890124917030334,
+      "step": 137
+    },
+    {
+      "epoch": 2.15625,
+      "grad_norm": 8.1875,
+      "learning_rate": 1.7596153846153846e-06,
+      "loss": 0.9832,
+      "mean_token_accuracy": 0.7752114534378052,
+      "step": 138
+    },
+    {
+      "epoch": 2.171875,
+      "grad_norm": 6.25,
+      "learning_rate": 1.7500000000000002e-06,
+      "loss": 0.9225,
+      "mean_token_accuracy": 0.7903473973274231,
+      "step": 139
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.7403846153846155e-06,
+      "loss": 0.9476,
+      "mean_token_accuracy": 0.7873295545578003,
+      "step": 140
+    },
+    {
+      "epoch": 2.203125,
+      "grad_norm": 20.625,
+      "learning_rate": 1.7307692307692306e-06,
+      "loss": 1.0055,
+      "mean_token_accuracy": 0.7686769962310791,
+      "step": 141
+    },
+    {
+      "epoch": 2.21875,
+      "grad_norm": 26.625,
+      "learning_rate": 1.7211538461538462e-06,
+      "loss": 1.0145,
+      "mean_token_accuracy": 0.7676523923873901,
+      "step": 142
+    },
+    {
+      "epoch": 2.234375,
+      "grad_norm": 7.4375,
+      "learning_rate": 1.7115384615384615e-06,
+      "loss": 0.9358,
+      "mean_token_accuracy": 0.7874542474746704,
+      "step": 143
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 23.875,
+      "learning_rate": 1.7019230769230768e-06,
+      "loss": 1.0153,
+      "mean_token_accuracy": 0.768985390663147,
+      "step": 144
+    },
+    {
+      "epoch": 2.265625,
+      "grad_norm": 6.625,
+      "learning_rate": 1.6923076923076924e-06,
+      "loss": 0.9844,
+      "mean_token_accuracy": 0.7775037288665771,
+      "step": 145
+    },
+    {
+      "epoch": 2.28125,
+      "grad_norm": 7.03125,
+      "learning_rate": 1.6826923076923077e-06,
+      "loss": 0.9851,
+      "mean_token_accuracy": 0.7740368843078613,
+      "step": 146
+    },
+    {
+      "epoch": 2.296875,
+      "grad_norm": 44.25,
+      "learning_rate": 1.6730769230769232e-06,
+      "loss": 0.9817,
+      "mean_token_accuracy": 0.7741778492927551,
+      "step": 147
+    },
+    {
+      "epoch": 2.3125,
+      "grad_norm": 13.3125,
+      "learning_rate": 1.6634615384615386e-06,
+      "loss": 0.9974,
+      "mean_token_accuracy": 0.7730644941329956,
+      "step": 148
+    },
+    {
+      "epoch": 2.328125,
+      "grad_norm": 5.625,
+      "learning_rate": 1.653846153846154e-06,
+      "loss": 0.927,
+      "mean_token_accuracy": 0.7886461615562439,
+      "step": 149
+    },
+    {
+      "epoch": 2.34375,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.6442307692307695e-06,
+      "loss": 0.8944,
+      "mean_token_accuracy": 0.795914888381958,
+      "step": 150
+    },
+    {
+      "epoch": 2.359375,
+      "grad_norm": 8.625,
+      "learning_rate": 1.6346153846153846e-06,
+      "loss": 0.9641,
+      "mean_token_accuracy": 0.7850483059883118,
+      "step": 151
+    },
+    {
+      "epoch": 2.375,
+      "grad_norm": 61.25,
+      "learning_rate": 1.625e-06,
+      "loss": 0.9894,
+      "mean_token_accuracy": 0.7669225335121155,
+      "step": 152
+    },
+    {
+      "epoch": 2.390625,
+      "grad_norm": 13.9375,
+      "learning_rate": 1.6153846153846154e-06,
+      "loss": 0.9687,
+      "mean_token_accuracy": 0.7841285467147827,
+      "step": 153
+    },
+    {
+      "epoch": 2.40625,
+      "grad_norm": 25.375,
+      "learning_rate": 1.6057692307692308e-06,
+      "loss": 0.9431,
+      "mean_token_accuracy": 0.7892006039619446,
+      "step": 154
+    },
+    {
+      "epoch": 2.421875,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.596153846153846e-06,
+      "loss": 0.9615,
+      "mean_token_accuracy": 0.7802021503448486,
+      "step": 155
+    },
+    {
+      "epoch": 2.4375,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.5865384615384616e-06,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.7976588606834412,
+      "step": 156
+    },
+    {
+      "epoch": 2.453125,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.576923076923077e-06,
+      "loss": 0.944,
+      "mean_token_accuracy": 0.7864833474159241,
+      "step": 157
+    },
+    {
+      "epoch": 2.46875,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.5673076923076925e-06,
+      "loss": 0.9251,
+      "mean_token_accuracy": 0.7923402786254883,
+      "step": 158
+    },
+    {
+      "epoch": 2.484375,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.5576923076923078e-06,
+      "loss": 0.9495,
+      "mean_token_accuracy": 0.7810263633728027,
+      "step": 159
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 27.75,
+      "learning_rate": 1.5480769230769232e-06,
+      "loss": 1.0118,
+      "mean_token_accuracy": 0.7756314873695374,
+      "step": 160
+    },
+    {
+      "epoch": 2.515625,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.5384615384615383e-06,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.8030520677566528,
+      "step": 161
+    },
+    {
+      "epoch": 2.53125,
+      "grad_norm": 10.75,
+      "learning_rate": 1.5288461538461538e-06,
+      "loss": 0.993,
+      "mean_token_accuracy": 0.7751861214637756,
+      "step": 162
+    },
+    {
+      "epoch": 2.546875,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.5192307692307692e-06,
+      "loss": 0.9337,
+      "mean_token_accuracy": 0.7878151535987854,
+      "step": 163
+    },
+    {
+      "epoch": 2.5625,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.5096153846153847e-06,
+      "loss": 0.9229,
+      "mean_token_accuracy": 0.7985841631889343,
+      "step": 164
+    },
+    {
+      "epoch": 2.578125,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.5e-06,
+      "loss": 0.9183,
+      "mean_token_accuracy": 0.7949057221412659,
+      "step": 165
+    },
+    {
+      "epoch": 2.59375,
+      "grad_norm": 8.1875,
+      "learning_rate": 1.4903846153846154e-06,
+      "loss": 0.9715,
+      "mean_token_accuracy": 0.7781420946121216,
+      "step": 166
+    },
+    {
+      "epoch": 2.609375,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.480769230769231e-06,
+      "loss": 0.9473,
+      "mean_token_accuracy": 0.7875062227249146,
+      "step": 167
+    },
+    {
+      "epoch": 2.625,
+      "grad_norm": 5.75,
+      "learning_rate": 1.471153846153846e-06,
+      "loss": 0.9271,
+      "mean_token_accuracy": 0.7928742170333862,
+      "step": 168
+    },
+    {
+      "epoch": 2.640625,
+      "grad_norm": 13.25,
+      "learning_rate": 1.4615384615384616e-06,
+      "loss": 0.9739,
+      "mean_token_accuracy": 0.7802754640579224,
+      "step": 169
+    },
+    {
+      "epoch": 2.65625,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.451923076923077e-06,
+      "loss": 0.9205,
+      "mean_token_accuracy": 0.7956867218017578,
+      "step": 170
+    },
+    {
+      "epoch": 2.671875,
+      "grad_norm": 20.125,
+      "learning_rate": 1.4423076923076924e-06,
+      "loss": 0.9228,
+      "mean_token_accuracy": 0.7963763475418091,
+      "step": 171
+    },
+    {
+      "epoch": 2.6875,
+      "grad_norm": 7.8125,
+      "learning_rate": 1.4326923076923078e-06,
+      "loss": 0.9705,
+      "mean_token_accuracy": 0.7838233113288879,
+      "step": 172
+    },
+    {
+      "epoch": 2.703125,
+      "grad_norm": 7.625,
+      "learning_rate": 1.423076923076923e-06,
+      "loss": 0.9856,
+      "mean_token_accuracy": 0.777830958366394,
+      "step": 173
+    },
+    {
+      "epoch": 2.71875,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.4134615384615384e-06,
+      "loss": 0.9123,
+      "mean_token_accuracy": 0.7965753674507141,
+      "step": 174
+    },
+    {
+      "epoch": 2.734375,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.403846153846154e-06,
+      "loss": 0.8977,
+      "mean_token_accuracy": 0.7950465679168701,
+      "step": 175
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.3942307692307693e-06,
+      "loss": 0.9534,
+      "mean_token_accuracy": 0.7896023392677307,
+      "step": 176
+    },
+    {
+      "epoch": 2.765625,
+      "grad_norm": 51.5,
+      "learning_rate": 1.3846153846153846e-06,
+      "loss": 0.9886,
+      "mean_token_accuracy": 0.7733170390129089,
+      "step": 177
+    },
+    {
+      "epoch": 2.78125,
+      "grad_norm": 6.25,
+      "learning_rate": 1.375e-06,
+      "loss": 0.9304,
+      "mean_token_accuracy": 0.7874513864517212,
+      "step": 178
+    },
+    {
+      "epoch": 2.796875,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.3653846153846153e-06,
+      "loss": 0.9909,
+      "mean_token_accuracy": 0.7773162722587585,
+      "step": 179
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 17.375,
+      "learning_rate": 1.3557692307692308e-06,
+      "loss": 0.9561,
+      "mean_token_accuracy": 0.7817555665969849,
+      "step": 180
+    },
+    {
+      "epoch": 2.828125,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.3461538461538462e-06,
+      "loss": 0.9449,
+      "mean_token_accuracy": 0.7880972623825073,
+      "step": 181
+    },
+    {
+      "epoch": 2.84375,
+      "grad_norm": 6.375,
+      "learning_rate": 1.3365384615384617e-06,
+      "loss": 0.9588,
+      "mean_token_accuracy": 0.7854828238487244,
+      "step": 182
+    },
+    {
+      "epoch": 2.859375,
+      "grad_norm": 33.75,
+      "learning_rate": 1.3269230769230768e-06,
+      "loss": 0.9635,
+      "mean_token_accuracy": 0.7801363468170166,
+      "step": 183
+    },
+    {
+      "epoch": 2.875,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.3173076923076924e-06,
+      "loss": 0.9914,
+      "mean_token_accuracy": 0.7746433615684509,
+      "step": 184
+    },
+    {
+      "epoch": 2.890625,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.3076923076923077e-06,
+      "loss": 0.9492,
+      "mean_token_accuracy": 0.7791839838027954,
+      "step": 185
+    },
+    {
+      "epoch": 2.90625,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.2980769230769232e-06,
+      "loss": 0.9667,
+      "mean_token_accuracy": 0.7795350551605225,
+      "step": 186
+    },
+    {
+      "epoch": 2.921875,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.2884615384615384e-06,
+      "loss": 0.9588,
+      "mean_token_accuracy": 0.7847999930381775,
+      "step": 187
+    },
+    {
+      "epoch": 2.9375,
+      "grad_norm": 25.375,
+      "learning_rate": 1.278846153846154e-06,
+      "loss": 0.8759,
+      "mean_token_accuracy": 0.8001649975776672,
+      "step": 188
+    },
+    {
+      "epoch": 2.953125,
+      "grad_norm": 8.5625,
+      "learning_rate": 1.2692307692307692e-06,
+      "loss": 0.9675,
+      "mean_token_accuracy": 0.7719402313232422,
+      "step": 189
+    },
+    {
+      "epoch": 2.96875,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.2596153846153848e-06,
+      "loss": 0.9304,
+      "mean_token_accuracy": 0.7856206893920898,
+      "step": 190
+    },
+    {
+      "epoch": 2.984375,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.25e-06,
+      "loss": 0.9542,
+      "mean_token_accuracy": 0.78487229347229,
+      "step": 191
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.2403846153846154e-06,
+      "loss": 0.9371,
+      "mean_token_accuracy": 0.7693274617195129,
+      "step": 192
+    },
+    {
+      "epoch": 3.015625,
+      "grad_norm": 6.25,
+      "learning_rate": 1.2307692307692308e-06,
+      "loss": 0.892,
+      "mean_token_accuracy": 0.7988702654838562,
+      "step": 193
+    },
+    {
+      "epoch": 3.03125,
+      "grad_norm": 18.375,
+      "learning_rate": 1.221153846153846e-06,
+      "loss": 0.9524,
+      "mean_token_accuracy": 0.782721221446991,
+      "step": 194
+    },
+    {
+      "epoch": 3.046875,
+      "grad_norm": 15.25,
+      "learning_rate": 1.2115384615384616e-06,
+      "loss": 0.9835,
+      "mean_token_accuracy": 0.7716888189315796,
+      "step": 195
+    },
+    {
+      "epoch": 3.0625,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.201923076923077e-06,
+      "loss": 0.8871,
+      "mean_token_accuracy": 0.8021034002304077,
+      "step": 196
+    },
+    {
+      "epoch": 3.078125,
+      "grad_norm": 35.0,
+      "learning_rate": 1.1923076923076923e-06,
+      "loss": 0.9402,
+      "mean_token_accuracy": 0.7832167744636536,
+      "step": 197
+    },
+    {
+      "epoch": 3.09375,
+      "grad_norm": 8.75,
+      "learning_rate": 1.1826923076923076e-06,
+      "loss": 0.991,
+      "mean_token_accuracy": 0.7750375866889954,
+      "step": 198
+    },
+    {
+      "epoch": 3.109375,
+      "grad_norm": 20.25,
+      "learning_rate": 1.1730769230769232e-06,
+      "loss": 0.906,
+      "mean_token_accuracy": 0.7941325902938843,
+      "step": 199
+    },
+    {
+      "epoch": 3.125,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.1634615384615385e-06,
+      "loss": 0.9131,
+      "mean_token_accuracy": 0.7984575629234314,
+      "step": 200
+    },
+    {
+      "epoch": 3.140625,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.153846153846154e-06,
+      "loss": 0.823,
+      "mean_token_accuracy": 0.8103417158126831,
+      "step": 201
+    },
+    {
+      "epoch": 3.15625,
+      "grad_norm": 7.0,
+      "learning_rate": 1.1442307692307692e-06,
+      "loss": 0.9495,
+      "mean_token_accuracy": 0.7842703461647034,
+      "step": 202
+    },
+    {
+      "epoch": 3.171875,
+      "grad_norm": 7.4375,
+      "learning_rate": 1.1346153846153847e-06,
+      "loss": 0.9537,
+      "mean_token_accuracy": 0.7833541035652161,
+      "step": 203
+    },
+    {
+      "epoch": 3.1875,
+      "grad_norm": 8.8125,
+      "learning_rate": 1.125e-06,
+      "loss": 0.9689,
+      "mean_token_accuracy": 0.7763713002204895,
+      "step": 204
+    },
+    {
+      "epoch": 3.203125,
+      "grad_norm": 23.375,
+      "learning_rate": 1.1153846153846154e-06,
+      "loss": 0.9487,
+      "mean_token_accuracy": 0.7811124920845032,
+      "step": 205
+    },
+    {
+      "epoch": 3.21875,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.105769230769231e-06,
+      "loss": 0.8658,
+      "mean_token_accuracy": 0.8113903999328613,
+      "step": 206
+    },
+    {
+      "epoch": 3.234375,
+      "grad_norm": 11.625,
+      "learning_rate": 1.096153846153846e-06,
+      "loss": 0.9577,
+      "mean_token_accuracy": 0.7787481546401978,
+      "step": 207
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.0865384615384616e-06,
+      "loss": 0.9042,
+      "mean_token_accuracy": 0.7923972010612488,
+      "step": 208
+    },
+    {
+      "epoch": 3.265625,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.0769230769230769e-06,
+      "loss": 0.9379,
+      "mean_token_accuracy": 0.7835002541542053,
+      "step": 209
+    },
+    {
+      "epoch": 3.28125,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.0673076923076924e-06,
+      "loss": 0.9172,
+      "mean_token_accuracy": 0.7931802868843079,
+      "step": 210
+    },
+    {
+      "epoch": 3.296875,
+      "grad_norm": 7.875,
+      "learning_rate": 1.0576923076923078e-06,
+      "loss": 0.9593,
+      "mean_token_accuracy": 0.7814356684684753,
+      "step": 211
+    },
+    {
+      "epoch": 3.3125,
+      "grad_norm": 30.125,
+      "learning_rate": 1.048076923076923e-06,
+      "loss": 0.9164,
+      "mean_token_accuracy": 0.7888871431350708,
+      "step": 212
+    },
+    {
+      "epoch": 3.328125,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.0384615384615384e-06,
+      "loss": 0.9056,
+      "mean_token_accuracy": 0.7965211868286133,
+      "step": 213
+    },
+    {
+      "epoch": 3.34375,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.028846153846154e-06,
+      "loss": 0.948,
+      "mean_token_accuracy": 0.7837017178535461,
+      "step": 214
+    },
+    {
+      "epoch": 3.359375,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.0192307692307693e-06,
+      "loss": 0.902,
+      "mean_token_accuracy": 0.8006668090820312,
+      "step": 215
+    },
+    {
+      "epoch": 3.375,
+      "grad_norm": 5.75,
+      "learning_rate": 1.0096153846153846e-06,
+      "loss": 0.8923,
+      "mean_token_accuracy": 0.7972199320793152,
+      "step": 216
+    },
+    {
+      "epoch": 3.390625,
+      "grad_norm": 6.1875,
+      "learning_rate": 1e-06,
+      "loss": 0.8828,
+      "mean_token_accuracy": 0.8011194467544556,
+      "step": 217
+    },
+    {
+      "epoch": 3.40625,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.903846153846153e-07,
+      "loss": 0.8411,
+      "mean_token_accuracy": 0.8033494353294373,
+      "step": 218
+    },
+    {
+      "epoch": 3.421875,
+      "grad_norm": 33.75,
+      "learning_rate": 9.807692307692308e-07,
+      "loss": 0.916,
+      "mean_token_accuracy": 0.7819077372550964,
+      "step": 219
+    },
+    {
+      "epoch": 3.4375,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.711538461538462e-07,
+      "loss": 0.9401,
+      "mean_token_accuracy": 0.7851645946502686,
+      "step": 220
+    },
+    {
+      "epoch": 3.453125,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.615384615384617e-07,
+      "loss": 0.8603,
+      "mean_token_accuracy": 0.8017836213111877,
+      "step": 221
+    },
+    {
+      "epoch": 3.46875,
+      "grad_norm": 7.5,
+      "learning_rate": 9.519230769230769e-07,
+      "loss": 0.9541,
+      "mean_token_accuracy": 0.7865185141563416,
+      "step": 222
+    },
+    {
+      "epoch": 3.484375,
+      "grad_norm": 8.625,
+      "learning_rate": 9.423076923076924e-07,
+      "loss": 0.9576,
+      "mean_token_accuracy": 0.774846613407135,
+      "step": 223
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 15.25,
+      "learning_rate": 9.326923076923077e-07,
+      "loss": 0.9012,
+      "mean_token_accuracy": 0.7876802086830139,
+      "step": 224
+    },
+    {
+      "epoch": 3.515625,
+      "grad_norm": 25.5,
+      "learning_rate": 9.230769230769231e-07,
+      "loss": 0.9489,
+      "mean_token_accuracy": 0.7805652618408203,
+      "step": 225
+    },
+    {
+      "epoch": 3.53125,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.134615384615385e-07,
+      "loss": 0.874,
+      "mean_token_accuracy": 0.7986671328544617,
+      "step": 226
+    },
+    {
+      "epoch": 3.546875,
+      "grad_norm": 23.5,
+      "learning_rate": 9.038461538461538e-07,
+      "loss": 0.966,
+      "mean_token_accuracy": 0.7745603322982788,
+      "step": 227
+    },
+    {
+      "epoch": 3.5625,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.942307692307692e-07,
+      "loss": 0.8936,
+      "mean_token_accuracy": 0.7917812466621399,
+      "step": 228
+    },
+    {
+      "epoch": 3.578125,
+      "grad_norm": 10.875,
+      "learning_rate": 8.846153846153847e-07,
+      "loss": 0.9755,
+      "mean_token_accuracy": 0.7724282145500183,
+      "step": 229
+    },
+    {
+      "epoch": 3.59375,
+      "grad_norm": 21.875,
+      "learning_rate": 8.750000000000001e-07,
+      "loss": 0.9574,
+      "mean_token_accuracy": 0.7761261463165283,
+      "step": 230
+    },
+    {
+      "epoch": 3.609375,
+      "grad_norm": 20.625,
+      "learning_rate": 8.653846153846153e-07,
+      "loss": 0.9784,
+      "mean_token_accuracy": 0.7752029299736023,
+      "step": 231
+    },
+    {
+      "epoch": 3.625,
+      "grad_norm": 6.25,
+      "learning_rate": 8.557692307692308e-07,
+      "loss": 0.8936,
+      "mean_token_accuracy": 0.796856701374054,
+      "step": 232
+    },
+    {
+      "epoch": 3.640625,
+      "grad_norm": 6.21875,
+      "learning_rate": 8.461538461538462e-07,
+      "loss": 0.9131,
+      "mean_token_accuracy": 0.7863614559173584,
+      "step": 233
+    },
+    {
+      "epoch": 3.65625,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.365384615384616e-07,
+      "loss": 0.8746,
+      "mean_token_accuracy": 0.7959774732589722,
+      "step": 234
+    },
+    {
+      "epoch": 3.671875,
+      "grad_norm": 24.625,
+      "learning_rate": 8.26923076923077e-07,
+      "loss": 0.9224,
+      "mean_token_accuracy": 0.7824280858039856,
+      "step": 235
+    },
+    {
+      "epoch": 3.6875,
+      "grad_norm": 27.125,
+      "learning_rate": 8.173076923076923e-07,
+      "loss": 0.9327,
+      "mean_token_accuracy": 0.7815178632736206,
+      "step": 236
+    },
+    {
+      "epoch": 3.703125,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.076923076923077e-07,
+      "loss": 0.9501,
+      "mean_token_accuracy": 0.7856559157371521,
+      "step": 237
+    },
+    {
+      "epoch": 3.71875,
+      "grad_norm": 20.25,
+      "learning_rate": 7.98076923076923e-07,
+      "loss": 0.8748,
+      "mean_token_accuracy": 0.7932746410369873,
+      "step": 238
+    },
+    {
+      "epoch": 3.734375,
+      "grad_norm": 6.625,
+      "learning_rate": 7.884615384615385e-07,
+      "loss": 0.9192,
+      "mean_token_accuracy": 0.7865205407142639,
+      "step": 239
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.788461538461539e-07,
+      "loss": 0.9443,
+      "mean_token_accuracy": 0.7778134346008301,
+      "step": 240
+    },
+    {
+      "epoch": 3.765625,
+      "grad_norm": 6.0,
+      "learning_rate": 7.692307692307691e-07,
+      "loss": 0.9398,
+      "mean_token_accuracy": 0.7858214974403381,
+      "step": 241
+    },
+    {
+      "epoch": 3.78125,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.596153846153846e-07,
+      "loss": 0.873,
+      "mean_token_accuracy": 0.7989254593849182,
+      "step": 242
+    },
+    {
+      "epoch": 3.796875,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.5e-07,
+      "loss": 0.9991,
+      "mean_token_accuracy": 0.7662928104400635,
+      "step": 243
+    },
+    {
+      "epoch": 3.8125,
+      "grad_norm": 11.75,
+      "learning_rate": 7.403846153846155e-07,
+      "loss": 0.8945,
+      "mean_token_accuracy": 0.7896128296852112,
+      "step": 244
+    },
+    {
+      "epoch": 3.828125,
+      "grad_norm": 6.375,
+      "learning_rate": 7.307692307692308e-07,
+      "loss": 0.917,
+      "mean_token_accuracy": 0.7882217764854431,
+      "step": 245
+    },
+    {
+      "epoch": 3.84375,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.211538461538462e-07,
+      "loss": 0.9661,
+      "mean_token_accuracy": 0.7709052562713623,
+      "step": 246
+    },
+    {
+      "epoch": 3.859375,
+      "grad_norm": 6.125,
+      "learning_rate": 7.115384615384616e-07,
+      "loss": 0.9326,
+      "mean_token_accuracy": 0.7830464243888855,
+      "step": 247
+    },
+    {
+      "epoch": 3.875,
+      "grad_norm": 8.5,
+      "learning_rate": 7.01923076923077e-07,
+      "loss": 0.9376,
+      "mean_token_accuracy": 0.7810230255126953,
+      "step": 248
+    },
+    {
+      "epoch": 3.890625,
+      "grad_norm": 14.0,
+      "learning_rate": 6.923076923076923e-07,
+      "loss": 0.9734,
+      "mean_token_accuracy": 0.7753646373748779,
+      "step": 249
+    },
+    {
+      "epoch": 3.90625,
+      "grad_norm": 12.8125,
+      "learning_rate": 6.826923076923076e-07,
+      "loss": 0.8922,
+      "mean_token_accuracy": 0.7958292961120605,
+      "step": 250
+    },
+    {
+      "epoch": 3.921875,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.730769230769231e-07,
+      "loss": 0.9053,
+      "mean_token_accuracy": 0.7927485704421997,
+      "step": 251
+    },
+    {
+      "epoch": 3.9375,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.634615384615384e-07,
+      "loss": 0.8707,
+      "mean_token_accuracy": 0.8024818897247314,
+      "step": 252
+    },
+    {
+      "epoch": 3.953125,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.538461538461538e-07,
+      "loss": 0.8756,
+      "mean_token_accuracy": 0.7953294515609741,
+      "step": 253
+    },
+    {
+      "epoch": 3.96875,
+      "grad_norm": 16.75,
+      "learning_rate": 6.442307692307692e-07,
+      "loss": 0.9806,
+      "mean_token_accuracy": 0.7700640559196472,
+      "step": 254
+    },
+    {
+      "epoch": 3.984375,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.346153846153846e-07,
+      "loss": 0.9052,
+      "mean_token_accuracy": 0.7910767197608948,
+      "step": 255
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.25e-07,
+      "loss": 0.8756,
+      "mean_token_accuracy": 0.7918968796730042,
+      "step": 256
+    },
+    {
+      "epoch": 4.015625,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.153846153846154e-07,
+      "loss": 0.8858,
+      "mean_token_accuracy": 0.7959042191505432,
+      "step": 257
+    },
+    {
+      "epoch": 4.03125,
+      "grad_norm": 6.8125,
+      "learning_rate": 6.057692307692308e-07,
+      "loss": 0.9302,
+      "mean_token_accuracy": 0.7876441478729248,
+      "step": 258
+    },
+    {
+      "epoch": 4.046875,
+      "grad_norm": 7.96875,
+      "learning_rate": 5.961538461538461e-07,
+      "loss": 0.9649,
+      "mean_token_accuracy": 0.7740775346755981,
+      "step": 259
+    },
+    {
+      "epoch": 4.0625,
+      "grad_norm": 19.125,
+      "learning_rate": 5.865384615384616e-07,
+      "loss": 0.9184,
+      "mean_token_accuracy": 0.7818529605865479,
+      "step": 260
+    },
+    {
+      "epoch": 4.078125,
+      "grad_norm": 11.375,
+      "learning_rate": 5.76923076923077e-07,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.7843265533447266,
+      "step": 261
+    },
+    {
+      "epoch": 4.09375,
+      "grad_norm": 6.84375,
+      "learning_rate": 5.673076923076923e-07,
+      "loss": 0.9025,
+      "mean_token_accuracy": 0.7933535575866699,
+      "step": 262
+    },
+    {
+      "epoch": 4.109375,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.576923076923077e-07,
+      "loss": 0.9127,
+      "mean_token_accuracy": 0.7852448225021362,
+      "step": 263
+    },
+    {
+      "epoch": 4.125,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.48076923076923e-07,
+      "loss": 0.9111,
+      "mean_token_accuracy": 0.7866109013557434,
+      "step": 264
+    },
+    {
+      "epoch": 4.140625,
+      "grad_norm": 6.21875,
+      "learning_rate": 5.384615384615384e-07,
+      "loss": 0.892,
+      "mean_token_accuracy": 0.7890470027923584,
+      "step": 265
+    },
+    {
+      "epoch": 4.15625,
+      "grad_norm": 12.0625,
+      "learning_rate": 5.288461538461539e-07,
+      "loss": 0.8986,
+      "mean_token_accuracy": 0.7962346076965332,
+      "step": 266
+    },
+    {
+      "epoch": 4.171875,
+      "grad_norm": 29.0,
+      "learning_rate": 5.192307692307692e-07,
+      "loss": 0.9209,
+      "mean_token_accuracy": 0.786607563495636,
+      "step": 267
+    },
+    {
+      "epoch": 4.1875,
+      "grad_norm": 6.25,
+      "learning_rate": 5.096153846153846e-07,
+      "loss": 0.904,
+      "mean_token_accuracy": 0.7876223921775818,
+      "step": 268
+    },
+    {
+      "epoch": 4.203125,
+      "grad_norm": 7.96875,
+      "learning_rate": 5e-07,
+      "loss": 0.9383,
+      "mean_token_accuracy": 0.7814289927482605,
+      "step": 269
+    },
+    {
+      "epoch": 4.21875,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.903846153846154e-07,
+      "loss": 0.9128,
+      "mean_token_accuracy": 0.7915287613868713,
+      "step": 270
+    },
+    {
+      "epoch": 4.234375,
+      "grad_norm": 6.78125,
+      "learning_rate": 4.807692307692308e-07,
+      "loss": 0.9481,
+      "mean_token_accuracy": 0.7819157242774963,
+      "step": 271
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 6.25,
+      "learning_rate": 4.711538461538462e-07,
+      "loss": 0.8902,
+      "mean_token_accuracy": 0.7958080768585205,
+      "step": 272
+    },
+    {
+      "epoch": 4.265625,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.6153846153846156e-07,
+      "loss": 0.977,
+      "mean_token_accuracy": 0.7705891132354736,
+      "step": 273
+    },
+    {
+      "epoch": 4.28125,
+      "grad_norm": 18.125,
+      "learning_rate": 4.519230769230769e-07,
+      "loss": 0.9237,
+      "mean_token_accuracy": 0.7899967432022095,
+      "step": 274
+    },
+    {
+      "epoch": 4.296875,
+      "grad_norm": 8.0,
+      "learning_rate": 4.4230769230769233e-07,
+      "loss": 0.8679,
+      "mean_token_accuracy": 0.7969164252281189,
+      "step": 275
+    },
+    {
+      "epoch": 4.3125,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.3269230769230766e-07,
+      "loss": 0.8823,
+      "mean_token_accuracy": 0.7964279651641846,
+      "step": 276
+    },
+    {
+      "epoch": 4.328125,
+      "grad_norm": 9.6875,
+      "learning_rate": 4.230769230769231e-07,
+      "loss": 0.8829,
+      "mean_token_accuracy": 0.7917771935462952,
+      "step": 277
+    },
+    {
+      "epoch": 4.34375,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.134615384615385e-07,
+      "loss": 0.8448,
+      "mean_token_accuracy": 0.80218505859375,
+      "step": 278
+    },
+    {
+      "epoch": 4.359375,
+      "grad_norm": 23.875,
+      "learning_rate": 4.0384615384615386e-07,
+      "loss": 0.9189,
+      "mean_token_accuracy": 0.7808871865272522,
+      "step": 279
+    },
+    {
+      "epoch": 4.375,
+      "grad_norm": 11.9375,
+      "learning_rate": 3.9423076923076924e-07,
+      "loss": 0.9288,
+      "mean_token_accuracy": 0.7887097001075745,
+      "step": 280
+    },
+    {
+      "epoch": 4.390625,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.846153846153846e-07,
+      "loss": 0.9306,
+      "mean_token_accuracy": 0.7884582877159119,
+      "step": 281
+    },
+    {
+      "epoch": 4.40625,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.75e-07,
+      "loss": 0.9234,
+      "mean_token_accuracy": 0.7834262847900391,
+      "step": 282
+    },
+    {
+      "epoch": 4.421875,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.653846153846154e-07,
+      "loss": 0.8417,
+      "mean_token_accuracy": 0.8057113885879517,
+      "step": 283
+    },
+    {
+      "epoch": 4.4375,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.557692307692308e-07,
+      "loss": 0.9138,
+      "mean_token_accuracy": 0.7837575078010559,
+      "step": 284
+    },
+    {
+      "epoch": 4.453125,
+      "grad_norm": 33.25,
+      "learning_rate": 3.4615384615384616e-07,
+      "loss": 0.8612,
+      "mean_token_accuracy": 0.7957943081855774,
+      "step": 285
+    },
+    {
+      "epoch": 4.46875,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.3653846153846154e-07,
+      "loss": 0.8749,
+      "mean_token_accuracy": 0.8011859059333801,
+      "step": 286
+    },
+    {
+      "epoch": 4.484375,
+      "grad_norm": 6.5,
+      "learning_rate": 3.269230769230769e-07,
+      "loss": 0.8933,
+      "mean_token_accuracy": 0.7931327819824219,
+      "step": 287
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.173076923076923e-07,
+      "loss": 0.873,
+      "mean_token_accuracy": 0.799176812171936,
+      "step": 288
+    },
+    {
+      "epoch": 4.515625,
+      "grad_norm": 29.25,
+      "learning_rate": 3.076923076923077e-07,
+      "loss": 0.9831,
+      "mean_token_accuracy": 0.7707536816596985,
+      "step": 289
+    },
+    {
+      "epoch": 4.53125,
+      "grad_norm": 13.0,
+      "learning_rate": 2.980769230769231e-07,
+      "loss": 0.9484,
+      "mean_token_accuracy": 0.7785703539848328,
+      "step": 290
+    },
+    {
+      "epoch": 4.546875,
+      "grad_norm": 6.875,
+      "learning_rate": 2.884615384615385e-07,
+      "loss": 0.9039,
+      "mean_token_accuracy": 0.7895255088806152,
+      "step": 291
+    },
+    {
+      "epoch": 4.5625,
+      "grad_norm": 6.625,
+      "learning_rate": 2.7884615384615384e-07,
+      "loss": 0.9063,
+      "mean_token_accuracy": 0.7905294299125671,
+      "step": 292
+    },
+    {
+      "epoch": 4.578125,
+      "grad_norm": 7.5,
+      "learning_rate": 2.692307692307692e-07,
+      "loss": 0.8963,
+      "mean_token_accuracy": 0.7899447083473206,
+      "step": 293
+    },
+    {
+      "epoch": 4.59375,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.596153846153846e-07,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.7839446663856506,
+      "step": 294
+    },
+    {
+      "epoch": 4.609375,
+      "grad_norm": 5.875,
+      "learning_rate": 2.5e-07,
+      "loss": 0.8796,
+      "mean_token_accuracy": 0.7935015559196472,
+      "step": 295
+    },
+    {
+      "epoch": 4.625,
+      "grad_norm": 10.125,
+      "learning_rate": 2.403846153846154e-07,
+      "loss": 0.8859,
+      "mean_token_accuracy": 0.789797842502594,
+      "step": 296
+    },
+    {
+      "epoch": 4.640625,
+      "grad_norm": 6.5,
+      "learning_rate": 2.3076923076923078e-07,
+      "loss": 0.9302,
+      "mean_token_accuracy": 0.7839468121528625,
+      "step": 297
+    },
+    {
+      "epoch": 4.65625,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.2115384615384616e-07,
+      "loss": 0.9524,
+      "mean_token_accuracy": 0.7737887501716614,
+      "step": 298
+    },
+    {
+      "epoch": 4.671875,
+      "grad_norm": 8.125,
+      "learning_rate": 2.1153846153846155e-07,
+      "loss": 0.9181,
+      "mean_token_accuracy": 0.7865311503410339,
+      "step": 299
+    },
+    {
+      "epoch": 4.6875,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.0192307692307693e-07,
+      "loss": 0.8934,
+      "mean_token_accuracy": 0.789657473564148,
+      "step": 300
+    },
+    {
+      "epoch": 4.703125,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.923076923076923e-07,
+      "loss": 0.9065,
+      "mean_token_accuracy": 0.789890468120575,
+      "step": 301
+    },
+    {
+      "epoch": 4.71875,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.826923076923077e-07,
+      "loss": 0.8889,
+      "mean_token_accuracy": 0.7914140820503235,
+      "step": 302
+    },
+    {
+      "epoch": 4.734375,
+      "grad_norm": 14.0,
+      "learning_rate": 1.7307692307692308e-07,
+      "loss": 0.9113,
+      "mean_token_accuracy": 0.7846829891204834,
+      "step": 303
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.6346153846153846e-07,
+      "loss": 0.9374,
+      "mean_token_accuracy": 0.7835116386413574,
+      "step": 304
+    },
+    {
+      "epoch": 4.765625,
+      "grad_norm": 11.375,
+      "learning_rate": 1.5384615384615385e-07,
+      "loss": 0.8824,
+      "mean_token_accuracy": 0.7850437760353088,
+      "step": 305
+    },
+    {
+      "epoch": 4.78125,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.4423076923076925e-07,
+      "loss": 0.9408,
+      "mean_token_accuracy": 0.7855393886566162,
+      "step": 306
+    },
+    {
+      "epoch": 4.796875,
+      "grad_norm": 8.3125,
+      "learning_rate": 1.346153846153846e-07,
+      "loss": 0.9047,
+      "mean_token_accuracy": 0.7834271788597107,
+      "step": 307
+    },
+    {
+      "epoch": 4.8125,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.25e-07,
+      "loss": 0.9188,
+      "mean_token_accuracy": 0.7803459167480469,
+      "step": 308
+    },
+    {
+      "epoch": 4.828125,
+      "grad_norm": 20.25,
+      "learning_rate": 1.1538461538461539e-07,
+      "loss": 0.9627,
+      "mean_token_accuracy": 0.7762289047241211,
+      "step": 309
+    },
+    {
+      "epoch": 4.84375,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.0576923076923077e-07,
+      "loss": 0.884,
+      "mean_token_accuracy": 0.7895846962928772,
+      "step": 310
+    },
+    {
+      "epoch": 4.859375,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.615384615384614e-08,
+      "loss": 0.894,
+      "mean_token_accuracy": 0.792397677898407,
+      "step": 311
+    },
+    {
+      "epoch": 4.875,
+      "grad_norm": 10.6875,
+      "learning_rate": 8.653846153846154e-08,
+      "loss": 0.9112,
+      "mean_token_accuracy": 0.786827564239502,
+      "step": 312
+    },
+    {
+      "epoch": 4.890625,
+      "grad_norm": 6.6875,
+      "learning_rate": 7.692307692307692e-08,
+      "loss": 0.9368,
+      "mean_token_accuracy": 0.7861944437026978,
+      "step": 313
+    },
+    {
+      "epoch": 4.90625,
+      "grad_norm": 10.625,
+      "learning_rate": 6.73076923076923e-08,
+      "loss": 0.9033,
+      "mean_token_accuracy": 0.7840073704719543,
+      "step": 314
+    },
+    {
+      "epoch": 4.921875,
+      "grad_norm": 10.25,
+      "learning_rate": 5.7692307692307695e-08,
+      "loss": 0.8777,
+      "mean_token_accuracy": 0.7938881516456604,
+      "step": 315
+    },
+    {
+      "epoch": 4.9375,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.807692307692307e-08,
+      "loss": 0.9133,
+      "mean_token_accuracy": 0.7796001434326172,
+      "step": 316
+    },
+    {
+      "epoch": 4.953125,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.846153846153846e-08,
+      "loss": 0.8674,
+      "mean_token_accuracy": 0.7963815927505493,
+      "step": 317
+    },
+    {
+      "epoch": 4.96875,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.8846153846153848e-08,
+      "loss": 0.8872,
+      "mean_token_accuracy": 0.7956120371818542,
+      "step": 318
+    },
+    {
+      "epoch": 4.984375,
+      "grad_norm": 35.0,
+      "learning_rate": 1.923076923076923e-08,
+      "loss": 0.9419,
+      "mean_token_accuracy": 0.7827126979827881,
+      "step": 319
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 6.625,
+      "learning_rate": 9.615384615384615e-09,
+      "loss": 0.8891,
+      "mean_token_accuracy": 0.7931276559829712,
+      "step": 320
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 320,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 25,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.299754052563763e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c98bd385032fabae84af47b70399a2a4db5904a252258915189882343cc98234
+size 6033