nkkbr commited on Apr 20, 2025

Commit

81d5c87

1 Parent(s): 5186a7c

Initial commit

Browse files

Files changed (25) hide show

added_tokens.json +6 -0
config.json +222 -0
generation_config.json +14 -0
latest +1 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +772 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
special_tokens_map.json +20 -0
tokenizer.json +0 -0
tokenizer_config.json +53 -0
trainer_state.json +2317 -0
training_args.bin +3 -0
vocab.json +0 -0
zero_to_fp32.py +587 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<image>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

config.json ADDED Viewed

	@@ -0,0 +1,222 @@

+{
+  "_name_or_path": "lmms-lab/LLaVA-Video-7B-Qwen2",
+  "add_faster_video": false,
+  "add_time_instruction": true,
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "faster_token_stride": 10,
+  "force_sample": true,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "ignore_index": -100,
+  "image_aspect_ratio": "anyres_max_9",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": null,
+  "image_token_index": 151646,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "mm_hidden_size": 1152,
+  "mm_newline_position": "grid",
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_spatial_pool_stride": 2,
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": 2e-06,
+  "model_type": "llava",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pos_skipping_range": 4096,
+  "projector_hidden_act": "gelu",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "text_config": {
+    "model_type": "llama"
+  },
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0",
+  "use_cache": false,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vision_tower_pretrained": null,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.40.0"
+}

latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step328

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2c08c0763702e21e64ade4a7bbfb2e25887cf6c22c7b70114c062fa6230c0eb
+size 4877668032

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfb52ac0a41339976302945e460b6096cba87465c37e08967e94ec40a1277473
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b42b5342ab42f14941bb8af36a8cbaea404984e05e3b05654e781da8d6df21f
+size 4994571904

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cc697ccc75665d028b7564dcba4ce60e679e943fd1df28402788abdc23f2c40
+size 1255812224

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,772 @@

+{
+  "metadata": {
+    "total_size": 16060697664
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.image_newline": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.mm_projector.0.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.0.weight": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.weight": "model-00004-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "model-00004-of-00004.safetensors"
+  }
+}

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e0823dd1c0413af90c70259767fa2cab059108a440e087d76b52e2af33925a3
+size 15984

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26aca316ba0d4c6677045ada1185d5ae3f6ff3cffcfbe8021dc1202c6d957afc
+size 15984

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d69eba4b2736f93de5b20bd52a33c4d116c5dc2f1034dd2edb256564eb67fe0
+size 15984

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e56680f0cb6addb8cf21ab04b1368ad78f4dce9c648cb2a7aeaa9f64f1bdb12
+size 15984

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16bc6652251b62d799cafe0fce8e8b58966540e9fcf10950a97b0e6b4fbc5fda
+size 15984

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6b5edd0e0a703b7f24fac8ab6a683cafad7c860902c42e6e53b13aef9221517
+size 15984

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c01580883e3cf0653dcbaa98ad58548951dfab3ef7e44089358a8d6b3681b0e0
+size 15984

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e1d7daa1e65ad38baa3cb67833adeb99266471f40b6ac4a6540fca209a7b86
+size 15984

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "LlavaProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2317 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.1001068213032199,
+  "eval_steps": 500,
+  "global_step": 328,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0003052037234854265,
+      "grad_norm": 19.476922880741295,
+      "learning_rate": 1.0101010101010103e-07,
+      "loss": 1.1728,
+      "step": 1
+    },
+    {
+      "epoch": 0.000610407446970853,
+      "grad_norm": 29.879020388476594,
+      "learning_rate": 2.0202020202020205e-07,
+      "loss": 1.0955,
+      "step": 2
+    },
+    {
+      "epoch": 0.0009156111704562796,
+      "grad_norm": 24.931945947136526,
+      "learning_rate": 3.0303030303030305e-07,
+      "loss": 0.9541,
+      "step": 3
+    },
+    {
+      "epoch": 0.001220814893941706,
+      "grad_norm": 27.83214939667906,
+      "learning_rate": 4.040404040404041e-07,
+      "loss": 1.0735,
+      "step": 4
+    },
+    {
+      "epoch": 0.0015260186174271325,
+      "grad_norm": 21.219233961021736,
+      "learning_rate": 5.05050505050505e-07,
+      "loss": 1.0455,
+      "step": 5
+    },
+    {
+      "epoch": 0.0018312223409125592,
+      "grad_norm": 20.022707446211225,
+      "learning_rate": 6.060606060606061e-07,
+      "loss": 0.9675,
+      "step": 6
+    },
+    {
+      "epoch": 0.0021364260643979855,
+      "grad_norm": 26.532427830157193,
+      "learning_rate": 7.070707070707071e-07,
+      "loss": 1.1393,
+      "step": 7
+    },
+    {
+      "epoch": 0.002441629787883412,
+      "grad_norm": 27.89728780710031,
+      "learning_rate": 8.080808080808082e-07,
+      "loss": 1.0952,
+      "step": 8
+    },
+    {
+      "epoch": 0.0027468335113688385,
+      "grad_norm": 20.346264005570532,
+      "learning_rate": 9.090909090909091e-07,
+      "loss": 0.9626,
+      "step": 9
+    },
+    {
+      "epoch": 0.003052037234854265,
+      "grad_norm": 18.804489508720884,
+      "learning_rate": 1.01010101010101e-06,
+      "loss": 1.0255,
+      "step": 10
+    },
+    {
+      "epoch": 0.003357240958339692,
+      "grad_norm": 19.776534785573535,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.7399,
+      "step": 11
+    },
+    {
+      "epoch": 0.0036624446818251184,
+      "grad_norm": 21.16130386460154,
+      "learning_rate": 1.2121212121212122e-06,
+      "loss": 0.5413,
+      "step": 12
+    },
+    {
+      "epoch": 0.0039676484053105445,
+      "grad_norm": 16.482713371526263,
+      "learning_rate": 1.3131313131313134e-06,
+      "loss": 0.5773,
+      "step": 13
+    },
+    {
+      "epoch": 0.004272852128795971,
+      "grad_norm": 10.780528168770594,
+      "learning_rate": 1.4141414141414143e-06,
+      "loss": 0.6782,
+      "step": 14
+    },
+    {
+      "epoch": 0.0045780558522813975,
+      "grad_norm": 7.0900135030469915,
+      "learning_rate": 1.5151515151515152e-06,
+      "loss": 0.9153,
+      "step": 15
+    },
+    {
+      "epoch": 0.004883259575766824,
+      "grad_norm": 8.490445320662754,
+      "learning_rate": 1.6161616161616164e-06,
+      "loss": 0.4798,
+      "step": 16
+    },
+    {
+      "epoch": 0.0051884632992522505,
+      "grad_norm": 6.677142812986669,
+      "learning_rate": 1.7171717171717173e-06,
+      "loss": 0.4782,
+      "step": 17
+    },
+    {
+      "epoch": 0.005493667022737677,
+      "grad_norm": 5.9204247946017485,
+      "learning_rate": 1.8181818181818183e-06,
+      "loss": 0.3191,
+      "step": 18
+    },
+    {
+      "epoch": 0.0057988707462231035,
+      "grad_norm": 5.012462343754674,
+      "learning_rate": 1.9191919191919192e-06,
+      "loss": 0.4115,
+      "step": 19
+    },
+    {
+      "epoch": 0.00610407446970853,
+      "grad_norm": 3.9095937836899113,
+      "learning_rate": 2.02020202020202e-06,
+      "loss": 0.6158,
+      "step": 20
+    },
+    {
+      "epoch": 0.006409278193193957,
+      "grad_norm": 4.438163815129716,
+      "learning_rate": 2.1212121212121216e-06,
+      "loss": 0.7388,
+      "step": 21
+    },
+    {
+      "epoch": 0.006714481916679384,
+      "grad_norm": 3.62875198348435,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.2875,
+      "step": 22
+    },
+    {
+      "epoch": 0.00701968564016481,
+      "grad_norm": 4.963543929599541,
+      "learning_rate": 2.3232323232323234e-06,
+      "loss": 0.4662,
+      "step": 23
+    },
+    {
+      "epoch": 0.007324889363650237,
+      "grad_norm": 4.274904100558248,
+      "learning_rate": 2.4242424242424244e-06,
+      "loss": 0.5171,
+      "step": 24
+    },
+    {
+      "epoch": 0.007630093087135663,
+      "grad_norm": 2.670885047669819,
+      "learning_rate": 2.5252525252525258e-06,
+      "loss": 0.4488,
+      "step": 25
+    },
+    {
+      "epoch": 0.007935296810621089,
+      "grad_norm": 2.6864388610994014,
+      "learning_rate": 2.6262626262626267e-06,
+      "loss": 0.372,
+      "step": 26
+    },
+    {
+      "epoch": 0.008240500534106516,
+      "grad_norm": 3.804357369452407,
+      "learning_rate": 2.7272727272727272e-06,
+      "loss": 0.2646,
+      "step": 27
+    },
+    {
+      "epoch": 0.008545704257591942,
+      "grad_norm": 4.059008227452532,
+      "learning_rate": 2.8282828282828286e-06,
+      "loss": 0.5907,
+      "step": 28
+    },
+    {
+      "epoch": 0.008850907981077369,
+      "grad_norm": 4.9062443629918855,
+      "learning_rate": 2.9292929292929295e-06,
+      "loss": 0.2972,
+      "step": 29
+    },
+    {
+      "epoch": 0.009156111704562795,
+      "grad_norm": 3.5391495380267064,
+      "learning_rate": 3.0303030303030305e-06,
+      "loss": 0.3821,
+      "step": 30
+    },
+    {
+      "epoch": 0.009461315428048222,
+      "grad_norm": 2.5896920322264854,
+      "learning_rate": 3.131313131313132e-06,
+      "loss": 0.4164,
+      "step": 31
+    },
+    {
+      "epoch": 0.009766519151533648,
+      "grad_norm": 3.0230775761822937,
+      "learning_rate": 3.232323232323233e-06,
+      "loss": 0.4237,
+      "step": 32
+    },
+    {
+      "epoch": 0.010071722875019075,
+      "grad_norm": 2.8417717057519423,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.3353,
+      "step": 33
+    },
+    {
+      "epoch": 0.010376926598504501,
+      "grad_norm": 2.5789157463945878,
+      "learning_rate": 3.4343434343434347e-06,
+      "loss": 0.3769,
+      "step": 34
+    },
+    {
+      "epoch": 0.010682130321989928,
+      "grad_norm": 2.5222241581850096,
+      "learning_rate": 3.5353535353535356e-06,
+      "loss": 0.519,
+      "step": 35
+    },
+    {
+      "epoch": 0.010987334045475354,
+      "grad_norm": 2.8704682168269127,
+      "learning_rate": 3.6363636363636366e-06,
+      "loss": 0.2829,
+      "step": 36
+    },
+    {
+      "epoch": 0.01129253776896078,
+      "grad_norm": 3.24684532820184,
+      "learning_rate": 3.737373737373738e-06,
+      "loss": 0.3586,
+      "step": 37
+    },
+    {
+      "epoch": 0.011597741492446207,
+      "grad_norm": 5.24792475783676,
+      "learning_rate": 3.8383838383838385e-06,
+      "loss": 0.402,
+      "step": 38
+    },
+    {
+      "epoch": 0.011902945215931634,
+      "grad_norm": 3.111184671834165,
+      "learning_rate": 3.93939393939394e-06,
+      "loss": 0.466,
+      "step": 39
+    },
+    {
+      "epoch": 0.01220814893941706,
+      "grad_norm": 3.165565566985893,
+      "learning_rate": 4.04040404040404e-06,
+      "loss": 0.2678,
+      "step": 40
+    },
+    {
+      "epoch": 0.012513352662902488,
+      "grad_norm": 2.5486933296193257,
+      "learning_rate": 4.141414141414142e-06,
+      "loss": 0.5457,
+      "step": 41
+    },
+    {
+      "epoch": 0.012818556386387915,
+      "grad_norm": 3.4373721012250438,
+      "learning_rate": 4.242424242424243e-06,
+      "loss": 0.3862,
+      "step": 42
+    },
+    {
+      "epoch": 0.013123760109873341,
+      "grad_norm": 2.863317221380458,
+      "learning_rate": 4.343434343434344e-06,
+      "loss": 0.3601,
+      "step": 43
+    },
+    {
+      "epoch": 0.013428963833358768,
+      "grad_norm": 2.1041128573446035,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.3693,
+      "step": 44
+    },
+    {
+      "epoch": 0.013734167556844194,
+      "grad_norm": 2.286990324679626,
+      "learning_rate": 4.5454545454545455e-06,
+      "loss": 0.2513,
+      "step": 45
+    },
+    {
+      "epoch": 0.01403937128032962,
+      "grad_norm": 8.793466778432636,
+      "learning_rate": 4.646464646464647e-06,
+      "loss": 0.4343,
+      "step": 46
+    },
+    {
+      "epoch": 0.014344575003815047,
+      "grad_norm": 1.8648737533834159,
+      "learning_rate": 4.747474747474748e-06,
+      "loss": 0.2631,
+      "step": 47
+    },
+    {
+      "epoch": 0.014649778727300474,
+      "grad_norm": 2.3081781364995324,
+      "learning_rate": 4.848484848484849e-06,
+      "loss": 0.2755,
+      "step": 48
+    },
+    {
+      "epoch": 0.0149549824507859,
+      "grad_norm": 2.284005369243557,
+      "learning_rate": 4.94949494949495e-06,
+      "loss": 0.4186,
+      "step": 49
+    },
+    {
+      "epoch": 0.015260186174271327,
+      "grad_norm": 2.6759709423238096,
+      "learning_rate": 5.0505050505050515e-06,
+      "loss": 0.6459,
+      "step": 50
+    },
+    {
+      "epoch": 0.015565389897756753,
+      "grad_norm": 2.8773749120652523,
+      "learning_rate": 5.151515151515152e-06,
+      "loss": 0.3324,
+      "step": 51
+    },
+    {
+      "epoch": 0.015870593621242178,
+      "grad_norm": 2.8060164424498786,
+      "learning_rate": 5.252525252525253e-06,
+      "loss": 0.3608,
+      "step": 52
+    },
+    {
+      "epoch": 0.016175797344727606,
+      "grad_norm": 2.3060494229726793,
+      "learning_rate": 5.353535353535354e-06,
+      "loss": 0.3818,
+      "step": 53
+    },
+    {
+      "epoch": 0.01648100106821303,
+      "grad_norm": 2.073464811557714,
+      "learning_rate": 5.4545454545454545e-06,
+      "loss": 0.2667,
+      "step": 54
+    },
+    {
+      "epoch": 0.01678620479169846,
+      "grad_norm": 2.3474749655399245,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.35,
+      "step": 55
+    },
+    {
+      "epoch": 0.017091408515183884,
+      "grad_norm": 3.6988890036672086,
+      "learning_rate": 5.656565656565657e-06,
+      "loss": 0.284,
+      "step": 56
+    },
+    {
+      "epoch": 0.017396612238669312,
+      "grad_norm": 2.313501192849839,
+      "learning_rate": 5.7575757575757586e-06,
+      "loss": 0.3308,
+      "step": 57
+    },
+    {
+      "epoch": 0.017701815962154737,
+      "grad_norm": 2.411936098122121,
+      "learning_rate": 5.858585858585859e-06,
+      "loss": 0.3982,
+      "step": 58
+    },
+    {
+      "epoch": 0.018007019685640165,
+      "grad_norm": 2.724660127775508,
+      "learning_rate": 5.95959595959596e-06,
+      "loss": 0.3587,
+      "step": 59
+    },
+    {
+      "epoch": 0.01831222340912559,
+      "grad_norm": 3.130895013540925,
+      "learning_rate": 6.060606060606061e-06,
+      "loss": 0.3427,
+      "step": 60
+    },
+    {
+      "epoch": 0.01861742713261102,
+      "grad_norm": 3.4261489723004614,
+      "learning_rate": 6.1616161616161615e-06,
+      "loss": 0.4578,
+      "step": 61
+    },
+    {
+      "epoch": 0.018922630856096443,
+      "grad_norm": 2.413871881063889,
+      "learning_rate": 6.262626262626264e-06,
+      "loss": 0.2067,
+      "step": 62
+    },
+    {
+      "epoch": 0.01922783457958187,
+      "grad_norm": 2.0941348505038366,
+      "learning_rate": 6.363636363636364e-06,
+      "loss": 0.27,
+      "step": 63
+    },
+    {
+      "epoch": 0.019533038303067296,
+      "grad_norm": 2.2153240133926153,
+      "learning_rate": 6.464646464646466e-06,
+      "loss": 0.3298,
+      "step": 64
+    },
+    {
+      "epoch": 0.019838242026552724,
+      "grad_norm": 2.422022070572305,
+      "learning_rate": 6.565656565656566e-06,
+      "loss": 0.4894,
+      "step": 65
+    },
+    {
+      "epoch": 0.02014344575003815,
+      "grad_norm": 2.45442660843552,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3684,
+      "step": 66
+    },
+    {
+      "epoch": 0.020448649473523577,
+      "grad_norm": 3.5398238081108304,
+      "learning_rate": 6.767676767676769e-06,
+      "loss": 0.4233,
+      "step": 67
+    },
+    {
+      "epoch": 0.020753853197009002,
+      "grad_norm": 2.530397719080883,
+      "learning_rate": 6.868686868686869e-06,
+      "loss": 0.2676,
+      "step": 68
+    },
+    {
+      "epoch": 0.02105905692049443,
+      "grad_norm": 2.259346305696615,
+      "learning_rate": 6.969696969696971e-06,
+      "loss": 0.4409,
+      "step": 69
+    },
+    {
+      "epoch": 0.021364260643979855,
+      "grad_norm": 2.3339543424453764,
+      "learning_rate": 7.070707070707071e-06,
+      "loss": 0.3882,
+      "step": 70
+    },
+    {
+      "epoch": 0.021669464367465283,
+      "grad_norm": 2.348843038116063,
+      "learning_rate": 7.171717171717172e-06,
+      "loss": 0.3904,
+      "step": 71
+    },
+    {
+      "epoch": 0.021974668090950708,
+      "grad_norm": 2.7011363922899965,
+      "learning_rate": 7.272727272727273e-06,
+      "loss": 0.3586,
+      "step": 72
+    },
+    {
+      "epoch": 0.022279871814436136,
+      "grad_norm": 2.6923381814173486,
+      "learning_rate": 7.373737373737374e-06,
+      "loss": 0.4331,
+      "step": 73
+    },
+    {
+      "epoch": 0.02258507553792156,
+      "grad_norm": 2.0435337430530924,
+      "learning_rate": 7.474747474747476e-06,
+      "loss": 0.2739,
+      "step": 74
+    },
+    {
+      "epoch": 0.02289027926140699,
+      "grad_norm": 2.257183264462076,
+      "learning_rate": 7.5757575757575764e-06,
+      "loss": 0.4554,
+      "step": 75
+    },
+    {
+      "epoch": 0.023195482984892414,
+      "grad_norm": 2.5384248372961626,
+      "learning_rate": 7.676767676767677e-06,
+      "loss": 0.4934,
+      "step": 76
+    },
+    {
+      "epoch": 0.023500686708377842,
+      "grad_norm": 2.1578730127908488,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.3519,
+      "step": 77
+    },
+    {
+      "epoch": 0.023805890431863267,
+      "grad_norm": 2.1316764516757476,
+      "learning_rate": 7.87878787878788e-06,
+      "loss": 0.3268,
+      "step": 78
+    },
+    {
+      "epoch": 0.024111094155348695,
+      "grad_norm": 2.095996278024237,
+      "learning_rate": 7.97979797979798e-06,
+      "loss": 0.3318,
+      "step": 79
+    },
+    {
+      "epoch": 0.02441629787883412,
+      "grad_norm": 1.9985574049541877,
+      "learning_rate": 8.08080808080808e-06,
+      "loss": 0.1852,
+      "step": 80
+    },
+    {
+      "epoch": 0.02472150160231955,
+      "grad_norm": 1.7092921737326583,
+      "learning_rate": 8.181818181818183e-06,
+      "loss": 0.2412,
+      "step": 81
+    },
+    {
+      "epoch": 0.025026705325804977,
+      "grad_norm": 1.9609482601524066,
+      "learning_rate": 8.282828282828283e-06,
+      "loss": 0.3349,
+      "step": 82
+    },
+    {
+      "epoch": 0.0253319090492904,
+      "grad_norm": 2.5619254980161412,
+      "learning_rate": 8.383838383838384e-06,
+      "loss": 0.3327,
+      "step": 83
+    },
+    {
+      "epoch": 0.02563711277277583,
+      "grad_norm": 2.1734116421771827,
+      "learning_rate": 8.484848484848486e-06,
+      "loss": 0.5005,
+      "step": 84
+    },
+    {
+      "epoch": 0.025942316496261254,
+      "grad_norm": 2.4612836321871785,
+      "learning_rate": 8.585858585858587e-06,
+      "loss": 0.5919,
+      "step": 85
+    },
+    {
+      "epoch": 0.026247520219746683,
+      "grad_norm": 2.050264187978962,
+      "learning_rate": 8.686868686868687e-06,
+      "loss": 0.2654,
+      "step": 86
+    },
+    {
+      "epoch": 0.026552723943232107,
+      "grad_norm": 1.7466792206761999,
+      "learning_rate": 8.787878787878788e-06,
+      "loss": 0.2875,
+      "step": 87
+    },
+    {
+      "epoch": 0.026857927666717536,
+      "grad_norm": 1.9114055019911376,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.3317,
+      "step": 88
+    },
+    {
+      "epoch": 0.02716313139020296,
+      "grad_norm": 2.136028617695754,
+      "learning_rate": 8.98989898989899e-06,
+      "loss": 0.4322,
+      "step": 89
+    },
+    {
+      "epoch": 0.02746833511368839,
+      "grad_norm": 2.0559196693817303,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.3372,
+      "step": 90
+    },
+    {
+      "epoch": 0.027773538837173813,
+      "grad_norm": 1.6053810559753854,
+      "learning_rate": 9.191919191919193e-06,
+      "loss": 0.2833,
+      "step": 91
+    },
+    {
+      "epoch": 0.02807874256065924,
+      "grad_norm": 1.9190338968500587,
+      "learning_rate": 9.292929292929294e-06,
+      "loss": 0.2358,
+      "step": 92
+    },
+    {
+      "epoch": 0.028383946284144666,
+      "grad_norm": 1.7424429804531956,
+      "learning_rate": 9.393939393939396e-06,
+      "loss": 0.2805,
+      "step": 93
+    },
+    {
+      "epoch": 0.028689150007630095,
+      "grad_norm": 1.5616301594921251,
+      "learning_rate": 9.494949494949497e-06,
+      "loss": 0.326,
+      "step": 94
+    },
+    {
+      "epoch": 0.02899435373111552,
+      "grad_norm": 2.6517363851490297,
+      "learning_rate": 9.595959595959597e-06,
+      "loss": 0.5839,
+      "step": 95
+    },
+    {
+      "epoch": 0.029299557454600948,
+      "grad_norm": 1.9068377479857994,
+      "learning_rate": 9.696969696969698e-06,
+      "loss": 0.4213,
+      "step": 96
+    },
+    {
+      "epoch": 0.029604761178086372,
+      "grad_norm": 2.147263972819766,
+      "learning_rate": 9.797979797979798e-06,
+      "loss": 0.3776,
+      "step": 97
+    },
+    {
+      "epoch": 0.0299099649015718,
+      "grad_norm": 2.3466004395170685,
+      "learning_rate": 9.8989898989899e-06,
+      "loss": 0.4828,
+      "step": 98
+    },
+    {
+      "epoch": 0.030215168625057225,
+      "grad_norm": 1.9328188798162316,
+      "learning_rate": 1e-05,
+      "loss": 0.3816,
+      "step": 99
+    },
+    {
+      "epoch": 0.030520372348542654,
+      "grad_norm": 2.120656679761712,
+      "learning_rate": 9.999997555414177e-06,
+      "loss": 0.287,
+      "step": 100
+    },
+    {
+      "epoch": 0.03082557607202808,
+      "grad_norm": 1.8272767014289886,
+      "learning_rate": 9.999990221659095e-06,
+      "loss": 0.2529,
+      "step": 101
+    },
+    {
+      "epoch": 0.031130779795513507,
+      "grad_norm": 2.108876035097533,
+      "learning_rate": 9.999977998741925e-06,
+      "loss": 0.4,
+      "step": 102
+    },
+    {
+      "epoch": 0.031435983518998935,
+      "grad_norm": 2.611227326027621,
+      "learning_rate": 9.999960886674623e-06,
+      "loss": 0.5577,
+      "step": 103
+    },
+    {
+      "epoch": 0.031741187242484356,
+      "grad_norm": 2.012760226088087,
+      "learning_rate": 9.999938885473916e-06,
+      "loss": 0.2397,
+      "step": 104
+    },
+    {
+      "epoch": 0.032046390965969784,
+      "grad_norm": 3.4069313977643088,
+      "learning_rate": 9.999911995161323e-06,
+      "loss": 0.3074,
+      "step": 105
+    },
+    {
+      "epoch": 0.03235159468945521,
+      "grad_norm": 1.5281487804348939,
+      "learning_rate": 9.999880215763133e-06,
+      "loss": 0.306,
+      "step": 106
+    },
+    {
+      "epoch": 0.03265679841294064,
+      "grad_norm": 1.5733903167529437,
+      "learning_rate": 9.999843547310427e-06,
+      "loss": 0.3123,
+      "step": 107
+    },
+    {
+      "epoch": 0.03296200213642606,
+      "grad_norm": 2.2084260837102776,
+      "learning_rate": 9.999801989839055e-06,
+      "loss": 0.2686,
+      "step": 108
+    },
+    {
+      "epoch": 0.03326720585991149,
+      "grad_norm": 2.0235527329790477,
+      "learning_rate": 9.999755543389658e-06,
+      "loss": 0.362,
+      "step": 109
+    },
+    {
+      "epoch": 0.03357240958339692,
+      "grad_norm": 1.4126246608311444,
+      "learning_rate": 9.999704208007647e-06,
+      "loss": 0.1868,
+      "step": 110
+    },
+    {
+      "epoch": 0.03387761330688235,
+      "grad_norm": 1.9363750145032863,
+      "learning_rate": 9.999647983743227e-06,
+      "loss": 0.4674,
+      "step": 111
+    },
+    {
+      "epoch": 0.03418281703036777,
+      "grad_norm": 2.306492812857686,
+      "learning_rate": 9.999586870651372e-06,
+      "loss": 0.7454,
+      "step": 112
+    },
+    {
+      "epoch": 0.034488020753853196,
+      "grad_norm": 1.9927578577114744,
+      "learning_rate": 9.999520868791839e-06,
+      "loss": 0.2964,
+      "step": 113
+    },
+    {
+      "epoch": 0.034793224477338625,
+      "grad_norm": 2.897230200199283,
+      "learning_rate": 9.99944997822917e-06,
+      "loss": 0.3507,
+      "step": 114
+    },
+    {
+      "epoch": 0.03509842820082405,
+      "grad_norm": 1.7040567211820554,
+      "learning_rate": 9.999374199032682e-06,
+      "loss": 0.358,
+      "step": 115
+    },
+    {
+      "epoch": 0.035403631924309474,
+      "grad_norm": 1.7684725864001616,
+      "learning_rate": 9.999293531276475e-06,
+      "loss": 0.469,
+      "step": 116
+    },
+    {
+      "epoch": 0.0357088356477949,
+      "grad_norm": 2.151331613378997,
+      "learning_rate": 9.999207975039429e-06,
+      "loss": 0.4007,
+      "step": 117
+    },
+    {
+      "epoch": 0.03601403937128033,
+      "grad_norm": 2.1827006415812678,
+      "learning_rate": 9.999117530405205e-06,
+      "loss": 0.373,
+      "step": 118
+    },
+    {
+      "epoch": 0.03631924309476576,
+      "grad_norm": 2.0424756244526283,
+      "learning_rate": 9.99902219746224e-06,
+      "loss": 0.4664,
+      "step": 119
+    },
+    {
+      "epoch": 0.03662444681825118,
+      "grad_norm": 2.4438750213097014,
+      "learning_rate": 9.998921976303757e-06,
+      "loss": 0.5884,
+      "step": 120
+    },
+    {
+      "epoch": 0.03692965054173661,
+      "grad_norm": 1.6168805259489245,
+      "learning_rate": 9.998816867027753e-06,
+      "loss": 0.3874,
+      "step": 121
+    },
+    {
+      "epoch": 0.03723485426522204,
+      "grad_norm": 2.4836564854380914,
+      "learning_rate": 9.99870686973701e-06,
+      "loss": 0.3865,
+      "step": 122
+    },
+    {
+      "epoch": 0.037540057988707465,
+      "grad_norm": 2.187549263535683,
+      "learning_rate": 9.998591984539085e-06,
+      "loss": 0.4419,
+      "step": 123
+    },
+    {
+      "epoch": 0.037845261712192886,
+      "grad_norm": 2.3145724108896366,
+      "learning_rate": 9.998472211546317e-06,
+      "loss": 0.5048,
+      "step": 124
+    },
+    {
+      "epoch": 0.038150465435678314,
+      "grad_norm": 2.6043824271784377,
+      "learning_rate": 9.998347550875825e-06,
+      "loss": 0.4323,
+      "step": 125
+    },
+    {
+      "epoch": 0.03845566915916374,
+      "grad_norm": 1.7266964407358079,
+      "learning_rate": 9.998218002649507e-06,
+      "loss": 0.3093,
+      "step": 126
+    },
+    {
+      "epoch": 0.03876087288264917,
+      "grad_norm": 2.3091863655820397,
+      "learning_rate": 9.99808356699404e-06,
+      "loss": 0.5394,
+      "step": 127
+    },
+    {
+      "epoch": 0.03906607660613459,
+      "grad_norm": 2.178584103245907,
+      "learning_rate": 9.997944244040877e-06,
+      "loss": 0.562,
+      "step": 128
+    },
+    {
+      "epoch": 0.03937128032962002,
+      "grad_norm": 1.4762803065381216,
+      "learning_rate": 9.997800033926252e-06,
+      "loss": 0.3012,
+      "step": 129
+    },
+    {
+      "epoch": 0.03967648405310545,
+      "grad_norm": 1.6768704233807339,
+      "learning_rate": 9.997650936791183e-06,
+      "loss": 0.3314,
+      "step": 130
+    },
+    {
+      "epoch": 0.03998168777659088,
+      "grad_norm": 1.8423584681568375,
+      "learning_rate": 9.997496952781461e-06,
+      "loss": 0.5373,
+      "step": 131
+    },
+    {
+      "epoch": 0.0402868915000763,
+      "grad_norm": 1.4926628434179245,
+      "learning_rate": 9.997338082047656e-06,
+      "loss": 0.1992,
+      "step": 132
+    },
+    {
+      "epoch": 0.040592095223561726,
+      "grad_norm": 1.6323074947028773,
+      "learning_rate": 9.997174324745117e-06,
+      "loss": 0.4872,
+      "step": 133
+    },
+    {
+      "epoch": 0.040897298947047155,
+      "grad_norm": 2.159688005520465,
+      "learning_rate": 9.997005681033973e-06,
+      "loss": 0.5076,
+      "step": 134
+    },
+    {
+      "epoch": 0.04120250267053258,
+      "grad_norm": 2.207163038792008,
+      "learning_rate": 9.996832151079127e-06,
+      "loss": 0.2677,
+      "step": 135
+    },
+    {
+      "epoch": 0.041507706394018004,
+      "grad_norm": 1.3990677420334965,
+      "learning_rate": 9.996653735050265e-06,
+      "loss": 0.2526,
+      "step": 136
+    },
+    {
+      "epoch": 0.04181291011750343,
+      "grad_norm": 1.7368886105229604,
+      "learning_rate": 9.996470433121847e-06,
+      "loss": 0.2874,
+      "step": 137
+    },
+    {
+      "epoch": 0.04211811384098886,
+      "grad_norm": 1.8138446424045762,
+      "learning_rate": 9.996282245473113e-06,
+      "loss": 0.2986,
+      "step": 138
+    },
+    {
+      "epoch": 0.04242331756447429,
+      "grad_norm": 1.8564789601928355,
+      "learning_rate": 9.996089172288078e-06,
+      "loss": 0.3954,
+      "step": 139
+    },
+    {
+      "epoch": 0.04272852128795971,
+      "grad_norm": 1.9085920361180522,
+      "learning_rate": 9.995891213755536e-06,
+      "loss": 0.2739,
+      "step": 140
+    },
+    {
+      "epoch": 0.04303372501144514,
+      "grad_norm": 1.8924678931794556,
+      "learning_rate": 9.99568837006906e-06,
+      "loss": 0.2766,
+      "step": 141
+    },
+    {
+      "epoch": 0.04333892873493057,
+      "grad_norm": 1.8418836037208652,
+      "learning_rate": 9.995480641426992e-06,
+      "loss": 0.488,
+      "step": 142
+    },
+    {
+      "epoch": 0.043644132458415995,
+      "grad_norm": 1.6305125707231247,
+      "learning_rate": 9.99526802803246e-06,
+      "loss": 0.3045,
+      "step": 143
+    },
+    {
+      "epoch": 0.043949336181901416,
+      "grad_norm": 2.143051665423358,
+      "learning_rate": 9.995050530093366e-06,
+      "loss": 0.3567,
+      "step": 144
+    },
+    {
+      "epoch": 0.044254539905386844,
+      "grad_norm": 1.994194545633334,
+      "learning_rate": 9.994828147822387e-06,
+      "loss": 0.3655,
+      "step": 145
+    },
+    {
+      "epoch": 0.04455974362887227,
+      "grad_norm": 1.8553346605537173,
+      "learning_rate": 9.994600881436972e-06,
+      "loss": 0.3249,
+      "step": 146
+    },
+    {
+      "epoch": 0.0448649473523577,
+      "grad_norm": 2.1613773805709857,
+      "learning_rate": 9.994368731159351e-06,
+      "loss": 0.4863,
+      "step": 147
+    },
+    {
+      "epoch": 0.04517015107584312,
+      "grad_norm": 2.199571706523493,
+      "learning_rate": 9.99413169721653e-06,
+      "loss": 0.465,
+      "step": 148
+    },
+    {
+      "epoch": 0.04547535479932855,
+      "grad_norm": 1.681707967900651,
+      "learning_rate": 9.99388977984029e-06,
+      "loss": 0.3472,
+      "step": 149
+    },
+    {
+      "epoch": 0.04578055852281398,
+      "grad_norm": 1.6586587053140593,
+      "learning_rate": 9.993642979267184e-06,
+      "loss": 0.3626,
+      "step": 150
+    },
+    {
+      "epoch": 0.04608576224629941,
+      "grad_norm": 2.12592721793332,
+      "learning_rate": 9.993391295738542e-06,
+      "loss": 0.3218,
+      "step": 151
+    },
+    {
+      "epoch": 0.04639096596978483,
+      "grad_norm": 1.6765944279655143,
+      "learning_rate": 9.99313472950047e-06,
+      "loss": 0.3402,
+      "step": 152
+    },
+    {
+      "epoch": 0.046696169693270256,
+      "grad_norm": 1.6019038139070678,
+      "learning_rate": 9.992873280803848e-06,
+      "loss": 0.4554,
+      "step": 153
+    },
+    {
+      "epoch": 0.047001373416755685,
+      "grad_norm": 1.6429860881882794,
+      "learning_rate": 9.99260694990433e-06,
+      "loss": 0.4086,
+      "step": 154
+    },
+    {
+      "epoch": 0.04730657714024111,
+      "grad_norm": 1.98592334325083,
+      "learning_rate": 9.992335737062338e-06,
+      "loss": 0.5733,
+      "step": 155
+    },
+    {
+      "epoch": 0.047611780863726534,
+      "grad_norm": 1.5624846648417388,
+      "learning_rate": 9.992059642543076e-06,
+      "loss": 0.2524,
+      "step": 156
+    },
+    {
+      "epoch": 0.04791698458721196,
+      "grad_norm": 1.4438198320418865,
+      "learning_rate": 9.991778666616523e-06,
+      "loss": 0.1756,
+      "step": 157
+    },
+    {
+      "epoch": 0.04822218831069739,
+      "grad_norm": 1.6284817295660008,
+      "learning_rate": 9.991492809557424e-06,
+      "loss": 0.4144,
+      "step": 158
+    },
+    {
+      "epoch": 0.04852739203418282,
+      "grad_norm": 1.2236340789910145,
+      "learning_rate": 9.991202071645298e-06,
+      "loss": 0.1664,
+      "step": 159
+    },
+    {
+      "epoch": 0.04883259575766824,
+      "grad_norm": 1.4874398163232816,
+      "learning_rate": 9.99090645316444e-06,
+      "loss": 0.3323,
+      "step": 160
+    },
+    {
+      "epoch": 0.04913779948115367,
+      "grad_norm": 2.5394515927833403,
+      "learning_rate": 9.990605954403917e-06,
+      "loss": 0.27,
+      "step": 161
+    },
+    {
+      "epoch": 0.0494430032046391,
+      "grad_norm": 1.7966332314422868,
+      "learning_rate": 9.990300575657565e-06,
+      "loss": 0.4453,
+      "step": 162
+    },
+    {
+      "epoch": 0.049748206928124525,
+      "grad_norm": 1.825976682624809,
+      "learning_rate": 9.989990317223995e-06,
+      "loss": 0.2646,
+      "step": 163
+    },
+    {
+      "epoch": 0.05005341065160995,
+      "grad_norm": 1.6554541925183588,
+      "learning_rate": 9.989675179406588e-06,
+      "loss": 0.445,
+      "step": 164
+    },
+    {
+      "epoch": 0.050358614375095374,
+      "grad_norm": 1.6711133844293076,
+      "learning_rate": 9.989355162513496e-06,
+      "loss": 0.3685,
+      "step": 165
+    },
+    {
+      "epoch": 0.0506638180985808,
+      "grad_norm": 1.8033315345252203,
+      "learning_rate": 9.989030266857644e-06,
+      "loss": 0.2566,
+      "step": 166
+    },
+    {
+      "epoch": 0.05096902182206623,
+      "grad_norm": 1.6879852444966537,
+      "learning_rate": 9.988700492756726e-06,
+      "loss": 0.4086,
+      "step": 167
+    },
+    {
+      "epoch": 0.05127422554555166,
+      "grad_norm": 1.6855038740169574,
+      "learning_rate": 9.988365840533204e-06,
+      "loss": 0.3081,
+      "step": 168
+    },
+    {
+      "epoch": 0.05157942926903708,
+      "grad_norm": 2.245121010490438,
+      "learning_rate": 9.988026310514316e-06,
+      "loss": 0.5646,
+      "step": 169
+    },
+    {
+      "epoch": 0.05188463299252251,
+      "grad_norm": 1.531117336209479,
+      "learning_rate": 9.987681903032065e-06,
+      "loss": 0.3598,
+      "step": 170
+    },
+    {
+      "epoch": 0.05218983671600794,
+      "grad_norm": 1.4368727600956301,
+      "learning_rate": 9.987332618423221e-06,
+      "loss": 0.3864,
+      "step": 171
+    },
+    {
+      "epoch": 0.052495040439493365,
+      "grad_norm": 2.039026486601271,
+      "learning_rate": 9.98697845702933e-06,
+      "loss": 0.2728,
+      "step": 172
+    },
+    {
+      "epoch": 0.052800244162978786,
+      "grad_norm": 1.5481974795842472,
+      "learning_rate": 9.986619419196704e-06,
+      "loss": 0.2376,
+      "step": 173
+    },
+    {
+      "epoch": 0.053105447886464215,
+      "grad_norm": 1.583025735121783,
+      "learning_rate": 9.986255505276418e-06,
+      "loss": 0.3941,
+      "step": 174
+    },
+    {
+      "epoch": 0.05341065160994964,
+      "grad_norm": 2.025610033619695,
+      "learning_rate": 9.985886715624326e-06,
+      "loss": 0.432,
+      "step": 175
+    },
+    {
+      "epoch": 0.05371585533343507,
+      "grad_norm": 1.9370365819159912,
+      "learning_rate": 9.985513050601037e-06,
+      "loss": 0.3311,
+      "step": 176
+    },
+    {
+      "epoch": 0.05402105905692049,
+      "grad_norm": 1.534591376747653,
+      "learning_rate": 9.985134510571936e-06,
+      "loss": 0.3804,
+      "step": 177
+    },
+    {
+      "epoch": 0.05432626278040592,
+      "grad_norm": 1.5627980520171343,
+      "learning_rate": 9.984751095907175e-06,
+      "loss": 0.3991,
+      "step": 178
+    },
+    {
+      "epoch": 0.05463146650389135,
+      "grad_norm": 1.858760828475349,
+      "learning_rate": 9.984362806981665e-06,
+      "loss": 0.4124,
+      "step": 179
+    },
+    {
+      "epoch": 0.05493667022737678,
+      "grad_norm": 1.4922057145689682,
+      "learning_rate": 9.983969644175092e-06,
+      "loss": 0.2571,
+      "step": 180
+    },
+    {
+      "epoch": 0.0552418739508622,
+      "grad_norm": 1.4358215484460224,
+      "learning_rate": 9.983571607871903e-06,
+      "loss": 0.3351,
+      "step": 181
+    },
+    {
+      "epoch": 0.05554707767434763,
+      "grad_norm": 1.7105120125454414,
+      "learning_rate": 9.983168698461312e-06,
+      "loss": 0.4374,
+      "step": 182
+    },
+    {
+      "epoch": 0.055852281397833055,
+      "grad_norm": 1.4100459259074987,
+      "learning_rate": 9.982760916337296e-06,
+      "loss": 0.3958,
+      "step": 183
+    },
+    {
+      "epoch": 0.05615748512131848,
+      "grad_norm": 1.667173817085955,
+      "learning_rate": 9.982348261898598e-06,
+      "loss": 0.2867,
+      "step": 184
+    },
+    {
+      "epoch": 0.056462688844803904,
+      "grad_norm": 1.8278737995984025,
+      "learning_rate": 9.981930735548731e-06,
+      "loss": 0.3738,
+      "step": 185
+    },
+    {
+      "epoch": 0.05676789256828933,
+      "grad_norm": 1.806852289121097,
+      "learning_rate": 9.98150833769596e-06,
+      "loss": 0.5608,
+      "step": 186
+    },
+    {
+      "epoch": 0.05707309629177476,
+      "grad_norm": 1.6986308867720055,
+      "learning_rate": 9.981081068753324e-06,
+      "loss": 0.4253,
+      "step": 187
+    },
+    {
+      "epoch": 0.05737830001526019,
+      "grad_norm": 1.6392088091109513,
+      "learning_rate": 9.98064892913862e-06,
+      "loss": 0.2444,
+      "step": 188
+    },
+    {
+      "epoch": 0.05768350373874561,
+      "grad_norm": 1.7762995408711126,
+      "learning_rate": 9.980211919274407e-06,
+      "loss": 0.3866,
+      "step": 189
+    },
+    {
+      "epoch": 0.05798870746223104,
+      "grad_norm": 1.7144647062044762,
+      "learning_rate": 9.979770039588013e-06,
+      "loss": 0.4504,
+      "step": 190
+    },
+    {
+      "epoch": 0.05829391118571647,
+      "grad_norm": 1.9069269572943617,
+      "learning_rate": 9.979323290511517e-06,
+      "loss": 0.4972,
+      "step": 191
+    },
+    {
+      "epoch": 0.058599114909201895,
+      "grad_norm": 1.831943664409223,
+      "learning_rate": 9.978871672481774e-06,
+      "loss": 0.3884,
+      "step": 192
+    },
+    {
+      "epoch": 0.058904318632687316,
+      "grad_norm": 1.60483584957947,
+      "learning_rate": 9.978415185940383e-06,
+      "loss": 0.3366,
+      "step": 193
+    },
+    {
+      "epoch": 0.059209522356172745,
+      "grad_norm": 2.041633475935638,
+      "learning_rate": 9.977953831333718e-06,
+      "loss": 0.4928,
+      "step": 194
+    },
+    {
+      "epoch": 0.05951472607965817,
+      "grad_norm": 2.1574861604284243,
+      "learning_rate": 9.977487609112904e-06,
+      "loss": 0.7092,
+      "step": 195
+    },
+    {
+      "epoch": 0.0598199298031436,
+      "grad_norm": 1.5382345073334531,
+      "learning_rate": 9.97701651973383e-06,
+      "loss": 0.2236,
+      "step": 196
+    },
+    {
+      "epoch": 0.06012513352662902,
+      "grad_norm": 2.1479787995768014,
+      "learning_rate": 9.976540563657143e-06,
+      "loss": 0.5182,
+      "step": 197
+    },
+    {
+      "epoch": 0.06043033725011445,
+      "grad_norm": 1.8579437774142544,
+      "learning_rate": 9.976059741348252e-06,
+      "loss": 0.3093,
+      "step": 198
+    },
+    {
+      "epoch": 0.06073554097359988,
+      "grad_norm": 1.5409701380525285,
+      "learning_rate": 9.975574053277317e-06,
+      "loss": 0.2877,
+      "step": 199
+    },
+    {
+      "epoch": 0.06104074469708531,
+      "grad_norm": 1.5474598097011698,
+      "learning_rate": 9.975083499919264e-06,
+      "loss": 0.2981,
+      "step": 200
+    },
+    {
+      "epoch": 0.06134594842057073,
+      "grad_norm": 1.9202152932180157,
+      "learning_rate": 9.974588081753773e-06,
+      "loss": 0.5369,
+      "step": 201
+    },
+    {
+      "epoch": 0.06165115214405616,
+      "grad_norm": 1.4598442515817716,
+      "learning_rate": 9.974087799265279e-06,
+      "loss": 0.3696,
+      "step": 202
+    },
+    {
+      "epoch": 0.061956355867541585,
+      "grad_norm": 1.48078814360119,
+      "learning_rate": 9.973582652942975e-06,
+      "loss": 0.284,
+      "step": 203
+    },
+    {
+      "epoch": 0.06226155959102701,
+      "grad_norm": 2.100326004155181,
+      "learning_rate": 9.973072643280813e-06,
+      "loss": 0.5681,
+      "step": 204
+    },
+    {
+      "epoch": 0.06256676331451244,
+      "grad_norm": 1.976128330719915,
+      "learning_rate": 9.972557770777496e-06,
+      "loss": 0.3655,
+      "step": 205
+    },
+    {
+      "epoch": 0.06287196703799787,
+      "grad_norm": 1.2103730393566896,
+      "learning_rate": 9.972038035936483e-06,
+      "loss": 0.2471,
+      "step": 206
+    },
+    {
+      "epoch": 0.06317717076148328,
+      "grad_norm": 1.670449906238349,
+      "learning_rate": 9.971513439265992e-06,
+      "loss": 0.2184,
+      "step": 207
+    },
+    {
+      "epoch": 0.06348237448496871,
+      "grad_norm": 1.5020544764497652,
+      "learning_rate": 9.970983981278989e-06,
+      "loss": 0.3196,
+      "step": 208
+    },
+    {
+      "epoch": 0.06378757820845414,
+      "grad_norm": 1.7833251911345853,
+      "learning_rate": 9.970449662493195e-06,
+      "loss": 0.4122,
+      "step": 209
+    },
+    {
+      "epoch": 0.06409278193193957,
+      "grad_norm": 1.4149595334362772,
+      "learning_rate": 9.96991048343109e-06,
+      "loss": 0.2947,
+      "step": 210
+    },
+    {
+      "epoch": 0.064397985655425,
+      "grad_norm": 1.5991867680932033,
+      "learning_rate": 9.969366444619898e-06,
+      "loss": 0.1902,
+      "step": 211
+    },
+    {
+      "epoch": 0.06470318937891043,
+      "grad_norm": 1.4132064841734169,
+      "learning_rate": 9.968817546591601e-06,
+      "loss": 0.3389,
+      "step": 212
+    },
+    {
+      "epoch": 0.06500839310239585,
+      "grad_norm": 1.7671902900221814,
+      "learning_rate": 9.968263789882926e-06,
+      "loss": 0.4294,
+      "step": 213
+    },
+    {
+      "epoch": 0.06531359682588128,
+      "grad_norm": 1.5709821497329826,
+      "learning_rate": 9.96770517503536e-06,
+      "loss": 0.2765,
+      "step": 214
+    },
+    {
+      "epoch": 0.0656188005493667,
+      "grad_norm": 1.5211731343844295,
+      "learning_rate": 9.967141702595134e-06,
+      "loss": 0.387,
+      "step": 215
+    },
+    {
+      "epoch": 0.06592400427285212,
+      "grad_norm": 1.5499265222668686,
+      "learning_rate": 9.96657337311323e-06,
+      "loss": 0.4535,
+      "step": 216
+    },
+    {
+      "epoch": 0.06622920799633755,
+      "grad_norm": 1.4736546539447488,
+      "learning_rate": 9.966000187145383e-06,
+      "loss": 0.3834,
+      "step": 217
+    },
+    {
+      "epoch": 0.06653441171982298,
+      "grad_norm": 1.3306288958233108,
+      "learning_rate": 9.965422145252072e-06,
+      "loss": 0.3172,
+      "step": 218
+    },
+    {
+      "epoch": 0.06683961544330841,
+      "grad_norm": 1.5745937005003143,
+      "learning_rate": 9.964839247998524e-06,
+      "loss": 0.2725,
+      "step": 219
+    },
+    {
+      "epoch": 0.06714481916679384,
+      "grad_norm": 1.7546511557153388,
+      "learning_rate": 9.96425149595472e-06,
+      "loss": 0.3577,
+      "step": 220
+    },
+    {
+      "epoch": 0.06745002289027927,
+      "grad_norm": 2.0422588449754286,
+      "learning_rate": 9.96365888969538e-06,
+      "loss": 0.4976,
+      "step": 221
+    },
+    {
+      "epoch": 0.0677552266137647,
+      "grad_norm": 1.4661824124133862,
+      "learning_rate": 9.963061429799979e-06,
+      "loss": 0.3672,
+      "step": 222
+    },
+    {
+      "epoch": 0.06806043033725011,
+      "grad_norm": 2.0959067552369666,
+      "learning_rate": 9.96245911685273e-06,
+      "loss": 0.5381,
+      "step": 223
+    },
+    {
+      "epoch": 0.06836563406073554,
+      "grad_norm": 1.3296813372997014,
+      "learning_rate": 9.961851951442599e-06,
+      "loss": 0.2799,
+      "step": 224
+    },
+    {
+      "epoch": 0.06867083778422096,
+      "grad_norm": 1.7385807765114274,
+      "learning_rate": 9.96123993416329e-06,
+      "loss": 0.5183,
+      "step": 225
+    },
+    {
+      "epoch": 0.06897604150770639,
+      "grad_norm": 1.5190119701865645,
+      "learning_rate": 9.960623065613254e-06,
+      "loss": 0.4608,
+      "step": 226
+    },
+    {
+      "epoch": 0.06928124523119182,
+      "grad_norm": 1.4393894383331207,
+      "learning_rate": 9.96000134639569e-06,
+      "loss": 0.3455,
+      "step": 227
+    },
+    {
+      "epoch": 0.06958644895467725,
+      "grad_norm": 1.7132863682619555,
+      "learning_rate": 9.959374777118533e-06,
+      "loss": 0.316,
+      "step": 228
+    },
+    {
+      "epoch": 0.06989165267816268,
+      "grad_norm": 1.3227120889592454,
+      "learning_rate": 9.958743358394464e-06,
+      "loss": 0.2467,
+      "step": 229
+    },
+    {
+      "epoch": 0.0701968564016481,
+      "grad_norm": 1.5331153407144422,
+      "learning_rate": 9.95810709084091e-06,
+      "loss": 0.3138,
+      "step": 230
+    },
+    {
+      "epoch": 0.07050206012513352,
+      "grad_norm": 1.7990748995190806,
+      "learning_rate": 9.957465975080031e-06,
+      "loss": 0.4747,
+      "step": 231
+    },
+    {
+      "epoch": 0.07080726384861895,
+      "grad_norm": 1.1638981235859056,
+      "learning_rate": 9.956820011738736e-06,
+      "loss": 0.2265,
+      "step": 232
+    },
+    {
+      "epoch": 0.07111246757210438,
+      "grad_norm": 1.5739388418179414,
+      "learning_rate": 9.956169201448665e-06,
+      "loss": 0.5066,
+      "step": 233
+    },
+    {
+      "epoch": 0.0714176712955898,
+      "grad_norm": 1.6803933013620869,
+      "learning_rate": 9.955513544846205e-06,
+      "loss": 0.4415,
+      "step": 234
+    },
+    {
+      "epoch": 0.07172287501907523,
+      "grad_norm": 1.4014872110785643,
+      "learning_rate": 9.954853042572479e-06,
+      "loss": 0.3271,
+      "step": 235
+    },
+    {
+      "epoch": 0.07202807874256066,
+      "grad_norm": 1.5310222689941932,
+      "learning_rate": 9.954187695273352e-06,
+      "loss": 0.3289,
+      "step": 236
+    },
+    {
+      "epoch": 0.07233328246604609,
+      "grad_norm": 2.166268226472017,
+      "learning_rate": 9.953517503599419e-06,
+      "loss": 0.622,
+      "step": 237
+    },
+    {
+      "epoch": 0.07263848618953152,
+      "grad_norm": 2.258081862277545,
+      "learning_rate": 9.952842468206019e-06,
+      "loss": 0.5071,
+      "step": 238
+    },
+    {
+      "epoch": 0.07294368991301693,
+      "grad_norm": 1.7322119894263104,
+      "learning_rate": 9.952162589753224e-06,
+      "loss": 0.5097,
+      "step": 239
+    },
+    {
+      "epoch": 0.07324889363650236,
+      "grad_norm": 1.9966284228033864,
+      "learning_rate": 9.951477868905843e-06,
+      "loss": 0.2263,
+      "step": 240
+    },
+    {
+      "epoch": 0.07355409735998779,
+      "grad_norm": 1.6793267860774614,
+      "learning_rate": 9.95078830633342e-06,
+      "loss": 0.2065,
+      "step": 241
+    },
+    {
+      "epoch": 0.07385930108347322,
+      "grad_norm": 2.122564153881175,
+      "learning_rate": 9.95009390271023e-06,
+      "loss": 0.2665,
+      "step": 242
+    },
+    {
+      "epoch": 0.07416450480695864,
+      "grad_norm": 1.5852282963187305,
+      "learning_rate": 9.949394658715289e-06,
+      "loss": 0.4453,
+      "step": 243
+    },
+    {
+      "epoch": 0.07446970853044407,
+      "grad_norm": 1.7534712016120517,
+      "learning_rate": 9.948690575032338e-06,
+      "loss": 0.3628,
+      "step": 244
+    },
+    {
+      "epoch": 0.0747749122539295,
+      "grad_norm": 1.351810586905304,
+      "learning_rate": 9.947981652349854e-06,
+      "loss": 0.3984,
+      "step": 245
+    },
+    {
+      "epoch": 0.07508011597741493,
+      "grad_norm": 1.8377506474408298,
+      "learning_rate": 9.947267891361051e-06,
+      "loss": 0.3677,
+      "step": 246
+    },
+    {
+      "epoch": 0.07538531970090036,
+      "grad_norm": 1.4655632998364951,
+      "learning_rate": 9.946549292763865e-06,
+      "loss": 0.3516,
+      "step": 247
+    },
+    {
+      "epoch": 0.07569052342438577,
+      "grad_norm": 3.240838121636416,
+      "learning_rate": 9.945825857260967e-06,
+      "loss": 0.2627,
+      "step": 248
+    },
+    {
+      "epoch": 0.0759957271478712,
+      "grad_norm": 1.4085823215183912,
+      "learning_rate": 9.945097585559757e-06,
+      "loss": 0.2716,
+      "step": 249
+    },
+    {
+      "epoch": 0.07630093087135663,
+      "grad_norm": 1.6361471921651585,
+      "learning_rate": 9.944364478372364e-06,
+      "loss": 0.3595,
+      "step": 250
+    },
+    {
+      "epoch": 0.07660613459484206,
+      "grad_norm": 1.0912978886499554,
+      "learning_rate": 9.943626536415647e-06,
+      "loss": 0.1968,
+      "step": 251
+    },
+    {
+      "epoch": 0.07691133831832749,
+      "grad_norm": 1.9515717700893849,
+      "learning_rate": 9.942883760411188e-06,
+      "loss": 0.374,
+      "step": 252
+    },
+    {
+      "epoch": 0.07721654204181291,
+      "grad_norm": 1.5560755068838334,
+      "learning_rate": 9.942136151085302e-06,
+      "loss": 0.44,
+      "step": 253
+    },
+    {
+      "epoch": 0.07752174576529834,
+      "grad_norm": 1.4843235207715992,
+      "learning_rate": 9.941383709169024e-06,
+      "loss": 0.3175,
+      "step": 254
+    },
+    {
+      "epoch": 0.07782694948878377,
+      "grad_norm": 1.5210960196158274,
+      "learning_rate": 9.94062643539812e-06,
+      "loss": 0.3722,
+      "step": 255
+    },
+    {
+      "epoch": 0.07813215321226918,
+      "grad_norm": 1.6656094376801425,
+      "learning_rate": 9.939864330513079e-06,
+      "loss": 0.3511,
+      "step": 256
+    },
+    {
+      "epoch": 0.07843735693575461,
+      "grad_norm": 1.2732857455769802,
+      "learning_rate": 9.939097395259108e-06,
+      "loss": 0.2619,
+      "step": 257
+    },
+    {
+      "epoch": 0.07874256065924004,
+      "grad_norm": 1.8947301386622588,
+      "learning_rate": 9.938325630386149e-06,
+      "loss": 0.3933,
+      "step": 258
+    },
+    {
+      "epoch": 0.07904776438272547,
+      "grad_norm": 1.5625416559388712,
+      "learning_rate": 9.937549036648857e-06,
+      "loss": 0.4491,
+      "step": 259
+    },
+    {
+      "epoch": 0.0793529681062109,
+      "grad_norm": 1.5125179888703784,
+      "learning_rate": 9.936767614806612e-06,
+      "loss": 0.3674,
+      "step": 260
+    },
+    {
+      "epoch": 0.07965817182969633,
+      "grad_norm": 1.5026525250547669,
+      "learning_rate": 9.935981365623516e-06,
+      "loss": 0.4103,
+      "step": 261
+    },
+    {
+      "epoch": 0.07996337555318175,
+      "grad_norm": 2.3948536293362115,
+      "learning_rate": 9.93519028986839e-06,
+      "loss": 0.4009,
+      "step": 262
+    },
+    {
+      "epoch": 0.08026857927666718,
+      "grad_norm": 2.416554371647352,
+      "learning_rate": 9.934394388314775e-06,
+      "loss": 0.4265,
+      "step": 263
+    },
+    {
+      "epoch": 0.0805737830001526,
+      "grad_norm": 1.560923734953618,
+      "learning_rate": 9.933593661740933e-06,
+      "loss": 0.303,
+      "step": 264
+    },
+    {
+      "epoch": 0.08087898672363802,
+      "grad_norm": 1.6053945705234087,
+      "learning_rate": 9.932788110929837e-06,
+      "loss": 0.3295,
+      "step": 265
+    },
+    {
+      "epoch": 0.08118419044712345,
+      "grad_norm": 1.7775437462596928,
+      "learning_rate": 9.931977736669185e-06,
+      "loss": 0.2197,
+      "step": 266
+    },
+    {
+      "epoch": 0.08148939417060888,
+      "grad_norm": 1.701318325041301,
+      "learning_rate": 9.931162539751392e-06,
+      "loss": 0.3581,
+      "step": 267
+    },
+    {
+      "epoch": 0.08179459789409431,
+      "grad_norm": 1.5974548511363529,
+      "learning_rate": 9.93034252097358e-06,
+      "loss": 0.3432,
+      "step": 268
+    },
+    {
+      "epoch": 0.08209980161757974,
+      "grad_norm": 1.8669593065073864,
+      "learning_rate": 9.929517681137594e-06,
+      "loss": 0.4133,
+      "step": 269
+    },
+    {
+      "epoch": 0.08240500534106517,
+      "grad_norm": 1.4895827642408586,
+      "learning_rate": 9.928688021049991e-06,
+      "loss": 0.3111,
+      "step": 270
+    },
+    {
+      "epoch": 0.0827102090645506,
+      "grad_norm": 1.4317804244871846,
+      "learning_rate": 9.927853541522041e-06,
+      "loss": 0.2915,
+      "step": 271
+    },
+    {
+      "epoch": 0.08301541278803601,
+      "grad_norm": 1.252478145781798,
+      "learning_rate": 9.927014243369727e-06,
+      "loss": 0.2794,
+      "step": 272
+    },
+    {
+      "epoch": 0.08332061651152144,
+      "grad_norm": 1.6973954865497314,
+      "learning_rate": 9.926170127413743e-06,
+      "loss": 0.6183,
+      "step": 273
+    },
+    {
+      "epoch": 0.08362582023500686,
+      "grad_norm": 1.4723277244112698,
+      "learning_rate": 9.925321194479494e-06,
+      "loss": 0.2815,
+      "step": 274
+    },
+    {
+      "epoch": 0.08393102395849229,
+      "grad_norm": 1.7075555550514414,
+      "learning_rate": 9.924467445397097e-06,
+      "loss": 0.4178,
+      "step": 275
+    },
+    {
+      "epoch": 0.08423622768197772,
+      "grad_norm": 1.5354808046910606,
+      "learning_rate": 9.923608881001377e-06,
+      "loss": 0.2355,
+      "step": 276
+    },
+    {
+      "epoch": 0.08454143140546315,
+      "grad_norm": 1.1795750747565834,
+      "learning_rate": 9.922745502131865e-06,
+      "loss": 0.3404,
+      "step": 277
+    },
+    {
+      "epoch": 0.08484663512894858,
+      "grad_norm": 1.427067758888222,
+      "learning_rate": 9.921877309632805e-06,
+      "loss": 0.3141,
+      "step": 278
+    },
+    {
+      "epoch": 0.085151838852434,
+      "grad_norm": 1.3691564278772157,
+      "learning_rate": 9.921004304353147e-06,
+      "loss": 0.287,
+      "step": 279
+    },
+    {
+      "epoch": 0.08545704257591942,
+      "grad_norm": 1.9220775714586407,
+      "learning_rate": 9.920126487146544e-06,
+      "loss": 0.6617,
+      "step": 280
+    },
+    {
+      "epoch": 0.08576224629940485,
+      "grad_norm": 1.6761030408371134,
+      "learning_rate": 9.919243858871355e-06,
+      "loss": 0.466,
+      "step": 281
+    },
+    {
+      "epoch": 0.08606745002289028,
+      "grad_norm": 1.6120747264173168,
+      "learning_rate": 9.918356420390645e-06,
+      "loss": 0.5351,
+      "step": 282
+    },
+    {
+      "epoch": 0.0863726537463757,
+      "grad_norm": 1.5236961732014556,
+      "learning_rate": 9.91746417257218e-06,
+      "loss": 0.33,
+      "step": 283
+    },
+    {
+      "epoch": 0.08667785746986113,
+      "grad_norm": 1.6328635321860312,
+      "learning_rate": 9.916567116288434e-06,
+      "loss": 0.4301,
+      "step": 284
+    },
+    {
+      "epoch": 0.08698306119334656,
+      "grad_norm": 1.4120804188821041,
+      "learning_rate": 9.915665252416577e-06,
+      "loss": 0.3025,
+      "step": 285
+    },
+    {
+      "epoch": 0.08728826491683199,
+      "grad_norm": 1.8410843798908767,
+      "learning_rate": 9.914758581838482e-06,
+      "loss": 0.5415,
+      "step": 286
+    },
+    {
+      "epoch": 0.08759346864031742,
+      "grad_norm": 1.1807475096034001,
+      "learning_rate": 9.913847105440725e-06,
+      "loss": 0.3184,
+      "step": 287
+    },
+    {
+      "epoch": 0.08789867236380283,
+      "grad_norm": 1.52681276111022,
+      "learning_rate": 9.912930824114577e-06,
+      "loss": 0.4266,
+      "step": 288
+    },
+    {
+      "epoch": 0.08820387608728826,
+      "grad_norm": 1.4904538614169496,
+      "learning_rate": 9.91200973875601e-06,
+      "loss": 0.3404,
+      "step": 289
+    },
+    {
+      "epoch": 0.08850907981077369,
+      "grad_norm": 1.7385111110311349,
+      "learning_rate": 9.911083850265692e-06,
+      "loss": 0.3371,
+      "step": 290
+    },
+    {
+      "epoch": 0.08881428353425912,
+      "grad_norm": 1.6013762575114376,
+      "learning_rate": 9.91015315954899e-06,
+      "loss": 0.4475,
+      "step": 291
+    },
+    {
+      "epoch": 0.08911948725774455,
+      "grad_norm": 1.5474202900018152,
+      "learning_rate": 9.909217667515964e-06,
+      "loss": 0.4162,
+      "step": 292
+    },
+    {
+      "epoch": 0.08942469098122997,
+      "grad_norm": 1.875769203080621,
+      "learning_rate": 9.908277375081371e-06,
+      "loss": 0.4446,
+      "step": 293
+    },
+    {
+      "epoch": 0.0897298947047154,
+      "grad_norm": 1.4914731218024286,
+      "learning_rate": 9.907332283164663e-06,
+      "loss": 0.4274,
+      "step": 294
+    },
+    {
+      "epoch": 0.09003509842820083,
+      "grad_norm": 1.6551811079983538,
+      "learning_rate": 9.90638239268998e-06,
+      "loss": 0.4883,
+      "step": 295
+    },
+    {
+      "epoch": 0.09034030215168624,
+      "grad_norm": 1.645510927644492,
+      "learning_rate": 9.905427704586158e-06,
+      "loss": 0.4885,
+      "step": 296
+    },
+    {
+      "epoch": 0.09064550587517167,
+      "grad_norm": 1.6759165462483547,
+      "learning_rate": 9.904468219786727e-06,
+      "loss": 0.3878,
+      "step": 297
+    },
+    {
+      "epoch": 0.0909507095986571,
+      "grad_norm": 1.596800484010474,
+      "learning_rate": 9.903503939229901e-06,
+      "loss": 0.2725,
+      "step": 298
+    },
+    {
+      "epoch": 0.09125591332214253,
+      "grad_norm": 1.4035704196730787,
+      "learning_rate": 9.902534863858588e-06,
+      "loss": 0.2147,
+      "step": 299
+    },
+    {
+      "epoch": 0.09156111704562796,
+      "grad_norm": 1.7460761357385464,
+      "learning_rate": 9.90156099462038e-06,
+      "loss": 0.3495,
+      "step": 300
+    },
+    {
+      "epoch": 0.09186632076911339,
+      "grad_norm": 1.3373562156184522,
+      "learning_rate": 9.900582332467566e-06,
+      "loss": 0.342,
+      "step": 301
+    },
+    {
+      "epoch": 0.09217152449259881,
+      "grad_norm": 1.1466755748188362,
+      "learning_rate": 9.89959887835711e-06,
+      "loss": 0.1737,
+      "step": 302
+    },
+    {
+      "epoch": 0.09247672821608424,
+      "grad_norm": 1.8078659273922337,
+      "learning_rate": 9.898610633250669e-06,
+      "loss": 0.3111,
+      "step": 303
+    },
+    {
+      "epoch": 0.09278193193956966,
+      "grad_norm": 1.5400638324339648,
+      "learning_rate": 9.897617598114584e-06,
+      "loss": 0.4746,
+      "step": 304
+    },
+    {
+      "epoch": 0.09308713566305508,
+      "grad_norm": 1.558728128630052,
+      "learning_rate": 9.896619773919878e-06,
+      "loss": 0.3085,
+      "step": 305
+    },
+    {
+      "epoch": 0.09339233938654051,
+      "grad_norm": 4.094736926672729,
+      "learning_rate": 9.895617161642257e-06,
+      "loss": 0.4664,
+      "step": 306
+    },
+    {
+      "epoch": 0.09369754311002594,
+      "grad_norm": 1.63116898024897,
+      "learning_rate": 9.89460976226211e-06,
+      "loss": 0.3878,
+      "step": 307
+    },
+    {
+      "epoch": 0.09400274683351137,
+      "grad_norm": 1.7238364123731507,
+      "learning_rate": 9.893597576764508e-06,
+      "loss": 0.2989,
+      "step": 308
+    },
+    {
+      "epoch": 0.0943079505569968,
+      "grad_norm": 1.2496662648050174,
+      "learning_rate": 9.8925806061392e-06,
+      "loss": 0.3054,
+      "step": 309
+    },
+    {
+      "epoch": 0.09461315428048223,
+      "grad_norm": 0.8807197003313585,
+      "learning_rate": 9.891558851380614e-06,
+      "loss": 0.1904,
+      "step": 310
+    },
+    {
+      "epoch": 0.09491835800396765,
+      "grad_norm": 1.5076918479598347,
+      "learning_rate": 9.890532313487858e-06,
+      "loss": 0.2679,
+      "step": 311
+    },
+    {
+      "epoch": 0.09522356172745307,
+      "grad_norm": 1.8465691043660122,
+      "learning_rate": 9.889500993464716e-06,
+      "loss": 0.5002,
+      "step": 312
+    },
+    {
+      "epoch": 0.0955287654509385,
+      "grad_norm": 1.9183643810942494,
+      "learning_rate": 9.888464892319647e-06,
+      "loss": 0.4869,
+      "step": 313
+    },
+    {
+      "epoch": 0.09583396917442392,
+      "grad_norm": 1.6515373264151805,
+      "learning_rate": 9.887424011065788e-06,
+      "loss": 0.4507,
+      "step": 314
+    },
+    {
+      "epoch": 0.09613917289790935,
+      "grad_norm": 1.6223391241834122,
+      "learning_rate": 9.886378350720945e-06,
+      "loss": 0.3445,
+      "step": 315
+    },
+    {
+      "epoch": 0.09644437662139478,
+      "grad_norm": 1.4416645097808285,
+      "learning_rate": 9.885327912307604e-06,
+      "loss": 0.2808,
+      "step": 316
+    },
+    {
+      "epoch": 0.09674958034488021,
+      "grad_norm": 1.4777192121308136,
+      "learning_rate": 9.88427269685292e-06,
+      "loss": 0.4335,
+      "step": 317
+    },
+    {
+      "epoch": 0.09705478406836564,
+      "grad_norm": 1.6934694740555867,
+      "learning_rate": 9.883212705388715e-06,
+      "loss": 0.4299,
+      "step": 318
+    },
+    {
+      "epoch": 0.09735998779185107,
+      "grad_norm": 1.9031284601590377,
+      "learning_rate": 9.882147938951489e-06,
+      "loss": 0.5364,
+      "step": 319
+    },
+    {
+      "epoch": 0.09766519151533648,
+      "grad_norm": 1.990035566558448,
+      "learning_rate": 9.881078398582406e-06,
+      "loss": 0.6476,
+      "step": 320
+    },
+    {
+      "epoch": 0.09797039523882191,
+      "grad_norm": 1.4458600630840748,
+      "learning_rate": 9.8800040853273e-06,
+      "loss": 0.268,
+      "step": 321
+    },
+    {
+      "epoch": 0.09827559896230734,
+      "grad_norm": 1.473557254783057,
+      "learning_rate": 9.878925000236667e-06,
+      "loss": 0.3889,
+      "step": 322
+    },
+    {
+      "epoch": 0.09858080268579276,
+      "grad_norm": 1.429462352597184,
+      "learning_rate": 9.877841144365681e-06,
+      "loss": 0.3348,
+      "step": 323
+    },
+    {
+      "epoch": 0.0988860064092782,
+      "grad_norm": 1.9126483909533352,
+      "learning_rate": 9.876752518774167e-06,
+      "loss": 0.5004,
+      "step": 324
+    },
+    {
+      "epoch": 0.09919121013276362,
+      "grad_norm": 1.528278815830415,
+      "learning_rate": 9.875659124526622e-06,
+      "loss": 0.1931,
+      "step": 325
+    },
+    {
+      "epoch": 0.09949641385624905,
+      "grad_norm": 1.6064809314060318,
+      "learning_rate": 9.874560962692207e-06,
+      "loss": 0.2627,
+      "step": 326
+    },
+    {
+      "epoch": 0.09980161757973448,
+      "grad_norm": 1.8583002911468363,
+      "learning_rate": 9.873458034344741e-06,
+      "loss": 0.4795,
+      "step": 327
+    },
+    {
+      "epoch": 0.1001068213032199,
+      "grad_norm": 2.180040993961252,
+      "learning_rate": 9.872350340562704e-06,
+      "loss": 0.3502,
+      "step": 328
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 3276,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 328,
+  "total_flos": 40670334410752.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6b4aa33f55e48e79da409167c0502ab30cbbfa7d18bea5b24f75297f9188653
+size 8056

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

zero_to_fp32.py ADDED Viewed

	@@ -0,0 +1,587 @@

+#!/usr/bin/env python
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+# DeepSpeed Team
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example: python zero_to_fp32.py . pytorch_model.bin
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+from collections import OrderedDict
+from dataclasses import dataclass
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+debug = 0
+# load to cpu
+device = torch.device('cpu')
+def atoi(text):
+    return int(text) if text.isdigit() else text
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+    return file
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+    return ckpt_files
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device)
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+        ds_version = state_dict.get(DS_VERSION, None)
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+    return zero_model_states
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in files:
+        state_dict = torch.load(f, map_location=device)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+    if not ZERO_STAGE in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+    if type(world_size) is list:
+        world_size = max(world_size)
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+    if zero_stage <= 2:
+        fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    elif zero_stage == 3:
+        # if there is more than one param group, there will be multiple flattened tensors - one
+        # flattened tensor per group - for simplicity merge them into a single tensor
+        #
+        # XXX: could make the script more memory efficient for when there are multiple groups - it
+        # will require matching the sub-lists of param_shapes for each param group flattened tensor
+        fp32_flat_groups = [
+            torch.cat(state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key], 0) for i in range(len(state_dicts))
+        ]
+    return zero_stage, world_size, fp32_flat_groups
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+    model_files = get_model_state_files(ds_checkpoint_dir)
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states)
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        state_dict[name] = frozen_param_fragments[name]
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+            unpartitioned_numel = shape.numel()
+            total_numel += unpartitioned_numel
+            total_params += 1
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    _zero2_merge_frozen_params(state_dict, zero_model_states)
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = fp32_flat_groups[0].numel() * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    for name, shape in param_shapes.items():
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+        # XXX: memory usage doubles here
+        state_dict[name] = torch.cat(
+            tuple(fp32_flat_groups[i].narrow(0, offset, partitioned_numel) for i in range(world_size)),
+            0).narrow(0, 0, unpartitioned_numel).view(shape)
+        offset += partitioned_numel
+    offset *= world_size
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+    Returns:
+        - pytorch ``state_dict``
+    Note: this approach may not work if your application doesn't have sufficient free CPU memory and
+    you may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir)
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+    """
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+    print(f"Saving fp32 state dict to {output_file}")
+    torch.save(state_dict, output_file)
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+    Returns:
+        - ``model`: modified model
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    """
+    logger.info(f"Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+    logger.info(f"Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+    return model
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument(
+        "output_file",
+        type=str,
+        help="path to the pytorch fp32 state_dict output file (e.g. path/checkpoint-12/pytorch_model.bin)")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+    debug = args.debug
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir, args.output_file, tag=args.tag)