ZachSun commited on Apr 4, 2025

Commit

2dca5cc

verified ·

1 Parent(s): e6a6139

Upload folder using huggingface_hub

Browse files

Files changed (39) hide show

SFT/llava-gfn-sft-7b-1e5/added_tokens.json +6 -0
SFT/llava-gfn-sft-7b-1e5/config.json +199 -0
SFT/llava-gfn-sft-7b-1e5/generation_config.json +14 -0
SFT/llava-gfn-sft-7b-1e5/merges.txt +0 -0
SFT/llava-gfn-sft-7b-1e5/model-00001-of-00004.safetensors +3 -0
SFT/llava-gfn-sft-7b-1e5/model-00002-of-00004.safetensors +3 -0
SFT/llava-gfn-sft-7b-1e5/model-00003-of-00004.safetensors +3 -0
SFT/llava-gfn-sft-7b-1e5/model-00004-of-00004.safetensors +3 -0
SFT/llava-gfn-sft-7b-1e5/model.safetensors.index.json +772 -0
SFT/llava-gfn-sft-7b-1e5/preprocessor_config.json +24 -0
SFT/llava-gfn-sft-7b-1e5/special_tokens_map.json +20 -0
SFT/llava-gfn-sft-7b-1e5/tokenizer.json +0 -0
SFT/llava-gfn-sft-7b-1e5/tokenizer_config.json +53 -0
SFT/llava-gfn-sft-7b-1e5/trainer_state.json +0 -0
SFT/llava-gfn-sft-7b-1e5/training_args.bin +3 -0
SFT/llava-gfn-sft-7b-1e5/vocab.json +0 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/added_tokens.json +6 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/config.json +199 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/generation_config.json +14 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/merges.txt +0 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00001-of-00004.safetensors +3 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00002-of-00004.safetensors +3 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00003-of-00004.safetensors +3 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00004-of-00004.safetensors +3 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/model.safetensors.index.json +772 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/preprocessor_config.json +24 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/special_tokens_map.json +20 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/tokenizer.json +0 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/tokenizer_config.json +53 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/trainer_state.json +2725 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/training_args.bin +3 -0
SFT/llava-qwen-gfn-sft-7b-1e5-v2/vocab.json +0 -0
llava-gfn-7b-lora-v1.6/README.md +9 -0
llava-gfn-7b-lora-v1.6/adapter_config.json +215 -0
llava-gfn-7b-lora-v1.6/adapter_model.bin +3 -0
llava-gfn-7b-lora-v1.6/config.json +219 -0
llava-gfn-7b-lora-v1.6/generation_config.json +14 -0
llava-gfn-7b-lora-v1.6/non_lora_trainables.bin +3 -0
llava-gfn-7b-lora-v1.6/trainer_state.json +0 -0

SFT/llava-gfn-sft-7b-1e5/added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<image>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

SFT/llava-gfn-sft-7b-1e5/config.json ADDED Viewed

	@@ -0,0 +1,199 @@

+{
+  "_name_or_path": "/mnt/bn/vl-research/checkpoints/onevision/llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-mid_to_final_next_2p4m_am4",
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "mm_newline_position":"one_token",
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_index": 151646,
+  "image_aspect_ratio": "anyres_max_9",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": null,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "mm_hidden_size": 1152,
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": 2e-06,
+  "model_type": "llava",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pos_skipping_range": 4096,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_tower_pretrained": null,
+  "vocab_size": 152064
+}

SFT/llava-gfn-sft-7b-1e5/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.40.0.dev0"
+}

SFT/llava-gfn-sft-7b-1e5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-gfn-sft-7b-1e5/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11d22b157a121767aa92f97878c2437162312b850f7ffce3a45ee8e74119bd2d
+size 4877668032

SFT/llava-gfn-sft-7b-1e5/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d1ceb3e2be8f808207712c734ac4f43e96c7a0f31f7a98701f20d406914bb8b
+size 4932751008

SFT/llava-gfn-sft-7b-1e5/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7573230f78b475e74687b25334c9a0cc7ef1420c4c3cddcd5da914c29af041e
+size 4994571904

SFT/llava-gfn-sft-7b-1e5/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6cd63d2f79fd9f14a3634426a92282cd3c54ebbd76c0b590a8ecb7b35398f28
+size 1255812224

SFT/llava-gfn-sft-7b-1e5/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,772 @@

+{
+  "metadata": {
+    "total_size": 16060697664
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.image_newline": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.mm_projector.0.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.0.weight": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.weight": "model-00004-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "model-00004-of-00004.safetensors"
+  }
+}

SFT/llava-gfn-sft-7b-1e5/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "SiglipImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "LlavaProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 384,
+    "width": 384
+  }
+}

SFT/llava-gfn-sft-7b-1e5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

SFT/llava-gfn-sft-7b-1e5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-gfn-sft-7b-1e5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "LlavaProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

SFT/llava-gfn-sft-7b-1e5/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-gfn-sft-7b-1e5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32b77d084ea893ad395a52955acc0142b46612e86f8c423ce25215ba6db24ac3
+size 7608

SFT/llava-gfn-sft-7b-1e5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-qwen-gfn-sft-7b-1e5-v2/added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<image>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/config.json ADDED Viewed

	@@ -0,0 +1,199 @@

+{
+  "_name_or_path": "/mnt/bn/vl-research/checkpoints/onevision/llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-7B-Instruct-mid_to_final_next_2p4m_am4",
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "mm_newline_position":"one_token",
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_index": 151646,
+  "image_aspect_ratio": "anyres_max_9",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": null,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "mm_hidden_size": 1152,
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": 2e-06,
+  "model_type": "llava",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pos_skipping_range": 4096,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_tower_pretrained": null,
+  "vocab_size": 152064
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.40.0.dev0"
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6404ac5763c3db216930351f2bca750705a20a10a3e28e8c8f27b2e1347b08e
+size 4877668032

SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0122c6994ea07459f676ce1e1cbdd141f7c3c756c30c5b34068bfaf8672bba1
+size 4932751008

SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386e54b3b28108f9c7e21c5abef0a908242c43646900407951a831f7459d97e5
+size 4994571904

SFT/llava-qwen-gfn-sft-7b-1e5-v2/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1aa9c2448b689b4a50ed38ba5b79fe8d66bae005195d5c7f89b172914f56ce8
+size 1255812224

SFT/llava-qwen-gfn-sft-7b-1e5-v2/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,772 @@

+{
+  "metadata": {
+    "total_size": 16060697664
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.image_newline": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.mm_projector.0.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.0.weight": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.bias": "model-00004-of-00004.safetensors",
+    "model.mm_projector.2.weight": "model-00004-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "model-00004-of-00004.safetensors",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "model-00004-of-00004.safetensors"
+  }
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "SiglipImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "LlavaProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 384,
+    "width": 384
+  }
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

SFT/llava-qwen-gfn-sft-7b-1e5-v2/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "LlavaProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2725 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9998376886869015,
+  "eval_steps": 500,
+  "global_step": 385,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 10.645090560690313,
+      "learning_rate": 2.564102564102564e-07,
+      "loss": 1.786,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 10.922823425310655,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 1.8147,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 11.260925337545158,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 1.806,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 11.155717731087414,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 1.8238,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 10.21150145542909,
+      "learning_rate": 1.282051282051282e-06,
+      "loss": 1.7569,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 10.448910650546415,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 1.8413,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 10.633350370586841,
+      "learning_rate": 1.794871794871795e-06,
+      "loss": 1.8391,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 8.797121314520478,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 1.6968,
+      "step": 8
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 8.6146389473904,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 1.6908,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 6.76258717606951,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 1.488,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 6.598975651326265,
+      "learning_rate": 2.8205128205128207e-06,
+      "loss": 1.4997,
+      "step": 11
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 6.279003394859574,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 1.4412,
+      "step": 12
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 6.41467810793919,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.2343,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 5.032871039491842,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 1.1546,
+      "step": 14
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 4.15702829225593,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 1.1384,
+      "step": 15
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.712345010867075,
+      "learning_rate": 4.102564102564103e-06,
+      "loss": 1.0881,
+      "step": 16
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 6.134959849579691,
+      "learning_rate": 4.358974358974359e-06,
+      "loss": 1.0685,
+      "step": 17
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 2.93296582776538,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 1.0098,
+      "step": 18
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 2.6287530531607226,
+      "learning_rate": 4.871794871794872e-06,
+      "loss": 1.0603,
+      "step": 19
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.9085060088771997,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 1.0029,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.6697772972254352,
+      "learning_rate": 5.384615384615385e-06,
+      "loss": 0.9974,
+      "step": 21
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.5123782164915198,
+      "learning_rate": 5.641025641025641e-06,
+      "loss": 0.9908,
+      "step": 22
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.6794995046793224,
+      "learning_rate": 5.897435897435898e-06,
+      "loss": 0.9741,
+      "step": 23
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.4290175232682767,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.9182,
+      "step": 24
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.4413546959144246,
+      "learning_rate": 6.410256410256412e-06,
+      "loss": 0.9274,
+      "step": 25
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.2977328033698334,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.9262,
+      "step": 26
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.2809462460231997,
+      "learning_rate": 6.923076923076923e-06,
+      "loss": 0.9087,
+      "step": 27
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.4967803956879995,
+      "learning_rate": 7.17948717948718e-06,
+      "loss": 0.9392,
+      "step": 28
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.330923728771493,
+      "learning_rate": 7.435897435897437e-06,
+      "loss": 0.9352,
+      "step": 29
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.3577661586934975,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 0.9344,
+      "step": 30
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.214346138912293,
+      "learning_rate": 7.948717948717949e-06,
+      "loss": 0.9101,
+      "step": 31
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.146486372071905,
+      "learning_rate": 8.205128205128205e-06,
+      "loss": 0.8957,
+      "step": 32
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.4029972720683577,
+      "learning_rate": 8.461538461538462e-06,
+      "loss": 0.9235,
+      "step": 33
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.1935997540768803,
+      "learning_rate": 8.717948717948719e-06,
+      "loss": 0.9184,
+      "step": 34
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.1595441691115993,
+      "learning_rate": 8.974358974358976e-06,
+      "loss": 0.8953,
+      "step": 35
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.2534555337796351,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.8859,
+      "step": 36
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.5283641194607158,
+      "learning_rate": 9.487179487179487e-06,
+      "loss": 0.9163,
+      "step": 37
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.1465864665928125,
+      "learning_rate": 9.743589743589744e-06,
+      "loss": 0.8955,
+      "step": 38
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.1214035648457954,
+      "learning_rate": 1e-05,
+      "loss": 0.9054,
+      "step": 39
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2538618556238355,
+      "learning_rate": 9.999793896876868e-06,
+      "loss": 0.8667,
+      "step": 40
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.1122504391376267,
+      "learning_rate": 9.999175604498867e-06,
+      "loss": 0.8724,
+      "step": 41
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.195715651926434,
+      "learning_rate": 9.998145173838796e-06,
+      "loss": 0.9166,
+      "step": 42
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.255085994039387,
+      "learning_rate": 9.996702689846645e-06,
+      "loss": 0.8998,
+      "step": 43
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.2231961368863962,
+      "learning_rate": 9.994848271442595e-06,
+      "loss": 0.8718,
+      "step": 44
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.1570191003182189,
+      "learning_rate": 9.992582071507217e-06,
+      "loss": 0.8721,
+      "step": 45
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.024932380345876,
+      "learning_rate": 9.989904276868865e-06,
+      "loss": 0.8671,
+      "step": 46
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.1705877585250373,
+      "learning_rate": 9.986815108288273e-06,
+      "loss": 0.8425,
+      "step": 47
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.153948638305379,
+      "learning_rate": 9.98331482044036e-06,
+      "loss": 0.894,
+      "step": 48
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.1228350379753635,
+      "learning_rate": 9.979403701893226e-06,
+      "loss": 0.8892,
+      "step": 49
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.1114165399122475,
+      "learning_rate": 9.975082075084375e-06,
+      "loss": 0.8691,
+      "step": 50
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.1719893919752145,
+      "learning_rate": 9.970350296294114e-06,
+      "loss": 0.8789,
+      "step": 51
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.2816681702517676,
+      "learning_rate": 9.9652087556162e-06,
+      "loss": 0.8721,
+      "step": 52
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.162747612059093,
+      "learning_rate": 9.959657876925671e-06,
+      "loss": 0.8753,
+      "step": 53
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.241871579681012,
+      "learning_rate": 9.9536981178439e-06,
+      "loss": 0.9027,
+      "step": 54
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.1923191417941057,
+      "learning_rate": 9.94732996970087e-06,
+      "loss": 0.8754,
+      "step": 55
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.052843782942063,
+      "learning_rate": 9.940553957494669e-06,
+      "loss": 0.8785,
+      "step": 56
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.1321147061932237,
+      "learning_rate": 9.93337063984821e-06,
+      "loss": 0.866,
+      "step": 57
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.1490991846016418,
+      "learning_rate": 9.925780608963173e-06,
+      "loss": 0.8838,
+      "step": 58
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.1929628621346853,
+      "learning_rate": 9.917784490571188e-06,
+      "loss": 0.8749,
+      "step": 59
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.1312569705315927,
+      "learning_rate": 9.909382943882238e-06,
+      "loss": 0.8995,
+      "step": 60
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.1198059137342558,
+      "learning_rate": 9.900576661530334e-06,
+      "loss": 0.8685,
+      "step": 61
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.1346035187242918,
+      "learning_rate": 9.89136636951639e-06,
+      "loss": 0.89,
+      "step": 62
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.1164231728952478,
+      "learning_rate": 9.881752827148391e-06,
+      "loss": 0.8568,
+      "step": 63
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1653020298106718,
+      "learning_rate": 9.871736826978776e-06,
+      "loss": 0.8674,
+      "step": 64
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1840723157155741,
+      "learning_rate": 9.861319194739109e-06,
+      "loss": 0.886,
+      "step": 65
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1156849144073309,
+      "learning_rate": 9.85050078927201e-06,
+      "loss": 0.8578,
+      "step": 66
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.1968236420075926,
+      "learning_rate": 9.83928250246034e-06,
+      "loss": 0.8421,
+      "step": 67
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.17366365587945,
+      "learning_rate": 9.82766525915368e-06,
+      "loss": 0.8712,
+      "step": 68
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.1991990665989887,
+      "learning_rate": 9.815650017092078e-06,
+      "loss": 0.8245,
+      "step": 69
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.0956560049509259,
+      "learning_rate": 9.803237766827098e-06,
+      "loss": 0.9011,
+      "step": 70
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.0183252312669984,
+      "learning_rate": 9.790429531640163e-06,
+      "loss": 0.8592,
+      "step": 71
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.1741339027340338,
+      "learning_rate": 9.77722636745818e-06,
+      "loss": 0.8873,
+      "step": 72
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.163824634855856,
+      "learning_rate": 9.763629362766495e-06,
+      "loss": 0.8811,
+      "step": 73
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.0042781226465336,
+      "learning_rate": 9.749639638519167e-06,
+      "loss": 0.8502,
+      "step": 74
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.0788716436480301,
+      "learning_rate": 9.735258348046538e-06,
+      "loss": 0.8933,
+      "step": 75
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.9846347078124983,
+      "learning_rate": 9.720486676960157e-06,
+      "loss": 0.8486,
+      "step": 76
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.1286483242253718,
+      "learning_rate": 9.705325843055045e-06,
+      "loss": 0.8445,
+      "step": 77
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.082259146149871,
+      "learning_rate": 9.689777096209287e-06,
+      "loss": 0.8613,
+      "step": 78
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.232859946768578,
+      "learning_rate": 9.673841718281e-06,
+      "loss": 0.8585,
+      "step": 79
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.1759676813255335,
+      "learning_rate": 9.657521023002644e-06,
+      "loss": 0.8457,
+      "step": 80
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.1108414473786936,
+      "learning_rate": 9.64081635587273e-06,
+      "loss": 0.8409,
+      "step": 81
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.1206666358419353,
+      "learning_rate": 9.623729094044882e-06,
+      "loss": 0.8628,
+      "step": 82
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.0342772527667092,
+      "learning_rate": 9.606260646214314e-06,
+      "loss": 0.8226,
+      "step": 83
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.019890311504681,
+      "learning_rate": 9.588412452501686e-06,
+      "loss": 0.8706,
+      "step": 84
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.0458698588312527,
+      "learning_rate": 9.570185984334383e-06,
+      "loss": 0.8438,
+      "step": 85
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.9878952844102186,
+      "learning_rate": 9.551582744325213e-06,
+      "loss": 0.8134,
+      "step": 86
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.9996484746065841,
+      "learning_rate": 9.532604266148521e-06,
+      "loss": 0.8673,
+      "step": 87
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.022493747447576,
+      "learning_rate": 9.513252114413756e-06,
+      "loss": 0.8306,
+      "step": 88
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.1584158983907924,
+      "learning_rate": 9.493527884536487e-06,
+      "loss": 0.8511,
+      "step": 89
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.170057032515913,
+      "learning_rate": 9.473433202606859e-06,
+      "loss": 0.8464,
+      "step": 90
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.0675468547506324,
+      "learning_rate": 9.452969725255558e-06,
+      "loss": 0.8431,
+      "step": 91
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.1729276242795883,
+      "learning_rate": 9.432139139517222e-06,
+      "loss": 0.8379,
+      "step": 92
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.1303288928598827,
+      "learning_rate": 9.410943162691359e-06,
+      "loss": 0.8603,
+      "step": 93
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.0879789014025947,
+      "learning_rate": 9.389383542200779e-06,
+      "loss": 0.8506,
+      "step": 94
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.076974972869484,
+      "learning_rate": 9.367462055447528e-06,
+      "loss": 0.8384,
+      "step": 95
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.0548247183065795,
+      "learning_rate": 9.34518050966636e-06,
+      "loss": 0.8478,
+      "step": 96
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.1529994201349794,
+      "learning_rate": 9.322540741775745e-06,
+      "loss": 0.8515,
+      "step": 97
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.1615887825392368,
+      "learning_rate": 9.299544618226428e-06,
+      "loss": 0.8487,
+      "step": 98
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.0587213661547468,
+      "learning_rate": 9.276194034847565e-06,
+      "loss": 0.818,
+      "step": 99
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.0499984347115592,
+      "learning_rate": 9.252490916690422e-06,
+      "loss": 0.857,
+      "step": 100
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.1115337543203883,
+      "learning_rate": 9.228437217869668e-06,
+      "loss": 0.8318,
+      "step": 101
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.1835633603330102,
+      "learning_rate": 9.204034921402282e-06,
+      "loss": 0.8274,
+      "step": 102
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.1113915691891145,
+      "learning_rate": 9.179286039044072e-06,
+      "loss": 0.8557,
+      "step": 103
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.1981590571237482,
+      "learning_rate": 9.15419261112382e-06,
+      "loss": 0.8591,
+      "step": 104
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.1535212671138686,
+      "learning_rate": 9.128756706375065e-06,
+      "loss": 0.8584,
+      "step": 105
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.0141427515197106,
+      "learning_rate": 9.102980421765575e-06,
+      "loss": 0.8356,
+      "step": 106
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.1328969469932544,
+      "learning_rate": 9.076865882324453e-06,
+      "loss": 0.8668,
+      "step": 107
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.007871098860175,
+      "learning_rate": 9.050415240966953e-06,
+      "loss": 0.8384,
+      "step": 108
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.0294459300621315,
+      "learning_rate": 9.023630678316994e-06,
+      "loss": 0.8575,
+      "step": 109
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.1666470463981296,
+      "learning_rate": 8.996514402527383e-06,
+      "loss": 0.8427,
+      "step": 110
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.0371792500186454,
+      "learning_rate": 8.969068649097766e-06,
+      "loss": 0.8347,
+      "step": 111
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.1429739186832262,
+      "learning_rate": 8.941295680690347e-06,
+      "loss": 0.8527,
+      "step": 112
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.0818276124369486,
+      "learning_rate": 8.913197786943335e-06,
+      "loss": 0.8433,
+      "step": 113
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.094045495549675,
+      "learning_rate": 8.884777284282193e-06,
+      "loss": 0.8208,
+      "step": 114
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.0384680869903256,
+      "learning_rate": 8.856036515728666e-06,
+      "loss": 0.8386,
+      "step": 115
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.0254090329074736,
+      "learning_rate": 8.826977850707612e-06,
+      "loss": 0.8616,
+      "step": 116
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.286999452648143,
+      "learning_rate": 8.797603684851685e-06,
+      "loss": 0.8434,
+      "step": 117
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.0864920271818805,
+      "learning_rate": 8.767916439803808e-06,
+      "loss": 0.8483,
+      "step": 118
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.9980507687877272,
+      "learning_rate": 8.737918563017553e-06,
+      "loss": 0.836,
+      "step": 119
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.0102385272398282,
+      "learning_rate": 8.707612527555356e-06,
+      "loss": 0.7936,
+      "step": 120
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.0313763105609022,
+      "learning_rate": 8.677000831884639e-06,
+      "loss": 0.7925,
+      "step": 121
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.163935783715382,
+      "learning_rate": 8.646085999671838e-06,
+      "loss": 0.8725,
+      "step": 122
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.0590488905185638,
+      "learning_rate": 8.614870579574338e-06,
+      "loss": 0.826,
+      "step": 123
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.0719645971968195,
+      "learning_rate": 8.58335714503037e-06,
+      "loss": 0.8407,
+      "step": 124
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.0942770851140178,
+      "learning_rate": 8.551548294046843e-06,
+      "loss": 0.8396,
+      "step": 125
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.2106095242021861,
+      "learning_rate": 8.519446648985173e-06,
+      "loss": 0.8536,
+      "step": 126
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.0219069986744422,
+      "learning_rate": 8.487054856345081e-06,
+      "loss": 0.8397,
+      "step": 127
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.1400167138717965,
+      "learning_rate": 8.454375586546418e-06,
+      "loss": 0.8266,
+      "step": 128
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.0537145615278696,
+      "learning_rate": 8.42141153370901e-06,
+      "loss": 0.8741,
+      "step": 129
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.0631221504845774,
+      "learning_rate": 8.388165415430551e-06,
+      "loss": 0.8198,
+      "step": 130
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.012496663042579,
+      "learning_rate": 8.35463997256257e-06,
+      "loss": 0.8438,
+      "step": 131
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.1428105511640894,
+      "learning_rate": 8.320837968984456e-06,
+      "loss": 0.8627,
+      "step": 132
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.1158283009146555,
+      "learning_rate": 8.28676219137561e-06,
+      "loss": 0.8415,
+      "step": 133
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.0106334656527949,
+      "learning_rate": 8.25241544898571e-06,
+      "loss": 0.8463,
+      "step": 134
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.103615024091109,
+      "learning_rate": 8.217800573403105e-06,
+      "loss": 0.8537,
+      "step": 135
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.9685986838480524,
+      "learning_rate": 8.18292041832138e-06,
+      "loss": 0.8232,
+      "step": 136
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.0796913832580546,
+      "learning_rate": 8.147777859304095e-06,
+      "loss": 0.8333,
+      "step": 137
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.10358304437412,
+      "learning_rate": 8.112375793547718e-06,
+      "loss": 0.8559,
+      "step": 138
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.104838120250904,
+      "learning_rate": 8.076717139642775e-06,
+      "loss": 0.8418,
+      "step": 139
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.0244017986654048,
+      "learning_rate": 8.040804837333243e-06,
+      "loss": 0.8314,
+      "step": 140
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.0519447150079682,
+      "learning_rate": 8.004641847274182e-06,
+      "loss": 0.8425,
+      "step": 141
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.066060479702244,
+      "learning_rate": 7.968231150787674e-06,
+      "loss": 0.8026,
+      "step": 142
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.0670947489814495,
+      "learning_rate": 7.931575749617027e-06,
+      "loss": 0.8352,
+      "step": 143
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.041174777055989,
+      "learning_rate": 7.894678665679298e-06,
+      "loss": 0.8356,
+      "step": 144
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.0198211780733772,
+      "learning_rate": 7.857542940816183e-06,
+      "loss": 0.8187,
+      "step": 145
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.0744405611924253,
+      "learning_rate": 7.820171636543233e-06,
+      "loss": 0.8256,
+      "step": 146
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.08235254148297,
+      "learning_rate": 7.782567833797458e-06,
+      "loss": 0.8359,
+      "step": 147
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.0379771004612057,
+      "learning_rate": 7.744734632683332e-06,
+      "loss": 0.8362,
+      "step": 148
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.1409821000007052,
+      "learning_rate": 7.70667515221722e-06,
+      "loss": 0.8468,
+      "step": 149
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.025783437786526,
+      "learning_rate": 7.668392530070238e-06,
+      "loss": 0.8329,
+      "step": 150
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.0116858577666505,
+      "learning_rate": 7.629889922309576e-06,
+      "loss": 0.8222,
+      "step": 151
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.072350405189296,
+      "learning_rate": 7.5911705031383235e-06,
+      "loss": 0.8501,
+      "step": 152
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.0417686905904924,
+      "learning_rate": 7.55223746463376e-06,
+      "loss": 0.8473,
+      "step": 153
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.0435404624370455,
+      "learning_rate": 7.513094016484225e-06,
+      "loss": 0.834,
+      "step": 154
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.002141223430719,
+      "learning_rate": 7.473743385724478e-06,
+      "loss": 0.8049,
+      "step": 155
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.1365539184615783,
+      "learning_rate": 7.434188816469681e-06,
+      "loss": 0.8334,
+      "step": 156
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.0524778391031966,
+      "learning_rate": 7.394433569647935e-06,
+      "loss": 0.8567,
+      "step": 157
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.050498247787411,
+      "learning_rate": 7.354480922731454e-06,
+      "loss": 0.8447,
+      "step": 158
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.0558722933654472,
+      "learning_rate": 7.3143341694663604e-06,
+      "loss": 0.8057,
+      "step": 159
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.109117220156219,
+      "learning_rate": 7.273996619601146e-06,
+      "loss": 0.8398,
+      "step": 160
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.2363535543444497,
+      "learning_rate": 7.233471598613815e-06,
+      "loss": 0.8325,
+      "step": 161
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.1785654546362665,
+      "learning_rate": 7.192762447437722e-06,
+      "loss": 0.8579,
+      "step": 162
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.0545934885909738,
+      "learning_rate": 7.151872522186147e-06,
+      "loss": 0.845,
+      "step": 163
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.0200020919073924,
+      "learning_rate": 7.110805193875607e-06,
+      "loss": 0.8343,
+      "step": 164
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.0031947665806151,
+      "learning_rate": 7.0695638481479565e-06,
+      "loss": 0.835,
+      "step": 165
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.0322262651281244,
+      "learning_rate": 7.028151884991254e-06,
+      "loss": 0.8418,
+      "step": 166
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.0952004481215825,
+      "learning_rate": 6.986572718459479e-06,
+      "loss": 0.8203,
+      "step": 167
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.062552686613025,
+      "learning_rate": 6.94482977639106e-06,
+      "loss": 0.8093,
+      "step": 168
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.1461809518769943,
+      "learning_rate": 6.902926500126292e-06,
+      "loss": 0.8572,
+      "step": 169
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.0868808367428973,
+      "learning_rate": 6.8608663442236156e-06,
+      "loss": 0.8329,
+      "step": 170
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.0388716668459408,
+      "learning_rate": 6.818652776174828e-06,
+      "loss": 0.816,
+      "step": 171
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.0716246030432413,
+      "learning_rate": 6.776289276119214e-06,
+      "loss": 0.7986,
+      "step": 172
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.014350012258474,
+      "learning_rate": 6.733779336556643e-06,
+      "loss": 0.8214,
+      "step": 173
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.0070837285339016,
+      "learning_rate": 6.691126462059636e-06,
+      "loss": 0.8378,
+      "step": 174
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.0423377445748558,
+      "learning_rate": 6.648334168984452e-06,
+      "loss": 0.7975,
+      "step": 175
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.0139906727764747,
+      "learning_rate": 6.60540598518119e-06,
+      "loss": 0.8463,
+      "step": 176
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.0222583426208525,
+      "learning_rate": 6.562345449702952e-06,
+      "loss": 0.8203,
+      "step": 177
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.1387143130864081,
+      "learning_rate": 6.519156112514074e-06,
+      "loss": 0.8215,
+      "step": 178
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.0315298446841912,
+      "learning_rate": 6.4758415341974705e-06,
+      "loss": 0.8112,
+      "step": 179
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.0718636935926045,
+      "learning_rate": 6.432405285661087e-06,
+      "loss": 0.8294,
+      "step": 180
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.9438841237684651,
+      "learning_rate": 6.388850947843517e-06,
+      "loss": 0.8302,
+      "step": 181
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.019837071023025,
+      "learning_rate": 6.345182111418781e-06,
+      "loss": 0.7991,
+      "step": 182
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.9782062066325998,
+      "learning_rate": 6.301402376500306e-06,
+      "loss": 0.8181,
+      "step": 183
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.0532851281174689,
+      "learning_rate": 6.257515352344131e-06,
+      "loss": 0.8324,
+      "step": 184
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.1184606743853016,
+      "learning_rate": 6.213524657051354e-06,
+      "loss": 0.8323,
+      "step": 185
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.108463179826496,
+      "learning_rate": 6.16943391726985e-06,
+      "loss": 0.8394,
+      "step": 186
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.0898093891534766,
+      "learning_rate": 6.125246767895287e-06,
+      "loss": 0.8456,
+      "step": 187
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.1282833816490465,
+      "learning_rate": 6.0809668517714615e-06,
+      "loss": 0.8222,
+      "step": 188
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.1474703322918396,
+      "learning_rate": 6.036597819389972e-06,
+      "loss": 0.8478,
+      "step": 189
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.099981455797793,
+      "learning_rate": 5.992143328589282e-06,
+      "loss": 0.8229,
+      "step": 190
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.0821200204964139,
+      "learning_rate": 5.947607044253142e-06,
+      "loss": 0.8246,
+      "step": 191
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.0722962144513195,
+      "learning_rate": 5.902992638008475e-06,
+      "loss": 0.8068,
+      "step": 192
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.053703096982058,
+      "learning_rate": 5.858303787922663e-06,
+      "loss": 0.8204,
+      "step": 193
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.1416964977752182,
+      "learning_rate": 5.8135441782003354e-06,
+      "loss": 0.8404,
+      "step": 194
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.9226964467724353,
+      "learning_rate": 5.768717498879635e-06,
+      "loss": 0.8176,
+      "step": 195
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.9767280227086024,
+      "learning_rate": 5.723827445528003e-06,
+      "loss": 0.8476,
+      "step": 196
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.0011172607551568,
+      "learning_rate": 5.67887771893752e-06,
+      "loss": 0.8302,
+      "step": 197
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.0309423113793386,
+      "learning_rate": 5.633872024819796e-06,
+      "loss": 0.846,
+      "step": 198
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.0142499783683057,
+      "learning_rate": 5.588814073500481e-06,
+      "loss": 0.8619,
+      "step": 199
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.0066640568254182,
+      "learning_rate": 5.543707579613367e-06,
+      "loss": 0.8167,
+      "step": 200
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.9574460878268863,
+      "learning_rate": 5.498556261794161e-06,
+      "loss": 0.7933,
+      "step": 201
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.9783873199697145,
+      "learning_rate": 5.45336384237391e-06,
+      "loss": 0.8311,
+      "step": 202
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.9507927737717238,
+      "learning_rate": 5.4081340470721286e-06,
+      "loss": 0.8246,
+      "step": 203
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.9968162112322938,
+      "learning_rate": 5.362870604689643e-06,
+      "loss": 0.8057,
+      "step": 204
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.008808321063411,
+      "learning_rate": 5.31757724680119e-06,
+      "loss": 0.815,
+      "step": 205
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.0019693358892034,
+      "learning_rate": 5.272257707447776e-06,
+      "loss": 0.8211,
+      "step": 206
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.9724574681044584,
+      "learning_rate": 5.22691572282884e-06,
+      "loss": 0.8311,
+      "step": 207
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.9408741782057447,
+      "learning_rate": 5.18155503099424e-06,
+      "loss": 0.8148,
+      "step": 208
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.9706437498594803,
+      "learning_rate": 5.136179371536076e-06,
+      "loss": 0.8043,
+      "step": 209
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.0692154713574062,
+      "learning_rate": 5.090792485280401e-06,
+      "loss": 0.8086,
+      "step": 210
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.128829315831617,
+      "learning_rate": 5.045398113978816e-06,
+      "loss": 0.8136,
+      "step": 211
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.040189826579806,
+      "learning_rate": 5e-06,
+      "loss": 0.8299,
+      "step": 212
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.03537266177905,
+      "learning_rate": 4.9546018860211845e-06,
+      "loss": 0.8479,
+      "step": 213
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.0202672830776789,
+      "learning_rate": 4.9092075147196005e-06,
+      "loss": 0.8296,
+      "step": 214
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.022020812270585,
+      "learning_rate": 4.863820628463925e-06,
+      "loss": 0.7997,
+      "step": 215
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.11477784988543,
+      "learning_rate": 4.818444969005762e-06,
+      "loss": 0.7929,
+      "step": 216
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.0017163682804535,
+      "learning_rate": 4.773084277171161e-06,
+      "loss": 0.8221,
+      "step": 217
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.0530645787704909,
+      "learning_rate": 4.727742292552225e-06,
+      "loss": 0.8214,
+      "step": 218
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.0935147811403019,
+      "learning_rate": 4.682422753198812e-06,
+      "loss": 0.7847,
+      "step": 219
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.1132317442026654,
+      "learning_rate": 4.637129395310359e-06,
+      "loss": 0.8088,
+      "step": 220
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.0328361895001767,
+      "learning_rate": 4.591865952927873e-06,
+      "loss": 0.8366,
+      "step": 221
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.0245105984002667,
+      "learning_rate": 4.546636157626091e-06,
+      "loss": 0.8294,
+      "step": 222
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.0640615321090316,
+      "learning_rate": 4.501443738205841e-06,
+      "loss": 0.793,
+      "step": 223
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.1995048018500167,
+      "learning_rate": 4.456292420386635e-06,
+      "loss": 0.8321,
+      "step": 224
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.0173768129881602,
+      "learning_rate": 4.41118592649952e-06,
+      "loss": 0.7974,
+      "step": 225
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.9470450806563903,
+      "learning_rate": 4.366127975180204e-06,
+      "loss": 0.8094,
+      "step": 226
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.1481517016028588,
+      "learning_rate": 4.321122281062481e-06,
+      "loss": 0.8235,
+      "step": 227
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.2076864038873152,
+      "learning_rate": 4.276172554471998e-06,
+      "loss": 0.7972,
+      "step": 228
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.0626760307744507,
+      "learning_rate": 4.231282501120366e-06,
+      "loss": 0.8339,
+      "step": 229
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.0430332010072427,
+      "learning_rate": 4.1864558217996645e-06,
+      "loss": 0.8394,
+      "step": 230
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.052634280013267,
+      "learning_rate": 4.14169621207734e-06,
+      "loss": 0.8046,
+      "step": 231
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.044617212276496,
+      "learning_rate": 4.0970073619915264e-06,
+      "loss": 0.8529,
+      "step": 232
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.9650141090004808,
+      "learning_rate": 4.05239295574686e-06,
+      "loss": 0.7899,
+      "step": 233
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.9599605412878077,
+      "learning_rate": 4.00785667141072e-06,
+      "loss": 0.819,
+      "step": 234
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.0633825246037856,
+      "learning_rate": 3.963402180610028e-06,
+      "loss": 0.8192,
+      "step": 235
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.0808586957846344,
+      "learning_rate": 3.919033148228542e-06,
+      "loss": 0.8287,
+      "step": 236
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.0325560783580165,
+      "learning_rate": 3.874753232104714e-06,
+      "loss": 0.8257,
+      "step": 237
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.0219277146970511,
+      "learning_rate": 3.830566082730151e-06,
+      "loss": 0.8058,
+      "step": 238
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.0340494865234193,
+      "learning_rate": 3.7864753429486475e-06,
+      "loss": 0.8364,
+      "step": 239
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.0835926578348551,
+      "learning_rate": 3.7424846476558716e-06,
+      "loss": 0.7768,
+      "step": 240
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.9709868891062199,
+      "learning_rate": 3.6985976234996957e-06,
+      "loss": 0.8154,
+      "step": 241
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.1079442252514986,
+      "learning_rate": 3.6548178885812203e-06,
+      "loss": 0.7958,
+      "step": 242
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.022283699008022,
+      "learning_rate": 3.611149052156483e-06,
+      "loss": 0.8202,
+      "step": 243
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.9726995993295015,
+      "learning_rate": 3.5675947143389144e-06,
+      "loss": 0.7983,
+      "step": 244
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.9935914796172095,
+      "learning_rate": 3.524158465802531e-06,
+      "loss": 0.8195,
+      "step": 245
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.9491337537322123,
+      "learning_rate": 3.4808438874859274e-06,
+      "loss": 0.8393,
+      "step": 246
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.9612774170395247,
+      "learning_rate": 3.437654550297049e-06,
+      "loss": 0.8524,
+      "step": 247
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.0497122835456796,
+      "learning_rate": 3.3945940148188117e-06,
+      "loss": 0.8236,
+      "step": 248
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.0489704356453404,
+      "learning_rate": 3.3516658310155493e-06,
+      "loss": 0.7986,
+      "step": 249
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.9460015388198919,
+      "learning_rate": 3.3088735379403648e-06,
+      "loss": 0.8069,
+      "step": 250
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.9574886956487254,
+      "learning_rate": 3.266220663443358e-06,
+      "loss": 0.8268,
+      "step": 251
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.9862416818274036,
+      "learning_rate": 3.223710723880786e-06,
+      "loss": 0.8287,
+      "step": 252
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.968721574413356,
+      "learning_rate": 3.1813472238251742e-06,
+      "loss": 0.8285,
+      "step": 253
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.0788044565501653,
+      "learning_rate": 3.139133655776386e-06,
+      "loss": 0.8132,
+      "step": 254
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.9400352428133055,
+      "learning_rate": 3.0970734998737095e-06,
+      "loss": 0.8247,
+      "step": 255
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.0393188762706214,
+      "learning_rate": 3.055170223608941e-06,
+      "loss": 0.8271,
+      "step": 256
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.9660212535452861,
+      "learning_rate": 3.013427281540523e-06,
+      "loss": 0.8094,
+      "step": 257
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.9757032593696663,
+      "learning_rate": 2.9718481150087475e-06,
+      "loss": 0.7903,
+      "step": 258
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.0086115551633221,
+      "learning_rate": 2.9304361518520447e-06,
+      "loss": 0.8172,
+      "step": 259
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.989738979504962,
+      "learning_rate": 2.8891948061243925e-06,
+      "loss": 0.8381,
+      "step": 260
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.9753521307971087,
+      "learning_rate": 2.8481274778138567e-06,
+      "loss": 0.8309,
+      "step": 261
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.1120968732271503,
+      "learning_rate": 2.80723755256228e-06,
+      "loss": 0.852,
+      "step": 262
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.031282942937047,
+      "learning_rate": 2.766528401386187e-06,
+      "loss": 0.8195,
+      "step": 263
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.0379869232052734,
+      "learning_rate": 2.726003380398854e-06,
+      "loss": 0.8421,
+      "step": 264
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.900251224441054,
+      "learning_rate": 2.685665830533642e-06,
+      "loss": 0.8297,
+      "step": 265
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.0553261880305636,
+      "learning_rate": 2.6455190772685463e-06,
+      "loss": 0.8115,
+      "step": 266
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.9868888026448938,
+      "learning_rate": 2.6055664303520655e-06,
+      "loss": 0.8333,
+      "step": 267
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.9437980067745518,
+      "learning_rate": 2.5658111835303206e-06,
+      "loss": 0.8069,
+      "step": 268
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.021589692240638,
+      "learning_rate": 2.526256614275524e-06,
+      "loss": 0.802,
+      "step": 269
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.981959243228927,
+      "learning_rate": 2.486905983515778e-06,
+      "loss": 0.8249,
+      "step": 270
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.9597232742595824,
+      "learning_rate": 2.44776253536624e-06,
+      "loss": 0.847,
+      "step": 271
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.0226349791443865,
+      "learning_rate": 2.408829496861679e-06,
+      "loss": 0.8046,
+      "step": 272
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.0469904137461847,
+      "learning_rate": 2.370110077690425e-06,
+      "loss": 0.8217,
+      "step": 273
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.9570065733628318,
+      "learning_rate": 2.331607469929765e-06,
+      "loss": 0.8192,
+      "step": 274
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.9653902147567945,
+      "learning_rate": 2.2933248477827814e-06,
+      "loss": 0.829,
+      "step": 275
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.9769076992135083,
+      "learning_rate": 2.2552653673166676e-06,
+      "loss": 0.8188,
+      "step": 276
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.010444664507908,
+      "learning_rate": 2.2174321662025427e-06,
+      "loss": 0.8147,
+      "step": 277
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.0120074704672208,
+      "learning_rate": 2.179828363456768e-06,
+      "loss": 0.799,
+      "step": 278
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.0051779304470352,
+      "learning_rate": 2.1424570591838184e-06,
+      "loss": 0.8173,
+      "step": 279
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.0148364761544526,
+      "learning_rate": 2.1053213343207045e-06,
+      "loss": 0.8206,
+      "step": 280
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.9474572269410544,
+      "learning_rate": 2.068424250382974e-06,
+      "loss": 0.8394,
+      "step": 281
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.9773665825958866,
+      "learning_rate": 2.031768849212326e-06,
+      "loss": 0.8146,
+      "step": 282
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.021569715780096,
+      "learning_rate": 1.995358152725818e-06,
+      "loss": 0.8323,
+      "step": 283
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.9122264582520487,
+      "learning_rate": 1.959195162666759e-06,
+      "loss": 0.8066,
+      "step": 284
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.9629095392168907,
+      "learning_rate": 1.9232828603572255e-06,
+      "loss": 0.8122,
+      "step": 285
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.0583999862056972,
+      "learning_rate": 1.8876242064522833e-06,
+      "loss": 0.8195,
+      "step": 286
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.9511437339633138,
+      "learning_rate": 1.8522221406959063e-06,
+      "loss": 0.8155,
+      "step": 287
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.9937133063311345,
+      "learning_rate": 1.8170795816786202e-06,
+      "loss": 0.8273,
+      "step": 288
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.9827183303111887,
+      "learning_rate": 1.7821994265968962e-06,
+      "loss": 0.8238,
+      "step": 289
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.0269125628981877,
+      "learning_rate": 1.747584551014291e-06,
+      "loss": 0.8299,
+      "step": 290
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.00250011642435,
+      "learning_rate": 1.7132378086243907e-06,
+      "loss": 0.7981,
+      "step": 291
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.9422252949860735,
+      "learning_rate": 1.679162031015546e-06,
+      "loss": 0.8221,
+      "step": 292
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.0325379170061553,
+      "learning_rate": 1.64536002743743e-06,
+      "loss": 0.8437,
+      "step": 293
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.0001251757851062,
+      "learning_rate": 1.6118345845694489e-06,
+      "loss": 0.8179,
+      "step": 294
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.9369030490657534,
+      "learning_rate": 1.5785884662909917e-06,
+      "loss": 0.798,
+      "step": 295
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.04052896634377,
+      "learning_rate": 1.5456244134535836e-06,
+      "loss": 0.8204,
+      "step": 296
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.0314995587401594,
+      "learning_rate": 1.5129451436549203e-06,
+      "loss": 0.8222,
+      "step": 297
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.9382933527490501,
+      "learning_rate": 1.4805533510148268e-06,
+      "loss": 0.8099,
+      "step": 298
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.9641563919245099,
+      "learning_rate": 1.4484517059531588e-06,
+      "loss": 0.8187,
+      "step": 299
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.995227322891579,
+      "learning_rate": 1.416642854969632e-06,
+      "loss": 0.8402,
+      "step": 300
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.017211093328047,
+      "learning_rate": 1.3851294204256638e-06,
+      "loss": 0.8088,
+      "step": 301
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.9490298197374742,
+      "learning_rate": 1.3539140003281647e-06,
+      "loss": 0.8373,
+      "step": 302
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.9989718085201104,
+      "learning_rate": 1.3229991681153632e-06,
+      "loss": 0.8121,
+      "step": 303
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.9674532243814277,
+      "learning_rate": 1.2923874724446472e-06,
+      "loss": 0.8356,
+      "step": 304
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.009241739829761,
+      "learning_rate": 1.262081436982448e-06,
+      "loss": 0.7785,
+      "step": 305
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.9488070727507578,
+      "learning_rate": 1.2320835601961928e-06,
+      "loss": 0.8367,
+      "step": 306
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.0095294136336723,
+      "learning_rate": 1.2023963151483165e-06,
+      "loss": 0.8353,
+      "step": 307
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.9758262538778812,
+      "learning_rate": 1.1730221492923882e-06,
+      "loss": 0.8003,
+      "step": 308
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.9858909626981726,
+      "learning_rate": 1.1439634842713371e-06,
+      "loss": 0.8232,
+      "step": 309
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.9860349110623672,
+      "learning_rate": 1.115222715717807e-06,
+      "loss": 0.817,
+      "step": 310
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.0420962567854228,
+      "learning_rate": 1.0868022130566652e-06,
+      "loss": 0.8211,
+      "step": 311
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.0462596975894596,
+      "learning_rate": 1.0587043193096535e-06,
+      "loss": 0.8111,
+      "step": 312
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.9561904698895933,
+      "learning_rate": 1.030931350902235e-06,
+      "loss": 0.8108,
+      "step": 313
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.0001005461546686,
+      "learning_rate": 1.0034855974726194e-06,
+      "loss": 0.813,
+      "step": 314
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.06061427959131,
+      "learning_rate": 9.763693216830055e-07,
+      "loss": 0.8235,
+      "step": 315
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.9588554010655471,
+      "learning_rate": 9.495847590330486e-07,
+      "loss": 0.7981,
+      "step": 316
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.0197557585012047,
+      "learning_rate": 9.231341176755487e-07,
+      "loss": 0.8644,
+      "step": 317
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.0150478041160333,
+      "learning_rate": 8.970195782344266e-07,
+      "loss": 0.8236,
+      "step": 318
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.996924661363441,
+      "learning_rate": 8.712432936249365e-07,
+      "loss": 0.8177,
+      "step": 319
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.9337911299511088,
+      "learning_rate": 8.458073888761826e-07,
+      "loss": 0.82,
+      "step": 320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.9509295546704207,
+      "learning_rate": 8.207139609559284e-07,
+      "loss": 0.832,
+      "step": 321
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.0361050470593351,
+      "learning_rate": 7.959650785977179e-07,
+      "loss": 0.8084,
+      "step": 322
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.9351448470582641,
+      "learning_rate": 7.71562782130334e-07,
+      "loss": 0.8004,
+      "step": 323
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.9181725917062554,
+      "learning_rate": 7.475090833095799e-07,
+      "loss": 0.8041,
+      "step": 324
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.9203211561068005,
+      "learning_rate": 7.238059651524354e-07,
+      "loss": 0.8285,
+      "step": 325
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.9383314735327286,
+      "learning_rate": 7.004553817735732e-07,
+      "loss": 0.7654,
+      "step": 326
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.98642440090227,
+      "learning_rate": 6.774592582242567e-07,
+      "loss": 0.8004,
+      "step": 327
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.8562256679680165,
+      "learning_rate": 6.548194903336408e-07,
+      "loss": 0.7796,
+      "step": 328
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.9731975269301998,
+      "learning_rate": 6.325379445524732e-07,
+      "loss": 0.858,
+      "step": 329
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.9501224998179871,
+      "learning_rate": 6.106164577992224e-07,
+      "loss": 0.7863,
+      "step": 330
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.9361490562876631,
+      "learning_rate": 5.890568373086425e-07,
+      "loss": 0.7964,
+      "step": 331
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.9852264900031967,
+      "learning_rate": 5.678608604827784e-07,
+      "loss": 0.7956,
+      "step": 332
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.9577804130535699,
+      "learning_rate": 5.470302747444428e-07,
+      "loss": 0.7915,
+      "step": 333
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.9790127427211116,
+      "learning_rate": 5.265667973931416e-07,
+      "loss": 0.8238,
+      "step": 334
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.9488857733991553,
+      "learning_rate": 5.064721154635155e-07,
+      "loss": 0.8174,
+      "step": 335
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.9850800427259601,
+      "learning_rate": 4.86747885586244e-07,
+      "loss": 0.8422,
+      "step": 336
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.9836671820443562,
+      "learning_rate": 4.673957338514812e-07,
+      "loss": 0.8436,
+      "step": 337
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.9258087593543318,
+      "learning_rate": 4.48417255674789e-07,
+      "loss": 0.8077,
+      "step": 338
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.9447850956025517,
+      "learning_rate": 4.298140156656178e-07,
+      "loss": 0.8077,
+      "step": 339
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.9696318523898905,
+      "learning_rate": 4.115875474983161e-07,
+      "loss": 0.8069,
+      "step": 340
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.914365974007224,
+      "learning_rate": 3.937393537856871e-07,
+      "loss": 0.812,
+      "step": 341
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.9604856760856464,
+      "learning_rate": 3.762709059551184e-07,
+      "loss": 0.8044,
+      "step": 342
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.0189834670942455,
+      "learning_rate": 3.5918364412727004e-07,
+      "loss": 0.8012,
+      "step": 343
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.0305832409884272,
+      "learning_rate": 3.4247897699735575e-07,
+      "loss": 0.8303,
+      "step": 344
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.9274098964079064,
+      "learning_rate": 3.2615828171900234e-07,
+      "loss": 0.8014,
+      "step": 345
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.988371201611652,
+      "learning_rate": 3.102229037907134e-07,
+      "loss": 0.8091,
+      "step": 346
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.9405710194610242,
+      "learning_rate": 2.946741569449563e-07,
+      "loss": 0.8118,
+      "step": 347
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.9144449358654564,
+      "learning_rate": 2.7951332303984335e-07,
+      "loss": 0.832,
+      "step": 348
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.9588843731517755,
+      "learning_rate": 2.6474165195346346e-07,
+      "loss": 0.8276,
+      "step": 349
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.0064024626783243,
+      "learning_rate": 2.5036036148083367e-07,
+      "loss": 0.8353,
+      "step": 350
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.9718216981549321,
+      "learning_rate": 2.363706372335045e-07,
+      "loss": 0.8026,
+      "step": 351
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.9095149559518358,
+      "learning_rate": 2.2277363254182228e-07,
+      "loss": 0.8099,
+      "step": 352
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.9270616539715592,
+      "learning_rate": 2.0957046835983764e-07,
+      "loss": 0.8156,
+      "step": 353
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.9693928800875504,
+      "learning_rate": 1.9676223317290245e-07,
+      "loss": 0.8268,
+      "step": 354
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.9236341330237043,
+      "learning_rate": 1.8434998290792373e-07,
+      "loss": 0.8097,
+      "step": 355
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.9696808486337091,
+      "learning_rate": 1.7233474084632107e-07,
+      "loss": 0.8244,
+      "step": 356
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.9227842223639834,
+      "learning_rate": 1.6071749753965914e-07,
+      "loss": 0.774,
+      "step": 357
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.8890079282698455,
+      "learning_rate": 1.4949921072798967e-07,
+      "loss": 0.7862,
+      "step": 358
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.8539363904271124,
+      "learning_rate": 1.386808052608918e-07,
+      "loss": 0.7735,
+      "step": 359
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.0228481400538822,
+      "learning_rate": 1.282631730212258e-07,
+      "loss": 0.8442,
+      "step": 360
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.9899878529255971,
+      "learning_rate": 1.1824717285160992e-07,
+      "loss": 0.8221,
+      "step": 361
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.9504711609176032,
+      "learning_rate": 1.0863363048360942e-07,
+      "loss": 0.7902,
+      "step": 362
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.9498318521693325,
+      "learning_rate": 9.942333846966745e-08,
+      "loss": 0.7926,
+      "step": 363
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.9679034208308593,
+      "learning_rate": 9.061705611776273e-08,
+      "loss": 0.8131,
+      "step": 364
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.9363491161609767,
+      "learning_rate": 8.221550942881406e-08,
+      "loss": 0.7939,
+      "step": 365
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.9825234465904495,
+      "learning_rate": 7.421939103682662e-08,
+      "loss": 0.8254,
+      "step": 366
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.0019856458735092,
+      "learning_rate": 6.662936015178978e-08,
+      "loss": 0.8187,
+      "step": 367
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.053518670217866,
+      "learning_rate": 5.9446042505330594e-08,
+      "loss": 0.8136,
+      "step": 368
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.9786981844703901,
+      "learning_rate": 5.267003029913065e-08,
+      "loss": 0.8352,
+      "step": 369
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.9051592993657627,
+      "learning_rate": 4.630188215610065e-08,
+      "loss": 0.826,
+      "step": 370
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.9721563440941723,
+      "learning_rate": 4.03421230743295e-08,
+      "loss": 0.8352,
+      "step": 371
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.964399842195748,
+      "learning_rate": 3.4791244383799994e-08,
+      "loss": 0.7922,
+      "step": 372
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.921943798701517,
+      "learning_rate": 2.964970370588738e-08,
+      "loss": 0.8192,
+      "step": 373
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.925483454019425,
+      "learning_rate": 2.4917924915626725e-08,
+      "loss": 0.8344,
+      "step": 374
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.95158985317686,
+      "learning_rate": 2.0596298106774214e-08,
+      "loss": 0.8148,
+      "step": 375
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.9295180401770526,
+      "learning_rate": 1.6685179559641217e-08,
+      "loss": 0.8088,
+      "step": 376
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.9305793923426241,
+      "learning_rate": 1.3184891711727766e-08,
+      "loss": 0.8233,
+      "step": 377
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.9673745291319708,
+      "learning_rate": 1.0095723131136603e-08,
+      "loss": 0.8136,
+      "step": 378
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.9719703988967101,
+      "learning_rate": 7.417928492784443e-09,
+      "loss": 0.8251,
+      "step": 379
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.9236770401121869,
+      "learning_rate": 5.151728557406532e-09,
+      "loss": 0.8043,
+      "step": 380
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.9877696902919575,
+      "learning_rate": 3.2973101533567698e-09,
+      "loss": 0.8125,
+      "step": 381
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.9705051906720024,
+      "learning_rate": 1.8548261612050255e-09,
+      "loss": 0.8011,
+      "step": 382
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.9636092264251847,
+      "learning_rate": 8.243955011333349e-10,
+      "loss": 0.8199,
+      "step": 383
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9877757424899267,
+      "learning_rate": 2.0610312313318336e-10,
+      "loss": 0.8218,
+      "step": 384
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9579841725829062,
+      "learning_rate": 0.0,
+      "loss": 0.8167,
+      "step": 385
+    },
+    {
+      "epoch": 1.0,
+      "step": 385,
+      "total_flos": 980240137584640.0,
+      "train_loss": 0.8676894376804303,
+      "train_runtime": 28582.2437,
+      "train_samples_per_second": 3.449,
+      "train_steps_per_second": 0.013
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 385,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2000,
+  "total_flos": 980240137584640.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

SFT/llava-qwen-gfn-sft-7b-1e5-v2/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dac1ce614fb67451b62b93c535c53aaa8d7fe92498abe2854b949bc7d77dd23f
+size 7608

SFT/llava-qwen-gfn-sft-7b-1e5-v2/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

llava-gfn-7b-lora-v1.6/README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.4.0

llava-gfn-7b-lora-v1.6/adapter_config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "./checkpoints/SFT/llava-qwen-gfn-sft-7b-1e5-v2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 128,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "model.layers.12.self_attn.o_proj",
+    "model.layers.17.mlp.down_proj",
+    "model.layers.13.mlp.down_proj",
+    "model.layers.24.mlp.gate_proj",
+    "model.layers.26.self_attn.o_proj",
+    "model.layers.3.self_attn.q_proj",
+    "model.layers.13.mlp.gate_proj",
+    "model.layers.7.self_attn.v_proj",
+    "model.layers.14.self_attn.q_proj",
+    "model.layers.5.self_attn.v_proj",
+    "model.layers.2.mlp.gate_proj",
+    "model.layers.12.mlp.gate_proj",
+    "model.layers.8.mlp.down_proj",
+    "model.layers.18.self_attn.o_proj",
+    "model.layers.1.self_attn.q_proj",
+    "model.layers.21.self_attn.k_proj",
+    "model.layers.27.self_attn.v_proj",
+    "model.layers.21.self_attn.q_proj",
+    "model.layers.18.self_attn.k_proj",
+    "model.layers.6.self_attn.q_proj",
+    "model.layers.3.self_attn.v_proj",
+    "model.layers.14.mlp.down_proj",
+    "model.layers.25.mlp.up_proj",
+    "model.layers.1.mlp.up_proj",
+    "model.layers.0.self_attn.v_proj",
+    "model.layers.7.mlp.up_proj",
+    "model.layers.19.mlp.gate_proj",
+    "model.layers.25.self_attn.q_proj",
+    "model.layers.2.self_attn.k_proj",
+    "model.layers.6.mlp.up_proj",
+    "model.layers.22.mlp.up_proj",
+    "model.layers.1.self_attn.o_proj",
+    "model.layers.10.self_attn.q_proj",
+    "model.layers.17.self_attn.v_proj",
+    "model.layers.4.mlp.down_proj",
+    "model.layers.15.self_attn.q_proj",
+    "model.layers.22.self_attn.q_proj",
+    "model.layers.24.self_attn.k_proj",
+    "model.layers.27.mlp.gate_proj",
+    "model.layers.9.self_attn.q_proj",
+    "model.layers.9.mlp.up_proj",
+    "model.layers.8.mlp.up_proj",
+    "model.layers.12.self_attn.v_proj",
+    "model.layers.17.self_attn.o_proj",
+    "model.layers.18.self_attn.v_proj",
+    "model.layers.19.self_attn.o_proj",
+    "model.layers.26.self_attn.v_proj",
+    "model.layers.11.mlp.gate_proj",
+    "model.layers.27.self_attn.k_proj",
+    "model.layers.6.mlp.gate_proj",
+    "model.layers.24.self_attn.q_proj",
+    "model.layers.23.self_attn.o_proj",
+    "model.layers.5.mlp.down_proj",
+    "model.layers.16.self_attn.o_proj",
+    "model.layers.14.mlp.gate_proj",
+    "model.layers.11.self_attn.v_proj",
+    "model.layers.0.mlp.gate_proj",
+    "model.layers.26.mlp.gate_proj",
+    "model.layers.16.mlp.down_proj",
+    "model.layers.0.mlp.down_proj",
+    "model.layers.20.mlp.up_proj",
+    "model.layers.13.self_attn.k_proj",
+    "model.layers.13.self_attn.q_proj",
+    "model.layers.4.self_attn.k_proj",
+    "model.layers.14.self_attn.k_proj",
+    "model.layers.5.mlp.up_proj",
+    "model.layers.20.self_attn.v_proj",
+    "model.layers.11.mlp.down_proj",
+    "model.layers.8.self_attn.k_proj",
+    "model.layers.1.mlp.gate_proj",
+    "model.layers.11.mlp.up_proj",
+    "model.layers.23.mlp.up_proj",
+    "model.layers.21.mlp.up_proj",
+    "model.layers.22.self_attn.v_proj",
+    "model.layers.12.mlp.up_proj",
+    "model.layers.4.mlp.gate_proj",
+    "model.layers.25.self_attn.v_proj",
+    "model.layers.7.mlp.gate_proj",
+    "model.layers.27.self_attn.q_proj",
+    "model.layers.19.mlp.up_proj",
+    "model.layers.27.mlp.up_proj",
+    "model.layers.14.self_attn.v_proj",
+    "model.layers.19.self_attn.k_proj",
+    "model.layers.6.mlp.down_proj",
+    "model.layers.6.self_attn.v_proj",
+    "model.layers.23.mlp.down_proj",
+    "model.layers.9.mlp.down_proj",
+    "model.layers.23.self_attn.q_proj",
+    "model.layers.24.mlp.down_proj",
+    "model.layers.9.self_attn.o_proj",
+    "model.layers.20.self_attn.k_proj",
+    "model.layers.12.self_attn.k_proj",
+    "model.layers.5.mlp.gate_proj",
+    "model.layers.11.self_attn.k_proj",
+    "model.layers.7.self_attn.q_proj",
+    "model.layers.9.self_attn.k_proj",
+    "model.layers.15.mlp.down_proj",
+    "model.layers.10.self_attn.k_proj",
+    "model.layers.10.mlp.gate_proj",
+    "model.layers.13.mlp.up_proj",
+    "model.layers.19.mlp.down_proj",
+    "model.layers.23.self_attn.v_proj",
+    "model.layers.24.self_attn.v_proj",
+    "model.layers.5.self_attn.o_proj",
+    "model.layers.3.mlp.down_proj",
+    "model.layers.22.self_attn.o_proj",
+    "model.layers.12.self_attn.q_proj",
+    "model.layers.17.self_attn.k_proj",
+    "model.layers.0.self_attn.q_proj",
+    "model.layers.2.self_attn.q_proj",
+    "model.layers.16.mlp.gate_proj",
+    "model.layers.8.self_attn.o_proj",
+    "model.layers.26.mlp.up_proj",
+    "model.layers.4.self_attn.v_proj",
+    "model.layers.16.self_attn.k_proj",
+    "model.layers.16.mlp.up_proj",
+    "model.layers.27.self_attn.o_proj",
+    "model.layers.2.mlp.up_proj",
+    "model.layers.26.self_attn.k_proj",
+    "model.layers.13.self_attn.v_proj",
+    "model.layers.6.self_attn.o_proj",
+    "model.layers.11.self_attn.q_proj",
+    "model.layers.12.mlp.down_proj",
+    "model.layers.8.mlp.gate_proj",
+    "model.layers.11.self_attn.o_proj",
+    "model.layers.1.mlp.down_proj",
+    "model.layers.15.self_attn.o_proj",
+    "model.layers.24.self_attn.o_proj",
+    "model.layers.1.self_attn.v_proj",
+    "model.layers.2.self_attn.o_proj",
+    "model.layers.3.self_attn.o_proj",
+    "model.layers.15.self_attn.v_proj",
+    "model.layers.27.mlp.down_proj",
+    "model.layers.3.mlp.up_proj",
+    "model.layers.10.mlp.down_proj",
+    "model.layers.14.mlp.up_proj",
+    "model.layers.24.mlp.up_proj",
+    "model.layers.15.self_attn.k_proj",
+    "model.layers.20.mlp.gate_proj",
+    "model.layers.0.self_attn.o_proj",
+    "model.layers.18.mlp.down_proj",
+    "model.layers.20.self_attn.o_proj",
+    "model.layers.21.mlp.down_proj",
+    "model.layers.10.mlp.up_proj",
+    "model.layers.21.mlp.gate_proj",
+    "model.layers.22.self_attn.k_proj",
+    "model.layers.18.self_attn.q_proj",
+    "model.layers.6.self_attn.k_proj",
+    "model.layers.13.self_attn.o_proj",
+    "model.layers.20.mlp.down_proj",
+    "model.layers.7.mlp.down_proj",
+    "model.layers.19.self_attn.v_proj",
+    "model.layers.2.self_attn.v_proj",
+    "model.layers.18.mlp.gate_proj",
+    "model.layers.4.mlp.up_proj",
+    "model.layers.17.self_attn.q_proj",
+    "model.layers.25.self_attn.o_proj",
+    "model.layers.8.self_attn.q_proj",
+    "model.layers.17.mlp.gate_proj",
+    "model.layers.23.self_attn.k_proj",
+    "model.layers.16.self_attn.q_proj",
+    "model.layers.16.self_attn.v_proj",
+    "model.layers.19.self_attn.q_proj",
+    "model.layers.20.self_attn.q_proj",
+    "model.layers.0.mlp.up_proj",
+    "model.layers.26.self_attn.q_proj",
+    "model.layers.21.self_attn.v_proj",
+    "model.layers.17.mlp.up_proj",
+    "model.layers.23.mlp.gate_proj",
+    "model.layers.18.mlp.up_proj",
+    "model.layers.4.self_attn.q_proj",
+    "model.layers.22.mlp.gate_proj",
+    "model.layers.9.mlp.gate_proj",
+    "model.layers.7.self_attn.o_proj",
+    "model.layers.10.self_attn.o_proj",
+    "model.layers.3.mlp.gate_proj",
+    "model.layers.7.self_attn.k_proj",
+    "model.layers.25.self_attn.k_proj",
+    "model.layers.26.mlp.down_proj",
+    "model.layers.2.mlp.down_proj",
+    "model.layers.21.self_attn.o_proj",
+    "model.layers.25.mlp.gate_proj",
+    "model.layers.9.self_attn.v_proj",
+    "model.layers.8.self_attn.v_proj",
+    "model.layers.25.mlp.down_proj",
+    "model.layers.5.self_attn.q_proj",
+    "model.layers.1.self_attn.k_proj",
+    "model.layers.14.self_attn.o_proj",
+    "model.layers.5.self_attn.k_proj",
+    "model.layers.22.mlp.down_proj",
+    "model.layers.4.self_attn.o_proj",
+    "model.layers.3.self_attn.k_proj",
+    "model.layers.15.mlp.gate_proj",
+    "model.layers.0.self_attn.k_proj",
+    "model.layers.15.mlp.up_proj",
+    "model.layers.10.self_attn.v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

llava-gfn-7b-lora-v1.6/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f71f69231f7b03c6eafaf837d2fe04eebc7dd39506cd5b6765363e974ddd2c4
+size 323097578

llava-gfn-7b-lora-v1.6/config.json ADDED Viewed

	@@ -0,0 +1,219 @@

+{
+  "ToME": false,
+  "_name_or_path": "./checkpoints/SFT/llava-qwen-gfn-sft-7b-1e5-v2",
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "ignore_index": -100,
+  "image_aspect_ratio": "anyres_max_2",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": null,
+  "image_token_index": 151646,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "merging_r": 0,
+  "mm_hidden_size": 1152,
+  "mm_newline_position": "one_token",
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": 5e-07,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_tunable_parts": "mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": null,
+  "model_type": "llava",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pos_skipping_range": 4096,
+  "projector_hidden_act": "gelu",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "text_config": {
+    "model_type": "llama"
+  },
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "trend": 0.0,
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vision_tower_pretrained": null
+}

llava-gfn-7b-lora-v1.6/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.40.0.dev0"
+}

llava-gfn-7b-lora-v1.6/non_lora_trainables.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60fb82c3660319e6d0b239950b20c28181e97f1ade117dc0660b40e2ad94a89b
+size 912

llava-gfn-7b-lora-v1.6/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff