update

Files changed (14) hide show

README.md +3 -0
key_mapping_13b.json +760 -0
llava_merged_dpo_13b_1epoch_1iteration/config.json +49 -0
llava_merged_dpo_13b_1epoch_1iteration/generation_config.json +8 -0
llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00001-of-00003.bin +3 -0
llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00002-of-00003.bin +3 -0
llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00003-of-00003.bin +3 -0
llava_merged_dpo_13b_1epoch_1iteration/pytorch_model.bin.index.json +765 -0
llava_merged_dpo_13b_1epoch_1iteration/special_tokens_map.json +24 -0
llava_merged_dpo_13b_1epoch_1iteration/tokenizer.model +3 -0
llava_merged_dpo_13b_1epoch_1iteration/tokenizer_config.json +37 -0
my_dataset12k.json +0 -0
sample.sh +14 -0
sample_tree.py +340 -0

README.md ADDED Viewed

	@@ -0,0 +1,3 @@

+---
+license: apache-2.0
+---

key_mapping_13b.json ADDED Viewed

	@@ -0,0 +1,760 @@

+{
+    "lm_head.weight": "language_model.lm_head.weight",
+    "model.embed_tokens.weight": "language_model.model.embed_tokens.weight",
+    "model.layers.0.input_layernorm.weight": "language_model.model.layers.0.input_layernorm.weight",
+    "model.layers.0.mlp.down_proj.weight": "language_model.model.layers.0.mlp.down_proj.weight",
+    "model.layers.0.mlp.gate_proj.weight": "language_model.model.layers.0.mlp.gate_proj.weight",
+    "model.layers.0.mlp.up_proj.weight": "language_model.model.layers.0.mlp.up_proj.weight",
+    "model.layers.0.post_attention_layernorm.weight": "language_model.model.layers.0.post_attention_layernorm.weight",
+    "model.layers.0.self_attn.k_proj.weight": "language_model.model.layers.0.self_attn.k_proj.weight",
+    "model.layers.0.self_attn.o_proj.weight": "language_model.model.layers.0.self_attn.o_proj.weight",
+    "model.layers.0.self_attn.q_proj.weight": "language_model.model.layers.0.self_attn.q_proj.weight",
+    "model.layers.0.self_attn.v_proj.weight": "language_model.model.layers.0.self_attn.v_proj.weight",
+    "model.layers.1.input_layernorm.weight": "language_model.model.layers.1.input_layernorm.weight",
+    "model.layers.1.mlp.down_proj.weight": "language_model.model.layers.1.mlp.down_proj.weight",
+    "model.layers.1.mlp.gate_proj.weight": "language_model.model.layers.1.mlp.gate_proj.weight",
+    "model.layers.1.mlp.up_proj.weight": "language_model.model.layers.1.mlp.up_proj.weight",
+    "model.layers.1.post_attention_layernorm.weight": "language_model.model.layers.1.post_attention_layernorm.weight",
+    "model.layers.1.self_attn.k_proj.weight": "language_model.model.layers.1.self_attn.k_proj.weight",
+    "model.layers.1.self_attn.o_proj.weight": "language_model.model.layers.1.self_attn.o_proj.weight",
+    "model.layers.1.self_attn.q_proj.weight": "language_model.model.layers.1.self_attn.q_proj.weight",
+    "model.layers.1.self_attn.v_proj.weight": "language_model.model.layers.1.self_attn.v_proj.weight",
+    "model.layers.10.input_layernorm.weight": "language_model.model.layers.10.input_layernorm.weight",
+    "model.layers.10.mlp.down_proj.weight": "language_model.model.layers.10.mlp.down_proj.weight",
+    "model.layers.10.mlp.gate_proj.weight": "language_model.model.layers.10.mlp.gate_proj.weight",
+    "model.layers.10.mlp.up_proj.weight": "language_model.model.layers.10.mlp.up_proj.weight",
+    "model.layers.10.post_attention_layernorm.weight": "language_model.model.layers.10.post_attention_layernorm.weight",
+    "model.layers.10.self_attn.k_proj.weight": "language_model.model.layers.10.self_attn.k_proj.weight",
+    "model.layers.10.self_attn.o_proj.weight": "language_model.model.layers.10.self_attn.o_proj.weight",
+    "model.layers.10.self_attn.q_proj.weight": "language_model.model.layers.10.self_attn.q_proj.weight",
+    "model.layers.10.self_attn.v_proj.weight": "language_model.model.layers.10.self_attn.v_proj.weight",
+    "model.layers.11.input_layernorm.weight": "language_model.model.layers.11.input_layernorm.weight",
+    "model.layers.11.mlp.down_proj.weight": "language_model.model.layers.11.mlp.down_proj.weight",
+    "model.layers.11.mlp.gate_proj.weight": "language_model.model.layers.11.mlp.gate_proj.weight",
+    "model.layers.11.mlp.up_proj.weight": "language_model.model.layers.11.mlp.up_proj.weight",
+    "model.layers.11.post_attention_layernorm.weight": "language_model.model.layers.11.post_attention_layernorm.weight",
+    "model.layers.11.self_attn.k_proj.weight": "language_model.model.layers.11.self_attn.k_proj.weight",
+    "model.layers.11.self_attn.o_proj.weight": "language_model.model.layers.11.self_attn.o_proj.weight",
+    "model.layers.11.self_attn.q_proj.weight": "language_model.model.layers.11.self_attn.q_proj.weight",
+    "model.layers.11.self_attn.v_proj.weight": "language_model.model.layers.11.self_attn.v_proj.weight",
+    "model.layers.12.input_layernorm.weight": "language_model.model.layers.12.input_layernorm.weight",
+    "model.layers.12.mlp.down_proj.weight": "language_model.model.layers.12.mlp.down_proj.weight",
+    "model.layers.12.mlp.gate_proj.weight": "language_model.model.layers.12.mlp.gate_proj.weight",
+    "model.layers.12.mlp.up_proj.weight": "language_model.model.layers.12.mlp.up_proj.weight",
+    "model.layers.12.post_attention_layernorm.weight": "language_model.model.layers.12.post_attention_layernorm.weight",
+    "model.layers.12.self_attn.k_proj.weight": "language_model.model.layers.12.self_attn.k_proj.weight",
+    "model.layers.12.self_attn.o_proj.weight": "language_model.model.layers.12.self_attn.o_proj.weight",
+    "model.layers.12.self_attn.q_proj.weight": "language_model.model.layers.12.self_attn.q_proj.weight",
+    "model.layers.12.self_attn.v_proj.weight": "language_model.model.layers.12.self_attn.v_proj.weight",
+    "model.layers.13.input_layernorm.weight": "language_model.model.layers.13.input_layernorm.weight",
+    "model.layers.13.mlp.down_proj.weight": "language_model.model.layers.13.mlp.down_proj.weight",
+    "model.layers.13.mlp.gate_proj.weight": "language_model.model.layers.13.mlp.gate_proj.weight",
+    "model.layers.13.mlp.up_proj.weight": "language_model.model.layers.13.mlp.up_proj.weight",
+    "model.layers.13.post_attention_layernorm.weight": "language_model.model.layers.13.post_attention_layernorm.weight",
+    "model.layers.13.self_attn.k_proj.weight": "language_model.model.layers.13.self_attn.k_proj.weight",
+    "model.layers.13.self_attn.o_proj.weight": "language_model.model.layers.13.self_attn.o_proj.weight",
+    "model.layers.13.self_attn.q_proj.weight": "language_model.model.layers.13.self_attn.q_proj.weight",
+    "model.layers.13.self_attn.v_proj.weight": "language_model.model.layers.13.self_attn.v_proj.weight",
+    "model.layers.14.input_layernorm.weight": "language_model.model.layers.14.input_layernorm.weight",
+    "model.layers.14.mlp.down_proj.weight": "language_model.model.layers.14.mlp.down_proj.weight",
+    "model.layers.14.mlp.gate_proj.weight": "language_model.model.layers.14.mlp.gate_proj.weight",
+    "model.layers.14.mlp.up_proj.weight": "language_model.model.layers.14.mlp.up_proj.weight",
+    "model.layers.14.post_attention_layernorm.weight": "language_model.model.layers.14.post_attention_layernorm.weight",
+    "model.layers.14.self_attn.k_proj.weight": "language_model.model.layers.14.self_attn.k_proj.weight",
+    "model.layers.14.self_attn.o_proj.weight": "language_model.model.layers.14.self_attn.o_proj.weight",
+    "model.layers.14.self_attn.q_proj.weight": "language_model.model.layers.14.self_attn.q_proj.weight",
+    "model.layers.14.self_attn.v_proj.weight": "language_model.model.layers.14.self_attn.v_proj.weight",
+    "model.layers.15.input_layernorm.weight": "language_model.model.layers.15.input_layernorm.weight",
+    "model.layers.15.mlp.down_proj.weight": "language_model.model.layers.15.mlp.down_proj.weight",
+    "model.layers.15.mlp.gate_proj.weight": "language_model.model.layers.15.mlp.gate_proj.weight",
+    "model.layers.15.mlp.up_proj.weight": "language_model.model.layers.15.mlp.up_proj.weight",
+    "model.layers.15.post_attention_layernorm.weight": "language_model.model.layers.15.post_attention_layernorm.weight",
+    "model.layers.15.self_attn.k_proj.weight": "language_model.model.layers.15.self_attn.k_proj.weight",
+    "model.layers.15.self_attn.o_proj.weight": "language_model.model.layers.15.self_attn.o_proj.weight",
+    "model.layers.15.self_attn.q_proj.weight": "language_model.model.layers.15.self_attn.q_proj.weight",
+    "model.layers.15.self_attn.v_proj.weight": "language_model.model.layers.15.self_attn.v_proj.weight",
+    "model.layers.16.input_layernorm.weight": "language_model.model.layers.16.input_layernorm.weight",
+    "model.layers.16.mlp.down_proj.weight": "language_model.model.layers.16.mlp.down_proj.weight",
+    "model.layers.16.mlp.gate_proj.weight": "language_model.model.layers.16.mlp.gate_proj.weight",
+    "model.layers.16.mlp.up_proj.weight": "language_model.model.layers.16.mlp.up_proj.weight",
+    "model.layers.16.post_attention_layernorm.weight": "language_model.model.layers.16.post_attention_layernorm.weight",
+    "model.layers.16.self_attn.k_proj.weight": "language_model.model.layers.16.self_attn.k_proj.weight",
+    "model.layers.16.self_attn.o_proj.weight": "language_model.model.layers.16.self_attn.o_proj.weight",
+    "model.layers.16.self_attn.q_proj.weight": "language_model.model.layers.16.self_attn.q_proj.weight",
+    "model.layers.16.self_attn.v_proj.weight": "language_model.model.layers.16.self_attn.v_proj.weight",
+    "model.layers.17.input_layernorm.weight": "language_model.model.layers.17.input_layernorm.weight",
+    "model.layers.17.mlp.down_proj.weight": "language_model.model.layers.17.mlp.down_proj.weight",
+    "model.layers.17.mlp.gate_proj.weight": "language_model.model.layers.17.mlp.gate_proj.weight",
+    "model.layers.17.mlp.up_proj.weight": "language_model.model.layers.17.mlp.up_proj.weight",
+    "model.layers.17.post_attention_layernorm.weight": "language_model.model.layers.17.post_attention_layernorm.weight",
+    "model.layers.17.self_attn.k_proj.weight": "language_model.model.layers.17.self_attn.k_proj.weight",
+    "model.layers.17.self_attn.o_proj.weight": "language_model.model.layers.17.self_attn.o_proj.weight",
+    "model.layers.17.self_attn.q_proj.weight": "language_model.model.layers.17.self_attn.q_proj.weight",
+    "model.layers.17.self_attn.v_proj.weight": "language_model.model.layers.17.self_attn.v_proj.weight",
+    "model.layers.18.input_layernorm.weight": "language_model.model.layers.18.input_layernorm.weight",
+    "model.layers.18.mlp.down_proj.weight": "language_model.model.layers.18.mlp.down_proj.weight",
+    "model.layers.18.mlp.gate_proj.weight": "language_model.model.layers.18.mlp.gate_proj.weight",
+    "model.layers.18.mlp.up_proj.weight": "language_model.model.layers.18.mlp.up_proj.weight",
+    "model.layers.18.post_attention_layernorm.weight": "language_model.model.layers.18.post_attention_layernorm.weight",
+    "model.layers.18.self_attn.k_proj.weight": "language_model.model.layers.18.self_attn.k_proj.weight",
+    "model.layers.18.self_attn.o_proj.weight": "language_model.model.layers.18.self_attn.o_proj.weight",
+    "model.layers.18.self_attn.q_proj.weight": "language_model.model.layers.18.self_attn.q_proj.weight",
+    "model.layers.18.self_attn.v_proj.weight": "language_model.model.layers.18.self_attn.v_proj.weight",
+    "model.layers.19.input_layernorm.weight": "language_model.model.layers.19.input_layernorm.weight",
+    "model.layers.19.mlp.down_proj.weight": "language_model.model.layers.19.mlp.down_proj.weight",
+    "model.layers.19.mlp.gate_proj.weight": "language_model.model.layers.19.mlp.gate_proj.weight",
+    "model.layers.19.mlp.up_proj.weight": "language_model.model.layers.19.mlp.up_proj.weight",
+    "model.layers.19.post_attention_layernorm.weight": "language_model.model.layers.19.post_attention_layernorm.weight",
+    "model.layers.19.self_attn.k_proj.weight": "language_model.model.layers.19.self_attn.k_proj.weight",
+    "model.layers.19.self_attn.o_proj.weight": "language_model.model.layers.19.self_attn.o_proj.weight",
+    "model.layers.19.self_attn.q_proj.weight": "language_model.model.layers.19.self_attn.q_proj.weight",
+    "model.layers.19.self_attn.v_proj.weight": "language_model.model.layers.19.self_attn.v_proj.weight",
+    "model.layers.2.input_layernorm.weight": "language_model.model.layers.2.input_layernorm.weight",
+    "model.layers.2.mlp.down_proj.weight": "language_model.model.layers.2.mlp.down_proj.weight",
+    "model.layers.2.mlp.gate_proj.weight": "language_model.model.layers.2.mlp.gate_proj.weight",
+    "model.layers.2.mlp.up_proj.weight": "language_model.model.layers.2.mlp.up_proj.weight",
+    "model.layers.2.post_attention_layernorm.weight": "language_model.model.layers.2.post_attention_layernorm.weight",
+    "model.layers.2.self_attn.k_proj.weight": "language_model.model.layers.2.self_attn.k_proj.weight",
+    "model.layers.2.self_attn.o_proj.weight": "language_model.model.layers.2.self_attn.o_proj.weight",
+    "model.layers.2.self_attn.q_proj.weight": "language_model.model.layers.2.self_attn.q_proj.weight",
+    "model.layers.2.self_attn.v_proj.weight": "language_model.model.layers.2.self_attn.v_proj.weight",
+    "model.layers.20.input_layernorm.weight": "language_model.model.layers.20.input_layernorm.weight",
+    "model.layers.20.mlp.down_proj.weight": "language_model.model.layers.20.mlp.down_proj.weight",
+    "model.layers.20.mlp.gate_proj.weight": "language_model.model.layers.20.mlp.gate_proj.weight",
+    "model.layers.20.mlp.up_proj.weight": "language_model.model.layers.20.mlp.up_proj.weight",
+    "model.layers.20.post_attention_layernorm.weight": "language_model.model.layers.20.post_attention_layernorm.weight",
+    "model.layers.20.self_attn.k_proj.weight": "language_model.model.layers.20.self_attn.k_proj.weight",
+    "model.layers.20.self_attn.o_proj.weight": "language_model.model.layers.20.self_attn.o_proj.weight",
+    "model.layers.20.self_attn.q_proj.weight": "language_model.model.layers.20.self_attn.q_proj.weight",
+    "model.layers.20.self_attn.v_proj.weight": "language_model.model.layers.20.self_attn.v_proj.weight",
+    "model.layers.21.input_layernorm.weight": "language_model.model.layers.21.input_layernorm.weight",
+    "model.layers.21.mlp.down_proj.weight": "language_model.model.layers.21.mlp.down_proj.weight",
+    "model.layers.21.mlp.gate_proj.weight": "language_model.model.layers.21.mlp.gate_proj.weight",
+    "model.layers.21.mlp.up_proj.weight": "language_model.model.layers.21.mlp.up_proj.weight",
+    "model.layers.21.post_attention_layernorm.weight": "language_model.model.layers.21.post_attention_layernorm.weight",
+    "model.layers.21.self_attn.k_proj.weight": "language_model.model.layers.21.self_attn.k_proj.weight",
+    "model.layers.21.self_attn.o_proj.weight": "language_model.model.layers.21.self_attn.o_proj.weight",
+    "model.layers.21.self_attn.q_proj.weight": "language_model.model.layers.21.self_attn.q_proj.weight",
+    "model.layers.21.self_attn.v_proj.weight": "language_model.model.layers.21.self_attn.v_proj.weight",
+    "model.layers.22.input_layernorm.weight": "language_model.model.layers.22.input_layernorm.weight",
+    "model.layers.22.mlp.down_proj.weight": "language_model.model.layers.22.mlp.down_proj.weight",
+    "model.layers.22.mlp.gate_proj.weight": "language_model.model.layers.22.mlp.gate_proj.weight",
+    "model.layers.22.mlp.up_proj.weight": "language_model.model.layers.22.mlp.up_proj.weight",
+    "model.layers.22.post_attention_layernorm.weight": "language_model.model.layers.22.post_attention_layernorm.weight",
+    "model.layers.22.self_attn.k_proj.weight": "language_model.model.layers.22.self_attn.k_proj.weight",
+    "model.layers.22.self_attn.o_proj.weight": "language_model.model.layers.22.self_attn.o_proj.weight",
+    "model.layers.22.self_attn.q_proj.weight": "language_model.model.layers.22.self_attn.q_proj.weight",
+    "model.layers.22.self_attn.v_proj.weight": "language_model.model.layers.22.self_attn.v_proj.weight",
+    "model.layers.23.input_layernorm.weight": "language_model.model.layers.23.input_layernorm.weight",
+    "model.layers.23.mlp.down_proj.weight": "language_model.model.layers.23.mlp.down_proj.weight",
+    "model.layers.23.mlp.gate_proj.weight": "language_model.model.layers.23.mlp.gate_proj.weight",
+    "model.layers.23.mlp.up_proj.weight": "language_model.model.layers.23.mlp.up_proj.weight",
+    "model.layers.23.post_attention_layernorm.weight": "language_model.model.layers.23.post_attention_layernorm.weight",
+    "model.layers.23.self_attn.k_proj.weight": "language_model.model.layers.23.self_attn.k_proj.weight",
+    "model.layers.23.self_attn.o_proj.weight": "language_model.model.layers.23.self_attn.o_proj.weight",
+    "model.layers.23.self_attn.q_proj.weight": "language_model.model.layers.23.self_attn.q_proj.weight",
+    "model.layers.23.self_attn.v_proj.weight": "language_model.model.layers.23.self_attn.v_proj.weight",
+    "model.layers.24.input_layernorm.weight": "language_model.model.layers.24.input_layernorm.weight",
+    "model.layers.24.mlp.down_proj.weight": "language_model.model.layers.24.mlp.down_proj.weight",
+    "model.layers.24.mlp.gate_proj.weight": "language_model.model.layers.24.mlp.gate_proj.weight",
+    "model.layers.24.mlp.up_proj.weight": "language_model.model.layers.24.mlp.up_proj.weight",
+    "model.layers.24.post_attention_layernorm.weight": "language_model.model.layers.24.post_attention_layernorm.weight",
+    "model.layers.24.self_attn.k_proj.weight": "language_model.model.layers.24.self_attn.k_proj.weight",
+    "model.layers.24.self_attn.o_proj.weight": "language_model.model.layers.24.self_attn.o_proj.weight",
+    "model.layers.24.self_attn.q_proj.weight": "language_model.model.layers.24.self_attn.q_proj.weight",
+    "model.layers.24.self_attn.v_proj.weight": "language_model.model.layers.24.self_attn.v_proj.weight",
+    "model.layers.25.input_layernorm.weight": "language_model.model.layers.25.input_layernorm.weight",
+    "model.layers.25.mlp.down_proj.weight": "language_model.model.layers.25.mlp.down_proj.weight",
+    "model.layers.25.mlp.gate_proj.weight": "language_model.model.layers.25.mlp.gate_proj.weight",
+    "model.layers.25.mlp.up_proj.weight": "language_model.model.layers.25.mlp.up_proj.weight",
+    "model.layers.25.post_attention_layernorm.weight": "language_model.model.layers.25.post_attention_layernorm.weight",
+    "model.layers.25.self_attn.k_proj.weight": "language_model.model.layers.25.self_attn.k_proj.weight",
+    "model.layers.25.self_attn.o_proj.weight": "language_model.model.layers.25.self_attn.o_proj.weight",
+    "model.layers.25.self_attn.q_proj.weight": "language_model.model.layers.25.self_attn.q_proj.weight",
+    "model.layers.25.self_attn.v_proj.weight": "language_model.model.layers.25.self_attn.v_proj.weight",
+    "model.layers.26.input_layernorm.weight": "language_model.model.layers.26.input_layernorm.weight",
+    "model.layers.26.mlp.down_proj.weight": "language_model.model.layers.26.mlp.down_proj.weight",
+    "model.layers.26.mlp.gate_proj.weight": "language_model.model.layers.26.mlp.gate_proj.weight",
+    "model.layers.26.mlp.up_proj.weight": "language_model.model.layers.26.mlp.up_proj.weight",
+    "model.layers.26.post_attention_layernorm.weight": "language_model.model.layers.26.post_attention_layernorm.weight",
+    "model.layers.26.self_attn.k_proj.weight": "language_model.model.layers.26.self_attn.k_proj.weight",
+    "model.layers.26.self_attn.o_proj.weight": "language_model.model.layers.26.self_attn.o_proj.weight",
+    "model.layers.26.self_attn.q_proj.weight": "language_model.model.layers.26.self_attn.q_proj.weight",
+    "model.layers.26.self_attn.v_proj.weight": "language_model.model.layers.26.self_attn.v_proj.weight",
+    "model.layers.27.input_layernorm.weight": "language_model.model.layers.27.input_layernorm.weight",
+    "model.layers.27.mlp.down_proj.weight": "language_model.model.layers.27.mlp.down_proj.weight",
+    "model.layers.27.mlp.gate_proj.weight": "language_model.model.layers.27.mlp.gate_proj.weight",
+    "model.layers.27.mlp.up_proj.weight": "language_model.model.layers.27.mlp.up_proj.weight",
+    "model.layers.27.post_attention_layernorm.weight": "language_model.model.layers.27.post_attention_layernorm.weight",
+    "model.layers.27.self_attn.k_proj.weight": "language_model.model.layers.27.self_attn.k_proj.weight",
+    "model.layers.27.self_attn.o_proj.weight": "language_model.model.layers.27.self_attn.o_proj.weight",
+    "model.layers.27.self_attn.q_proj.weight": "language_model.model.layers.27.self_attn.q_proj.weight",
+    "model.layers.27.self_attn.v_proj.weight": "language_model.model.layers.27.self_attn.v_proj.weight",
+    "model.layers.28.input_layernorm.weight": "language_model.model.layers.28.input_layernorm.weight",
+    "model.layers.28.mlp.down_proj.weight": "language_model.model.layers.28.mlp.down_proj.weight",
+    "model.layers.28.mlp.gate_proj.weight": "language_model.model.layers.28.mlp.gate_proj.weight",
+    "model.layers.28.mlp.up_proj.weight": "language_model.model.layers.28.mlp.up_proj.weight",
+    "model.layers.28.post_attention_layernorm.weight": "language_model.model.layers.28.post_attention_layernorm.weight",
+    "model.layers.28.self_attn.k_proj.weight": "language_model.model.layers.28.self_attn.k_proj.weight",
+    "model.layers.28.self_attn.o_proj.weight": "language_model.model.layers.28.self_attn.o_proj.weight",
+    "model.layers.28.self_attn.q_proj.weight": "language_model.model.layers.28.self_attn.q_proj.weight",
+    "model.layers.28.self_attn.v_proj.weight": "language_model.model.layers.28.self_attn.v_proj.weight",
+    "model.layers.29.input_layernorm.weight": "language_model.model.layers.29.input_layernorm.weight",
+    "model.layers.29.mlp.down_proj.weight": "language_model.model.layers.29.mlp.down_proj.weight",
+    "model.layers.29.mlp.gate_proj.weight": "language_model.model.layers.29.mlp.gate_proj.weight",
+    "model.layers.29.mlp.up_proj.weight": "language_model.model.layers.29.mlp.up_proj.weight",
+    "model.layers.29.post_attention_layernorm.weight": "language_model.model.layers.29.post_attention_layernorm.weight",
+    "model.layers.29.self_attn.k_proj.weight": "language_model.model.layers.29.self_attn.k_proj.weight",
+    "model.layers.29.self_attn.o_proj.weight": "language_model.model.layers.29.self_attn.o_proj.weight",
+    "model.layers.29.self_attn.q_proj.weight": "language_model.model.layers.29.self_attn.q_proj.weight",
+    "model.layers.29.self_attn.v_proj.weight": "language_model.model.layers.29.self_attn.v_proj.weight",
+    "model.layers.3.input_layernorm.weight": "language_model.model.layers.3.input_layernorm.weight",
+    "model.layers.3.mlp.down_proj.weight": "language_model.model.layers.3.mlp.down_proj.weight",
+    "model.layers.3.mlp.gate_proj.weight": "language_model.model.layers.3.mlp.gate_proj.weight",
+    "model.layers.3.mlp.up_proj.weight": "language_model.model.layers.3.mlp.up_proj.weight",
+    "model.layers.3.post_attention_layernorm.weight": "language_model.model.layers.3.post_attention_layernorm.weight",
+    "model.layers.3.self_attn.k_proj.weight": "language_model.model.layers.3.self_attn.k_proj.weight",
+    "model.layers.3.self_attn.o_proj.weight": "language_model.model.layers.3.self_attn.o_proj.weight",
+    "model.layers.3.self_attn.q_proj.weight": "language_model.model.layers.3.self_attn.q_proj.weight",
+    "model.layers.3.self_attn.v_proj.weight": "language_model.model.layers.3.self_attn.v_proj.weight",
+    "model.layers.30.input_layernorm.weight": "language_model.model.layers.30.input_layernorm.weight",
+    "model.layers.30.mlp.down_proj.weight": "language_model.model.layers.30.mlp.down_proj.weight",
+    "model.layers.30.mlp.gate_proj.weight": "language_model.model.layers.30.mlp.gate_proj.weight",
+    "model.layers.30.mlp.up_proj.weight": "language_model.model.layers.30.mlp.up_proj.weight",
+    "model.layers.30.post_attention_layernorm.weight": "language_model.model.layers.30.post_attention_layernorm.weight",
+    "model.layers.30.self_attn.k_proj.weight": "language_model.model.layers.30.self_attn.k_proj.weight",
+    "model.layers.30.self_attn.o_proj.weight": "language_model.model.layers.30.self_attn.o_proj.weight",
+    "model.layers.30.self_attn.q_proj.weight": "language_model.model.layers.30.self_attn.q_proj.weight",
+    "model.layers.30.self_attn.v_proj.weight": "language_model.model.layers.30.self_attn.v_proj.weight",
+    "model.layers.31.input_layernorm.weight": "language_model.model.layers.31.input_layernorm.weight",
+    "model.layers.31.mlp.down_proj.weight": "language_model.model.layers.31.mlp.down_proj.weight",
+    "model.layers.31.mlp.gate_proj.weight": "language_model.model.layers.31.mlp.gate_proj.weight",
+    "model.layers.31.mlp.up_proj.weight": "language_model.model.layers.31.mlp.up_proj.weight",
+    "model.layers.31.post_attention_layernorm.weight": "language_model.model.layers.31.post_attention_layernorm.weight",
+    "model.layers.31.self_attn.k_proj.weight": "language_model.model.layers.31.self_attn.k_proj.weight",
+    "model.layers.31.self_attn.o_proj.weight": "language_model.model.layers.31.self_attn.o_proj.weight",
+    "model.layers.31.self_attn.q_proj.weight": "language_model.model.layers.31.self_attn.q_proj.weight",
+    "model.layers.31.self_attn.v_proj.weight": "language_model.model.layers.31.self_attn.v_proj.weight",
+    "model.layers.32.input_layernorm.weight": "language_model.model.layers.32.input_layernorm.weight",
+    "model.layers.32.mlp.down_proj.weight": "language_model.model.layers.32.mlp.down_proj.weight",
+    "model.layers.32.mlp.gate_proj.weight": "language_model.model.layers.32.mlp.gate_proj.weight",
+    "model.layers.32.mlp.up_proj.weight": "language_model.model.layers.32.mlp.up_proj.weight",
+    "model.layers.32.post_attention_layernorm.weight": "language_model.model.layers.32.post_attention_layernorm.weight",
+    "model.layers.32.self_attn.k_proj.weight": "language_model.model.layers.32.self_attn.k_proj.weight",
+    "model.layers.32.self_attn.o_proj.weight": "language_model.model.layers.32.self_attn.o_proj.weight",
+    "model.layers.32.self_attn.q_proj.weight": "language_model.model.layers.32.self_attn.q_proj.weight",
+    "model.layers.32.self_attn.v_proj.weight": "language_model.model.layers.32.self_attn.v_proj.weight",
+    "model.layers.33.input_layernorm.weight": "language_model.model.layers.33.input_layernorm.weight",
+    "model.layers.33.mlp.down_proj.weight": "language_model.model.layers.33.mlp.down_proj.weight",
+    "model.layers.33.mlp.gate_proj.weight": "language_model.model.layers.33.mlp.gate_proj.weight",
+    "model.layers.33.mlp.up_proj.weight": "language_model.model.layers.33.mlp.up_proj.weight",
+    "model.layers.33.post_attention_layernorm.weight": "language_model.model.layers.33.post_attention_layernorm.weight",
+    "model.layers.33.self_attn.k_proj.weight": "language_model.model.layers.33.self_attn.k_proj.weight",
+    "model.layers.33.self_attn.o_proj.weight": "language_model.model.layers.33.self_attn.o_proj.weight",
+    "model.layers.33.self_attn.q_proj.weight": "language_model.model.layers.33.self_attn.q_proj.weight",
+    "model.layers.33.self_attn.v_proj.weight": "language_model.model.layers.33.self_attn.v_proj.weight",
+    "model.layers.34.input_layernorm.weight": "language_model.model.layers.34.input_layernorm.weight",
+    "model.layers.34.mlp.down_proj.weight": "language_model.model.layers.34.mlp.down_proj.weight",
+    "model.layers.34.mlp.gate_proj.weight": "language_model.model.layers.34.mlp.gate_proj.weight",
+    "model.layers.34.mlp.up_proj.weight": "language_model.model.layers.34.mlp.up_proj.weight",
+    "model.layers.34.post_attention_layernorm.weight": "language_model.model.layers.34.post_attention_layernorm.weight",
+    "model.layers.34.self_attn.k_proj.weight": "language_model.model.layers.34.self_attn.k_proj.weight",
+    "model.layers.34.self_attn.o_proj.weight": "language_model.model.layers.34.self_attn.o_proj.weight",
+    "model.layers.34.self_attn.q_proj.weight": "language_model.model.layers.34.self_attn.q_proj.weight",
+    "model.layers.34.self_attn.v_proj.weight": "language_model.model.layers.34.self_attn.v_proj.weight",
+    "model.layers.35.input_layernorm.weight": "language_model.model.layers.35.input_layernorm.weight",
+    "model.layers.35.mlp.down_proj.weight": "language_model.model.layers.35.mlp.down_proj.weight",
+    "model.layers.35.mlp.gate_proj.weight": "language_model.model.layers.35.mlp.gate_proj.weight",
+    "model.layers.35.mlp.up_proj.weight": "language_model.model.layers.35.mlp.up_proj.weight",
+    "model.layers.35.post_attention_layernorm.weight": "language_model.model.layers.35.post_attention_layernorm.weight",
+    "model.layers.35.self_attn.k_proj.weight": "language_model.model.layers.35.self_attn.k_proj.weight",
+    "model.layers.35.self_attn.o_proj.weight": "language_model.model.layers.35.self_attn.o_proj.weight",
+    "model.layers.35.self_attn.q_proj.weight": "language_model.model.layers.35.self_attn.q_proj.weight",
+    "model.layers.35.self_attn.v_proj.weight": "language_model.model.layers.35.self_attn.v_proj.weight",
+    "model.layers.36.input_layernorm.weight": "language_model.model.layers.36.input_layernorm.weight",
+    "model.layers.36.mlp.down_proj.weight": "language_model.model.layers.36.mlp.down_proj.weight",
+    "model.layers.36.mlp.gate_proj.weight": "language_model.model.layers.36.mlp.gate_proj.weight",
+    "model.layers.36.mlp.up_proj.weight": "language_model.model.layers.36.mlp.up_proj.weight",
+    "model.layers.36.post_attention_layernorm.weight": "language_model.model.layers.36.post_attention_layernorm.weight",
+    "model.layers.36.self_attn.k_proj.weight": "language_model.model.layers.36.self_attn.k_proj.weight",
+    "model.layers.36.self_attn.o_proj.weight": "language_model.model.layers.36.self_attn.o_proj.weight",
+    "model.layers.36.self_attn.q_proj.weight": "language_model.model.layers.36.self_attn.q_proj.weight",
+    "model.layers.36.self_attn.v_proj.weight": "language_model.model.layers.36.self_attn.v_proj.weight",
+    "model.layers.37.input_layernorm.weight": "language_model.model.layers.37.input_layernorm.weight",
+    "model.layers.37.mlp.down_proj.weight": "language_model.model.layers.37.mlp.down_proj.weight",
+    "model.layers.37.mlp.gate_proj.weight": "language_model.model.layers.37.mlp.gate_proj.weight",
+    "model.layers.37.mlp.up_proj.weight": "language_model.model.layers.37.mlp.up_proj.weight",
+    "model.layers.37.post_attention_layernorm.weight": "language_model.model.layers.37.post_attention_layernorm.weight",
+    "model.layers.37.self_attn.k_proj.weight": "language_model.model.layers.37.self_attn.k_proj.weight",
+    "model.layers.37.self_attn.o_proj.weight": "language_model.model.layers.37.self_attn.o_proj.weight",
+    "model.layers.37.self_attn.q_proj.weight": "language_model.model.layers.37.self_attn.q_proj.weight",
+    "model.layers.37.self_attn.v_proj.weight": "language_model.model.layers.37.self_attn.v_proj.weight",
+    "model.layers.38.input_layernorm.weight": "language_model.model.layers.38.input_layernorm.weight",
+    "model.layers.38.mlp.down_proj.weight": "language_model.model.layers.38.mlp.down_proj.weight",
+    "model.layers.38.mlp.gate_proj.weight": "language_model.model.layers.38.mlp.gate_proj.weight",
+    "model.layers.38.mlp.up_proj.weight": "language_model.model.layers.38.mlp.up_proj.weight",
+    "model.layers.38.post_attention_layernorm.weight": "language_model.model.layers.38.post_attention_layernorm.weight",
+    "model.layers.38.self_attn.k_proj.weight": "language_model.model.layers.38.self_attn.k_proj.weight",
+    "model.layers.38.self_attn.o_proj.weight": "language_model.model.layers.38.self_attn.o_proj.weight",
+    "model.layers.38.self_attn.q_proj.weight": "language_model.model.layers.38.self_attn.q_proj.weight",
+    "model.layers.38.self_attn.v_proj.weight": "language_model.model.layers.38.self_attn.v_proj.weight",
+    "model.layers.39.input_layernorm.weight": "language_model.model.layers.39.input_layernorm.weight",
+    "model.layers.39.mlp.down_proj.weight": "language_model.model.layers.39.mlp.down_proj.weight",
+    "model.layers.39.mlp.gate_proj.weight": "language_model.model.layers.39.mlp.gate_proj.weight",
+    "model.layers.39.mlp.up_proj.weight": "language_model.model.layers.39.mlp.up_proj.weight",
+    "model.layers.39.post_attention_layernorm.weight": "language_model.model.layers.39.post_attention_layernorm.weight",
+    "model.layers.39.self_attn.k_proj.weight": "language_model.model.layers.39.self_attn.k_proj.weight",
+    "model.layers.39.self_attn.o_proj.weight": "language_model.model.layers.39.self_attn.o_proj.weight",
+    "model.layers.39.self_attn.q_proj.weight": "language_model.model.layers.39.self_attn.q_proj.weight",
+    "model.layers.39.self_attn.v_proj.weight": "language_model.model.layers.39.self_attn.v_proj.weight",
+    "model.layers.4.input_layernorm.weight": "language_model.model.layers.4.input_layernorm.weight",
+    "model.layers.4.mlp.down_proj.weight": "language_model.model.layers.4.mlp.down_proj.weight",
+    "model.layers.4.mlp.gate_proj.weight": "language_model.model.layers.4.mlp.gate_proj.weight",
+    "model.layers.4.mlp.up_proj.weight": "language_model.model.layers.4.mlp.up_proj.weight",
+    "model.layers.4.post_attention_layernorm.weight": "language_model.model.layers.4.post_attention_layernorm.weight",
+    "model.layers.4.self_attn.k_proj.weight": "language_model.model.layers.4.self_attn.k_proj.weight",
+    "model.layers.4.self_attn.o_proj.weight": "language_model.model.layers.4.self_attn.o_proj.weight",
+    "model.layers.4.self_attn.q_proj.weight": "language_model.model.layers.4.self_attn.q_proj.weight",
+    "model.layers.4.self_attn.v_proj.weight": "language_model.model.layers.4.self_attn.v_proj.weight",
+    "model.layers.5.input_layernorm.weight": "language_model.model.layers.5.input_layernorm.weight",
+    "model.layers.5.mlp.down_proj.weight": "language_model.model.layers.5.mlp.down_proj.weight",
+    "model.layers.5.mlp.gate_proj.weight": "language_model.model.layers.5.mlp.gate_proj.weight",
+    "model.layers.5.mlp.up_proj.weight": "language_model.model.layers.5.mlp.up_proj.weight",
+    "model.layers.5.post_attention_layernorm.weight": "language_model.model.layers.5.post_attention_layernorm.weight",
+    "model.layers.5.self_attn.k_proj.weight": "language_model.model.layers.5.self_attn.k_proj.weight",
+    "model.layers.5.self_attn.o_proj.weight": "language_model.model.layers.5.self_attn.o_proj.weight",
+    "model.layers.5.self_attn.q_proj.weight": "language_model.model.layers.5.self_attn.q_proj.weight",
+    "model.layers.5.self_attn.v_proj.weight": "language_model.model.layers.5.self_attn.v_proj.weight",
+    "model.layers.6.input_layernorm.weight": "language_model.model.layers.6.input_layernorm.weight",
+    "model.layers.6.mlp.down_proj.weight": "language_model.model.layers.6.mlp.down_proj.weight",
+    "model.layers.6.mlp.gate_proj.weight": "language_model.model.layers.6.mlp.gate_proj.weight",
+    "model.layers.6.mlp.up_proj.weight": "language_model.model.layers.6.mlp.up_proj.weight",
+    "model.layers.6.post_attention_layernorm.weight": "language_model.model.layers.6.post_attention_layernorm.weight",
+    "model.layers.6.self_attn.k_proj.weight": "language_model.model.layers.6.self_attn.k_proj.weight",
+    "model.layers.6.self_attn.o_proj.weight": "language_model.model.layers.6.self_attn.o_proj.weight",
+    "model.layers.6.self_attn.q_proj.weight": "language_model.model.layers.6.self_attn.q_proj.weight",
+    "model.layers.6.self_attn.v_proj.weight": "language_model.model.layers.6.self_attn.v_proj.weight",
+    "model.layers.7.input_layernorm.weight": "language_model.model.layers.7.input_layernorm.weight",
+    "model.layers.7.mlp.down_proj.weight": "language_model.model.layers.7.mlp.down_proj.weight",
+    "model.layers.7.mlp.gate_proj.weight": "language_model.model.layers.7.mlp.gate_proj.weight",
+    "model.layers.7.mlp.up_proj.weight": "language_model.model.layers.7.mlp.up_proj.weight",
+    "model.layers.7.post_attention_layernorm.weight": "language_model.model.layers.7.post_attention_layernorm.weight",
+    "model.layers.7.self_attn.k_proj.weight": "language_model.model.layers.7.self_attn.k_proj.weight",
+    "model.layers.7.self_attn.o_proj.weight": "language_model.model.layers.7.self_attn.o_proj.weight",
+    "model.layers.7.self_attn.q_proj.weight": "language_model.model.layers.7.self_attn.q_proj.weight",
+    "model.layers.7.self_attn.v_proj.weight": "language_model.model.layers.7.self_attn.v_proj.weight",
+    "model.layers.8.input_layernorm.weight": "language_model.model.layers.8.input_layernorm.weight",
+    "model.layers.8.mlp.down_proj.weight": "language_model.model.layers.8.mlp.down_proj.weight",
+    "model.layers.8.mlp.gate_proj.weight": "language_model.model.layers.8.mlp.gate_proj.weight",
+    "model.layers.8.mlp.up_proj.weight": "language_model.model.layers.8.mlp.up_proj.weight",
+    "model.layers.8.post_attention_layernorm.weight": "language_model.model.layers.8.post_attention_layernorm.weight",
+    "model.layers.8.self_attn.k_proj.weight": "language_model.model.layers.8.self_attn.k_proj.weight",
+    "model.layers.8.self_attn.o_proj.weight": "language_model.model.layers.8.self_attn.o_proj.weight",
+    "model.layers.8.self_attn.q_proj.weight": "language_model.model.layers.8.self_attn.q_proj.weight",
+    "model.layers.8.self_attn.v_proj.weight": "language_model.model.layers.8.self_attn.v_proj.weight",
+    "model.layers.9.input_layernorm.weight": "language_model.model.layers.9.input_layernorm.weight",
+    "model.layers.9.mlp.down_proj.weight": "language_model.model.layers.9.mlp.down_proj.weight",
+    "model.layers.9.mlp.gate_proj.weight": "language_model.model.layers.9.mlp.gate_proj.weight",
+    "model.layers.9.mlp.up_proj.weight": "language_model.model.layers.9.mlp.up_proj.weight",
+    "model.layers.9.post_attention_layernorm.weight": "language_model.model.layers.9.post_attention_layernorm.weight",
+    "model.layers.9.self_attn.k_proj.weight": "language_model.model.layers.9.self_attn.k_proj.weight",
+    "model.layers.9.self_attn.o_proj.weight": "language_model.model.layers.9.self_attn.o_proj.weight",
+    "model.layers.9.self_attn.q_proj.weight": "language_model.model.layers.9.self_attn.q_proj.weight",
+    "model.layers.9.self_attn.v_proj.weight": "language_model.model.layers.9.self_attn.v_proj.weight",
+    "model.mm_projector.0.bias": "multi_modal_projector.linear_1.bias",
+    "model.mm_projector.0.weight": "multi_modal_projector.linear_1.weight",
+    "model.mm_projector.2.bias": "multi_modal_projector.linear_2.bias",
+    "model.mm_projector.2.weight": "multi_modal_projector.linear_2.weight",
+    "model.norm.weight": "language_model.model.norm.weight",
+    "model.vision_tower.vision_tower.vision_model.embeddings.class_embedding": "vision_tower.vision_model.embeddings.class_embedding",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "vision_tower.vision_model.embeddings.patch_embedding.weight",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "vision_tower.vision_model.embeddings.position_embedding.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "vision_tower.vision_model.post_layernorm.bias",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "vision_tower.vision_model.post_layernorm.weight",
+    "model.vision_tower.vision_tower.vision_model.pre_layrnorm.bias": "vision_tower.vision_model.pre_layrnorm.bias",
+    "model.vision_tower.vision_tower.vision_model.pre_layrnorm.weight": "vision_tower.vision_model.pre_layrnorm.weight"
+}

llava_merged_dpo_13b_1epoch_1iteration/config.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "_name_or_path": "/data/yiyang_zhou/workplace/LLaVA/checkpoint/llava-v1.5-13b",
+  "architectures": [
+    "LlavaLlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "freeze_mm_mlp_adapter": false,
+  "freeze_mm_vision_resampler": false,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "image_aspect_ratio": "pad",
+  "initializer_range": 0.02,
+  "intermediate_size": 13824,
+  "max_length": 4096,
+  "max_position_embeddings": 4096,
+  "mm_hidden_size": 1024,
+  "mm_patch_merge_type": "flat",
+  "mm_projector_lr": 2e-05,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "openai/clip-vit-large-patch14-336",
+  "model_type": "llava_llama",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 40,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 1024,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "float16",
+  "transformers_version": "4.33.0",
+  "tune_mm_mlp_adapter": false,
+  "tune_mm_vision_resampler": false,
+  "unfreeze_mm_vision_tower": false,
+  "use_cache": true,
+  "use_mm_proj": true,
+  "vocab_size": 32000
+}

llava_merged_dpo_13b_1epoch_1iteration/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.0"
+}

llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00001-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17cfee13735ed56bffa3b4beb23e38234dd0a69f688a38a0214cd7c999b262f3
+size 9948719920

llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00002-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e649102fe3bf0535475d1545ed9ac5abdf90a3b27fae0f7f4fa1d557b309e2a
+size 9904155895

llava_merged_dpo_13b_1epoch_1iteration/pytorch_model-00003-of-00003.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b27d216a9d22e3c32c92e038c970daf736ce5f3913290ebefba0a9d64cf4f74
+size 6849078577

llava_merged_dpo_13b_1epoch_1iteration/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,765 @@

+{
+  "metadata": {
+    "total_size": 26701678592
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.mm_projector.0.bias": "pytorch_model-00003-of-00003.bin",
+    "model.mm_projector.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.mm_projector.2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.mm_projector.2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.embeddings.class_embedding": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.pre_layrnorm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.vision_tower.vision_model.pre_layrnorm.weight": "pytorch_model-00003-of-00003.bin"
+  }
+}

llava_merged_dpo_13b_1epoch_1iteration/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

llava_merged_dpo_13b_1epoch_1iteration/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

llava_merged_dpo_13b_1epoch_1iteration/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

my_dataset12k.json ADDED Viewed

The diff for this file is too large to render. See raw diff

sample.sh ADDED Viewed

	@@ -0,0 +1,14 @@

+CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6 accelerate launch \
+                   --num_processes=7 \
+                   --num_machines=1 \
+                   --gpu_ids=0,1,2,3,4,5,6 \
+                   --mixed_precision=fp16 \
+                   --dynamo_backend=no \
+                   ./sample_tree.py \
+                   --model-path="/home/yiyangai/Projects/dongjie/StepbyStep/llava_13b_dpoed/llava_merged_dpo_13b_1epoch_1iteration" \
+                   --dataset_path="/home/yiyangai/Projects/dongjie/LlaVa-Instruct-150k/LLaVA-Instruct-150K/my_dataset12k.json" \
+                   --images_dir="../LlaVa-Instruct-150k/data/train2014" \
+                   --output_dir="/home/yiyangai/Projects/dongjie/StepbyStep/Save_Folder/2024-5-9-after1dpo-13b" \
+                   --weight_mapping_path="/home/yiyangai/Projects/dongjie/5de42962e78a4485afa7a05120d78d88/key_mapping_13b.json" \

sample_tree.py ADDED Viewed

	@@ -0,0 +1,340 @@

+from utils import *
+from llava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN, DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN
+from llava.constants import DEFAULT_IMAGE_PATCH_TOKEN, DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN
+from llava.conversation import conv_templates, SeparatorStyle
+from llava.model.builder import load_pretrained_model
+from llava.utils import disable_torch_init
+from llava import conversation as conversation_lib
+from llava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria, process_images
+from llava.model import *
+from transformers import AutoProcessor, CLIPModel
+from accelerate.utils import gather_object
+import torch
+from transformers import AutoProcessor, LlavaForConditionalGeneration
+from transformers import AutoTokenizer
+import json
+from accelerate import Accelerator
+from PIL import Image
+import torch.nn.functional as F
+import os
+import pickle
+def get_done_ids(file_path):
+    # 初始化一个空列表来存储 id 值
+    id_list = []
+    # 打开文件，并逐行读取
+    with open(file_path, 'r') as file:
+        for line in file:
+            # 将每一行的内容从 JSON 字符串转换为字典
+            # print(line)
+            data = json.loads(line)
+            # 将字典中 'id' 键的值添加到列表中
+            if 'id' in data:
+                id_list.append(data['id'])
+    return(id_list)
+def save_object(obj, file_path):
+    """保存对象到指定的Pickle文件."""
+    with open(file_path, 'wb') as file:  # 打开文件以二进制写入模式
+        pickle.dump(obj, file)  # 使用pickle的dump方法将对象序列化到文件
+def get_prompts(inputs):
+    input_questions = [DEFAULT_IMAGE_TOKEN + '\n' + input_question for input_question in inputs]
+    prompts = []
+    for input_q in input_questions:
+        conv = conv_templates['v1'].copy()
+        conv.append_message(conv.roles[0], input_q)
+        conv.append_message(conv.roles[1], None)
+        prompts.append(conv.get_prompt())
+    return prompts
+def get_file_names(directory):
+    """返回指定目录下所有文件的名称列表（不包括子目录）。"""
+    file_names = []  # 创建一个空列表来存储文件名
+    for item in os.listdir(directory):  # 遍历目录中的所有项
+        full_path = os.path.join(directory, item)  # 获取项的完整路径
+        if os.path.isfile(full_path):  # 检查这个路径是否是文件
+            file_names.append(item)  # 如果是文件，则添加其名称到列表
+    return file_names
+class Node:
+    def __init__(self, text, score, depth, parent=None, is_final=False):
+        self.text = text
+        self.score = score
+        self.depth = depth
+        self.parent = parent
+        self.children = []
+        self.is_final = is_final
+    def add_child(self, child):
+        self.children.append(child)
+def print_paths(node, path=[]):
+    """
+    递归函数，用于遍历树并打印从根节点到每个叶子节点的路径。
+    Args:
+        node: 当前节点。
+        path: 从根节点到当前节点的路径列表。
+    """
+    # 将当前节点添加到路径中
+    path.append(f"{node.text} (Score: {node.score}, Final: {node.is_final})")
+    # 如果当前节点是叶子节点，打印路径
+    if not node.children:  # 叶子节点没有子节点
+        print(" -> ".join(path))
+    else:
+        # 否则，继续遍历子节点
+        for child in node.children:
+            print_paths(child, path.copy())  # 使用path.copy()以避免修改同一个列表
+def sentence_level_beam_search_tree(qid, model, accelerator, processor, tokenizer, after_tokenizer, initial_text, images,  sentence_end_id, max_length, max_new_tokens, num_beams, num_beam_group, token_level_beams, temperature, diversity_penalty):
+    """
+    Args:
+        model: HF模型，包含一个generate方法。
+        tokenizer: 模型的分词器。
+        initial_text: 开始生成的初始文本。
+        images: 与文本一起使用的图像。
+        sentence_end_id: 句子结束标记的ID。
+        max_length: 生成文本的最大长度。
+        max_new_tokens: 每次生成的新token的最大数量。
+        num_beams: 在每一步使用的beam数量。
+        temperature: 生成温度。
+    """
+    # 初始化
+    root = Node(initial_text, 0, 0)
+    active_nodes = [root]  # 活跃节点列表，初始只有根节点
+    with torch.no_grad():
+        while active_nodes:
+            new_nodes = []
+            for node in active_nodes:
+                print(node.text)
+                inputs = processor(text=node.text, images=images, return_tensors="pt").to(model.device)
+                with torch.inference_mode():
+                    # outputs = model.module.generate(
+                    outputs = model.generate(
+                        **inputs,
+                        num_beams=token_level_beams,
+                        eos_token_id=sentence_end_id,
+                        num_beam_groups=num_beam_group,
+                        diversity_penalty=diversity_penalty,
+                        # stopping_criteria=[stopping_criteria],
+                        # temperature=temperature,
+                        pad_token_id=tokenizer.pad_token_id, # different models may have different pad_token_id
+                        num_return_sequences=token_level_beams,
+                        max_new_tokens=max_new_tokens,
+                        output_scores=True, # must be True
+                        return_dict_in_generate=True, # must be True, because we need the text scores
+                    )
+                # 解码生成的文本
+                gen_sequences = outputs.sequences[:, inputs.input_ids.shape[-1]:]
+                gen_texts = tokenizer.batch_decode(outputs.sequences, skip_special_tokens=True)
+                for j, (text, score) in enumerate(zip(gen_texts, outputs.sequences_scores)):
+                    new_score = node.score + score.item()
+                    is_final = (tokenizer.eos_token_id in gen_sequences[j].tolist()) or (after_tokenizer.eos_token_id in gen_sequences[j].tolist() or len(tokenizer.decode(outputs.sequences[j]))>=max_length)
+                    new_node = Node(text, new_score, node.depth + 1, node, is_final)
+                    node.add_child(new_node)
+                    if is_final:  # 检查是否包含结束标记
+                        pass
+                    else:
+                        new_nodes.append(new_node)
+            new_nodes.sort(key=lambda x: x.score, reverse=True)
+            if len(new_nodes)<num_beams:
+                active_nodes = new_nodes
+            else:
+                active_nodes = new_nodes[:int(num_beams/2)-1]+new_nodes[-int(num_beams/2):]
+            if not active_nodes:
+                break
+    return [{'id': qid, 'tree': root}]
+def load_and_merge_models(model_folder_path):
+    # 初始化一个空的字典来保存合并的模型参数
+    merged_model_state_dict = {}
+    # 遍历文件夹中的每个模型文件
+    for model_file in os.listdir(model_folder_path):
+        if model_file.endswith('.bin'):  # 只处理以 .bin 结尾的文件
+            file_path = os.path.join(model_folder_path, model_file)
+            # 使用 torch.load 加载模型
+            model_state_dict = torch.load(file_path, map_location='cpu')
+            # print(model_state_dict.keys())
+            # 合并模型的状态字典
+            for key, value in model_state_dict.items():
+                if key not in merged_model_state_dict:
+                    merged_model_state_dict[key] = value
+                else:
+                    # 如果需要其他的合并逻辑，可以在此实现
+                    # 例如，将值相加、取平均等
+                    pass
+    return merged_model_state_dict
+def eval_model(args):
+    disable_torch_init()
+    accelerator = Accelerator()
+    # output_file = args.output_file
+    model_path = args.model_path
+    mapping_path=args.weight_mapping_path
+    with open(mapping_path, 'r', encoding='utf-8') as f1:
+        mapping_keys = json.load(f1)
+    # model = LlavaForConditionalGeneration.from_pretrained(model_path, torch_dtype=torch.float16, device_map=4)
+    tokenizer=AutoTokenizer.from_pretrained("llava-hf/llava-1.5-13b-hf", use_fast=False, padding_side='left')
+    after_tokenizer=AutoTokenizer.from_pretrained(model_path)
+    # tokenizer.add_tokens([DEFAULT_IMAGE_PATCH_TOKEN], special_tokens=True)
+    # tokenizer.add_tokens([DEFAULT_IM_START_TOKEN, DEFAULT_IM_END_TOKEN], special_tokens=True)
+    processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-13b-hf")
+    # processor.tokenizer=tokenizer
+    # clip_model = CLIPModel.from_pretrained(eval_model_path, torch_dtype=torch.float16)
+    # clip_processor = AutoProcessor.from_pretrained(eval_model_path)
+    with open(args.dataset_path, 'r', encoding='utf8')as fp:
+        my_dataset = json.load(fp) #detail+reasoning
+    llava_loader=get_llava_dataloader(my_dataset, 1)
+    # lava_loader, processor = accelerator.prepare(
+    #     llava_loader, processor
+    # )
+    model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-13b-hf", device_map='cpu', torch_dtype=torch.float16)
+    state_dicts = load_and_merge_models(model_path)
+    modified_weights = {}
+    for old_key, value in state_dicts.items():
+        new_key = mapping_keys.get(old_key, old_key)  # 如果没有在映射表中找到旧键，则保持原键
+        modified_weights[new_key] = value
+    modified_weights['language_model.model.embed_tokens.weight'] = model.state_dict()['language_model.model.embed_tokens.weight']
+    modified_weights['language_model.lm_head.weight'] = model.state_dict()['language_model.lm_head.weight']
+    # state_dicts['model'] = modified_weights
+    model.load_state_dict(modified_weights, strict=True)
+    # torch.cuda.empty_cache()
+    # print(model)
+    model.to(accelerator.device)
+    llava_loader, processor= accelerator.prepare(
+        llava_loader, processor
+    )
+    output_dir=args.output_dir
+    havedone_list=get_file_names(output_dir)
+    # TODO: please add check here
+    is_ref=args.is_ref
+    if is_ref:
+        ref_json=args.ref_path
+        with open(ref_json, 'r') as file:
+            data = json.load(file)
+            id_list = [item['id'] for item in data]
+    with torch.no_grad():
+        for data in llava_loader:
+            input_questions = data['input']
+            input_questions = [q.replace("<image>\n", "").replace("\n<image>", "").replace("<image>", "") for q in input_questions]
+            image_paths=data['image']
+            qid=data['question_ids']
+            # print(qid)
+            images=[]
+            save_name=str(qid[0])+'.pkl'
+            # if save_name in havedone_list:
+            #     continue
+            if is_ref and (str(qid[0]) not in id_list):
+                print('pass:', str(qid[0]))
+                continue
+            save_path = os.path.join(output_dir, save_name)
+            for image_path in image_paths:
+                images.append(Image.open(os.path.join(args.images_dir,'COCO_train2014_'+image_path)))
+            prompts=get_prompts(input_questions)
+            sentence_end_id=29889
+            max_length = args.max_length
+            token_level_beams = args.num_token_beams
+            temperature = args.temperature
+            max_new_tokens = args.max_new_tokens
+            diversity_penalty = args.diversity_penalty
+            num_beams=args.num_beams
+            num_beam_group=args.num_beam_group
+            result=gather_object(sentence_level_beam_search_tree(
+                qid[0],
+                model,
+                accelerator,
+                processor,
+                tokenizer,
+                after_tokenizer,
+                # clip_model,
+                # clip_processor,
+                prompts[0],
+                images[0],
+                sentence_end_id,
+                max_length,
+                max_new_tokens,
+                num_beams,
+                num_beam_group,
+                token_level_beams,
+                temperature,
+                diversity_penalty
+                ))
+            # print(result)
+            # print_paths(result[0]['tree'])
+            # print(qid)
+            # print(len(result))
+            if accelerator.is_main_process:
+                for obj in result:
+                    # print(obj['id'])
+                    r_save_path = os.path.join(output_dir, str(obj['id'])+'.pkl')
+                    print(r_save_path)
+                    save_object(obj, r_save_path)
+            torch.cuda.empty_cache()
+            accelerator.wait_for_everyone()
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--model-path", type=str, default="/home/yiyangai/Projects/dongjie/StepbyStep/llava_13b_dpoed/llava_merged_dpo_13b_1epoch_1iteration")
+    parser.add_argument("--dataset_path", type=str, default='/home/yiyangai/Projects/dongjie/LlaVa-Instruct-150k/LLaVA-Instruct-150K/my_dataset12k.json')
+    parser.add_argument("--images_dir", type=str, default="../LlaVa-Instruct-150k/data/train2014")
+    parser.add_argument("--output_dir", type=str, default="/home/yiyangai/Projects/dongjie/StepbyStep/Save_Folder/2024-5-9-after1dpo-13b")
+    parser.add_argument("--temperature", type=float, default=0.3)
+    parser.add_argument("--diversity_penalty", type=float, default=3.0)
+    parser.add_argument("--num_beams", type=int, default=5)
+    parser.add_argument("--num_beam_group", type=int, default=5)
+    parser.add_argument("--num_token_beams", type=int, default=5)
+    parser.add_argument("--max_length", type=int, default=1024)
+    parser.add_argument("--max_new_tokens", type=int, default=70)
+    parser.add_argument("--weight_mapping_path", type=str, default='/home/yiyangai/Projects/dongjie/5de42962e78a4485afa7a05120d78d88/key_mapping_13b.json')
+    parser.add_argument("--is_ref", type=bool, default=False)
+    parser.add_argument("--ref_path", type=str, default='/home/yiyangai/Projects/dongjie/StepbyStep/Save_Folder/4-26-dataset.json')
+    args = parser.parse_args()
+    eval_model(args)