JungHun commited on Mar 5

Commit

ce2298b

verified ·

1 Parent(s): 4d24b2e

Upload KormoImagePipeline

Browse files

Files changed (33) hide show

README.md +198 -0
model_index.json +24 -0
scheduler/scheduler_config.json +18 -0
text_encoder/config.json +220 -0
text_encoder/generation_config.json +10 -0
text_encoder/model-00001-of-00010.safetensors +3 -0
text_encoder/model-00002-of-00010.safetensors +3 -0
text_encoder/model-00003-of-00010.safetensors +3 -0
text_encoder/model-00004-of-00010.safetensors +3 -0
text_encoder/model-00005-of-00010.safetensors +3 -0
text_encoder/model-00006-of-00010.safetensors +3 -0
text_encoder/model-00007-of-00010.safetensors +3 -0
text_encoder/model-00008-of-00010.safetensors +3 -0
text_encoder/model-00009-of-00010.safetensors +3 -0
text_encoder/model-00010-of-00010.safetensors +3 -0
text_encoder/model.safetensors.index.json +813 -0
tokenizer/chat_template.jinja +68 -0
tokenizer/special_tokens_map.json +27 -0
tokenizer/tokenizer.json +0 -0
tokenizer/tokenizer_config.json +369 -0
transformer/config.json +18 -0
transformer/diffusion_pytorch_model-00001-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00002-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00003-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00004-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00005-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00006-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00007-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00008-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model-00009-of-00009.safetensors +3 -0
transformer/diffusion_pytorch_model.safetensors.index.json +0 -0
vae/config.json +57 -0
vae/diffusion_pytorch_model.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,198 @@

+---
+library_name: diffusers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+This is the model card of a 🧨 diffusers model that has been pushed on the Hub. This model card has been automatically generated.
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]

model_index.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_class_name": "KormoImagePipeline",
+  "_diffusers_version": "0.36.0",
+  "scheduler": [
+    "diffusers",
+    "FlowMatchEulerDiscreteScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "LlavaOnevisionForConditionalGeneration"
+  ],
+  "tokenizer": [
+    "transformers",
+    "PreTrainedTokenizerFast"
+  ],
+  "transformer": [
+    "diffusers",
+    "QwenImageTransformer2DModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKLQwenImage"
+  ]
+}

scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.36.0",
+  "base_image_seq_len": 256,
+  "base_shift": 0.5,
+  "invert_sigmas": false,
+  "max_image_seq_len": 8192,
+  "max_shift": 0.9,
+  "num_train_timesteps": 1000,
+  "shift": 1.0,
+  "shift_terminal": 0.02,
+  "stochastic_sampling": false,
+  "time_shift_type": "exponential",
+  "use_beta_sigmas": false,
+  "use_dynamic_shifting": false,
+  "use_exponential_sigmas": false,
+  "use_karras_sigmas": false
+}

text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,220 @@

+{
+  "architectures": [
+    "LlavaOnevisionForConditionalGeneration"
+  ],
+  "auto_map": {
+    "AutoConfig": "_configuration_llava_onevision_kormo.LlavaOnevisionKORMoConfig"
+  },
+  "bos_token_id": 125030,
+  "dtype": "float32",
+  "eos_token_id": 125040,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_token_index": 125041,
+  "model_type": "llava_onevision",
+  "multimodal_projector_bias": true,
+  "pad_token_id": 125032,
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "KORMo-Team/KORMo-10B-sft",
+    "architectures": [
+      "KORMoForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "auto_map": {
+      "AutoConfig": "_configuration_kormo.KORMoConfig",
+      "AutoModel": "_modeling_kormo.KORMoModel",
+      "AutoModelForCausalLM": "_modeling_kormo.KORMoForCausalLM"
+    },
+    "bos_token_id": 125030,
+    "dtype": "float32",
+    "eos_token_id": 125040,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 16384,
+    "mask_type": null,
+    "max_position_embeddings": 131072,
+    "mlp_bias": false,
+    "model_type": "kormo",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 40,
+    "num_key_value_heads": 8,
+    "pad_token_id": 125032,
+    "pretrain_tp": 1,
+    "pretraining_tp": 1,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": null,
+    "rope_theta": 8000000.0,
+    "tie_word_embeddins": false,
+    "use_cache": true,
+    "vocab_size": 125184
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
+  "video_token_index": 125042,
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "float32",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 384,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  },
+  "vision_feature_layer": -1,
+  "vision_feature_select_strategy": "full"
+}

text_encoder/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 125030,
+  "eos_token_id": [
+    125040,
+    125040
+  ],
+  "pad_token_id": 125032,
+  "transformers_version": "4.57.6"
+}

text_encoder/model-00001-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1b62e8e851ccb1ba404cf7f077ce6d02121f2d3d731a4a643500e34d4d36830
+size 4929941800

text_encoder/model-00002-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:159648f50036767040650bceb6a3ccc544efe160380527d9f3243eee3a7bdd52
+size 4865562352

text_encoder/model-00003-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:270f1c4d655c5d767a9afb09f1d4b60706ae1dc80c60db7e8baaabd1852e1d4a
+size 4865562352

text_encoder/model-00004-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1957cefd34b006541a30878195009beab43eaef7f80ce19633f30277578802e
+size 4865562392

text_encoder/model-00005-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a391224f55c84c090e7957671132d20349354b8b0c0979f23748595da55fbbf4
+size 4865562392

text_encoder/model-00006-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e52e1f3eeabc847d40b1a5bdfdad1ffd9cba4598d47846c9bb52d5495bc9c2a
+size 4865562392

text_encoder/model-00007-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d65bef6202d6eda4c0d94f42345dbb572afb3f1d4de2f319485511d584db708
+size 4865562392

text_encoder/model-00008-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8af183a42b039de524f14a6e21b68140612585c91e46c2a69732c64e4375367
+size 4865562392

text_encoder/model-00009-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:feaa14986d62d0349472b4622360cf143ccd56101ba59fd003dd65b4ba1f98c3
+size 3724693720

text_encoder/model-00010-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d48111904cb7a17596a62f9657875a3275bfe1a12b835fc474d46b53efa92e22
+size 2051014800

text_encoder/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,813 @@

+{
+  "metadata": {
+    "total_parameters": 11191119728,
+    "total_size": 44764478912
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00010.safetensors",
+    "language_model.lm_head.weight": "model-00010-of-00010.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.pre_attention_layernorm.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.pre_mlp_layernorm.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.1.pre_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.1.pre_mlp_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.pre_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.pre_mlp_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.11.pre_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.11.pre_mlp_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.pre_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.pre_mlp_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.pre_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.pre_mlp_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.pre_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.pre_mlp_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.pre_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.pre_mlp_layernorm.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.16.pre_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.16.pre_mlp_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.pre_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.pre_mlp_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.pre_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.pre_mlp_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.pre_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.pre_mlp_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.pre_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.pre_mlp_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.pre_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.pre_mlp_layernorm.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.21.pre_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.21.pre_mlp_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.pre_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.pre_mlp_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.pre_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.pre_mlp_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.pre_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.pre_mlp_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.pre_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.pre_mlp_layernorm.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.26.pre_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.26.pre_mlp_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.pre_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.pre_mlp_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.pre_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.pre_mlp_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.pre_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.pre_mlp_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.pre_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.pre_mlp_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.pre_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.pre_mlp_layernorm.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.31.pre_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.31.pre_mlp_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.pre_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.pre_mlp_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.pre_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.pre_mlp_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.pre_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.pre_mlp_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.34.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.pre_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.pre_mlp_layernorm.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.35.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.36.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.36.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.36.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.36.pre_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.36.pre_mlp_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.36.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.36.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.36.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.36.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+    "language_model.model.layers.37.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.pre_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.pre_mlp_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.37.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.pre_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.pre_mlp_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.38.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.pre_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.pre_mlp_layernorm.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.39.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.pre_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.pre_mlp_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.pre_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.pre_mlp_layernorm.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.6.pre_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.6.pre_mlp_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.pre_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.pre_mlp_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.pre_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.pre_mlp_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.pre_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.pre_mlp_layernorm.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+    "language_model.model.norm.weight": "model-00009-of-00010.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00010.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00010.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00010.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00010.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00010.safetensors"
+  }
+}

tokenizer/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,68 @@

+{%- if messages[0].role == 'system' %}
+    {{- '<|BOT|>system\n' + messages[0].content + '<|EOT|>\n' }}
+{%- endif %}
+{%- set ns = namespace(last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if message.role == "user" %}
+        {%- set ns.last_query_index = index %}
+        {%- break %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) -%}
+        {{- '<|BOT|>' + message.role + '\n' }}
+        {%- for content in message.content | selectattr('type', 'equalto', 'image') %}{{ '<|image|>' }}{% endfor -%}
+        {%- for content in message.content | selectattr('type', 'equalto', 'video') %}{{ '<|video|>' }}{% endfor -%}
+        {% set has_media = (message.content | selectattr('type', 'in', ['image', 'video']) | list | length) > 0 %}
+        {%- for content in message.content | selectattr('type', 'equalto', 'text') -%}
+            {%- if has_media -%}
+                {{ '\n' + content.text }}
+            {%- else -%}
+                {{ content.text }}
+            {%- endif -%}
+        {%- endfor -%}
+        {{- '<|EOT|>\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content_list = message.content | selectattr('type', 'equalto', 'text') | list %}
+        {%- set content = '' %}
+        {%- if content_list %}
+            {%- set content = content_list[0].text %}
+        {%- endif %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think/>' in content %}
+                {% set parts = content.split('</think/>', 1) %}
+                {% set reasoning_content = parts[0].split('<think>', 1) | last | trim %}
+                {% set content = parts[1] | trim %}
+            {%- elif '</think>' in content %}
+                {% set parts = content.split('</think>', 1) %}
+                {% set reasoning_content = parts[0].split('<think>', 1) | last | trim %}
+                {% set content = parts[1] | trim %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|BOT|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n' + content.lstrip('\n') + '<|EOT|>\n' }}
+            {%- else %}
+                {{- '<|BOT|>' + message.role + '\n' + content + '<|EOT|>\n' }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|BOT|>' + message.role + '\n' + content + '<|EOT|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|BOT|>assistant\n' }}
+    {%- if enable_thinking is defined %}
+        {%- if not enable_thinking %}
+            {{- '<think>\n\n</think>\n' }}
+        {%- else %}
+            {{- '<think>\n' }}
+        {%- endif %}
+    {%- else %}
+        {{- '<think>\n\n</think>\n' }}
+    {%- endif %}
+{%- endif %}

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "additional_special_tokens": [
+    "<|image|>",
+    "<|video|>"
+  ],
+  "bos_token": {
+    "content": "<|BOS|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|PAD|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,369 @@

+{
+  "added_tokens_decoder": {
+    "125000": {
+      "content": "\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125001": {
+      "content": "\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125002": {
+      "content": "\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125003": {
+      "content": "\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125004": {
+      "content": "\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125005": {
+      "content": "\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125006": {
+      "content": "\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125007": {
+      "content": "\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125008": {
+      "content": "\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125009": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125010": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125011": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125012": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125013": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125014": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125015": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125016": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125017": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125018": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125019": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125020": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125021": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125022": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125023": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125024": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125025": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125026": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125027": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125028": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125029": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125030": {
+      "content": "<|BOS|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125031": {
+      "content": "<|EOS|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125032": {
+      "content": "<|PAD|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125033": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125034": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125035": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125036": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125037": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125038": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125039": {
+      "content": "<|BOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125040": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125041": {
+      "content": "<|image|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "125042": {
+      "content": "<|video|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|image|>",
+    "<|video|>"
+  ],
+  "bos_token": "<|BOS|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "extra_special_tokens": {},
+  "max_length": null,
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|PAD|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaOnevisionProcessor",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "torch_dtype": "auto"
+}

transformer/config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "QwenImageTransformer2DModel",
+  "_diffusers_version": "0.36.0",
+  "attention_head_dim": 128,
+  "axes_dims_rope": [
+    16,
+    56,
+    56
+  ],
+  "guidance_embeds": false,
+  "in_channels": 64,
+  "joint_attention_dim": 4096,
+  "num_attention_heads": 24,
+  "num_layers": 60,
+  "out_channels": 16,
+  "patch_size": 2,
+  "pooled_projection_dim": 768
+}

transformer/diffusion_pytorch_model-00001-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b28326bc4a3467c431487f1db87537fd72afeb2eab6ba6b547e75a3021898e76
+size 9984993720

transformer/diffusion_pytorch_model-00002-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e17dddda0b17c95228d7c32d9c878d49525c4a0fe5bbe549e2570cc52e3212b5
+size 9968400368

transformer/diffusion_pytorch_model-00003-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da855f14a4de23b764ccd5278491739857a1999201b4804636781a77f2d8d08b
+size 9892913064

transformer/diffusion_pytorch_model-00004-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb31628d581441c9d49ce9186050cc4719d3fcd17ef95fb864a7bff654e1b5b9
+size 9968399936

transformer/diffusion_pytorch_model-00005-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afffd25949d448b70f5ebd83681234e3b13323cef4a7fe8988c1a3e33c640966
+size 9892915504

transformer/diffusion_pytorch_model-00006-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1660b0a3eeaa5f495a0f9bfea3f7d518108cf5ca5d7a327cafc090bd0dc49b8c
+size 9892876192

transformer/diffusion_pytorch_model-00007-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17ee005fdbb598741b1dfde01dfe3688a4fb57fd803488fcdedcfc80b527f87e
+size 9817354160

transformer/diffusion_pytorch_model-00008-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7c979d6c86583146ac9effbc4c3c7d11b2f2f86fbbeeb23efb52de4356527e9
+size 9968437496

transformer/diffusion_pytorch_model-00009-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d1e9e0ab2ef2211d4e4f4c16284865abfde06824b6d6e9ff7e2a44065c1bbe8
+size 2341831752

transformer/diffusion_pytorch_model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vae/config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_class_name": "AutoencoderKLQwenImage",
+  "_diffusers_version": "0.36.0",
+  "_name_or_path": "Qwen/Qwen-Image",
+  "attn_scales": [],
+  "base_dim": 96,
+  "dim_mult": [
+    1,
+    2,
+    4,
+    4
+  ],
+  "dropout": 0.0,
+  "latents_mean": [
+    -0.7571,
+    -0.7089,
+    -0.9113,
+    0.1075,
+    -0.1745,
+    0.9653,
+    -0.1517,
+    1.5508,
+    0.4134,
+    -0.0715,
+    0.5517,
+    -0.3632,
+    -0.1922,
+    -0.9497,
+    0.2503,
+    -0.2921
+  ],
+  "latents_std": [
+    2.8184,
+    1.4541,
+    2.3275,
+    2.6558,
+    1.2196,
+    1.7708,
+    2.6052,
+    2.0743,
+    3.2687,
+    2.1526,
+    2.8652,
+    1.5579,
+    1.6382,
+    1.1253,
+    2.8251,
+    1.916
+  ],
+  "num_res_blocks": 2,
+  "temperal_downsample": [
+    false,
+    true,
+    true
+  ],
+  "z_dim": 16
+}

vae/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1b61103959913d6c7e628cf793dbb2ca4726a40a3b3ae206c52b8e75bf6f08
+size 507591892