Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +30 -0
chat_template.jinja +1 -0
config.json +83 -0
generation_config.json +13 -0
model.safetensors +3 -0
model.safetensors.index.json +720 -0
preprocessor_config.json +20 -0
processor_config.json +26 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +23 -0

README.md ADDED Viewed

	@@ -0,0 +1,30 @@

+---
+license: other
+language:
+- multilingual
+pipeline_tag: image-text-to-text
+library_name: transformers
+base_model:
+- tencent/HunyuanOCR
+tags:
+- ocr
+- hunyuan
+- vision-language
+- image-to-text
+- 1B
+- end-to-end
+- mlx
+---
+# hadeseus/HunyuanOCR-mlx
+This model was converted to MLX format from [`tencent/HunyuanOCR`]() using mlx-vlm version **0.3.12**.
+Refer to the [original model card](https://huggingface.co/tencent/HunyuanOCR) for more details on the model.
+## Use with mlx
+```bash
+pip install -U mlx-vlm
+```
+```bash
+python -m mlx_vlm.generate --model hadeseus/HunyuanOCR-mlx --max-tokens 100 --temperature 0.0 --prompt "Describe this image." --image <path_to_image>
+```

chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@

+ {% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% if messages[0]['content'] is string %}{% set system_message = messages[0]['content'] %}{% else %}{% set system_message = messages[0]['content']['text'] %}{% endif %}<｜hy_begin▁of▁sentence｜>{{ system_message }}<｜hy_place▁holder▁no▁3｜>{% else %}{% set loop_messages = messages %}<｜hy_begin▁of▁sentence｜>{% endif %}{% for message in loop_messages %}{% if message['role'] == 'user' %}{% if message['content'] is string %}{{ message['content'] }}{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}<｜hy_place▁holder▁no▁100｜><｜hy_place▁holder▁no▁102｜><｜hy_place▁holder▁no▁101｜>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}{% endif %}<｜hy_User｜>{% elif message['role'] == 'assistant' %}{{ message['content'] }}<｜hy_Assistant｜>{% endif %}{% endfor %}

config.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+    "architectures": [
+        "HunYuanVLForConditionalGeneration"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attention_head_dim": 128,
+    "bos_token_id": 120000,
+    "dtype": "bfloat16",
+    "eod_token_id": 120020,
+    "eos_token_id": [
+        120007,
+        120020
+    ],
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 1024,
+    "image_end_token_id": 120119,
+    "image_newline_token_id": 120121,
+    "image_start_token_id": 120118,
+    "image_token_id": 120120,
+    "initializer_range": 0.02,
+    "intermediate_size": 3584,
+    "max_position_embeddings": 32768,
+    "mlp_bias": false,
+    "model_type": "hunyuan_vl",
+    "norm_type": "rms",
+    "num_attention_heads": 16,
+    "num_experts": 1,
+    "num_hidden_layers": 24,
+    "num_key_value_heads": 8,
+    "org_vocab_size": 120818,
+    "pad_id": 120002,
+    "pad_token_id": -1,
+    "pretraining_tp": 1,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": {
+        "alpha": 1000.0,
+        "beta_fast": 32,
+        "beta_slow": 1,
+        "factor": 1.0,
+        "mscale": 1.0,
+        "mscale_all_dim": 1.0,
+        "type": "xdrope",
+        "xdrope_section": [
+            16,
+            16,
+            16,
+            16
+        ]
+    },
+    "rope_theta": 10000.0,
+    "routed_scaling_factor": 1.0,
+    "sep_token_id": 0,
+    "text_end_id": 8,
+    "text_start_id": 7,
+    "tie_word_embeddings": true,
+    "transformers_version": "4.49.0",
+    "use_cache": true,
+    "use_cla": false,
+    "use_qk_norm": true,
+    "vision_config": {
+        "add_patchemb_bias": true,
+        "attention_dropout": 0.0,
+        "cat_extra_token": 1,
+        "hidden_act": "gelu",
+        "hidden_dropout": 0.0,
+        "hidden_size": 1152,
+        "img_max_token_num": 4096,
+        "intermediate_size": 4304,
+        "interpolate_mode": "bilinear",
+        "max_image_size": 2048,
+        "max_vit_seq_len": 16384,
+        "num_attention_heads": 16,
+        "num_channels": 3,
+        "num_hidden_layers": 27,
+        "out_hidden_size": 1024,
+        "patch_size": 16,
+        "rms_norm_eps": 1e-05,
+        "spatial_merge_size": 2
+    },
+    "vocab_size": 120818
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 120000,
+  "pad_token_id": 120002,
+  "do_sample": true,
+  "eos_token_id": [
+    120007,
+    120020
+  ],
+  "repetition_penalty": 1.03,
+  "top_k": 1,
+  "top_p": 1.0,
+  "temperature":0.0
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2072905c83dcf18e491713deebad615e4d71398efa282f83daec8044839f8041
+size 1992504820

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,720 @@

+{
+    "metadata": {
+        "total_size": 1992416224
+    },
+    "weight_map": {
+        "language_model.model.embed_tokens.weight": "model.safetensors",
+        "language_model.model.layers.0.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.input_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.down_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.mlp.up_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.post_attention_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.key_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.o_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.query_layernorm.weight": "model.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.weight": "model.safetensors",
+        "language_model.model.norm.weight": "model.safetensors",
+        "vision_tower.embeddings.patch_embedding.bias": "model.safetensors",
+        "vision_tower.embeddings.patch_embedding.weight": "model.safetensors",
+        "vision_tower.embeddings.position_embedding.weight": "model.safetensors",
+        "vision_tower.layers.0.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.0.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.0.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.0.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.0.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.0.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.0.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.0.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.0.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.0.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.0.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.0.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.0.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.0.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.0.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.0.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.1.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.1.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.1.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.1.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.1.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.1.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.1.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.1.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.1.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.1.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.1.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.1.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.1.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.1.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.1.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.1.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.10.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.10.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.10.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.10.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.10.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.10.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.10.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.10.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.10.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.10.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.10.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.10.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.10.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.10.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.10.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.10.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.11.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.11.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.11.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.11.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.11.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.11.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.11.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.11.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.11.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.11.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.11.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.11.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.11.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.11.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.11.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.11.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.12.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.12.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.12.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.12.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.12.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.12.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.12.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.12.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.12.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.12.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.12.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.12.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.12.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.12.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.12.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.12.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.13.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.13.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.13.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.13.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.13.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.13.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.13.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.13.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.13.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.13.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.13.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.13.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.13.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.13.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.13.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.13.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.14.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.14.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.14.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.14.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.14.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.14.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.14.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.14.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.14.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.14.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.14.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.14.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.14.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.14.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.14.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.14.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.15.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.15.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.15.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.15.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.15.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.15.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.15.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.15.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.15.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.15.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.15.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.15.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.15.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.15.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.15.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.15.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.16.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.16.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.16.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.16.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.16.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.16.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.16.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.16.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.16.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.16.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.16.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.16.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.16.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.16.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.16.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.16.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.17.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.17.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.17.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.17.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.17.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.17.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.17.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.17.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.17.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.17.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.17.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.17.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.17.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.17.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.17.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.17.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.18.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.18.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.18.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.18.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.18.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.18.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.18.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.18.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.18.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.18.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.18.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.18.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.18.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.18.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.18.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.18.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.19.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.19.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.19.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.19.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.19.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.19.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.19.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.19.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.19.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.19.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.19.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.19.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.19.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.19.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.19.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.19.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.2.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.2.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.2.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.2.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.2.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.2.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.2.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.2.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.2.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.2.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.2.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.2.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.2.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.2.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.2.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.2.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.20.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.20.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.20.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.20.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.20.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.20.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.20.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.20.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.20.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.20.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.20.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.20.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.20.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.20.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.20.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.20.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.21.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.21.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.21.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.21.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.21.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.21.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.21.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.21.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.21.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.21.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.21.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.21.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.21.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.21.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.21.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.21.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.22.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.22.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.22.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.22.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.22.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.22.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.22.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.22.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.22.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.22.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.22.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.22.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.22.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.22.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.22.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.22.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.23.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.23.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.23.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.23.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.23.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.23.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.23.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.23.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.23.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.23.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.23.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.23.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.23.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.23.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.23.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.23.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.24.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.24.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.24.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.24.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.24.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.24.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.24.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.24.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.24.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.24.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.24.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.24.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.24.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.24.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.24.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.24.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.25.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.25.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.25.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.25.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.25.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.25.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.25.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.25.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.25.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.25.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.25.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.25.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.25.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.25.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.25.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.25.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.26.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.26.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.26.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.26.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.26.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.26.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.26.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.26.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.26.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.26.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.26.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.26.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.26.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.26.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.26.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.26.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.3.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.3.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.3.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.3.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.3.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.3.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.3.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.3.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.3.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.3.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.3.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.3.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.3.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.3.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.3.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.3.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.4.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.4.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.4.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.4.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.4.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.4.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.4.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.4.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.4.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.4.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.4.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.4.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.4.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.4.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.4.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.4.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.5.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.5.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.5.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.5.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.5.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.5.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.5.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.5.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.5.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.5.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.5.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.5.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.5.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.5.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.5.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.5.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.6.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.6.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.6.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.6.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.6.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.6.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.6.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.6.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.6.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.6.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.6.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.6.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.6.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.6.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.6.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.6.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.7.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.7.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.7.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.7.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.7.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.7.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.7.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.7.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.7.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.7.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.7.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.7.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.7.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.7.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.7.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.7.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.8.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.8.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.8.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.8.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.8.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.8.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.8.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.8.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.8.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.8.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.8.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.8.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.8.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.8.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.8.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.8.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.layers.9.input_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.9.input_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.9.mlp.dense_4h_to_h.bias": "model.safetensors",
+        "vision_tower.layers.9.mlp.dense_4h_to_h.weight": "model.safetensors",
+        "vision_tower.layers.9.mlp.dense_h_to_4h.bias": "model.safetensors",
+        "vision_tower.layers.9.mlp.dense_h_to_4h.weight": "model.safetensors",
+        "vision_tower.layers.9.post_attention_layernorm.bias": "model.safetensors",
+        "vision_tower.layers.9.post_attention_layernorm.weight": "model.safetensors",
+        "vision_tower.layers.9.self_attn.k_proj.bias": "model.safetensors",
+        "vision_tower.layers.9.self_attn.k_proj.weight": "model.safetensors",
+        "vision_tower.layers.9.self_attn.o_proj.bias": "model.safetensors",
+        "vision_tower.layers.9.self_attn.o_proj.weight": "model.safetensors",
+        "vision_tower.layers.9.self_attn.q_proj.bias": "model.safetensors",
+        "vision_tower.layers.9.self_attn.q_proj.weight": "model.safetensors",
+        "vision_tower.layers.9.self_attn.v_proj.bias": "model.safetensors",
+        "vision_tower.layers.9.self_attn.v_proj.weight": "model.safetensors",
+        "vision_tower.perceive.after_rms.weight": "model.safetensors",
+        "vision_tower.perceive.before_rms.weight": "model.safetensors",
+        "vision_tower.perceive.image_begin": "model.safetensors",
+        "vision_tower.perceive.image_end": "model.safetensors",
+        "vision_tower.perceive.image_newline": "model.safetensors",
+        "vision_tower.perceive.image_sep": "model.safetensors",
+        "vision_tower.perceive.mlp.bias": "model.safetensors",
+        "vision_tower.perceive.mlp.weight": "model.safetensors",
+        "vision_tower.perceive.proj.0.bias": "model.safetensors",
+        "vision_tower.perceive.proj.0.weight": "model.safetensors",
+        "vision_tower.perceive.proj.2.bias": "model.safetensors",
+        "vision_tower.perceive.proj.2.weight": "model.safetensors"
+    }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "min_pixels": 262144,
+  "max_pixels": 4194304,
+  "patch_size": 16,
+  "resample": 1,
+  "temporal_patch_size": 1,
+  "merge_size": 2,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "image_processor_type": "HunYuanVLImageProcessor",
+  "processor_class": "HunYuanVLProcessor"
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "image_processor": {
+    "_from_auto": true,
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_resize": true,
+    "image_mean": [
+      0.48145466,
+      0.4578275,
+      0.40821073
+    ],
+    "image_processor_type": "HunYuanVLImageProcessor",
+    "image_std": [
+      0.26862954,
+      0.26130258,
+      0.27577711
+    ],
+    "max_pixels": 4194304,
+    "merge_size": 2,
+    "min_pixels": 262144,
+    "patch_size": 16,
+    "temporal_patch_size": 1,
+    "use_fast": true
+  },
+  "processor_class": "HunYuanVLProcessor"
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<｜hy_begin▁of▁sentence｜>",
+  "eos_token": "<｜hy_place▁holder▁no▁2｜>",
+  "pad_token": "<｜hy_▁pad▁｜>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<｜hy_begin▁of▁sentence｜>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<｜hy_Assistant｜>",
+  "image_end_token": "<｜hy_place▁holder▁no▁101｜>",
+  "image_start_token": "<｜hy_place▁holder▁no▁100｜>",
+  "image_token": "<｜hy_place▁holder▁no▁102｜>",
+  "is_local": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {
+    "image_end_token": "<｜hy_place▁holder▁no▁101｜>",
+    "image_start_token": "<｜hy_place▁holder▁no▁100｜>",
+    "image_token": "<｜hy_place▁holder▁no▁102｜>",
+    "video_end_token": "<｜hy_place▁holder▁no▁105｜>",
+    "video_start_token": "<｜hy_place▁holder▁no▁104｜>"
+  },
+  "pad_token": "<｜hy_▁pad▁｜>",
+  "processor_class": "HunYuanVLProcessor",
+  "tokenizer_class": "TokenizersBackend",
+  "video_end_token": "<｜hy_place▁holder▁no▁105｜>",
+  "video_start_token": "<｜hy_place▁holder▁no▁104｜>"
+}