Upload finetuned model

Browse files

Files changed (9) hide show

added_tokens.json +36 -8
chat_template.jinja +6 -47
config.json +13 -23
generation_config.json +1 -3
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +75 -2
special_tokens_map.json +28 -68
tokenizer_config.json +1 -1

added_tokens.json CHANGED Viewed

@@ -1,10 +1,38 @@
 {
-  "</box>": 262151,
-  "</quad>": 262147,
-  "</ref>": 262149,
-  "<IMG_CONTEXT>": 262145,
-  "<box>": 262150,
-  "<image_soft_token>": 262144,
-  "<quad>": 262146,
-  "<ref>": 262148
 }

 {
+  "</box>": 151677,
+  "</img>": 151670,
+  "</quad>": 151673,
+  "</ref>": 151675,
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<IMG_CONTEXT>": 151671,
+  "<box>": 151676,
+  "<img>": 151669,
+  "<quad>": 151672,
+  "<ref>": 151674,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<video>": 151678,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
 }

chat_template.jinja CHANGED Viewed

@@ -1,47 +1,6 @@
-{{ bos_token }}
-{%- if messages[0]['role'] == 'system' -%}
-    {%- if messages[0]['content'] is string -%}
-        {%- set first_user_prefix = messages[0]['content'] + '
-' -%}
-    {%- else -%}
-        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
-' -%}
-    {%- endif -%}
-    {%- set loop_messages = messages[1:] -%}
-{%- else -%}
-    {%- set first_user_prefix = "" -%}
-    {%- set loop_messages = messages -%}
-{%- endif -%}
-{%- for message in loop_messages -%}
-    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
-        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
-    {%- endif -%}
-    {%- if (message['role'] == 'assistant') -%}
-        {%- set role = "model" -%}
-    {%- else -%}
-        {%- set role = message['role'] -%}
-    {%- endif -%}
-    {{ '<start_of_turn>' + role + '
-' + (first_user_prefix if loop.first else "") }}
-    {%- if message['content'] is string -%}
-        {{ message['content'] | trim }}
-    {%- elif message['content'] is iterable -%}
-        {%- for item in message['content'] -%}
-            {%- if item['type'] == 'image' -%}
-                {{ '<start_of_image>' }}
-            {%- elif item['type'] == 'text' -%}
-                {{ item['text'] | trim }}
-            {%- endif -%}
-        {%- endfor -%}
-    {%- else -%}
-        {{ raise_exception("Invalid content type") }}
-    {%- endif -%}
-    {{ '<end_of_turn>
-' }}
-{%- endfor -%}
-{%- if add_generation_prompt -%}
-    {{'<start_of_turn>model
-'}}
-{%- endif -%}

+{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+'}}{% if message['content'] is string %}{{ message['content'] }}{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' %}{{ '<IMG_CONTEXT>
+' }}{% elif content['type'] == 'video' %}{{ '<video>
+' }}{% elif content['type'] == 'text' %}{{ content['text'] }}{% endif %}{% endfor %}{% endif %}{{'<|im_end|>
+'}}{% endfor %}{% if add_generation_prompt %}{{'<|im_start|>assistant
+' }}{% endif %}

config.json CHANGED Viewed

@@ -8,20 +8,18 @@
   "model_type": "internvl",
   "projector_hidden_act": "gelu",
   "text_config": {
-    "_sliding_window_pattern": 6,
     "architectures": [
-      "Gemma3ForCausalLM"
     ],
     "attention_bias": false,
     "attention_dropout": 0.0,
-    "attn_logit_softcapping": null,
     "bos_token_id": 2,
-    "cache_implementation": "hybrid",
     "eos_token_id": 1,
-    "final_logit_softcapping": null,
     "head_dim": 256,
     "hidden_act": "silu",
-    "hidden_activation": "gelu_pytorch_tanh",
     "hidden_size": 2560,
     "initializer_range": 0.02,
     "intermediate_size": 10240,
@@ -63,23 +61,19 @@
     ],
     "max_position_embeddings": 131072,
     "max_window_layers": 28,
     "model_type": "qwen3",
     "num_attention_heads": 8,
     "num_hidden_layers": 34,
     "num_key_value_heads": 4,
-    "pad_token_id": 0,
-    "query_pre_attn_scalar": 256,
     "rms_norm_eps": 1e-06,
-    "rope_local_base_freq": 10000.0,
-    "rope_scaling": {
-      "factor": 8.0,
-      "rope_type": "linear"
-    },
-    "rope_theta": 1000000.0,
     "sliding_window": null,
-    "tie_word_embeddings": true,
     "torch_dtype": "bfloat16",
-    "use_cache": false,
     "use_sliding_window": false,
     "vocab_size": 262152
   },
@@ -89,9 +83,8 @@
     "architectures": [
       "InternVisionModel"
     ],
-    "attention_bias": false,
     "attention_dropout": 0.0,
-    "drop_path_rate": 0.1,
     "dropout": 0.0,
     "hidden_act": "gelu",
     "hidden_dropout_prob": 0.0,
@@ -100,8 +93,8 @@
       448,
       448
     ],
-    "initializer_factor": 1.0,
-    "initializer_range": 0.02,
     "intermediate_size": 4096,
     "layer_norm_eps": 1e-06,
     "layer_scale_init_value": 0.1,
@@ -115,11 +108,8 @@
       14
     ],
     "projection_dropout": 0.0,
-    "qk_normalization": false,
-    "qkv_bias": true,
     "torch_dtype": "bfloat16",
     "use_absolute_position_embeddings": true,
-    "use_flash_attn": true,
     "use_mask_token": false,
     "use_mean_pooling": true,
     "use_qk_norm": false

   "model_type": "internvl",
   "projector_hidden_act": "gelu",
   "text_config": {
+    "_name_or_path": "/root/codespace/checkpoints/Qwen3-0.6B",
     "architectures": [
+      "Qwen3ForCausalLM"
     ],
     "attention_bias": false,
     "attention_dropout": 0.0,
     "bos_token_id": 2,
+    "debug": false,
     "eos_token_id": 1,
+    "ep_size": 1,
     "head_dim": 256,
     "hidden_act": "silu",
     "hidden_size": 2560,
     "initializer_range": 0.02,
     "intermediate_size": 10240,
     ],
     "max_position_embeddings": 131072,
     "max_window_layers": 28,
+    "micro_forward": false,
     "model_type": "qwen3",
     "num_attention_heads": 8,
     "num_hidden_layers": 34,
     "num_key_value_heads": 4,
     "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "skip_checkpoint": false,
     "sliding_window": null,
     "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "use_deepep": false,
     "use_sliding_window": false,
     "vocab_size": 262152
   },
     "architectures": [
       "InternVisionModel"
     ],
+    "attention_bias": true,
     "attention_dropout": 0.0,
     "dropout": 0.0,
     "hidden_act": "gelu",
     "hidden_dropout_prob": 0.0,
       448,
       448
     ],
+    "initializer_factor": 0.1,
+    "initializer_range": 1e-10,
     "intermediate_size": 4096,
     "layer_norm_eps": 1e-06,
     "layer_scale_init_value": 0.1,
       14
     ],
     "projection_dropout": 0.0,
     "torch_dtype": "bfloat16",
     "use_absolute_position_embeddings": true,
     "use_mask_token": false,
     "use_mean_pooling": true,
     "use_qk_norm": false

generation_config.json CHANGED Viewed

@@ -2,7 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 2,
   "eos_token_id": 1,
-  "pad_token_id": 0,
-  "transformers_version": "4.55.0",
-  "use_cache": false
 }

   "_from_model_config": true,
   "bos_token_id": 2,
   "eos_token_id": 1,
+  "transformers_version": "4.55.0"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8778027066ad533f17902037e617a64b88a704507c5d448cb0fefd1eb285b98
-size 4951909536

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5774f23db9a6e31eda4de4f71c14ceae0d8b7357428245ed91ec45d5b3a524d
+size 4952065960

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:915d374154c8a48ae93204f43a893a43b68bcbb0ab39ff48b5947a664f56315c
-size 3450059472

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1be1040a14a07e8092bfd5d0a48dccaf00499d7b6b3102625d4a891a8aba3eb
+size 4792277960

model.safetensors.index.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
   "metadata": {
-    "total_parameters": 4200936960,
-    "total_size": 8401873920
   },
   "weight_map": {
     "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
@@ -390,10 +391,13 @@
     "vision_tower.embeddings.patch_embeddings.projection.bias": "model-00001-of-00002.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.weight": "model-00001-of-00002.safetensors",
     "vision_tower.embeddings.position_embeddings": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.lambda_2": "model-00001-of-00002.safetensors",
@@ -405,10 +409,13 @@
     "vision_tower.encoder.layer.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.lambda_2": "model-00001-of-00002.safetensors",
@@ -420,10 +427,13 @@
     "vision_tower.encoder.layer.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.lambda_2": "model-00001-of-00002.safetensors",
@@ -435,10 +445,13 @@
     "vision_tower.encoder.layer.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.lambda_2": "model-00001-of-00002.safetensors",
@@ -450,10 +463,13 @@
     "vision_tower.encoder.layer.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.lambda_2": "model-00001-of-00002.safetensors",
@@ -465,10 +481,13 @@
     "vision_tower.encoder.layer.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.lambda_2": "model-00001-of-00002.safetensors",
@@ -480,10 +499,13 @@
     "vision_tower.encoder.layer.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.lambda_2": "model-00001-of-00002.safetensors",
@@ -495,10 +517,13 @@
     "vision_tower.encoder.layer.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.lambda_2": "model-00001-of-00002.safetensors",
@@ -510,10 +535,13 @@
     "vision_tower.encoder.layer.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.lambda_2": "model-00001-of-00002.safetensors",
@@ -525,10 +553,13 @@
     "vision_tower.encoder.layer.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.lambda_2": "model-00001-of-00002.safetensors",
@@ -540,10 +571,13 @@
     "vision_tower.encoder.layer.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.lambda_2": "model-00001-of-00002.safetensors",
@@ -555,10 +589,13 @@
     "vision_tower.encoder.layer.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.lambda_2": "model-00001-of-00002.safetensors",
@@ -570,10 +607,13 @@
     "vision_tower.encoder.layer.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.lambda_2": "model-00001-of-00002.safetensors",
@@ -585,10 +625,13 @@
     "vision_tower.encoder.layer.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.lambda_2": "model-00001-of-00002.safetensors",
@@ -600,10 +643,13 @@
     "vision_tower.encoder.layer.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.lambda_2": "model-00001-of-00002.safetensors",
@@ -615,10 +661,13 @@
     "vision_tower.encoder.layer.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.lambda_2": "model-00001-of-00002.safetensors",
@@ -630,10 +679,13 @@
     "vision_tower.encoder.layer.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.lambda_2": "model-00001-of-00002.safetensors",
@@ -645,10 +697,13 @@
     "vision_tower.encoder.layer.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.lambda_2": "model-00001-of-00002.safetensors",
@@ -660,10 +715,13 @@
     "vision_tower.encoder.layer.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.lambda_2": "model-00001-of-00002.safetensors",
@@ -675,10 +733,13 @@
     "vision_tower.encoder.layer.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.lambda_2": "model-00001-of-00002.safetensors",
@@ -690,10 +751,13 @@
     "vision_tower.encoder.layer.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.lambda_2": "model-00001-of-00002.safetensors",
@@ -705,10 +769,13 @@
     "vision_tower.encoder.layer.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.lambda_2": "model-00001-of-00002.safetensors",
@@ -720,10 +787,13 @@
     "vision_tower.encoder.layer.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.lambda_2": "model-00001-of-00002.safetensors",
@@ -735,10 +805,13 @@
     "vision_tower.encoder.layer.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.q_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.lambda_2": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_parameters": 4872119808,
+    "total_size": 9744239616
   },
   "weight_map": {
+    "language_model.lm_head.weight": "model-00002-of-00002.safetensors",
     "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.bias": "model-00001-of-00002.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.weight": "model-00001-of-00002.safetensors",
     "vision_tower.embeddings.position_embeddings": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.0.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.0.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.0.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.1.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.1.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.1.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.10.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.10.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.10.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.11.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.11.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.11.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.12.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.12.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.12.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.13.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.13.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.13.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.14.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.14.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.14.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.15.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.15.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.15.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.16.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.16.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.16.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.17.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.17.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.17.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.18.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.18.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.18.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.19.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.19.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.19.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.2.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.2.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.2.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.20.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.20.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.20.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.21.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.21.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.21.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.22.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.22.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.22.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.23.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.23.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.23.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.3.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.3.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.3.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.4.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.4.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.4.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.5.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.5.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.5.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.6.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.6.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.6.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.7.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.7.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.7.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.8.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.8.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.8.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.lambda_2": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.9.attention.k_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.k_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.9.attention.q_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_tower.encoder.layer.9.attention.v_proj.bias": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.attention.v_proj.weight": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.lambda_1": "model-00001-of-00002.safetensors",
     "vision_tower.encoder.layer.9.lambda_2": "model-00001-of-00002.safetensors",

special_tokens_map.json CHANGED Viewed

@@ -1,84 +1,44 @@
 {
   "additional_special_tokens": [
-    {
-      "content": "<IMG_CONTEXT>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<quad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "</quad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<ref>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "</ref>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<box>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "</box>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    }
   ],
-  "boi_token": "<start_of_image>",
-  "bos_token": {
-    "content": "<bos>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eoi_token": "<end_of_image>",
   "eos_token": {
-    "content": "<eos>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
-  "image_token": "<image_soft_token>",
   "pad_token": {
-    "content": "<pad>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
   "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<img>",
+    "</img>",
+    "<IMG_CONTEXT>",
+    "<quad>",
+    "</quad>",
+    "<ref>",
+    "</ref>",
+    "<box>",
+    "</box>"
   ],
+  "context_image_token": "<IMG_CONTEXT>",
+  "end_image_token": "</img>",
   "eos_token": {
+    "content": "<|im_end|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
+  "start_image_token": "<img>",
+  "video_token": "<video>"
 }

tokenizer_config.json CHANGED Viewed

@@ -336,4 +336,4 @@
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null,
   "video_token": "<video>"
-}

   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null,
   "video_token": "<video>"
+}