Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

_config.json +197 -0
chat_template.jinja +0 -9
config.json +377 -6
model.safetensors +2 -2
processor_config.json +1 -1

_config.json ADDED Viewed

	@@ -0,0 +1,197 @@

+{
+  "architectures": [
+    "Gemma4ForConditionalGeneration"
+  ],
+  "audio_config": {
+    "_name_or_path": "",
+    "architectures": null,
+    "attention_chunk_size": 12,
+    "attention_context_left": 13,
+    "attention_context_right": 0,
+    "attention_invalid_logits_value": -1000000000.0,
+    "attention_logit_cap": 50.0,
+    "chunk_size_feed_forward": 0,
+    "conv_kernel_size": 5,
+    "dtype": "bfloat16",
+    "gradient_clipping": 10000000000.0,
+    "hidden_act": "silu",
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "model_type": "gemma4_audio",
+    "num_attention_heads": 8,
+    "num_hidden_layers": 12,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_proj_dims": 1536,
+    "problem_type": null,
+    "residual_weight": 0.5,
+    "return_dict": true,
+    "rms_norm_eps": 1e-06,
+    "subsampling_conv_channels": [
+      128,
+      32
+    ],
+    "use_clipped_linears": true
+  },
+  "audio_token_id": 258881,
+  "boa_token_id": 256000,
+  "boi_token_id": 255999,
+  "dtype": "bfloat16",
+  "eoa_token_id": 258883,
+  "eoa_token_index": 258883,
+  "eoi_token_id": 258882,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "image_token_id": 258880,
+  "initializer_range": 0.02,
+  "model_type": "gemma4",
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attention_k_eq_v": false,
+    "bos_token_id": 2,
+    "dtype": "bfloat16",
+    "enable_moe_block": false,
+    "eos_token_id": 1,
+    "expert_intermediate_size": null,
+    "final_logit_softcapping": 30.0,
+    "global_head_dim": 512,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 2560,
+    "hidden_size_per_layer_input": 256,
+    "initializer_range": 0.02,
+    "intermediate_size": 10240,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma4_text",
+    "num_attention_heads": 8,
+    "num_experts": null,
+    "num_global_key_value_heads": null,
+    "num_hidden_layers": 42,
+    "num_key_value_heads": 2,
+    "num_kv_shared_layers": 18,
+    "pad_token_id": 0,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "full_attention": {
+        "partial_rotary_factor": 0.25,
+        "rope_theta": 1000000.0,
+        "rope_type": "proportional"
+      },
+      "sliding_attention": {
+        "rope_theta": 10000.0,
+        "rope_type": "default"
+      }
+    },
+    "sliding_window": 512,
+    "tie_word_embeddings": true,
+    "top_k_experts": null,
+    "use_bidirectional_attention": null,
+    "use_cache": true,
+    "use_double_wide_mlp": false,
+    "vocab_size": 262144,
+    "vocab_size_per_layer_input": 262144
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.5.0.dev0",
+  "video_token_id": 258884,
+  "vision_config": {
+    "_name_or_path": "",
+    "architectures": null,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "chunk_size_feed_forward": 0,
+    "default_output_length": 280,
+    "dtype": "bfloat16",
+    "global_head_dim": 64,
+    "head_dim": 64,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "max_position_embeddings": 131072,
+    "model_type": "gemma4_vision",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 16,
+    "num_key_value_heads": 12,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "patch_size": 16,
+    "pooling_kernel_size": 3,
+    "position_embedding_size": 10240,
+    "problem_type": null,
+    "return_dict": true,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "rope_theta": 100.0,
+      "rope_type": "default"
+    },
+    "standardize": false,
+    "use_clipped_linears": true
+  },
+  "vision_soft_tokens_per_image": 280
+}

chat_template.jinja CHANGED Viewed

@@ -295,15 +295,6 @@
                                 {%- endif -%}
                             {%- endfor -%}
                             {{- format_tool_response_block(ns_tname.name, ns_txt.s) -}}
-                            {%- for part in tool_body -%}
-                                {%- if part.get('type') == 'image' -%}
-                                    {{- '<|image|>' -}}
-                                {%- elif part.get('type') == 'audio' -%}
-                                    {{- '<|audio|>' -}}
-                                {%- elif part.get('type') == 'video' -%}
-                                    {{- '<|video|>' -}}
-                                {%- endif -%}
-                            {%- endfor -%}
                         {%- else -%}
                             {{- format_tool_response_block(ns_tname.name, tool_body) -}}
                         {%- endif -%}

                                 {%- endif -%}
                             {%- endfor -%}
                             {{- format_tool_response_block(ns_tname.name, ns_txt.s) -}}
                         {%- else -%}
                             {{- format_tool_response_block(ns_tname.name, tool_body) -}}
                         {%- endif -%}

config.json CHANGED Viewed

@@ -12,7 +12,7 @@
     "attention_logit_cap": 50.0,
     "chunk_size_feed_forward": 0,
     "conv_kernel_size": 5,
-    "dtype": "bfloat16",
     "gradient_clipping": 10000000000.0,
     "hidden_act": "silu",
     "hidden_size": 1024,
@@ -45,7 +45,7 @@
   "audio_token_id": 258881,
   "boa_token_id": 256000,
   "boi_token_id": 255999,
-  "dtype": "bfloat16",
   "eoa_token_id": 258883,
   "eoa_token_index": 258883,
   "eoi_token_id": 258882,
@@ -56,12 +56,382 @@
   "image_token_id": 258880,
   "initializer_range": 0.02,
   "model_type": "gemma4",
   "text_config": {
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attention_k_eq_v": false,
     "bos_token_id": 2,
-    "dtype": "bfloat16",
     "enable_moe_block": false,
     "eos_token_id": 1,
     "expert_intermediate_size": null,
@@ -119,6 +489,7 @@
     ],
     "max_position_embeddings": 131072,
     "model_type": "gemma4_text",
     "num_attention_heads": 8,
     "num_experts": null,
     "num_global_key_value_heads": null,
@@ -148,7 +519,7 @@
     "vocab_size_per_layer_input": 262144
   },
   "tie_word_embeddings": true,
-  "transformers_version": "5.5.0.dev0",
   "video_token_id": 258884,
   "vision_config": {
     "_name_or_path": "",
@@ -157,7 +528,7 @@
     "attention_dropout": 0.0,
     "chunk_size_feed_forward": 0,
     "default_output_length": 280,
-    "dtype": "bfloat16",
     "global_head_dim": 64,
     "head_dim": 64,
     "hidden_activation": "gelu_pytorch_tanh",
@@ -194,4 +565,4 @@
     "use_clipped_linears": true
   },
   "vision_soft_tokens_per_image": 280
-}

     "attention_logit_cap": 50.0,
     "chunk_size_feed_forward": 0,
     "conv_kernel_size": 5,
+    "dtype": "float16",
     "gradient_clipping": 10000000000.0,
     "hidden_act": "silu",
     "hidden_size": 1024,
   "audio_token_id": 258881,
   "boa_token_id": 256000,
   "boi_token_id": 255999,
+  "dtype": "float16",
   "eoa_token_id": 258883,
   "eoa_token_index": 258883,
   "eoi_token_id": 258882,
   "image_token_id": 258880,
   "initializer_range": 0.02,
   "model_type": "gemma4",
+  "quantization_config": {
+    "config_groups": {
+      "group_0": {
+        "format": "pack-quantized",
+        "input_activations": null,
+        "output_activations": null,
+        "targets": [
+          "Linear"
+        ],
+        "weights": {
+          "actorder": null,
+          "block_structure": null,
+          "dynamic": false,
+          "group_size": 32,
+          "num_bits": 4,
+          "observer": "mse",
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "group",
+          "symmetric": false,
+          "type": "int",
+          "zp_dtype": "torch.int8"
+        }
+      }
+    },
+    "format": "pack-quantized",
+    "global_compression_ratio": null,
+    "ignore": [
+      "model.vision_tower.patch_embedder.input_proj",
+      "model.vision_tower.encoder.layers.0.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.0.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.0.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.0.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.0.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.0.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.0.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.1.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.1.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.1.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.1.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.1.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.1.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.1.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.2.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.2.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.2.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.2.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.2.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.2.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.2.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.3.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.3.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.3.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.3.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.3.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.3.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.3.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.4.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.4.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.4.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.4.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.4.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.4.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.4.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.5.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.5.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.5.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.5.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.5.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.5.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.5.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.6.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.6.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.6.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.6.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.6.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.6.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.6.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.7.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.7.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.7.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.7.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.7.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.7.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.7.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.8.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.8.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.8.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.8.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.8.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.8.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.8.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.9.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.9.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.9.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.9.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.9.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.9.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.9.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.10.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.10.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.10.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.10.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.10.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.10.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.10.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.11.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.11.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.11.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.11.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.11.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.11.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.11.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.12.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.12.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.12.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.12.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.12.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.12.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.12.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.13.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.13.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.13.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.13.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.13.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.13.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.13.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.14.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.14.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.14.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.14.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.14.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.14.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.14.mlp.down_proj.linear",
+      "model.vision_tower.encoder.layers.15.self_attn.q_proj.linear",
+      "model.vision_tower.encoder.layers.15.self_attn.k_proj.linear",
+      "model.vision_tower.encoder.layers.15.self_attn.v_proj.linear",
+      "model.vision_tower.encoder.layers.15.self_attn.o_proj.linear",
+      "model.vision_tower.encoder.layers.15.mlp.gate_proj.linear",
+      "model.vision_tower.encoder.layers.15.mlp.up_proj.linear",
+      "model.vision_tower.encoder.layers.15.mlp.down_proj.linear",
+      "model.language_model.layers.0.per_layer_input_gate",
+      "model.language_model.layers.0.per_layer_projection",
+      "model.language_model.layers.1.per_layer_input_gate",
+      "model.language_model.layers.1.per_layer_projection",
+      "model.language_model.layers.2.per_layer_input_gate",
+      "model.language_model.layers.2.per_layer_projection",
+      "model.language_model.layers.3.per_layer_input_gate",
+      "model.language_model.layers.3.per_layer_projection",
+      "model.language_model.layers.4.per_layer_input_gate",
+      "model.language_model.layers.4.per_layer_projection",
+      "model.language_model.layers.5.per_layer_input_gate",
+      "model.language_model.layers.5.per_layer_projection",
+      "model.language_model.layers.6.per_layer_input_gate",
+      "model.language_model.layers.6.per_layer_projection",
+      "model.language_model.layers.7.per_layer_input_gate",
+      "model.language_model.layers.7.per_layer_projection",
+      "model.language_model.layers.8.per_layer_input_gate",
+      "model.language_model.layers.8.per_layer_projection",
+      "model.language_model.layers.9.per_layer_input_gate",
+      "model.language_model.layers.9.per_layer_projection",
+      "model.language_model.layers.10.per_layer_input_gate",
+      "model.language_model.layers.10.per_layer_projection",
+      "model.language_model.layers.11.per_layer_input_gate",
+      "model.language_model.layers.11.per_layer_projection",
+      "model.language_model.layers.12.per_layer_input_gate",
+      "model.language_model.layers.12.per_layer_projection",
+      "model.language_model.layers.13.per_layer_input_gate",
+      "model.language_model.layers.13.per_layer_projection",
+      "model.language_model.layers.14.per_layer_input_gate",
+      "model.language_model.layers.14.per_layer_projection",
+      "model.language_model.layers.15.per_layer_input_gate",
+      "model.language_model.layers.15.per_layer_projection",
+      "model.language_model.layers.16.per_layer_input_gate",
+      "model.language_model.layers.16.per_layer_projection",
+      "model.language_model.layers.17.per_layer_input_gate",
+      "model.language_model.layers.17.per_layer_projection",
+      "model.language_model.layers.18.per_layer_input_gate",
+      "model.language_model.layers.18.per_layer_projection",
+      "model.language_model.layers.19.per_layer_input_gate",
+      "model.language_model.layers.19.per_layer_projection",
+      "model.language_model.layers.20.per_layer_input_gate",
+      "model.language_model.layers.20.per_layer_projection",
+      "model.language_model.layers.21.per_layer_input_gate",
+      "model.language_model.layers.21.per_layer_projection",
+      "model.language_model.layers.22.per_layer_input_gate",
+      "model.language_model.layers.22.per_layer_projection",
+      "model.language_model.layers.23.per_layer_input_gate",
+      "model.language_model.layers.23.per_layer_projection",
+      "model.language_model.layers.24.per_layer_input_gate",
+      "model.language_model.layers.24.per_layer_projection",
+      "model.language_model.layers.25.per_layer_input_gate",
+      "model.language_model.layers.25.per_layer_projection",
+      "model.language_model.layers.26.per_layer_input_gate",
+      "model.language_model.layers.26.per_layer_projection",
+      "model.language_model.layers.27.per_layer_input_gate",
+      "model.language_model.layers.27.per_layer_projection",
+      "model.language_model.layers.28.per_layer_input_gate",
+      "model.language_model.layers.28.per_layer_projection",
+      "model.language_model.layers.29.per_layer_input_gate",
+      "model.language_model.layers.29.per_layer_projection",
+      "model.language_model.layers.30.per_layer_input_gate",
+      "model.language_model.layers.30.per_layer_projection",
+      "model.language_model.layers.31.per_layer_input_gate",
+      "model.language_model.layers.31.per_layer_projection",
+      "model.language_model.layers.32.per_layer_input_gate",
+      "model.language_model.layers.32.per_layer_projection",
+      "model.language_model.layers.33.per_layer_input_gate",
+      "model.language_model.layers.33.per_layer_projection",
+      "model.language_model.layers.34.per_layer_input_gate",
+      "model.language_model.layers.34.per_layer_projection",
+      "model.language_model.layers.35.per_layer_input_gate",
+      "model.language_model.layers.35.per_layer_projection",
+      "model.language_model.layers.36.per_layer_input_gate",
+      "model.language_model.layers.36.per_layer_projection",
+      "model.language_model.layers.37.per_layer_input_gate",
+      "model.language_model.layers.37.per_layer_projection",
+      "model.language_model.layers.38.per_layer_input_gate",
+      "model.language_model.layers.38.per_layer_projection",
+      "model.language_model.layers.39.per_layer_input_gate",
+      "model.language_model.layers.39.per_layer_projection",
+      "model.language_model.layers.40.per_layer_input_gate",
+      "model.language_model.layers.40.per_layer_projection",
+      "model.language_model.layers.41.per_layer_input_gate",
+      "model.language_model.layers.41.per_layer_projection",
+      "model.audio_tower.subsample_conv_projection.input_proj_linear",
+      "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.0.self_attn.q_proj.linear",
+      "model.audio_tower.layers.0.self_attn.k_proj.linear",
+      "model.audio_tower.layers.0.self_attn.v_proj.linear",
+      "model.audio_tower.layers.0.self_attn.post.linear",
+      "model.audio_tower.layers.0.self_attn.relative_k_proj",
+      "model.audio_tower.layers.0.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.0.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.1.self_attn.q_proj.linear",
+      "model.audio_tower.layers.1.self_attn.k_proj.linear",
+      "model.audio_tower.layers.1.self_attn.v_proj.linear",
+      "model.audio_tower.layers.1.self_attn.post.linear",
+      "model.audio_tower.layers.1.self_attn.relative_k_proj",
+      "model.audio_tower.layers.1.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.1.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.2.self_attn.q_proj.linear",
+      "model.audio_tower.layers.2.self_attn.k_proj.linear",
+      "model.audio_tower.layers.2.self_attn.v_proj.linear",
+      "model.audio_tower.layers.2.self_attn.post.linear",
+      "model.audio_tower.layers.2.self_attn.relative_k_proj",
+      "model.audio_tower.layers.2.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.2.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.3.self_attn.q_proj.linear",
+      "model.audio_tower.layers.3.self_attn.k_proj.linear",
+      "model.audio_tower.layers.3.self_attn.v_proj.linear",
+      "model.audio_tower.layers.3.self_attn.post.linear",
+      "model.audio_tower.layers.3.self_attn.relative_k_proj",
+      "model.audio_tower.layers.3.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.3.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.4.self_attn.q_proj.linear",
+      "model.audio_tower.layers.4.self_attn.k_proj.linear",
+      "model.audio_tower.layers.4.self_attn.v_proj.linear",
+      "model.audio_tower.layers.4.self_attn.post.linear",
+      "model.audio_tower.layers.4.self_attn.relative_k_proj",
+      "model.audio_tower.layers.4.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.4.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.5.self_attn.q_proj.linear",
+      "model.audio_tower.layers.5.self_attn.k_proj.linear",
+      "model.audio_tower.layers.5.self_attn.v_proj.linear",
+      "model.audio_tower.layers.5.self_attn.post.linear",
+      "model.audio_tower.layers.5.self_attn.relative_k_proj",
+      "model.audio_tower.layers.5.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.5.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.6.self_attn.q_proj.linear",
+      "model.audio_tower.layers.6.self_attn.k_proj.linear",
+      "model.audio_tower.layers.6.self_attn.v_proj.linear",
+      "model.audio_tower.layers.6.self_attn.post.linear",
+      "model.audio_tower.layers.6.self_attn.relative_k_proj",
+      "model.audio_tower.layers.6.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.6.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.7.self_attn.q_proj.linear",
+      "model.audio_tower.layers.7.self_attn.k_proj.linear",
+      "model.audio_tower.layers.7.self_attn.v_proj.linear",
+      "model.audio_tower.layers.7.self_attn.post.linear",
+      "model.audio_tower.layers.7.self_attn.relative_k_proj",
+      "model.audio_tower.layers.7.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.7.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.8.self_attn.q_proj.linear",
+      "model.audio_tower.layers.8.self_attn.k_proj.linear",
+      "model.audio_tower.layers.8.self_attn.v_proj.linear",
+      "model.audio_tower.layers.8.self_attn.post.linear",
+      "model.audio_tower.layers.8.self_attn.relative_k_proj",
+      "model.audio_tower.layers.8.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.8.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.9.self_attn.q_proj.linear",
+      "model.audio_tower.layers.9.self_attn.k_proj.linear",
+      "model.audio_tower.layers.9.self_attn.v_proj.linear",
+      "model.audio_tower.layers.9.self_attn.post.linear",
+      "model.audio_tower.layers.9.self_attn.relative_k_proj",
+      "model.audio_tower.layers.9.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.9.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.10.self_attn.q_proj.linear",
+      "model.audio_tower.layers.10.self_attn.k_proj.linear",
+      "model.audio_tower.layers.10.self_attn.v_proj.linear",
+      "model.audio_tower.layers.10.self_attn.post.linear",
+      "model.audio_tower.layers.10.self_attn.relative_k_proj",
+      "model.audio_tower.layers.10.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.10.lconv1d.linear_end.linear",
+      "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.linear",
+      "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.linear",
+      "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.linear",
+      "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.linear",
+      "model.audio_tower.layers.11.self_attn.q_proj.linear",
+      "model.audio_tower.layers.11.self_attn.k_proj.linear",
+      "model.audio_tower.layers.11.self_attn.v_proj.linear",
+      "model.audio_tower.layers.11.self_attn.post.linear",
+      "model.audio_tower.layers.11.self_attn.relative_k_proj",
+      "model.audio_tower.layers.11.lconv1d.linear_start.linear",
+      "model.audio_tower.layers.11.lconv1d.linear_end.linear",
+      "model.audio_tower.output_proj",
+      "model.embed_vision.embedding_projection",
+      "model.embed_audio.embedding_projection",
+      "lm_head"
+    ],
+    "kv_cache_scheme": null,
+    "quant_method": "compressed-tensors",
+    "quantization_status": "compressed",
+    "sparsity_config": {},
+    "transform_config": {},
+    "version": "0.1.dev483+ga551158"
+  },
   "text_config": {
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attention_k_eq_v": false,
     "bos_token_id": 2,
+    "dtype": "float16",
     "enable_moe_block": false,
     "eos_token_id": 1,
     "expert_intermediate_size": null,
     ],
     "max_position_embeddings": 131072,
     "model_type": "gemma4_text",
+    "moe_intermediate_size": null,
     "num_attention_heads": 8,
     "num_experts": null,
     "num_global_key_value_heads": null,
     "vocab_size_per_layer_input": 262144
   },
   "tie_word_embeddings": true,
+  "transformers_version": "5.8.0.dev0",
   "video_token_id": 258884,
   "vision_config": {
     "_name_or_path": "",
     "attention_dropout": 0.0,
     "chunk_size_feed_forward": 0,
     "default_output_length": 280,
+    "dtype": "float16",
     "global_head_dim": 64,
     "head_dim": 64,
     "hidden_activation": "gelu_pytorch_tanh",
     "use_clipped_linears": true
   },
   "vision_soft_tokens_per_image": 280
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfbd3d2f1cd71bd471c37fe2bf8546d5028d41e5736f64e1ca6c6b8893125503
-size 15992595884

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1f8dc375e759ad817f79df6c413679e1c97b07a6ff0c0a36b37778aaae1056d
+size 10312042292

processor_config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "audio_ms_per_token": 60,
   "audio_seq_length": 750,
   "feature_extractor": {
     "dither": 0.0,

 {
+  "audio_ms_per_token": 40,
   "audio_seq_length": 750,
   "feature_extractor": {
     "dither": 0.0,