feat: merge LEK into lemmy weights

LEK-2 LoRA merged into Gemma 4 26B A4B MoE attention projections.
Converged at loss 0.00034 in 219 steps via patience-stop (best at 189).
No KV-shared layers to restore (num_kv_shared_layers=0 on lemmy).
MoE routing amplification: 5.7M trainable LoRA params achieve a
basin depth within 2x of lemrd's 22.5M LoRA params, suggesting
routing multiplicity provides implicit LoRA replication across
expert paths. Patched transformers/integrations/moe.py for MPS
histc Int dtype incompatibility.

Co-Authored-By: Virgil <virgil@lethean.io>

Files changed (9) hide show

README.md +2 -5
chat_template.jinja +43 -124
config.json +807 -44
model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +404 -47
processor_config.json +16 -49
tokenizer_config.json +41 -20

README.md CHANGED Viewed

@@ -1,10 +1,7 @@
 ---
 library_name: mlx
-license: eupl-1.2
 pipeline_tag: image-text-to-text
 tags:
 - mlx
-- gguf
-base_model:
-- LetheanNetwork/lemmy
----

 ---
+language: en
 library_name: mlx
 pipeline_tag: image-text-to-text
 tags:
 - mlx
+---

chat_template.jinja CHANGED Viewed

@@ -11,15 +11,34 @@
                 description:<|"|>{{ value['description'] }}<|"|>
                 {%- set add_comma = true -%}
             {%- endif -%}
             {%- if value['type'] | upper == 'STRING' -%}
                 {%- if value['enum'] -%}
                     {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
                     enum:{{ format_argument(value['enum']) }}
                 {%- endif -%}
             {%- elif value['type'] | upper == 'ARRAY' -%}
                 {%- if value['items'] is mapping and value['items'] -%}
-                    {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
-                    items:{
                     {%- set ns_items = namespace(found_first=false) -%}
                     {%- for item_key, item_value in value['items'] | dictsort -%}
                         {%- if item_value is not none -%}
@@ -52,32 +71,6 @@
                     }
                 {%- endif -%}
             {%- endif -%}
-            {%- if value['nullable'] %}
-                {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
-                nullable:true
-            {%- endif -%}
-            {%- if value['type'] | upper == 'OBJECT' -%}
-                {%- if value['properties'] is defined and value['properties'] is mapping -%}
-                    {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
-                    properties:{
-                    {{- format_parameters(value['properties'], value['required'] | default([])) -}}
-                    }
-                {%- elif value is mapping -%}
-                    {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
-                    properties:{
-                    {{- format_parameters(value, value['required'] | default([])) -}}
-                    }
-                {%- endif -%}
-                {%- if value['required'] -%}
-                    {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
-                    required:[
-                    {%- for item in value['required'] | default([]) -%}
-                        <|"|>{{- item -}}<|"|>
-                        {%- if not loop.last %},{% endif -%}
-                    {%- endfor -%}
-                    ]
-                {%- endif -%}
-            {%- endif -%}
             {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
             type:<|"|>{{ value['type'] | upper }}<|"|>}
         {%- endif -%}
@@ -157,31 +150,16 @@
     {{- ns.result | trim -}}
 {%- endmacro -%}
-{%- macro format_tool_response_block(tool_name, response) -%}
-    {{- '<|tool_response>' -}}
-    {%- if response is mapping -%}
-        {{- 'response:' + tool_name + '{' -}}
-        {%- for key, value in response | dictsort -%}
-            {{- key -}}:{{- format_argument(value, escape_keys=False) -}}
-            {%- if not loop.last %},{% endif -%}
-        {%- endfor -%}
-        {{- '}' -}}
-    {%- else -%}
-        {{- 'response:' + tool_name + '{value:' + format_argument(response, escape_keys=False) + '}' -}}
-    {%- endif -%}
-    {{- '<tool_response|>' -}}
-{%- endmacro -%}
 {%- set ns = namespace(prev_message_type=None) -%}
 {%- set loop_messages = messages -%}
-{{- bos_token -}}
 {#- Handle System/Tool Definitions Block -#}
 {%- if (enable_thinking is defined and enable_thinking) or tools or messages[0]['role'] in ['system', 'developer'] -%}
     {{- '<|turn>system\n' -}}
     {#- Inject Thinking token at the very top of the FIRST system turn -#}
     {%- if enable_thinking is defined and enable_thinking -%}
-        {{- '<|think|>\n' -}}
         {%- set ns.prev_message_type = 'think' -%}
     {%- endif -%}
@@ -202,41 +180,11 @@
     {{- '<turn|>\n' -}}
 {%- endif %}
-{#- Pre-scan: find last user message index for reasoning guard -#}
-{%- set ns_turn = namespace(last_user_idx=-1) -%}
-{%- for i in range(loop_messages | length) -%}
-    {%- if loop_messages[i]['role'] == 'user' -%}
-        {%- set ns_turn.last_user_idx = i -%}
-    {%- endif -%}
-{%- endfor -%}
 {#- Loop through messages -#}
 {%- for message in loop_messages -%}
-    {%- if message['role'] != 'tool' -%}
     {%- set ns.prev_message_type = None -%}
     {%- set role = 'model' if message['role'] == 'assistant' else message['role'] -%}
-    {#- Detect continuation: suppress duplicate <|turn>model when previous non-tool message was also assistant -#}
-    {%- set prev_nt = namespace(role=None, found=false) -%}
-    {%- if loop.index0 > 0 -%}
-        {%- for j in range(loop.index0 - 1, -1, -1) -%}
-            {%- if not prev_nt.found -%}
-                {%- if loop_messages[j]['role'] != 'tool' -%}
-                    {%- set prev_nt.role = loop_messages[j]['role'] -%}
-                    {%- set prev_nt.found = true -%}
-                {%- endif -%}
-            {%- endif -%}
-        {%- endfor -%}
-    {%- endif -%}
-    {%- set continue_same_model_turn = (role == 'model' and prev_nt.role == 'assistant') -%}
-    {%- if not continue_same_model_turn -%}
         {{- '<|turn>' + role + '\n' }}
-    {%- endif -%}
-    {#- Render reasoning/reasoning_content as thinking channel -#}
-    {%- set thinking_text = message.get('reasoning') or message.get('reasoning_content') -%}
-    {%- if thinking_text and loop.index0 > ns_turn.last_user_idx and message.get('tool_calls') -%}
-        {{- '<|channel>thought\n' + thinking_text + '\n<channel|>' -}}
-    {%- endif -%}
             {%- if message['tool_calls'] -%}
                 {%- for tool_call in message['tool_calls'] -%}
@@ -257,49 +205,23 @@
                 {%- set ns.prev_message_type = 'tool_call' -%}
             {%- endif -%}
-            {%- set ns_tr_out = namespace(flag=false) -%}
-            {%- if message.get('tool_responses') -%}
-                {#- Legacy: tool_responses embedded on the assistant message (Google/Gemma native) -#}
                 {%- for tool_response in message['tool_responses'] -%}
-                    {{- format_tool_response_block(tool_response['name'] | default('unknown'), tool_response['response']) -}}
-                    {%- set ns_tr_out.flag = true -%}
-                    {%- set ns.prev_message_type = 'tool_response' -%}
-                {%- endfor -%}
-            {%- elif message.get('tool_calls') -%}
-                {#- OpenAI Chat Completions: forward-scan consecutive role:tool messages -#}
-                {%- set ns_tool_scan = namespace(stopped=false) -%}
-                {%- for k in range(loop.index0 + 1, loop_messages | length) -%}
-                    {%- if ns_tool_scan.stopped -%}
-                    {%- elif loop_messages[k]['role'] != 'tool' -%}
-                        {%- set ns_tool_scan.stopped = true -%}
-                    {%- else -%}
-                        {%- set follow = loop_messages[k] -%}
-                        {#- Resolve tool_call_id to function name -#}
-                        {%- set ns_tname = namespace(name=follow.get('name') | default('unknown')) -%}
-                        {%- for tc in message['tool_calls'] -%}
-                            {%- if tc.get('id') == follow.get('tool_call_id') -%}
-                                {%- set ns_tname.name = tc['function']['name'] -%}
-                            {%- endif -%}
                         {%- endfor -%}
-                        {#- Handle content as string or content-parts array -#}
-                        {%- set tool_body = follow.get('content') -%}
-                        {%- if tool_body is string -%}
-                            {{- format_tool_response_block(ns_tname.name, tool_body) -}}
-                        {%- elif tool_body is sequence and tool_body is not string -%}
-                            {%- set ns_txt = namespace(s='') -%}
-                            {%- for part in tool_body -%}
-                                {%- if part.get('type') == 'text' -%}
-                                    {%- set ns_txt.s = ns_txt.s + (part.get('text') | default('')) -%}
-                                {%- endif -%}
-                            {%- endfor -%}
-                            {{- format_tool_response_block(ns_tname.name, ns_txt.s) -}}
-                        {%- else -%}
-                            {{- format_tool_response_block(ns_tname.name, tool_body) -}}
-                        {%- endif -%}
-                        {%- set ns_tr_out.flag = true -%}
-                        {%- set ns.prev_message_type = 'tool_response' -%}
                     {%- endif -%}
                 {%- endfor -%}
             {%- endif -%}
             {%- if message['content'] is string -%}
@@ -317,31 +239,28 @@
                             {{- item['text'] | trim -}}
                         {%- endif -%}
                     {%- elif item['type'] == 'image' -%}
-                        {{- '<|image|>' -}}
                         {%- set ns.prev_message_type = 'image' -%}
                     {%- elif item['type'] == 'audio' -%}
                         {{- '<|audio|>' -}}
                         {%- set ns.prev_message_type = 'audio' -%}
                     {%- elif item['type'] == 'video' -%}
-                        {{- '<|video|>' -}}
                         {%- set ns.prev_message_type = 'video' -%}
                     {%- endif -%}
                 {%- endfor -%}
             {%- endif -%}
-        {%- if ns.prev_message_type == 'tool_call' and not ns_tr_out.flag -%}
-            {{- '<|tool_response>' -}}
-        {%- elif not (ns_tr_out.flag and not message.get('content')) -%}
             {{- '<turn|>\n' -}}
         {%- endif -%}
-    {%- endif -%}
 {%- endfor -%}
 {%- if add_generation_prompt -%}
-    {%- if ns.prev_message_type != 'tool_response' and ns.prev_message_type != 'tool_call' -%}
         {{- '<|turn>model\n' -}}
-        {%- if not enable_thinking | default(false) -%}
-            {{- '<|channel>thought\n<channel|>' -}}
-        {%- endif -%}
     {%- endif -%}
 {%- endif -%}

                 description:<|"|>{{ value['description'] }}<|"|>
                 {%- set add_comma = true -%}
             {%- endif -%}
+            {%- if value['nullable'] %}
+                {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
+                nullable:true
+            {%- endif -%}
             {%- if value['type'] | upper == 'STRING' -%}
                 {%- if value['enum'] -%}
                     {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
                     enum:{{ format_argument(value['enum']) }}
                 {%- endif -%}
+            {%- elif value['type'] | upper == 'OBJECT' -%}
+                ,properties:{
+                {%- if value['properties'] is defined and value['properties'] is mapping -%}
+                    {{- format_parameters(value['properties'], value['required'] | default([])) -}}
+                {%- elif value is mapping -%}
+                    {{- format_parameters(value, value['required'] | default([])) -}}
+                {%- endif -%}
+                }
+                {%- if value['required'] -%}
+                    ,required:[
+                    {%- for item in value['required'] | default([]) -%}
+                        <|"|>{{- item -}}<|"|>
+                        {%- if not loop.last %},{% endif -%}
+                    {%- endfor -%}
+                    ]
+                {%- endif -%}
             {%- elif value['type'] | upper == 'ARRAY' -%}
                 {%- if value['items'] is mapping and value['items'] -%}
+                    ,items:{
                     {%- set ns_items = namespace(found_first=false) -%}
                     {%- for item_key, item_value in value['items'] | dictsort -%}
                         {%- if item_value is not none -%}
                     }
                 {%- endif -%}
             {%- endif -%}
             {%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
             type:<|"|>{{ value['type'] | upper }}<|"|>}
         {%- endif -%}
     {{- ns.result | trim -}}
 {%- endmacro -%}
 {%- set ns = namespace(prev_message_type=None) -%}
 {%- set loop_messages = messages -%}
+{{ bos_token }}
 {#- Handle System/Tool Definitions Block -#}
 {%- if (enable_thinking is defined and enable_thinking) or tools or messages[0]['role'] in ['system', 'developer'] -%}
     {{- '<|turn>system\n' -}}
     {#- Inject Thinking token at the very top of the FIRST system turn -#}
     {%- if enable_thinking is defined and enable_thinking -%}
+        {{- '<|think|>' -}}
         {%- set ns.prev_message_type = 'think' -%}
     {%- endif -%}
     {{- '<turn|>\n' -}}
 {%- endif %}
 {#- Loop through messages -#}
 {%- for message in loop_messages -%}
     {%- set ns.prev_message_type = None -%}
     {%- set role = 'model' if message['role'] == 'assistant' else message['role'] -%}
         {{- '<|turn>' + role + '\n' }}
             {%- if message['tool_calls'] -%}
                 {%- for tool_call in message['tool_calls'] -%}
                 {%- set ns.prev_message_type = 'tool_call' -%}
             {%- endif -%}
+            {%- if message['tool_responses'] -%}
+                {#- Tool Response handling -#}
                 {%- for tool_response in message['tool_responses'] -%}
+                    {{- '<|tool_response>' -}}
+                    {%- if tool_response['response'] is mapping -%}
+                        {{- 'response:' + tool_response['name'] | default('unknown') + '{' -}}
+                        {%- for key, value in tool_response['response'] | dictsort -%}
+                            {{- key -}}:{{- format_argument(value, escape_keys=False) -}}
+                            {%- if not loop.last %},{% endif -%}
                         {%- endfor -%}
+                        {{- '}' -}}
+                    {%- else -%}
+                        {{- 'response:' + tool_response['name'] | default('unknown') + '{value:' + format_argument(tool_response['response'], escape_keys=False) + '}' -}}
                     {%- endif -%}
+                    {{- '<tool_response|>' -}}
                 {%- endfor -%}
+                {%- set ns.prev_message_type = 'tool_response' -%}
             {%- endif -%}
             {%- if message['content'] is string -%}
                             {{- item['text'] | trim -}}
                         {%- endif -%}
                     {%- elif item['type'] == 'image' -%}
+                        {{- '\n\n<|image|>\n\n' -}}
                         {%- set ns.prev_message_type = 'image' -%}
                     {%- elif item['type'] == 'audio' -%}
                         {{- '<|audio|>' -}}
                         {%- set ns.prev_message_type = 'audio' -%}
                     {%- elif item['type'] == 'video' -%}
+                        {{- '\n\n<|video|>\n\n' -}}
                         {%- set ns.prev_message_type = 'video' -%}
                     {%- endif -%}
                 {%- endfor -%}
             {%- endif -%}
+        {%- if not (message['tool_responses'] and not message['content']) -%}
             {{- '<turn|>\n' -}}
         {%- endif -%}
 {%- endfor -%}
 {%- if add_generation_prompt -%}
+    {%- if ns.prev_message_type != 'tool_response' -%}
         {{- '<|turn>model\n' -}}
+    {%- endif -%}
+    {%- if not enable_thinking | default(false) -%}
+        {{- '<|channel>thought\n<channel|>' -}}
     {%- endif -%}
 {%- endif -%}

config.json CHANGED Viewed

@@ -22,164 +22,644 @@
         "group_size": 64,
         "bits": 4,
         "mode": "affine",
         "language_model.model.layers.0.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.1.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.2.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.3.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.4.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.5.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.6.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.7.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.8.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.9.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.10.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.11.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.12.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.13.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.14.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.15.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.16.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.17.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.18.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.19.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.20.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.21.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.22.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.23.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.24.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.25.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.26.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.27.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.28.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.29.router.proj": {
             "group_size": 64,
             "bits": 8
-        }
-    },
-    "quantization_config": {
-        "group_size": 64,
-        "bits": 4,
-        "mode": "affine",
-        "language_model.model.layers.0.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.1.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.2.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.3.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.4.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.5.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.6.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.7.router.proj": {
             "group_size": 64,
             "bits": 8
         },
-        "language_model.model.layers.8.router.proj": {
             "group_size": 64,
             "bits": 8
         },
@@ -187,82 +667,322 @@
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.10.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.11.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.12.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.13.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.14.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.15.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.16.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.17.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.18.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.19.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.20.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.21.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.22.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.23.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.24.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.25.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.26.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.27.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.28.router.proj": {
             "group_size": 64,
             "bits": 8
         },
         "language_model.model.layers.29.router.proj": {
             "group_size": 64,
             "bits": 8
@@ -350,5 +1070,48 @@
     "tie_word_embeddings": true,
     "transformers_version": "5.5.0.dev0",
     "video_token_id": 258884,
     "vision_soft_tokens_per_image": 280
 }

         "group_size": 64,
         "bits": 4,
         "mode": "affine",
+        "language_model.model.layers.0.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.0.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.0.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.0.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.1.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.1.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.1.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.1.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.2.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.2.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.2.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.2.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.3.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.3.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.3.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.3.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.4.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.4.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.4.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.4.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.5.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.5.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.5.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.5.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.6.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.6.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.6.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.6.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.7.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.7.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.7.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.7.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.8.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.8.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.8.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.8.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.9.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.9.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.9.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.9.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.router.proj": {
+            "group_size": 64,
+            "bits": 8
+        }
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 4,
+        "mode": "affine",
+        "language_model.model.layers.0.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.0.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.0.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.0.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.1.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.1.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.1.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.1.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.2.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.2.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.2.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.2.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.3.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.3.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.3.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.3.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.4.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.4.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.4.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.4.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.5.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.5.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.5.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.5.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.6.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.6.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.6.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.6.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.7.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.7.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
+        },
+        "language_model.model.layers.7.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.7.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.8.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.8.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.8.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.8.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.9.mlp.gate_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.9.mlp.down_proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.9.mlp.up_proj": {
             "group_size": 64,
             "bits": 8
         },
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.10.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.10.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.10.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.11.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.11.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.11.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.12.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.12.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.12.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.13.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.13.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.13.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.14.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.14.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.14.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.15.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.15.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.15.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.16.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.16.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.16.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.17.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.17.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.17.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.18.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.18.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.18.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.19.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.19.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.19.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.20.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.20.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.20.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.21.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.21.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.21.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.22.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.22.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.22.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.23.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.23.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.23.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.24.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.24.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.24.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.25.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.25.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.25.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.26.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.26.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.26.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.27.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.27.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.27.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.28.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.28.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.28.router.proj": {
             "group_size": 64,
             "bits": 8
         },
+        "language_model.model.layers.29.mlp.gate_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.mlp.down_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
+        "language_model.model.layers.29.mlp.up_proj": {
+            "group_size": 64,
+            "bits": 8
+        },
         "language_model.model.layers.29.router.proj": {
             "group_size": 64,
             "bits": 8
     "tie_word_embeddings": true,
     "transformers_version": "5.5.0.dev0",
     "video_token_id": 258884,
+    "vision_config": {
+        "_name_or_path": "",
+        "architectures": null,
+        "attention_bias": false,
+        "attention_dropout": 0.0,
+        "chunk_size_feed_forward": 0,
+        "default_output_length": 280,
+        "dtype": "bfloat16",
+        "global_head_dim": 72,
+        "head_dim": 72,
+        "hidden_activation": "gelu_pytorch_tanh",
+        "hidden_size": 1152,
+        "id2label": {
+            "0": "LABEL_0",
+            "1": "LABEL_1"
+        },
+        "initializer_range": 0.02,
+        "intermediate_size": 4304,
+        "is_encoder_decoder": false,
+        "label2id": {
+            "LABEL_0": 0,
+            "LABEL_1": 1
+        },
+        "max_position_embeddings": 131072,
+        "model_type": "gemma4_vision",
+        "num_attention_heads": 16,
+        "num_hidden_layers": 27,
+        "num_key_value_heads": 16,
+        "output_attentions": false,
+        "output_hidden_states": false,
+        "patch_size": 16,
+        "pooling_kernel_size": 3,
+        "position_embedding_size": 10240,
+        "problem_type": null,
+        "return_dict": true,
+        "rms_norm_eps": 1e-06,
+        "rope_parameters": {
+            "rope_theta": 100.0,
+            "rope_type": "default"
+        },
+        "standardize": true,
+        "use_clipped_linears": false
+    },
     "vision_soft_tokens_per_image": 280
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79044a795347440cadc6356659b328ac910063e5453d75289916db136bcf454a
-size 5320218487

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fda4abbfbd00608b7feb45ee1fae06ef4260d6bc621bd4d9790fe59d9b3bf91
+size 5275612613

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b2fbff6ea86ca622457c6cff481404e83fba26a91ae81610e00b4ff9f137798
-size 5363328422

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e4a3fc2299cd049ef3e532ad142926b658be3e7f38739bcb3b72fd4e3f4779f
+size 5296718228

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec1c68e5bc23c05e87b261b7a200c09d2c36b5b01ee6dcc5d8461078363aecf2
-size 3516685531

 version https://git-lfs.github.com/spec/v1
+oid sha256:42caaaf01e37ee338eb4fbabde70dd380416a9bee9b5a0ce0c1dfeb497635726
+size 5036507675

model.safetensors.index.json CHANGED Viewed

@@ -1,9 +1,11 @@
 {
     "metadata": {
-        "total_size": 14200055868,
-        "total_parameters": 25233053440
     },
     "weight_map": {
         "language_model.model.embed_tokens.biases": "model-00001-of-00003.safetensors",
         "language_model.model.embed_tokens.scales": "model-00001-of-00003.safetensors",
         "language_model.model.embed_tokens.weight": "model-00001-of-00003.safetensors",
@@ -103,9 +105,9 @@
         "language_model.model.layers.10.experts.switch_glu.gate_proj.biases": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.experts.switch_glu.gate_proj.scales": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.experts.switch_glu.gate_proj.weight": "model-00001-of-00003.safetensors",
-        "language_model.model.layers.10.experts.switch_glu.up_proj.biases": "model-00001-of-00003.safetensors",
-        "language_model.model.layers.10.experts.switch_glu.up_proj.scales": "model-00001-of-00003.safetensors",
-        "language_model.model.layers.10.experts.switch_glu.up_proj.weight": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.layer_scalar": "model-00002-of-00003.safetensors",
         "language_model.model.layers.10.mlp.down_proj.biases": "model-00001-of-00003.safetensors",
@@ -631,9 +633,9 @@
         "language_model.model.layers.20.self_attn.v_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.20.self_attn.v_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.experts.switch_glu.down_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.experts.switch_glu.down_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.experts.switch_glu.down_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.weight": "model-00002-of-00003.safetensors",
@@ -641,7 +643,7 @@
         "language_model.model.layers.21.experts.switch_glu.up_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.up_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.layer_scalar": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
@@ -653,10 +655,10 @@
         "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.post_feedforward_layernorm_1.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.post_feedforward_layernorm_2.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.21.pre_feedforward_layernorm_2.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.router.per_expert_scale": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.router.proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.router.proj.scales": "model-00002-of-00003.safetensors",
@@ -680,47 +682,47 @@
         "language_model.model.layers.22.experts.switch_glu.down_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.down_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.gate_proj.biases": "model-00003-of-00003.safetensors",
-        "language_model.model.layers.22.experts.switch_glu.gate_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.experts.switch_glu.gate_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.biases": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.weight": "model-00003-of-00003.safetensors",
-        "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.22.layer_scalar": "model-00003-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.down_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.down_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.gate_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.gate_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.up_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.up_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.22.post_feedforward_layernorm_1.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.post_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
-        "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.22.pre_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
-        "language_model.model.layers.22.router.per_expert_scale": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.router.proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.router.proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.router.proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.router.scale": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.k_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.k_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.o_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.o_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.q_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.q_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.v_proj.biases": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.v_proj.scales": "model-00002-of-00003.safetensors",
-        "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.biases": "model-00003-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.weight": "model-00003-of-00003.safetensors",
@@ -1342,6 +1344,361 @@
         "language_model.model.layers.9.self_attn.v_proj.biases": "model-00001-of-00003.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.scales": "model-00001-of-00003.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-        "language_model.model.norm.weight": "model-00003-of-00003.safetensors"
     }
 }

 {
     "metadata": {
+        "total_size": 15608614044
     },
     "weight_map": {
+        "embed_vision.embedding_projection.biases": "model-00003-of-00003.safetensors",
+        "embed_vision.embedding_projection.scales": "model-00003-of-00003.safetensors",
+        "embed_vision.embedding_projection.weight": "model-00003-of-00003.safetensors",
         "language_model.model.embed_tokens.biases": "model-00001-of-00003.safetensors",
         "language_model.model.embed_tokens.scales": "model-00001-of-00003.safetensors",
         "language_model.model.embed_tokens.weight": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.experts.switch_glu.gate_proj.biases": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.experts.switch_glu.gate_proj.scales": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.experts.switch_glu.gate_proj.weight": "model-00001-of-00003.safetensors",
+        "language_model.model.layers.10.experts.switch_glu.up_proj.biases": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.10.experts.switch_glu.up_proj.scales": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.10.experts.switch_glu.up_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
         "language_model.model.layers.10.layer_scalar": "model-00002-of-00003.safetensors",
         "language_model.model.layers.10.mlp.down_proj.biases": "model-00001-of-00003.safetensors",
         "language_model.model.layers.20.self_attn.v_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.20.self_attn.v_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.21.experts.switch_glu.down_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.21.experts.switch_glu.down_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.21.experts.switch_glu.down_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.gate_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.up_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.experts.switch_glu.up_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.21.layer_scalar": "model-00003-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.21.post_feedforward_layernorm_1.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.21.post_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
+        "language_model.model.layers.21.pre_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.21.router.per_expert_scale": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.router.proj.biases": "model-00002-of-00003.safetensors",
         "language_model.model.layers.21.router.proj.scales": "model-00002-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.down_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.down_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.gate_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.experts.switch_glu.gate_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.experts.switch_glu.gate_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.biases": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.experts.switch_glu.up_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.layer_scalar": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.post_feedforward_layernorm_1.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.post_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.22.pre_feedforward_layernorm_2.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.router.per_expert_scale": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.router.proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.router.proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.router.proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.router.scale": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.biases": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.scales": "model-00003-of-00003.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.biases": "model-00003-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.scales": "model-00003-of-00003.safetensors",
         "language_model.model.layers.23.experts.switch_glu.down_proj.weight": "model-00003-of-00003.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.biases": "model-00001-of-00003.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.scales": "model-00001-of-00003.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+        "language_model.model.norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.0.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.1.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.10.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.11.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.12.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.13.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.14.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.15.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.16.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.17.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.18.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.19.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.2.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.20.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.21.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.22.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.23.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.24.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.25.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.26.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.3.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.4.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.5.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.6.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.7.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.8.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.input_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.mlp.down_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.mlp.gate_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.mlp.up_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.k_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.o_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.q_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.encoder.layers.9.self_attn.v_proj.linear.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.patch_embedder.input_proj.weight": "model-00003-of-00003.safetensors",
+        "vision_tower.patch_embedder.position_embedding_table": "model-00003-of-00003.safetensors",
+        "vision_tower.std_bias": "model-00003-of-00003.safetensors",
+        "vision_tower.std_scale": "model-00003-of-00003.safetensors"
     }
 }

processor_config.json CHANGED Viewed

@@ -1,27 +1,5 @@
 {
-  "audio_ms_per_token": 40,
   "audio_seq_length": 750,
-  "feature_extractor": {
-    "dither": 0.0,
-    "feature_extractor_type": "Gemma4AudioFeatureExtractor",
-    "feature_size": 128,
-    "fft_length": 512,
-    "fft_overdrive": false,
-    "frame_length": 320,
-    "hop_length": 160,
-    "input_scale_factor": 1.0,
-    "max_frequency": 8000.0,
-    "mel_floor": 0.001,
-    "min_frequency": 0.0,
-    "padding_side": "right",
-    "padding_value": 0.0,
-    "per_bin_mean": null,
-    "per_bin_stddev": null,
-    "preemphasis": 0.0,
-    "preemphasis_htk_flavor": true,
-    "return_attention_mask": true,
-    "sampling_rate": 16000
-  },
   "image_processor": {
     "do_convert_rgb": true,
     "do_normalize": false,
@@ -43,33 +21,22 @@
     "patch_size": 16,
     "pooling_kernel_size": 3,
     "resample": 3,
-    "rescale_factor": 0.00392156862745098
   },
   "image_seq_length": 280,
   "processor_class": "Gemma4Processor",
-  "video_processor": {
-    "do_convert_rgb": true,
-    "do_normalize": true,
-    "do_rescale": true,
-    "do_resize": true,
-    "do_sample_frames": true,
-    "image_mean": [
-      0.0,
-      0.0,
-      0.0
-    ],
-    "image_std": [
-      1.0,
-      1.0,
-      1.0
-    ],
-    "max_soft_tokens": 70,
-    "num_frames": 32,
-    "patch_size": 16,
-    "pooling_kernel_size": 3,
-    "resample": 3,
-    "rescale_factor": 0.00392156862745098,
-    "return_metadata": false,
-    "video_processor_type": "Gemma4VideoProcessor"
-  }
-}

 {
   "audio_seq_length": 750,
   "image_processor": {
     "do_convert_rgb": true,
     "do_normalize": false,
     "patch_size": 16,
     "pooling_kernel_size": 3,
     "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "height": 224,
+      "width": 224
+    }
   },
   "image_seq_length": 280,
   "processor_class": "Gemma4Processor",
+  "feature_extractor": {
+    "feature_extractor_type": "Gemma4AudioFeatureExtractor",
+    "sampling_rate": 16000,
+    "num_mel_filters": 128,
+    "fft_length": 512,
+    "hop_length": 160,
+    "chunk_duration": 8.0,
+    "overlap_duration": 1.0
+  },
+  "audio_ms_per_token": 40
+}

tokenizer_config.json CHANGED Viewed

@@ -17,50 +17,71 @@
     "<|video|>"
   ],
   "image_token": "<|image|>",
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "padding_side": "left",
   "processor_class": "Gemma4Processor",
   "response_schema": {
-    "type": "object",
     "properties": {
       "role": {
         "const": "assistant"
       },
       "thinking": {
         "type": "string"
       },
-      "content": {
-        "type": "string"
-      },
       "tool_calls": {
-        "x-regex-iterator": "<\\|tool_call>(.*?)<tool_call\\|>",
-        "type": "array",
         "items": {
-          "type": "object",
           "properties": {
-            "type": {
-              "const": "function"
-            },
             "function": {
-              "type": "object",
-              "x-regex": "call\\:(?P<name>\\w+)(?P<arguments>\\{.*\\})",
               "properties": {
-                "name": {
-                  "type": "string"
-                },
                 "arguments": {
                   "type": "object",
-                  "x-parser": "gemma4-tool-call",
-                  "additionalProperties": {}
                 }
-              }
             }
-          }
-        }
       }
     },
     "x-regex": "(\\<\\|channel\\>thought\\n(?P<thinking>.*?)\\<channel\\|\\>)?(?P<content>(?:(?!\\<\\|tool_call\\>)(?!\\<turn\\|\\>).)+)?(?P<tool_calls>\\<\\|tool_call\\>.*\\<tool_call\\|\\>)?(?:\\<turn\\|\\>)?"
   },
   "soc_token": "<|channel>",

     "<|video|>"
   ],
   "image_token": "<|image|>",
+  "is_local": true,
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {
+    "audio_token": "<|audio|>",
+    "boa_token": "<|audio>",
+    "boi_token": "<|image>",
+    "eoa_token": "<audio|>",
+    "eoc_token": "<channel|>",
+    "eoi_token": "<image|>",
+    "eot_token": "<turn|>",
+    "escape_token": "<|\"|>",
+    "etc_token": "<tool_call|>",
+    "etd_token": "<tool|>",
+    "etr_token": "<tool_response|>",
+    "image_token": "<|image|>",
+    "soc_token": "<|channel>",
+    "sot_token": "<|turn>",
+    "stc_token": "<|tool_call>",
+    "std_token": "<|tool>",
+    "str_token": "<|tool_response>",
+    "think_token": "<|think|>"
+  },
   "pad_token": "<pad>",
   "padding_side": "left",
   "processor_class": "Gemma4Processor",
   "response_schema": {
     "properties": {
+      "content": {
+        "type": "string"
+      },
       "role": {
         "const": "assistant"
       },
       "thinking": {
         "type": "string"
       },
       "tool_calls": {
         "items": {
           "properties": {
             "function": {
               "properties": {
                 "arguments": {
+                  "additionalProperties": {},
                   "type": "object",
+                  "x-parser": "gemma4-tool-call"
+                },
+                "name": {
+                  "type": "string"
                 }
+              },
+              "type": "object",
+              "x-regex": "call\\:(?P<name>\\w+)(?P<arguments>\\{.*\\})"
+            },
+            "type": {
+              "const": "function"
             }
+          },
+          "type": "object"
+        },
+        "type": "array",
+        "x-regex-iterator": "<\\|tool_call>(.*?)<tool_call\\|>"
       }
     },
+    "type": "object",
     "x-regex": "(\\<\\|channel\\>thought\\n(?P<thinking>.*?)\\<channel\\|\\>)?(?P<content>(?:(?!\\<\\|tool_call\\>)(?!\\<turn\\|\\>).)+)?(?P<tool_calls>\\<\\|tool_call\\>.*\\<tool_call\\|\\>)?(?:\\<turn\\|\\>)?"
   },
   "soc_token": "<|channel>",