Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

.gitattributes +1 -0
config.json +281 -0
consolidated.safetensors +3 -0
convert_ministral_hf_to_mistral.py +252 -0
generation_config.json +7 -0
params.json +266 -0
recipe.yaml +6 -0
tekken.json +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tekken.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,281 @@

+{
+  "architectures": [
+    "Mistral3ForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "image_token_index": 10,
+  "model_type": "mistral3",
+  "multimodal_projector_bias": false,
+  "projector_hidden_act": "gelu",
+  "quantization_config": {
+    "config_groups": {
+      "group_0": {
+        "format": "float-quantized",
+        "input_activations": {
+          "actorder": null,
+          "block_structure": null,
+          "dynamic": true,
+          "group_size": null,
+          "num_bits": 8,
+          "observer": null,
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "token",
+          "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
+        },
+        "output_activations": null,
+        "targets": [
+          "Linear"
+        ],
+        "weights": {
+          "actorder": null,
+          "block_structure": null,
+          "dynamic": false,
+          "group_size": null,
+          "num_bits": 8,
+          "observer": "minmax",
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "channel",
+          "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
+        }
+      }
+    },
+    "format": "float-quantized",
+    "global_compression_ratio": null,
+    "ignore": [
+      "model.vision_tower.transformer.layers.0.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.0.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.0.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.0.attention.k_proj",
+      "model.vision_tower.transformer.layers.0.attention.v_proj",
+      "model.vision_tower.transformer.layers.0.attention.q_proj",
+      "model.vision_tower.transformer.layers.0.attention.o_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.1.attention.k_proj",
+      "model.vision_tower.transformer.layers.1.attention.v_proj",
+      "model.vision_tower.transformer.layers.1.attention.q_proj",
+      "model.vision_tower.transformer.layers.1.attention.o_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.2.attention.k_proj",
+      "model.vision_tower.transformer.layers.2.attention.v_proj",
+      "model.vision_tower.transformer.layers.2.attention.q_proj",
+      "model.vision_tower.transformer.layers.2.attention.o_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.3.attention.k_proj",
+      "model.vision_tower.transformer.layers.3.attention.v_proj",
+      "model.vision_tower.transformer.layers.3.attention.q_proj",
+      "model.vision_tower.transformer.layers.3.attention.o_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.4.attention.k_proj",
+      "model.vision_tower.transformer.layers.4.attention.v_proj",
+      "model.vision_tower.transformer.layers.4.attention.q_proj",
+      "model.vision_tower.transformer.layers.4.attention.o_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.5.attention.k_proj",
+      "model.vision_tower.transformer.layers.5.attention.v_proj",
+      "model.vision_tower.transformer.layers.5.attention.q_proj",
+      "model.vision_tower.transformer.layers.5.attention.o_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.6.attention.k_proj",
+      "model.vision_tower.transformer.layers.6.attention.v_proj",
+      "model.vision_tower.transformer.layers.6.attention.q_proj",
+      "model.vision_tower.transformer.layers.6.attention.o_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.7.attention.k_proj",
+      "model.vision_tower.transformer.layers.7.attention.v_proj",
+      "model.vision_tower.transformer.layers.7.attention.q_proj",
+      "model.vision_tower.transformer.layers.7.attention.o_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.8.attention.k_proj",
+      "model.vision_tower.transformer.layers.8.attention.v_proj",
+      "model.vision_tower.transformer.layers.8.attention.q_proj",
+      "model.vision_tower.transformer.layers.8.attention.o_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.9.attention.k_proj",
+      "model.vision_tower.transformer.layers.9.attention.v_proj",
+      "model.vision_tower.transformer.layers.9.attention.q_proj",
+      "model.vision_tower.transformer.layers.9.attention.o_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.10.attention.k_proj",
+      "model.vision_tower.transformer.layers.10.attention.v_proj",
+      "model.vision_tower.transformer.layers.10.attention.q_proj",
+      "model.vision_tower.transformer.layers.10.attention.o_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.11.attention.k_proj",
+      "model.vision_tower.transformer.layers.11.attention.v_proj",
+      "model.vision_tower.transformer.layers.11.attention.q_proj",
+      "model.vision_tower.transformer.layers.11.attention.o_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.12.attention.k_proj",
+      "model.vision_tower.transformer.layers.12.attention.v_proj",
+      "model.vision_tower.transformer.layers.12.attention.q_proj",
+      "model.vision_tower.transformer.layers.12.attention.o_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.13.attention.k_proj",
+      "model.vision_tower.transformer.layers.13.attention.v_proj",
+      "model.vision_tower.transformer.layers.13.attention.q_proj",
+      "model.vision_tower.transformer.layers.13.attention.o_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.14.attention.k_proj",
+      "model.vision_tower.transformer.layers.14.attention.v_proj",
+      "model.vision_tower.transformer.layers.14.attention.q_proj",
+      "model.vision_tower.transformer.layers.14.attention.o_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.15.attention.k_proj",
+      "model.vision_tower.transformer.layers.15.attention.v_proj",
+      "model.vision_tower.transformer.layers.15.attention.q_proj",
+      "model.vision_tower.transformer.layers.15.attention.o_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.16.attention.k_proj",
+      "model.vision_tower.transformer.layers.16.attention.v_proj",
+      "model.vision_tower.transformer.layers.16.attention.q_proj",
+      "model.vision_tower.transformer.layers.16.attention.o_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.17.attention.k_proj",
+      "model.vision_tower.transformer.layers.17.attention.v_proj",
+      "model.vision_tower.transformer.layers.17.attention.q_proj",
+      "model.vision_tower.transformer.layers.17.attention.o_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.18.attention.k_proj",
+      "model.vision_tower.transformer.layers.18.attention.v_proj",
+      "model.vision_tower.transformer.layers.18.attention.q_proj",
+      "model.vision_tower.transformer.layers.18.attention.o_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.19.attention.k_proj",
+      "model.vision_tower.transformer.layers.19.attention.v_proj",
+      "model.vision_tower.transformer.layers.19.attention.q_proj",
+      "model.vision_tower.transformer.layers.19.attention.o_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.20.attention.k_proj",
+      "model.vision_tower.transformer.layers.20.attention.v_proj",
+      "model.vision_tower.transformer.layers.20.attention.q_proj",
+      "model.vision_tower.transformer.layers.20.attention.o_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.21.attention.k_proj",
+      "model.vision_tower.transformer.layers.21.attention.v_proj",
+      "model.vision_tower.transformer.layers.21.attention.q_proj",
+      "model.vision_tower.transformer.layers.21.attention.o_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.22.attention.k_proj",
+      "model.vision_tower.transformer.layers.22.attention.v_proj",
+      "model.vision_tower.transformer.layers.22.attention.q_proj",
+      "model.vision_tower.transformer.layers.22.attention.o_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.23.attention.k_proj",
+      "model.vision_tower.transformer.layers.23.attention.v_proj",
+      "model.vision_tower.transformer.layers.23.attention.q_proj",
+      "model.vision_tower.transformer.layers.23.attention.o_proj",
+      "model.multi_modal_projector.patch_merger.merging_layer",
+      "model.multi_modal_projector.linear_1",
+      "model.multi_modal_projector.linear_2",
+      "lm_head"
+    ],
+    "kv_cache_scheme": null,
+    "quant_method": "compressed-tensors",
+    "quantization_status": "compressed",
+    "sparsity_config": {},
+    "transform_config": {},
+    "version": "0.13.1.dev4+gb055afc"
+  },
+  "spatial_merge_size": 2,
+  "text_config": {
+    "attention_dropout": 0.0,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 5120,
+    "initializer_range": 0.02,
+    "intermediate_size": 16384,
+    "max_position_embeddings": 262144,
+    "model_type": "ministral3",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 40,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_parameters": {
+      "beta_fast": 32.0,
+      "beta_slow": 1.0,
+      "factor": 16.0,
+      "llama_4_scaling_beta": 0.1,
+      "mscale": 1.0,
+      "mscale_all_dim": 1.0,
+      "original_max_position_embeddings": 16384,
+      "rope_theta": 1000000000.0,
+      "rope_type": "yarn",
+      "type": "yarn"
+    },
+    "sliding_window": null,
+    "use_cache": true,
+    "vocab_size": 131072
+  },
+  "transformers_version": "5.0.0rc1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "head_dim": 64,
+    "hidden_act": "silu",
+    "hidden_size": 1024,
+    "image_size": 1540,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "model_type": "pixtral",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "rope_parameters": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "vision_feature_layer": -1
+}

consolidated.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3d4dd5d413c3954d2dac20bc487c2328b99f1a5d478a953636dfa0c2aeb7d33
+size 15730613144

convert_ministral_hf_to_mistral.py ADDED Viewed

	@@ -0,0 +1,252 @@

+# coding=utf-8
+# Copyright 2025 HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import argparse
+import gc
+import json
+import os
+import re
+import torch
+from safetensors.torch import save_file
+from safetensors.torch import safe_open
+from huggingface_hub import snapshot_download
+from transformers import Mistral3Config, Mistral3ForConditionalGeneration
+# fmt: off
+STATE_DICT_MAPPING = {
+    r"^language_model\.lm_head":                                         r"output",
+    r"^language_model\.model\.norm":                                     r"norm",
+    r"^language_model\.model\.embed_tokens":                             r"tok_embeddings",
+    r"^language_model\.model\.layers\.(\d+)\.input_layernorm":           r"layers.\1.attention_norm",
+    r"^language_model\.model\.layers\.(\d+)\.post_attention_layernorm":  r"layers.\1.ffn_norm",
+    r"^language_model\.model\.layers\.(\d+)\.self_attn\.(q|k|v|o)_proj": r"layers.\1.attention.w\2",
+    r"^language_model\.model\.layers\.(\d+)\.mlp\.gate_proj":            r"layers.\1.feed_forward.w1",
+    r"^language_model\.model\.layers\.(\d+)\.mlp\.down_proj":            r"layers.\1.feed_forward.w2",
+    r"^language_model\.model\.layers\.(\d+)\.mlp\.up_proj":              r"layers.\1.feed_forward.w3",
+    r"multi_modal_projector.patch_merger.merging_layer.weight":          r"patch_merger.merging_layer.weight",
+    r"multi_modal_projector.norm.weight":                                r"pre_mm_projector_norm.weight",
+    r"multi_modal_projector.linear_1.weight":                            r"vision_language_adapter.w_in.weight",
+    r"multi_modal_projector.linear_2.weight":                            r"vision_language_adapter.w_out.weight",
+    r"vision_tower.ln_pre.weight":                                       r"vision_encoder.ln_pre.weight",
+    r"vision_tower.patch_conv.weight":                                   r"vision_encoder.patch_conv.weight",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.attention_norm":        r"vision_encoder.transformer.layers.\1.attention_norm",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.ffn_norm":              r"vision_encoder.transformer.layers.\1.ffn_norm",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.attention\.(q|k|v|o)_proj": r"vision_encoder.transformer.layers.\1.attention.w\2",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.feed_forward\.gate_proj":            r"vision_encoder.transformer.layers.\1.feed_forward.w1",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.feed_forward\.down_proj":            r"vision_encoder.transformer.layers.\1.feed_forward.w2",
+    r"^vision_tower\.transformer\.layers\.(\d+)\.feed_forward\.up_proj":              r"vision_encoder.transformer.layers.\1.feed_forward.w3",
+}
+# fmt: on
+SKIP_KEYS = [ ]
+def add_quantization_config(config, hf_config: Mistral3ForConditionalGeneration):
+    quantization_config = hf_config.hf_quantizer.quantization_config
+    mistral_ignore = [] # keys to ignore in the quantization config
+    for hf_key in quantization_config.quantization_config.ignore:
+        mistral_key = map_hf_key_to_mistral(hf_key)
+        mistral_ignore.append(mistral_key)
+    quantization_config.quantization_config.ignore = mistral_ignore
+    config["quantization_config"] = quantization_config.to_dict()
+    return config
+def map_hf_key_to_mistral(hf_key):
+    """Map a key from HF format to Mistral format"""
+    for pattern, replacement in STATE_DICT_MAPPING.items():
+        new_key, n_replace = re.subn(pattern, replacement, hf_key)
+        if n_replace > 0:
+            return new_key.replace("weight_scale", "qscale_weight")
+    # If no mapping found, return the original key
+    return hf_key.replace("weight_scale", "qscale_weight")
+def permute_for_mistral_rope(tensor, n_heads, dim1, dim2):
+    """Reverse the ROPE permutation to get back to Mistral format."""
+    old_tensor = tensor
+    tensor = tensor.view(n_heads, 2, dim1 // n_heads // 2, dim2)
+    tensor = tensor.transpose(1, 2)
+    tensor = tensor.reshape(dim1, dim2)
+    return tensor
+def convert_state_dict(hf_state_dict, config):
+    """Convert HF Ministral state dict to Mistral format"""
+    mistral_dict = {}
+    text_config = config["text_config"]
+    vision_config = config["vision_config"]
+    text_num_attention_heads = text_config["num_attention_heads"]
+    text_hidden_size = text_config["hidden_size"]
+    text_head_dim = text_config["head_dim"]
+    text_num_key_value_heads = text_config["num_key_value_heads"]
+    text_key_value_dim = text_head_dim * text_num_key_value_heads
+    text_query_dim = text_head_dim * text_num_attention_heads
+    vision_num_attention_heads = vision_config["num_attention_heads"]
+    vision_hidden_size = vision_config["hidden_size"]
+    vision_head_dim = vision_config["head_dim"]
+    vision_num_key_value_heads = vision_num_attention_heads
+    vision_key_value_dim = vision_head_dim * vision_num_key_value_heads
+    vision_query_dim = vision_head_dim * vision_num_attention_heads
+    for hf_key, tensor in hf_state_dict.items():
+        if hf_key in SKIP_KEYS:
+            continue
+        mistral_key = map_hf_key_to_mistral(hf_key)
+        if "language_model" in hf_key:
+            if hf_key.endswith("q_proj.weight"):
+                tensor = permute_for_mistral_rope(tensor, text_num_attention_heads, text_query_dim, text_hidden_size)
+            elif hf_key.endswith("q_proj.weight_scale") and tensor.size(0) == text_num_attention_heads:
+                tensor = permute_for_mistral_rope(tensor, text_num_attention_heads, text_query_dim, 1)
+            elif hf_key.endswith("k_proj.weight"):
+                tensor = permute_for_mistral_rope(tensor, text_num_key_value_heads, text_key_value_dim, text_hidden_size)
+            elif hf_key.endswith("k_proj.weight_scale") and tensor.size(0) == text_num_key_value_heads:
+                tensor = permute_for_mistral_rope(tensor, text_num_key_value_heads, text_key_value_dim, 1)
+        if "vision_tower" in hf_key:
+            if hf_key.endswith("q_proj.weight"):
+                tensor = permute_for_mistral_rope(tensor, vision_num_attention_heads, vision_query_dim, vision_hidden_size)
+            elif hf_key.endswith("q_proj.weight_scale") and tensor.size(0) == vision_num_attention_heads:
+                tensor = permute_for_mistral_rope(tensor, vision_num_attention_heads, vision_query_dim, 1)
+            elif hf_key.endswith("k_proj.weight"):
+                tensor = permute_for_mistral_rope(tensor, vision_num_key_value_heads, vision_key_value_dim, vision_hidden_size)
+            elif hf_key.endswith("k_proj.weight_scale") and tensor.size(0) == vision_num_key_value_heads:
+                tensor = permute_for_mistral_rope(tensor, vision_num_key_value_heads, vision_key_value_dim, 1)
+        mistral_dict[mistral_key] = tensor
+    return mistral_dict
+def write_model(
+    input_path_or_repo,
+    output_dir,
+    unquantized_model_path=None,
+):
+    print("Converting HF Ministral model to Mistral format.")
+    os.makedirs(output_dir, exist_ok=True)
+    # Load the HF Ministral model
+    print(f"Loading HF Ministral model from {input_path_or_repo}...")
+    hf_config = Mistral3ForConditionalGeneration.from_pretrained(input_path_or_repo)
+    if os.path.exists(input_path_or_repo):
+        local_path = input_path_or_repo
+    else:
+        local_path = snapshot_download(input_path_or_repo)
+    # Convert config
+    if unquantized_model_path is not None:
+        if os.path.exists(unquantized_model_path):
+            unquantized_model_path = unquantized_model_path
+        else:
+            unquantized_model_path = snapshot_download(unquantized_model_path)
+        config_path = os.path.join(unquantized_model_path, "params.json")
+        with open(config_path, "r") as f:
+            config = json.load(f)
+        config = add_quantization_config(config, hf_config)
+        with open(os.path.join(output_dir, "params.json"), "w") as f:
+            json.dump(config, f, indent=2)
+    else:
+        raise ValueError(f"Unquantized model config not found for {unquantized_model_path}")
+    # Convert state dict
+    print("Converting state dict...")
+    tensor_files = sorted([f for f in os.listdir(os.path.join(local_path)) if f.endswith(".safetensors")])
+    hf_state_dict = {}
+    for file in tensor_files:
+        file_path = os.path.join(local_path, file)
+        with safe_open(file_path, framework="pt", device="cuda") as f:
+            for key in f.keys():
+                hf_state_dict[key] = f.get_tensor(key)
+    mistral_config = Mistral3Config().to_dict()
+    mistral_state_dict = convert_state_dict(hf_state_dict, mistral_config)
+    # save the state dict
+    save_file(mistral_state_dict, os.path.join(output_dir, "consolidated.safetensors"))
+    del hf_state_dict, mistral_state_dict
+    gc.collect()
+    print("Model converted successfully.")
+def write_tokenizer(input_path_or_repo: str, output_dir: str):
+    """Extract and save the tokenizer from Ministral model"""
+    from transformers import MistralCommonBackend
+    print("Extracting tokenizer...")
+    tokenizer = MistralCommonBackend.from_pretrained(input_path_or_repo)
+    tokenizer.save_pretrained(output_dir)
+    print("Tokenizer saved successfully.")
+def main():
+    parser = argparse.ArgumentParser(description="Convert HF Ministral weights to Mistral format")
+    parser.add_argument(
+        "--input_path_or_repo",
+        type=str,
+        default="inference-optimization/Ministral-3-14B-Instruct-2512-BF16-FP8-DYNAMIC-BASE",
+        help="Path or repo containing HF Ministral model",
+    )
+    parser.add_argument(
+        "--output_dir",
+        type=str,
+        default="Ministral-3-14B-Instruct-2512-FP8-DYNAMIC-VISION",
+        help="Location to write Mistral model and tokenizer",
+    )
+    parser.add_argument(
+        "--skip_tokenizer",
+        action="store_true",
+        help="Skip tokenizer conversion"
+    )
+    parser.add_argument(
+        "--unquantized_model_path",
+        type=str,
+        default="mistralai/Ministral-3-14B-Instruct-2512-BF16",
+        help="Path to the unquantized model",
+    )
+    args = parser.parse_args()
+    write_model(
+        args.input_path_or_repo,
+        args.output_dir,
+        unquantized_model_path=args.unquantized_model_path,
+    )
+    if not args.skip_tokenizer:
+        write_tokenizer(
+            args.input_path_or_repo,
+            args.output_dir,
+        )
+if __name__ == "__main__":
+    main()

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 262144,
+  "pad_token_id": 11,
+  "transformers_version": "5.0.0rc1"
+}

params.json ADDED Viewed

	@@ -0,0 +1,266 @@

+{
+  "dim": 5120,
+  "n_layers": 40,
+  "head_dim": 128,
+  "hidden_dim": 16384,
+  "n_heads": 32,
+  "n_kv_heads": 8,
+  "rope_theta": 1000000000.0,
+  "norm_eps": 1e-05,
+  "vocab_size": 131072,
+  "tied_embeddings": false,
+  "max_position_embeddings": 262144,
+  "llama_4_scaling": {
+    "original_max_position_embeddings": 16384,
+    "beta": 0.1
+  },
+  "q_lora_rank": null,
+  "qk_rope_head_dim": null,
+  "qk_nope_head_dim": null,
+  "kv_lora_rank": null,
+  "v_head_dim": null,
+  "yarn": {
+    "original_max_position_embeddings": 16384,
+    "factor": 16,
+    "apply_scale": false,
+    "beta": 32,
+    "alpha": 1
+  },
+  "vision_encoder": {
+    "image_token_id": 10,
+    "image_break_token_id": 12,
+    "image_end_token_id": 13,
+    "intermediate_size": 4096,
+    "num_hidden_layers": 24,
+    "num_attention_heads": 16,
+    "mm_projector_id": "patch_merge",
+    "spatial_merge_size": 2,
+    "hidden_size": 1024,
+    "num_channels": 3,
+    "image_size": 1540,
+    "max_image_size": 1540,
+    "patch_size": 14,
+    "rope_theta": 10000.0,
+    "add_pre_mm_projector_layer_norm": true,
+    "adapter_bias": false
+  },
+  "quantization_config": {
+    "config_groups": {
+      "group_0": {
+        "targets": [
+          "Linear"
+        ],
+        "weights": {
+          "num_bits": 8,
+          "type": "float",
+          "symmetric": true,
+          "group_size": null,
+          "strategy": "channel",
+          "block_structure": null,
+          "dynamic": false,
+          "actorder": null,
+          "scale_dtype": null,
+          "zp_dtype": null,
+          "observer": "minmax",
+          "observer_kwargs": {}
+        },
+        "input_activations": {
+          "num_bits": 8,
+          "type": "float",
+          "symmetric": true,
+          "group_size": null,
+          "strategy": "token",
+          "block_structure": null,
+          "dynamic": true,
+          "actorder": null,
+          "scale_dtype": null,
+          "zp_dtype": null,
+          "observer": null,
+          "observer_kwargs": {}
+        },
+        "output_activations": null,
+        "format": "float-quantized"
+      }
+    },
+    "quant_method": "compressed-tensors",
+    "kv_cache_scheme": null,
+    "format": "float-quantized",
+    "quantization_status": "compressed",
+    "global_compression_ratio": null,
+    "ignore": [
+      "model.vision_tower.transformer.layers.0.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.0.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.0.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.0.attention.k_proj",
+      "model.vision_tower.transformer.layers.0.attention.v_proj",
+      "model.vision_tower.transformer.layers.0.attention.q_proj",
+      "model.vision_tower.transformer.layers.0.attention.o_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.1.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.1.attention.k_proj",
+      "model.vision_tower.transformer.layers.1.attention.v_proj",
+      "model.vision_tower.transformer.layers.1.attention.q_proj",
+      "model.vision_tower.transformer.layers.1.attention.o_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.2.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.2.attention.k_proj",
+      "model.vision_tower.transformer.layers.2.attention.v_proj",
+      "model.vision_tower.transformer.layers.2.attention.q_proj",
+      "model.vision_tower.transformer.layers.2.attention.o_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.3.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.3.attention.k_proj",
+      "model.vision_tower.transformer.layers.3.attention.v_proj",
+      "model.vision_tower.transformer.layers.3.attention.q_proj",
+      "model.vision_tower.transformer.layers.3.attention.o_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.4.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.4.attention.k_proj",
+      "model.vision_tower.transformer.layers.4.attention.v_proj",
+      "model.vision_tower.transformer.layers.4.attention.q_proj",
+      "model.vision_tower.transformer.layers.4.attention.o_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.5.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.5.attention.k_proj",
+      "model.vision_tower.transformer.layers.5.attention.v_proj",
+      "model.vision_tower.transformer.layers.5.attention.q_proj",
+      "model.vision_tower.transformer.layers.5.attention.o_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.6.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.6.attention.k_proj",
+      "model.vision_tower.transformer.layers.6.attention.v_proj",
+      "model.vision_tower.transformer.layers.6.attention.q_proj",
+      "model.vision_tower.transformer.layers.6.attention.o_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.7.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.7.attention.k_proj",
+      "model.vision_tower.transformer.layers.7.attention.v_proj",
+      "model.vision_tower.transformer.layers.7.attention.q_proj",
+      "model.vision_tower.transformer.layers.7.attention.o_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.8.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.8.attention.k_proj",
+      "model.vision_tower.transformer.layers.8.attention.v_proj",
+      "model.vision_tower.transformer.layers.8.attention.q_proj",
+      "model.vision_tower.transformer.layers.8.attention.o_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.9.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.9.attention.k_proj",
+      "model.vision_tower.transformer.layers.9.attention.v_proj",
+      "model.vision_tower.transformer.layers.9.attention.q_proj",
+      "model.vision_tower.transformer.layers.9.attention.o_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.10.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.10.attention.k_proj",
+      "model.vision_tower.transformer.layers.10.attention.v_proj",
+      "model.vision_tower.transformer.layers.10.attention.q_proj",
+      "model.vision_tower.transformer.layers.10.attention.o_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.11.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.11.attention.k_proj",
+      "model.vision_tower.transformer.layers.11.attention.v_proj",
+      "model.vision_tower.transformer.layers.11.attention.q_proj",
+      "model.vision_tower.transformer.layers.11.attention.o_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.12.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.12.attention.k_proj",
+      "model.vision_tower.transformer.layers.12.attention.v_proj",
+      "model.vision_tower.transformer.layers.12.attention.q_proj",
+      "model.vision_tower.transformer.layers.12.attention.o_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.13.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.13.attention.k_proj",
+      "model.vision_tower.transformer.layers.13.attention.v_proj",
+      "model.vision_tower.transformer.layers.13.attention.q_proj",
+      "model.vision_tower.transformer.layers.13.attention.o_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.14.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.14.attention.k_proj",
+      "model.vision_tower.transformer.layers.14.attention.v_proj",
+      "model.vision_tower.transformer.layers.14.attention.q_proj",
+      "model.vision_tower.transformer.layers.14.attention.o_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.15.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.15.attention.k_proj",
+      "model.vision_tower.transformer.layers.15.attention.v_proj",
+      "model.vision_tower.transformer.layers.15.attention.q_proj",
+      "model.vision_tower.transformer.layers.15.attention.o_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.16.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.16.attention.k_proj",
+      "model.vision_tower.transformer.layers.16.attention.v_proj",
+      "model.vision_tower.transformer.layers.16.attention.q_proj",
+      "model.vision_tower.transformer.layers.16.attention.o_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.17.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.17.attention.k_proj",
+      "model.vision_tower.transformer.layers.17.attention.v_proj",
+      "model.vision_tower.transformer.layers.17.attention.q_proj",
+      "model.vision_tower.transformer.layers.17.attention.o_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.18.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.18.attention.k_proj",
+      "model.vision_tower.transformer.layers.18.attention.v_proj",
+      "model.vision_tower.transformer.layers.18.attention.q_proj",
+      "model.vision_tower.transformer.layers.18.attention.o_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.19.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.19.attention.k_proj",
+      "model.vision_tower.transformer.layers.19.attention.v_proj",
+      "model.vision_tower.transformer.layers.19.attention.q_proj",
+      "model.vision_tower.transformer.layers.19.attention.o_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.20.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.20.attention.k_proj",
+      "model.vision_tower.transformer.layers.20.attention.v_proj",
+      "model.vision_tower.transformer.layers.20.attention.q_proj",
+      "model.vision_tower.transformer.layers.20.attention.o_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.21.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.21.attention.k_proj",
+      "model.vision_tower.transformer.layers.21.attention.v_proj",
+      "model.vision_tower.transformer.layers.21.attention.q_proj",
+      "model.vision_tower.transformer.layers.21.attention.o_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.22.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.22.attention.k_proj",
+      "model.vision_tower.transformer.layers.22.attention.v_proj",
+      "model.vision_tower.transformer.layers.22.attention.q_proj",
+      "model.vision_tower.transformer.layers.22.attention.o_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.gate_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.up_proj",
+      "model.vision_tower.transformer.layers.23.feed_forward.down_proj",
+      "model.vision_tower.transformer.layers.23.attention.k_proj",
+      "model.vision_tower.transformer.layers.23.attention.v_proj",
+      "model.vision_tower.transformer.layers.23.attention.q_proj",
+      "model.vision_tower.transformer.layers.23.attention.o_proj",
+      "model.multi_modal_projector.patch_merger.merging_layer",
+      "model.multi_modal_projector.linear_1",
+      "model.multi_modal_projector.linear_2",
+      "lm_head"
+    ],
+    "sparsity_config": {}
+  }
+}

recipe.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+default_stage:
+  default_modifiers:
+    QuantizationModifier:
+      targets: [Linear]
+      ignore: ['re:.*lm_head', 're:.*vision_tower.*', 're:.*multi_modal_projector.*']
+      scheme: FP8_DYNAMIC

tekken.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e29d19ea32eb7e26e6c0572d57cb7f9eca0f4420e0e0fe6ae1cf3be94da1c0d6
+size 16753777