Upload FP4 Blackwell quantized model

Files changed (8) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

+---
+license: other
+library_name: tensorrt-llm
+tags:
+- quantization
+- nvfp4
+- blackwell
+- nvidia-modelopt
+- sainemo
+---
+# SAINEMO-reMIX (FP4 Blackwell)
+This model is a **FP4 (NVFP4)** quantized version of [Moraliane/SAINEMO-reMIX](https://huggingface.co/Moraliane/SAINEMO-reMIX).
+It was quantized using **NVIDIA ModelOpt** with the `NVFP4_DEFAULT_CFG` configuration, specifically optimized for **NVIDIA Blackwell (B200)** architecture.
+## Calibration Details
+- **Method:** Offline calibration
+- **Dataset:** cnn_dailymail (512 samples)
+- **Format:** Hugging Face Safetensors with ModelOpt quantization metadata (`_amax`)
+## Usage
+This checkpoint is designed to be converted and built into a TensorRT-LLM engine.
+```bash
+# Example conversion workflow
+python convert_checkpoint.py --model_dir . --output_dir ./trt_ckpt --dtype bfloat16
+trtllm-build --checkpoint_dir ./trt_ckpt ...
+```

chat_template.jinja ADDED Viewed


1	+ {% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] \| trim + '
2	+
3	+ ' %}{% set messages = messages[1:] %}{% else %}{% set system_message = '' %}{% endif %}{{- bos_token + system_message}}{% for message in messages %}{% if message['role'] == 'user' %}{{ '[INST]' + message['content'] \| trim + '[/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] \| trim + eos_token }}{% endif %}{% endfor %}

config.json ADDED Viewed

+{
+  "architecture": "MistralForCausalLM",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "bfloat16",
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 1024000,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 10,
+  "rms_norm_eps": 1e-05,
+  "rope_parameters": {
+    "rope_theta": 1000000.0,
+    "rope_type": "default"
+  },
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "5.0.0",
+  "unsloth_version": "2024.8",
+  "use_cache": true,
+  "vocab_size": 131072,
+  "quantization": {
+      "quant_algo": "NVFP4",
+      "exclude_modules": ["lm_head"]
+  }
+}

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 10,
+  "transformers_version": "5.0.0",
+  "use_cache": true
+}

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:72282be4fb23f2334efd8a28b4f24dad496eb24e5dbaaae3373f6d292c7b72ae
+size 24495678128

tokenizer.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:8771d3c14b4206fd6b54c60d037eeafce2f37382046c2369c36cd2edd2f099d7
+size 17078391

tokenizer_config.json ADDED Viewed

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "is_local": false,
+  "model_max_length": 1024000,
+  "pad_token": "<pad>",
+  "padding_side": "left",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "<unk>"
+}