Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +2 -0
README.md +119 -0
chat_template.jinja +1 -0
config.json +259 -0
generation_config.json +5 -0
hf_quant_config.json +128 -0
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +3 -0
tokenizer.json +3 -0
tokenizer_config.json +12 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model.safetensors.index.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,119 @@

+---
+library_name: tensorrt_llm
+base_model: arcee-ai/Trinity-Large-TrueBase
+tags:
+  - nvidia
+  - nvfp4
+  - fp4
+  - quantized
+  - tensorrt-llm
+  - modelopt
+  - mixture-of-experts
+  - moe
+  - blackwell
+license: other
+license_name: same-as-base-model
+license_link: https://huggingface.co/arcee-ai/Trinity-Large-TrueBase
+---
+# Trinity-Large-TrueBase-NVFP4
+NVFP4-quantized version of [arcee-ai/Trinity-Large-TrueBase](https://huggingface.co/arcee-ai/Trinity-Large-TrueBase) for deployment on NVIDIA Blackwell GPUs via TensorRT-LLM.
+## Model Details
+| | |
+|---|---|
+| **Base model** | [arcee-ai/Trinity-Large-TrueBase](https://huggingface.co/arcee-ai/Trinity-Large-TrueBase) |
+| **Architecture** | AfmoeForCausalLM (Mixture-of-Experts) |
+| **Parameters** | 398B total |
+| **Layers** | 60 (6 dense + 54 MoE) |
+| **Experts** | 256 per MoE layer, 4 active per token, 1 shared expert |
+| **Hidden size** | 3072 |
+| **MoE intermediate size** | 3072 per expert |
+| **Dense intermediate size** | 12,288 |
+| **Attention** | 48 heads, 8 KV heads (GQA), sliding window (4096) + full attention every 4 layers |
+| **Context length** | 8,192 tokens |
+| **Vocabulary** | 200,192 tokens |
+## Quantization
+| | |
+|---|---|
+| **Method** | NVFP4 (4-bit floating point) |
+| **Tool** | [NVIDIA ModelOpt](https://github.com/NVIDIA/TensorRT-Model-Optimizer) 0.41.0 |
+| **Group size** | 16 |
+| **Calibration** | 512 samples (Korean, Code, Creative Writing, English), max_seq_length=512 |
+| **Quantized layers** | MLP/expert weights only (`gate_proj`, `up_proj`, `down_proj` in dense and MoE layers) |
+| **BF16 layers** | Attention (Q/K/V/O projections), embeddings, router gates, shared experts, layer norms, lm_head |
+| **Source precision** | BF16 |
+### Compression
+| Format | Size |
+|--------|------|
+| BF16 (original) | 796 GB |
+| **NVFP4 (this model)** | **216 GB** |
+3.7x compression.
+## Intended Use
+This checkpoint is intended for deployment on NVIDIA Blackwell (SM100) GPUs using TensorRT-LLM's NVFP4 inference path. The NVFP4 format requires Blackwell's 5th-generation Tensor Cores for native FP4 execution.
+### Loading with TensorRT-LLM
+```bash
+# Convert to TensorRT-LLM engine
+trtllm-build \
+    --checkpoint_dir ./Trinity-Large-TrueBase-NVFP4 \
+    --output_dir ./engine \
+    --gemm_plugin auto
+```
+## Quantization Recipe
+Following NVIDIA's MLP-only quantization strategy (similar to the [DeepSeek-R1 NVFP4 recipe](https://developer.nvidia.com/blog/nvidia-publishes-the-first-deepseek-r1-nvfp4-quantized-model/)):
+- Only MLP/expert weights (`gate_proj`, `up_proj`, `down_proj`) are quantized to FP4
+- All attention projections remain in BF16 to preserve quality
+- Router gates (`mlp.router`) remain in BF16
+- Embeddings and lm_head remain in BF16
+- The default `*mlp.gate.*` exclusion was removed because Trinity uses `mlp.gate_proj` as a standard MLP projection (not a routing gate)
+### Calibration Data
+| Domain | Samples | Dataset |
+|--------|---------|---------|
+| Korean | 128 | [heegyu/open-korean-instructions](https://huggingface.co/datasets/heegyu/open-korean-instructions) |
+| Code | 128 | [m-a-p/CodeFeedback-Filtered-Instruction](https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction) |
+| Creative Writing | 128 | [Gryphe/ChatGPT-4o-Writing-Prompts](https://huggingface.co/datasets/Gryphe/ChatGPT-4o-Writing-Prompts) |
+| General English | 128 | [teknium/OpenHermes-2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) |
+## Files
+| File | Description |
+|------|-------------|
+| `model-00001-of-00005.safetensors` ... `model-00005-of-00005.safetensors` | Quantized model weights (5 shards, ~43 GB each) |
+| `model.safetensors.index.json` | Weight shard index |
+| `config.json` | Model configuration with `quantization_config` |
+| `hf_quant_config.json` | ModelOpt quantization metadata (consumed by TensorRT-LLM) |
+| `generation_config.json` | Generation configuration |
+| `tokenizer.json` | Tokenizer |
+| `tokenizer_config.json` | Tokenizer configuration |
+| `chat_template.jinja` | Chat template |
+## Hardware
+Quantization was performed on 8x NVIDIA A100-SXM4-80GB with ~1.8 TiB system RAM. Total quantization time was approximately 9 hours (dominated by calibration forward passes). Quantization on A100 does not require Blackwell hardware; only inference with native FP4 execution does.
+## Limitations
+- Requires NVIDIA Blackwell GPUs (SM100) for native NVFP4 inference via TensorRT-LLM
+- Quality may differ from the original BF16 model, particularly on tasks sensitive to numerical precision
+- Calibration was bilingual (Korean + English) with code; other languages may see slightly higher degradation
+- This quantization targets the MLP/expert layers only; KV cache is not quantized
+## License
+Same license as the base model [arcee-ai/Trinity-Large-TrueBase](https://huggingface.co/arcee-ai/Trinity-Large-TrueBase).

chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@


1	+ {{ bos_token }}{% for message in messages %}{{ message['content'] }}{% endfor %}

config.json ADDED Viewed

	@@ -0,0 +1,259 @@

+{
+    "architectures": [
+        "AfmoeForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "auto_map": {
+        "AutoConfig": "configuration_afmoe.AfmoeConfig",
+        "AutoModel": "modeling_afmoe.AfmoeModel",
+        "AutoModelForCausalLM": "modeling_afmoe.AfmoeForCausalLM"
+    },
+    "bos_token_id": null,
+    "dtype": "bfloat16",
+    "eos_token_id": null,
+    "global_attn_every_n_layers": 4,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 3072,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "layer_types": [
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention"
+    ],
+    "load_balance_coeff": 5e-05,
+    "max_position_embeddings": 8192,
+    "model_type": "afmoe",
+    "moe_intermediate_size": 3072,
+    "mup_enabled": true,
+    "n_group": 1,
+    "num_attention_heads": 48,
+    "num_dense_layers": 6,
+    "num_expert_groups": 1,
+    "num_experts": 256,
+    "num_experts_per_tok": 4,
+    "num_hidden_layers": 60,
+    "num_key_value_heads": 8,
+    "num_limited_groups": 1,
+    "num_shared_experts": 1,
+    "pad_token_id": null,
+    "rms_norm_eps": 1e-05,
+    "rope_parameters": {
+        "rope_theta": 10000.0,
+        "rope_type": "default"
+    },
+    "rope_theta": 10000,
+    "route_norm": true,
+    "route_scale": 2.448,
+    "score_func": "sigmoid",
+    "sliding_window": 4096,
+    "tie_word_embeddings": false,
+    "topk_group": 1,
+    "transformers_version": "5.1.0",
+    "use_cache": true,
+    "use_grouped_mm": true,
+    "vocab_size": 200192,
+    "quantization_config": {
+        "config_groups": {
+            "group_0": {
+                "input_activations": {
+                    "dynamic": false,
+                    "num_bits": 4,
+                    "type": "float",
+                    "group_size": 16
+                },
+                "weights": {
+                    "dynamic": false,
+                    "num_bits": 4,
+                    "type": "float",
+                    "group_size": 16
+                },
+                "targets": [
+                    "Linear"
+                ]
+            }
+        },
+        "ignore": [
+            "lm_head",
+            "model.layers.0.self_attn*",
+            "model.layers.1.self_attn*",
+            "model.layers.10.mlp.router*",
+            "model.layers.10.self_attn*",
+            "model.layers.11.mlp.router*",
+            "model.layers.11.self_attn*",
+            "model.layers.12.mlp.router*",
+            "model.layers.12.self_attn*",
+            "model.layers.13.mlp.router*",
+            "model.layers.13.self_attn*",
+            "model.layers.14.mlp.router*",
+            "model.layers.14.self_attn*",
+            "model.layers.15.mlp.router*",
+            "model.layers.15.self_attn*",
+            "model.layers.16.mlp.router*",
+            "model.layers.16.self_attn*",
+            "model.layers.17.mlp.router*",
+            "model.layers.17.self_attn*",
+            "model.layers.18.mlp.router*",
+            "model.layers.18.self_attn*",
+            "model.layers.19.mlp.router*",
+            "model.layers.19.self_attn*",
+            "model.layers.2.self_attn*",
+            "model.layers.20.mlp.router*",
+            "model.layers.20.self_attn*",
+            "model.layers.21.mlp.router*",
+            "model.layers.21.self_attn*",
+            "model.layers.22.mlp.router*",
+            "model.layers.22.self_attn*",
+            "model.layers.23.mlp.router*",
+            "model.layers.23.self_attn*",
+            "model.layers.24.mlp.router*",
+            "model.layers.24.self_attn*",
+            "model.layers.25.mlp.router*",
+            "model.layers.25.self_attn*",
+            "model.layers.26.mlp.router*",
+            "model.layers.26.self_attn*",
+            "model.layers.27.mlp.router*",
+            "model.layers.27.self_attn*",
+            "model.layers.28.mlp.router*",
+            "model.layers.28.self_attn*",
+            "model.layers.29.mlp.router*",
+            "model.layers.29.self_attn*",
+            "model.layers.3.self_attn*",
+            "model.layers.30.mlp.router*",
+            "model.layers.30.self_attn*",
+            "model.layers.31.mlp.router*",
+            "model.layers.31.self_attn*",
+            "model.layers.32.mlp.router*",
+            "model.layers.32.self_attn*",
+            "model.layers.33.mlp.router*",
+            "model.layers.33.self_attn*",
+            "model.layers.34.mlp.router*",
+            "model.layers.34.self_attn*",
+            "model.layers.35.mlp.router*",
+            "model.layers.35.self_attn*",
+            "model.layers.36.mlp.router*",
+            "model.layers.36.self_attn*",
+            "model.layers.37.mlp.router*",
+            "model.layers.37.self_attn*",
+            "model.layers.38.mlp.router*",
+            "model.layers.38.self_attn*",
+            "model.layers.39.mlp.router*",
+            "model.layers.39.self_attn*",
+            "model.layers.4.self_attn*",
+            "model.layers.40.mlp.router*",
+            "model.layers.40.self_attn*",
+            "model.layers.41.mlp.router*",
+            "model.layers.41.self_attn*",
+            "model.layers.42.mlp.router*",
+            "model.layers.42.self_attn*",
+            "model.layers.43.mlp.router*",
+            "model.layers.43.self_attn*",
+            "model.layers.44.mlp.router*",
+            "model.layers.44.self_attn*",
+            "model.layers.45.mlp.router*",
+            "model.layers.45.self_attn*",
+            "model.layers.46.mlp.router*",
+            "model.layers.46.self_attn*",
+            "model.layers.47.mlp.router*",
+            "model.layers.47.self_attn*",
+            "model.layers.48.mlp.router*",
+            "model.layers.48.self_attn*",
+            "model.layers.49.mlp.router*",
+            "model.layers.49.self_attn*",
+            "model.layers.5.self_attn*",
+            "model.layers.50.mlp.router*",
+            "model.layers.50.self_attn*",
+            "model.layers.51.mlp.router*",
+            "model.layers.51.self_attn*",
+            "model.layers.52.mlp.router*",
+            "model.layers.52.self_attn*",
+            "model.layers.53.mlp.router*",
+            "model.layers.53.self_attn*",
+            "model.layers.54.mlp.router*",
+            "model.layers.54.self_attn*",
+            "model.layers.55.mlp.router*",
+            "model.layers.55.self_attn*",
+            "model.layers.56.mlp.router*",
+            "model.layers.56.self_attn*",
+            "model.layers.57.mlp.router*",
+            "model.layers.57.self_attn*",
+            "model.layers.58.mlp.router*",
+            "model.layers.58.self_attn*",
+            "model.layers.59.mlp.router*",
+            "model.layers.59.self_attn*",
+            "model.layers.6.mlp.router*",
+            "model.layers.6.self_attn*",
+            "model.layers.7.mlp.router*",
+            "model.layers.7.self_attn*",
+            "model.layers.8.mlp.router*",
+            "model.layers.8.self_attn*",
+            "model.layers.9.mlp.router*",
+            "model.layers.9.self_attn*"
+        ],
+        "quant_algo": "NVFP4",
+        "producer": {
+            "name": "modelopt",
+            "version": "0.41.0"
+        },
+        "quant_method": "modelopt"
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "5.1.0",
+  "use_cache": true
+}

hf_quant_config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+    "producer": {
+        "name": "modelopt",
+        "version": "0.41.0"
+    },
+    "quantization": {
+        "quant_algo": "NVFP4",
+        "kv_cache_quant_algo": null,
+        "group_size": 16,
+        "exclude_modules": [
+            "lm_head",
+            "model.layers.0.self_attn*",
+            "model.layers.1.self_attn*",
+            "model.layers.10.mlp.router*",
+            "model.layers.10.self_attn*",
+            "model.layers.11.mlp.router*",
+            "model.layers.11.self_attn*",
+            "model.layers.12.mlp.router*",
+            "model.layers.12.self_attn*",
+            "model.layers.13.mlp.router*",
+            "model.layers.13.self_attn*",
+            "model.layers.14.mlp.router*",
+            "model.layers.14.self_attn*",
+            "model.layers.15.mlp.router*",
+            "model.layers.15.self_attn*",
+            "model.layers.16.mlp.router*",
+            "model.layers.16.self_attn*",
+            "model.layers.17.mlp.router*",
+            "model.layers.17.self_attn*",
+            "model.layers.18.mlp.router*",
+            "model.layers.18.self_attn*",
+            "model.layers.19.mlp.router*",
+            "model.layers.19.self_attn*",
+            "model.layers.2.self_attn*",
+            "model.layers.20.mlp.router*",
+            "model.layers.20.self_attn*",
+            "model.layers.21.mlp.router*",
+            "model.layers.21.self_attn*",
+            "model.layers.22.mlp.router*",
+            "model.layers.22.self_attn*",
+            "model.layers.23.mlp.router*",
+            "model.layers.23.self_attn*",
+            "model.layers.24.mlp.router*",
+            "model.layers.24.self_attn*",
+            "model.layers.25.mlp.router*",
+            "model.layers.25.self_attn*",
+            "model.layers.26.mlp.router*",
+            "model.layers.26.self_attn*",
+            "model.layers.27.mlp.router*",
+            "model.layers.27.self_attn*",
+            "model.layers.28.mlp.router*",
+            "model.layers.28.self_attn*",
+            "model.layers.29.mlp.router*",
+            "model.layers.29.self_attn*",
+            "model.layers.3.self_attn*",
+            "model.layers.30.mlp.router*",
+            "model.layers.30.self_attn*",
+            "model.layers.31.mlp.router*",
+            "model.layers.31.self_attn*",
+            "model.layers.32.mlp.router*",
+            "model.layers.32.self_attn*",
+            "model.layers.33.mlp.router*",
+            "model.layers.33.self_attn*",
+            "model.layers.34.mlp.router*",
+            "model.layers.34.self_attn*",
+            "model.layers.35.mlp.router*",
+            "model.layers.35.self_attn*",
+            "model.layers.36.mlp.router*",
+            "model.layers.36.self_attn*",
+            "model.layers.37.mlp.router*",
+            "model.layers.37.self_attn*",
+            "model.layers.38.mlp.router*",
+            "model.layers.38.self_attn*",
+            "model.layers.39.mlp.router*",
+            "model.layers.39.self_attn*",
+            "model.layers.4.self_attn*",
+            "model.layers.40.mlp.router*",
+            "model.layers.40.self_attn*",
+            "model.layers.41.mlp.router*",
+            "model.layers.41.self_attn*",
+            "model.layers.42.mlp.router*",
+            "model.layers.42.self_attn*",
+            "model.layers.43.mlp.router*",
+            "model.layers.43.self_attn*",
+            "model.layers.44.mlp.router*",
+            "model.layers.44.self_attn*",
+            "model.layers.45.mlp.router*",
+            "model.layers.45.self_attn*",
+            "model.layers.46.mlp.router*",
+            "model.layers.46.self_attn*",
+            "model.layers.47.mlp.router*",
+            "model.layers.47.self_attn*",
+            "model.layers.48.mlp.router*",
+            "model.layers.48.self_attn*",
+            "model.layers.49.mlp.router*",
+            "model.layers.49.self_attn*",
+            "model.layers.5.self_attn*",
+            "model.layers.50.mlp.router*",
+            "model.layers.50.self_attn*",
+            "model.layers.51.mlp.router*",
+            "model.layers.51.self_attn*",
+            "model.layers.52.mlp.router*",
+            "model.layers.52.self_attn*",
+            "model.layers.53.mlp.router*",
+            "model.layers.53.self_attn*",
+            "model.layers.54.mlp.router*",
+            "model.layers.54.self_attn*",
+            "model.layers.55.mlp.router*",
+            "model.layers.55.self_attn*",
+            "model.layers.56.mlp.router*",
+            "model.layers.56.self_attn*",
+            "model.layers.57.mlp.router*",
+            "model.layers.57.self_attn*",
+            "model.layers.58.mlp.router*",
+            "model.layers.58.self_attn*",
+            "model.layers.59.mlp.router*",
+            "model.layers.59.self_attn*",
+            "model.layers.6.mlp.router*",
+            "model.layers.6.self_attn*",
+            "model.layers.7.mlp.router*",
+            "model.layers.7.self_attn*",
+            "model.layers.8.mlp.router*",
+            "model.layers.8.self_attn*",
+            "model.layers.9.mlp.router*",
+            "model.layers.9.self_attn*"
+        ]
+    }
+}

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd2ac4af3cda1f3dc4e5943a89d6720d9644eaf1f0b94752e107c8203b7a150b
+size 49979822160

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0df8931d99bb0207433d38d4ca3d56d6976244f922a54b1599659122186de2b
+size 50001038716

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bbf5110d67df6249999e39118a96a099839b8a39567360e1e3194b951a84448
+size 50004196600

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e3f7df7b68ccc5267de3230fefbc360dab50b0ba72903a9f5c74cdb59099b2a
+size 50000068080

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6afe686a0fb46699d9c9ad09d4c762ef6cd669d55466334235414df0a06496e3
+size 31524413620

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a626457320b5a5245cb6e8e4113dc4c4ff697c1feeae9334e6ab0432d0f2073
+size 15989867

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afb39058c41984d943eda4ccaeababb686cf6f75e6dc08a653074de4d39ce038
+size 14615153

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "add_prefix_space": null,
+  "backend": "tokenizers",
+  "bos_token": "<|begin_of_text|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "is_local": false,
+  "model_max_length": 65536,
+  "pad_token": "<|pad|>",
+  "tokenizer_class": "TokenizersBackend",
+  "use_default_system_prompt": false
+}