Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +2 -0
README.md +201 -0
chat_template.jinja +1 -0
config.json +259 -0
generation_config.json +5 -0
hf_quant_config.json +128 -0
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +3 -0
tokenizer.json +3 -0
tokenizer_config.json +12 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model.safetensors.index.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,201 @@

+---
+license: apache-2.0
+base_model: arcee-ai/Trinity-Large-Base
+tags:
+  - moe
+  - nvfp4
+  - modelopt
+  - blackwell
+  - vllm
+---
+# Trinity-Large-Base-NVFP4
+NVFP4-quantized version of [arcee-ai/Trinity-Large-Base](https://huggingface.co/arcee-ai/Trinity-Large-Base) for deployment on NVIDIA Blackwell GPUs.
+## Model Details
+| | |
+|---|---|
+| **Base model** | [arcee-ai/Trinity-Large-Base](https://huggingface.co/arcee-ai/Trinity-Large-Base) |
+| **Architecture** | AfmoeForCausalLM (Mixture-of-Experts) |
+| **Parameters** | 398B total, ~13B active per token |
+| **Layers** | 60 (6 dense + 54 MoE) |
+| **Experts** | 256 per MoE layer, 4 active per token, 1 shared expert |
+| **Hidden size** | 3072 |
+| **MoE intermediate size** | 3072 per expert |
+| **Dense intermediate size** | 12,288 |
+| **Attention** | 48 heads, 8 KV heads (GQA), sliding window (4096) + full attention every 4 layers |
+| **Context length** | 8,192 tokens |
+| **Vocabulary** | 200,192 tokens |
+## Quantization
+| | |
+|---|---|
+| **Method** | NVFP4 (4-bit floating point) |
+| **Tool** | [NVIDIA ModelOpt](https://github.com/NVIDIA/TensorRT-Model-Optimizer) 0.41.0 |
+| **Group size** | 16 |
+| **Calibration** | 512 samples (Korean, Code, Creative Writing, English), max_seq_length=512 |
+| **Quantized layers** | MLP/expert weights only (`gate_proj`, `up_proj`, `down_proj` in dense and MoE layers) |
+| **BF16 layers** | Attention (Q/K/V/O projections), embeddings, router gates, shared experts, layer norms, lm_head |
+| **Source precision** | BF16 |
+### Compression
+| Format | Size |
+|--------|------|
+| BF16 (original) | 796 GB |
+| **NVFP4 (this model)** | **216 GB** |
+3.7x compression.
+## Running with vLLM
+[vLLM](https://github.com/vllm-project/vllm) >= 0.15.1 supports this model natively with the `modelopt` quantization backend. Blackwell GPUs (SM100/SM120) are **required** for NVFP4 inference.
+### Requirements
+- **VRAM**: ~216 GB total model weight. A single GPU with ≥224 GB VRAM can load it directly; smaller setups require multi-GPU and/or CPU offloading.
+- **System RAM**: If using `cpu_offload_gb`, you need sufficient system RAM for pinned memory (the offload value × number of GPUs, plus ~40 GB for model loading overhead).
+### Installation
+```bash
+pip install "vllm>=0.15.1"
+```
+### Environment Variables
+Set `VLLM_USE_FLASHINFER_MOE_FP4=0` to use the VLLM_CUTLASS MoE backend. This avoids large temporary GPU allocations during MoE weight initialization that can cause OOM on memory-constrained setups:
+```bash
+export VLLM_USE_FLASHINFER_MOE_FP4=0
+```
+### Single-GPU (≥224 GB VRAM)
+```python
+from vllm import LLM, SamplingParams
+llm = LLM(
+    model="mconcat/Trinity-Large-Base-NVFP4",
+    quantization="modelopt",
+    max_model_len=4096,
+    enforce_eager=True,
+    gpu_memory_utilization=0.90,
+)
+sampling_params = SamplingParams(temperature=0.7, max_tokens=256)
+outputs = llm.generate(["The meaning of life is"], sampling_params)
+print(outputs[0].outputs[0].text)
+```
+### Multi-GPU with Pipeline Parallelism
+For setups where total VRAM is less than ~216 GB, use pipeline parallelism with CPU weight offloading:
+```python
+import os
+os.environ["VLLM_USE_FLASHINFER_MOE_FP4"] = "0"
+from vllm import LLM, SamplingParams
+llm = LLM(
+    model="mconcat/Trinity-Large-Base-NVFP4",
+    quantization="modelopt",
+    pipeline_parallel_size=2,        # number of GPUs
+    cpu_offload_gb=30,               # GB of weights to offload per GPU
+    max_model_len=512,
+    max_num_seqs=256,
+    enforce_eager=True,
+    gpu_memory_utilization=0.95,
+)
+sampling_params = SamplingParams(temperature=0.7, max_tokens=256)
+outputs = llm.generate(["The meaning of life is"], sampling_params)
+print(outputs[0].outputs[0].text)
+```
+**Tuning tips:**
+- `cpu_offload_gb` is **per GPU** — total pinned memory = `cpu_offload_gb × pipeline_parallel_size`. Ensure this fits in system RAM alongside the OS and model loading workspace (~40 GB).
+- For **heterogeneous GPU setups** (different VRAM sizes), set `VLLM_PP_LAYER_PARTITION` to control how many of the 60 layers each GPU gets. For example, `export VLLM_PP_LAYER_PARTITION="32,14,14"` for a 3-GPU setup where the first GPU has ~3x the VRAM.
+- Each MoE layer is ~3.9 GB (NVFP4) while each dense layer is ~0.14 GB. The first 6 layers are dense; layers 6–59 are MoE. Distribute layers so that `(layer_weights - cpu_offload_gb)` fits comfortably on each GPU with room for KV cache and overhead.
+- `max_num_seqs` may need to be lowered for GPUs with ≤32 GB VRAM. The sampler warmup allocates `max_num_seqs × vocab_size × 8 bytes` of temporary memory (~1.5 GB at the default of 1024). Use 256 for smaller GPUs.
+- Start with a low `max_model_len` (e.g., 512) and increase once loading succeeds.
+### OpenAI-Compatible API Server
+```bash
+VLLM_USE_FLASHINFER_MOE_FP4=0 python -m vllm.entrypoints.openai.api_server \
+    --model mconcat/Trinity-Large-Base-NVFP4 \
+    --quantization modelopt \
+    --max-model-len 4096 \
+    --enforce-eager \
+    --gpu-memory-utilization 0.90 \
+    --port 8000
+```
+For multi-GPU serving, add `--pipeline-parallel-size N --cpu-offload-gb X --max-num-seqs 256` as needed.
+```bash
+curl http://localhost:8000/v1/completions \
+  -H "Content-Type: application/json" \
+  -d '{"model": "mconcat/Trinity-Large-Base-NVFP4", "prompt": "Hello", "max_tokens": 64}'
+```
+## Important Notes
+- **Blackwell required**: NVFP4 uses Blackwell's 5th-generation Tensor Cores. This model will NOT run on Hopper (H100/H200), Ada (RTX 4090), or older GPUs.
+- **vLLM quantization flag**: Use `--quantization modelopt` (not `modelopt_fp4`). vLLM auto-detects the NVFP4 algorithm from the config.
+- **MoE backend**: Set `VLLM_USE_FLASHINFER_MOE_FP4=0` to use the VLLM_CUTLASS MoE backend. The default flashinfer backend performs a `reorder_w1w3_to_w3w1` operation that temporarily allocates ~2.25 GB per MoE layer on GPU, which can cause OOM.
+- **vLLM cpu_offload_gb + V1 engine**: As of vLLM 0.15.x, using `cpu_offload_gb` with the V1 engine may trigger an assertion error in `may_reinitialize_input_batch` (`gpu_model_runner.py`). If you encounter `AssertionError: Cannot re-initialize the input batch when CPU weight offloading is enabled`, this can be safely patched by converting the assertion to a warning. See [vLLM PR #18298](https://github.com/vllm-project/vllm/issues/18298) for status.
+- **HuggingFace Transformers**: While `transformers >= 5.0` recognizes the `AfmoeForCausalLM` architecture, it does **not** support ModelOpt NVFP4 weight format for inference. Use vLLM instead.
+- **TensorRT-LLM**: As of February 2026, TensorRT-LLM does not support the `AfmoeForCausalLM` architecture.
+## Quantization Recipe
+Following NVIDIA's MLP-only quantization strategy (similar to the [DeepSeek-R1 NVFP4 recipe](https://developer.nvidia.com/blog/nvidia-publishes-the-first-deepseek-r1-nvfp4-quantized-model/)):
+- Only MLP/expert weights (`gate_proj`, `up_proj`, `down_proj`) are quantized to FP4
+- All attention projections remain in BF16 to preserve quality
+- Router gates (`mlp.router`) remain in BF16
+- Embeddings and lm_head remain in BF16
+- The default `*mlp.gate.*` exclusion was removed because Trinity uses `mlp.gate_proj` as a standard MLP projection (not a routing gate)
+### Calibration Data
+| Domain | Samples | Dataset |
+|--------|---------|---------|
+| Korean | 128 | [heegyu/open-korean-instructions](https://huggingface.co/datasets/heegyu/open-korean-instructions) |
+| Code | 128 | [m-a-p/CodeFeedback-Filtered-Instruction](https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction) |
+| Creative Writing | 128 | [Gryphe/ChatGPT-4o-Writing-Prompts](https://huggingface.co/datasets/Gryphe/ChatGPT-4o-Writing-Prompts) |
+| General English | 128 | [teknium/OpenHermes-2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) |
+## Files
+| File | Description |
+|------|-------------|
+| `model-00001-of-00005.safetensors` ... `model-00005-of-00005.safetensors` | Quantized model weights (5 shards, ~43-50 GB each) |
+| `model.safetensors.index.json` | Weight shard index |
+| `config.json` | Model configuration with `quantization_config` |
+| `hf_quant_config.json` | ModelOpt quantization metadata |
+| `generation_config.json` | Generation configuration |
+| `tokenizer.json` | Tokenizer |
+| `tokenizer_config.json` | Tokenizer configuration |
+| `chat_template.jinja` | Chat template |
+## Hardware
+Quantization was performed on 8x NVIDIA A100-SXM4-80GB with ~1.8 TiB system RAM. Total quantization time was approximately 9 hours (dominated by calibration forward passes). Quantization on A100 does not require Blackwell hardware; only inference with native FP4 execution does.
+## Limitations
+- Requires NVIDIA Blackwell GPUs (SM100/SM120) for native NVFP4 inference
+- Quality may differ from the original BF16 model, particularly on tasks sensitive to numerical precision
+- Calibration was bilingual (Korean + English) with code; other languages may see slightly higher degradation
+- This quantization targets the MLP/expert layers only; KV cache is not quantized
+## License
+Same license as the base model: [Apache 2.0](https://huggingface.co/arcee-ai/Trinity-Large-Base).

chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@


1	+ {{ bos_token }}{% for message in messages %}{{ message['content'] }}{% endfor %}

config.json ADDED Viewed

	@@ -0,0 +1,259 @@

+{
+    "architectures": [
+        "AfmoeForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "auto_map": {
+        "AutoConfig": "configuration_afmoe.AfmoeConfig",
+        "AutoModel": "modeling_afmoe.AfmoeModel",
+        "AutoModelForCausalLM": "modeling_afmoe.AfmoeForCausalLM"
+    },
+    "bos_token_id": null,
+    "dtype": "bfloat16",
+    "eos_token_id": null,
+    "global_attn_every_n_layers": 4,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 3072,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "layer_types": [
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "sliding_attention",
+        "full_attention"
+    ],
+    "load_balance_coeff": 5e-05,
+    "max_position_embeddings": 262144,
+    "model_type": "afmoe",
+    "moe_intermediate_size": 3072,
+    "mup_enabled": true,
+    "n_group": 1,
+    "num_attention_heads": 48,
+    "num_dense_layers": 6,
+    "num_expert_groups": 1,
+    "num_experts": 256,
+    "num_experts_per_tok": 4,
+    "num_hidden_layers": 60,
+    "num_key_value_heads": 8,
+    "num_limited_groups": 1,
+    "num_shared_experts": 1,
+    "pad_token_id": null,
+    "rms_norm_eps": 1e-05,
+    "rope_parameters": {
+        "rope_theta": 10000.0,
+        "rope_type": "default"
+    },
+    "rope_theta": 10000,
+    "route_norm": true,
+    "route_scale": 2.448,
+    "score_func": "sigmoid",
+    "sliding_window": 4096,
+    "tie_word_embeddings": false,
+    "topk_group": 1,
+    "transformers_version": "5.1.0",
+    "use_cache": true,
+    "use_grouped_mm": true,
+    "vocab_size": 200192,
+    "quantization_config": {
+        "config_groups": {
+            "group_0": {
+                "input_activations": {
+                    "dynamic": false,
+                    "num_bits": 4,
+                    "type": "float",
+                    "group_size": 16
+                },
+                "weights": {
+                    "dynamic": false,
+                    "num_bits": 4,
+                    "type": "float",
+                    "group_size": 16
+                },
+                "targets": [
+                    "Linear"
+                ]
+            }
+        },
+        "ignore": [
+            "lm_head",
+            "model.layers.0.self_attn*",
+            "model.layers.1.self_attn*",
+            "model.layers.10.mlp.router*",
+            "model.layers.10.self_attn*",
+            "model.layers.11.mlp.router*",
+            "model.layers.11.self_attn*",
+            "model.layers.12.mlp.router*",
+            "model.layers.12.self_attn*",
+            "model.layers.13.mlp.router*",
+            "model.layers.13.self_attn*",
+            "model.layers.14.mlp.router*",
+            "model.layers.14.self_attn*",
+            "model.layers.15.mlp.router*",
+            "model.layers.15.self_attn*",
+            "model.layers.16.mlp.router*",
+            "model.layers.16.self_attn*",
+            "model.layers.17.mlp.router*",
+            "model.layers.17.self_attn*",
+            "model.layers.18.mlp.router*",
+            "model.layers.18.self_attn*",
+            "model.layers.19.mlp.router*",
+            "model.layers.19.self_attn*",
+            "model.layers.2.self_attn*",
+            "model.layers.20.mlp.router*",
+            "model.layers.20.self_attn*",
+            "model.layers.21.mlp.router*",
+            "model.layers.21.self_attn*",
+            "model.layers.22.mlp.router*",
+            "model.layers.22.self_attn*",
+            "model.layers.23.mlp.router*",
+            "model.layers.23.self_attn*",
+            "model.layers.24.mlp.router*",
+            "model.layers.24.self_attn*",
+            "model.layers.25.mlp.router*",
+            "model.layers.25.self_attn*",
+            "model.layers.26.mlp.router*",
+            "model.layers.26.self_attn*",
+            "model.layers.27.mlp.router*",
+            "model.layers.27.self_attn*",
+            "model.layers.28.mlp.router*",
+            "model.layers.28.self_attn*",
+            "model.layers.29.mlp.router*",
+            "model.layers.29.self_attn*",
+            "model.layers.3.self_attn*",
+            "model.layers.30.mlp.router*",
+            "model.layers.30.self_attn*",
+            "model.layers.31.mlp.router*",
+            "model.layers.31.self_attn*",
+            "model.layers.32.mlp.router*",
+            "model.layers.32.self_attn*",
+            "model.layers.33.mlp.router*",
+            "model.layers.33.self_attn*",
+            "model.layers.34.mlp.router*",
+            "model.layers.34.self_attn*",
+            "model.layers.35.mlp.router*",
+            "model.layers.35.self_attn*",
+            "model.layers.36.mlp.router*",
+            "model.layers.36.self_attn*",
+            "model.layers.37.mlp.router*",
+            "model.layers.37.self_attn*",
+            "model.layers.38.mlp.router*",
+            "model.layers.38.self_attn*",
+            "model.layers.39.mlp.router*",
+            "model.layers.39.self_attn*",
+            "model.layers.4.self_attn*",
+            "model.layers.40.mlp.router*",
+            "model.layers.40.self_attn*",
+            "model.layers.41.mlp.router*",
+            "model.layers.41.self_attn*",
+            "model.layers.42.mlp.router*",
+            "model.layers.42.self_attn*",
+            "model.layers.43.mlp.router*",
+            "model.layers.43.self_attn*",
+            "model.layers.44.mlp.router*",
+            "model.layers.44.self_attn*",
+            "model.layers.45.mlp.router*",
+            "model.layers.45.self_attn*",
+            "model.layers.46.mlp.router*",
+            "model.layers.46.self_attn*",
+            "model.layers.47.mlp.router*",
+            "model.layers.47.self_attn*",
+            "model.layers.48.mlp.router*",
+            "model.layers.48.self_attn*",
+            "model.layers.49.mlp.router*",
+            "model.layers.49.self_attn*",
+            "model.layers.5.self_attn*",
+            "model.layers.50.mlp.router*",
+            "model.layers.50.self_attn*",
+            "model.layers.51.mlp.router*",
+            "model.layers.51.self_attn*",
+            "model.layers.52.mlp.router*",
+            "model.layers.52.self_attn*",
+            "model.layers.53.mlp.router*",
+            "model.layers.53.self_attn*",
+            "model.layers.54.mlp.router*",
+            "model.layers.54.self_attn*",
+            "model.layers.55.mlp.router*",
+            "model.layers.55.self_attn*",
+            "model.layers.56.mlp.router*",
+            "model.layers.56.self_attn*",
+            "model.layers.57.mlp.router*",
+            "model.layers.57.self_attn*",
+            "model.layers.58.mlp.router*",
+            "model.layers.58.self_attn*",
+            "model.layers.59.mlp.router*",
+            "model.layers.59.self_attn*",
+            "model.layers.6.mlp.router*",
+            "model.layers.6.self_attn*",
+            "model.layers.7.mlp.router*",
+            "model.layers.7.self_attn*",
+            "model.layers.8.mlp.router*",
+            "model.layers.8.self_attn*",
+            "model.layers.9.mlp.router*",
+            "model.layers.9.self_attn*"
+        ],
+        "quant_algo": "NVFP4",
+        "producer": {
+            "name": "modelopt",
+            "version": "0.41.0"
+        },
+        "quant_method": "modelopt"
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "5.1.0",
+  "use_cache": true
+}

hf_quant_config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+    "producer": {
+        "name": "modelopt",
+        "version": "0.41.0"
+    },
+    "quantization": {
+        "quant_algo": "NVFP4",
+        "kv_cache_quant_algo": null,
+        "group_size": 16,
+        "exclude_modules": [
+            "lm_head",
+            "model.layers.0.self_attn*",
+            "model.layers.1.self_attn*",
+            "model.layers.10.mlp.router*",
+            "model.layers.10.self_attn*",
+            "model.layers.11.mlp.router*",
+            "model.layers.11.self_attn*",
+            "model.layers.12.mlp.router*",
+            "model.layers.12.self_attn*",
+            "model.layers.13.mlp.router*",
+            "model.layers.13.self_attn*",
+            "model.layers.14.mlp.router*",
+            "model.layers.14.self_attn*",
+            "model.layers.15.mlp.router*",
+            "model.layers.15.self_attn*",
+            "model.layers.16.mlp.router*",
+            "model.layers.16.self_attn*",
+            "model.layers.17.mlp.router*",
+            "model.layers.17.self_attn*",
+            "model.layers.18.mlp.router*",
+            "model.layers.18.self_attn*",
+            "model.layers.19.mlp.router*",
+            "model.layers.19.self_attn*",
+            "model.layers.2.self_attn*",
+            "model.layers.20.mlp.router*",
+            "model.layers.20.self_attn*",
+            "model.layers.21.mlp.router*",
+            "model.layers.21.self_attn*",
+            "model.layers.22.mlp.router*",
+            "model.layers.22.self_attn*",
+            "model.layers.23.mlp.router*",
+            "model.layers.23.self_attn*",
+            "model.layers.24.mlp.router*",
+            "model.layers.24.self_attn*",
+            "model.layers.25.mlp.router*",
+            "model.layers.25.self_attn*",
+            "model.layers.26.mlp.router*",
+            "model.layers.26.self_attn*",
+            "model.layers.27.mlp.router*",
+            "model.layers.27.self_attn*",
+            "model.layers.28.mlp.router*",
+            "model.layers.28.self_attn*",
+            "model.layers.29.mlp.router*",
+            "model.layers.29.self_attn*",
+            "model.layers.3.self_attn*",
+            "model.layers.30.mlp.router*",
+            "model.layers.30.self_attn*",
+            "model.layers.31.mlp.router*",
+            "model.layers.31.self_attn*",
+            "model.layers.32.mlp.router*",
+            "model.layers.32.self_attn*",
+            "model.layers.33.mlp.router*",
+            "model.layers.33.self_attn*",
+            "model.layers.34.mlp.router*",
+            "model.layers.34.self_attn*",
+            "model.layers.35.mlp.router*",
+            "model.layers.35.self_attn*",
+            "model.layers.36.mlp.router*",
+            "model.layers.36.self_attn*",
+            "model.layers.37.mlp.router*",
+            "model.layers.37.self_attn*",
+            "model.layers.38.mlp.router*",
+            "model.layers.38.self_attn*",
+            "model.layers.39.mlp.router*",
+            "model.layers.39.self_attn*",
+            "model.layers.4.self_attn*",
+            "model.layers.40.mlp.router*",
+            "model.layers.40.self_attn*",
+            "model.layers.41.mlp.router*",
+            "model.layers.41.self_attn*",
+            "model.layers.42.mlp.router*",
+            "model.layers.42.self_attn*",
+            "model.layers.43.mlp.router*",
+            "model.layers.43.self_attn*",
+            "model.layers.44.mlp.router*",
+            "model.layers.44.self_attn*",
+            "model.layers.45.mlp.router*",
+            "model.layers.45.self_attn*",
+            "model.layers.46.mlp.router*",
+            "model.layers.46.self_attn*",
+            "model.layers.47.mlp.router*",
+            "model.layers.47.self_attn*",
+            "model.layers.48.mlp.router*",
+            "model.layers.48.self_attn*",
+            "model.layers.49.mlp.router*",
+            "model.layers.49.self_attn*",
+            "model.layers.5.self_attn*",
+            "model.layers.50.mlp.router*",
+            "model.layers.50.self_attn*",
+            "model.layers.51.mlp.router*",
+            "model.layers.51.self_attn*",
+            "model.layers.52.mlp.router*",
+            "model.layers.52.self_attn*",
+            "model.layers.53.mlp.router*",
+            "model.layers.53.self_attn*",
+            "model.layers.54.mlp.router*",
+            "model.layers.54.self_attn*",
+            "model.layers.55.mlp.router*",
+            "model.layers.55.self_attn*",
+            "model.layers.56.mlp.router*",
+            "model.layers.56.self_attn*",
+            "model.layers.57.mlp.router*",
+            "model.layers.57.self_attn*",
+            "model.layers.58.mlp.router*",
+            "model.layers.58.self_attn*",
+            "model.layers.59.mlp.router*",
+            "model.layers.59.self_attn*",
+            "model.layers.6.mlp.router*",
+            "model.layers.6.self_attn*",
+            "model.layers.7.mlp.router*",
+            "model.layers.7.self_attn*",
+            "model.layers.8.mlp.router*",
+            "model.layers.8.self_attn*",
+            "model.layers.9.mlp.router*",
+            "model.layers.9.self_attn*"
+        ]
+    }
+}

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db35b3d8988eb946cd7cfcb9204045fae258fba140d4a931a3165339496691b8
+size 49979822160

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:883fbf2ae549904e1846abf853528cb3324dde9f271fd55796f9cb926e32b0db
+size 50001038716

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46bd4b62b3ee2f41ff12fb46b9f55357299e93e8a15d6c4f6b46b850006ecfe0
+size 50004196600

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e80dc1906eccbd97192fefff4f6f7175c145a042c4775dc4833df0a47fba0f
+size 50000068080

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:411e83d2c0a4e96ca9b0556fe3ab405e2c64dcc957b50b156028151d1efce548
+size 31524413620

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a626457320b5a5245cb6e8e4113dc4c4ff697c1feeae9334e6ab0432d0f2073
+size 15989867

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b56b3b89ba5a5f70ebff957c435c8501da7ae994b0684683511f5e94b674a8
+size 14614977

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "add_prefix_space": null,
+  "backend": "tokenizers",
+  "bos_token": "<|begin_of_text|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "is_local": false,
+  "model_max_length": 65536,
+  "pad_token": "<|pad|>",
+  "tokenizer_class": "TokenizersBackend",
+  "use_default_system_prompt": false
+}