Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

README.md +1 -51
added_tokens.json +28 -0
config.json +6 -64
model-00001-of-00010.safetensors +2 -2
model-00002-of-00010.safetensors +2 -2
model-00003-of-00010.safetensors +2 -2
model-00004-of-00010.safetensors +1 -1
model-00005-of-00010.safetensors +2 -2
model-00006-of-00010.safetensors +2 -2
model-00007-of-00010.safetensors +2 -2
model-00008-of-00010.safetensors +2 -2
model-00009-of-00010.safetensors +2 -2
model-00010-of-00010.safetensors +2 -2
model.safetensors.index.json +1 -1
recipe.yaml +40 -0
special_tokens_map.json +31 -0

README.md CHANGED Viewed

@@ -6,56 +6,6 @@ pipeline_tag: text-generation
 base_model: Qwen/Qwen3-Coder-Next
 ---
-# Qwen3-Coder-Next AWQ - INT4
-## Model Details
-### Quantization Details
-- **Quantization Method:** cyankiwi AWQ v1.0
-- **Bits:** 4
-- **Group Size:** 32
-- **Calibration Dataset:** [nvidia/Nemotron-SWE-v1](https://huggingface.co/datasets/nvidia/Nemotron-SWE-v1)
-- **Quantization Tool:** [llm-compressor](https://github.com/vllm-project/llm-compressor)
-### Memory Usage
-| **Type** | **Qwen3-Coder-Next** | **Qwen3-Coder-Next-AWQ-4bit** |
-|:---------------:|:----------------:|:----------------:|
-| **Memory Size** | 151.5 GB | 45.9 GB |
-## Inference
-### Prerequisite
-```bash
-pip install vllm
-```
-### Basic Usage
-```bash
-VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve cyankiwi/Qwen3-Coder-Next-AWQ-4bit \
-    --port 8000 \
-    --tensor-parallel-size 4 \
-    --max-model-len 262144
-```
-## Additional Information
-### Known Issues
-- No MTP implementation
-### Changelog
-- **v0.9.0** - Initial quantized release
-### Authors
-- **Name:** Ton Cao
-- **Contacts:** ton@cyan.kiwi
 # Qwen3-Coder-Next
 ## Highlights
@@ -256,4 +206,4 @@ If you find our work helpful, feel free to give us a cite.
   url          = {https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf},
   note         = {Accessed: 2026-02-03}
 }
-```

 base_model: Qwen/Qwen3-Coder-Next
 ---
 # Qwen3-Coder-Next
 ## Highlights
   url          = {https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf},
   note         = {Accessed: 2026-02-03}
 }
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json CHANGED Viewed

@@ -98,9 +98,11 @@
           "num_bits": 4,
           "observer": "mse",
           "observer_kwargs": {},
           "strategy": "group",
           "symmetric": true,
-          "type": "int"
         }
       }
     },
@@ -111,7 +113,6 @@
       "model.layers.0.linear_attn.in_proj_ba",
       "model.layers.0.linear_attn.out_proj",
       "model.layers.0.mlp.gate",
-      "model.layers.0.mlp.shared_expert.gate_up_proj",
       "model.layers.0.mlp.shared_expert.gate_proj",
       "model.layers.0.mlp.shared_expert.up_proj",
       "model.layers.0.mlp.shared_expert.down_proj",
@@ -120,7 +121,6 @@
       "model.layers.1.linear_attn.in_proj_ba",
       "model.layers.1.linear_attn.out_proj",
       "model.layers.1.mlp.gate",
-      "model.layers.1.mlp.shared_expert.gate_up_proj",
       "model.layers.1.mlp.shared_expert.gate_proj",
       "model.layers.1.mlp.shared_expert.up_proj",
       "model.layers.1.mlp.shared_expert.down_proj",
@@ -129,18 +129,15 @@
       "model.layers.2.linear_attn.in_proj_ba",
       "model.layers.2.linear_attn.out_proj",
       "model.layers.2.mlp.gate",
-      "model.layers.2.mlp.shared_expert.gate_up_proj",
       "model.layers.2.mlp.shared_expert.gate_proj",
       "model.layers.2.mlp.shared_expert.up_proj",
       "model.layers.2.mlp.shared_expert.down_proj",
       "model.layers.2.mlp.shared_expert_gate",
-      "model.layers.3.self_attn.qkv_proj",
       "model.layers.3.self_attn.q_proj",
       "model.layers.3.self_attn.k_proj",
       "model.layers.3.self_attn.v_proj",
       "model.layers.3.self_attn.o_proj",
       "model.layers.3.mlp.gate",
-      "model.layers.3.mlp.shared_expert.gate_up_proj",
       "model.layers.3.mlp.shared_expert.gate_proj",
       "model.layers.3.mlp.shared_expert.up_proj",
       "model.layers.3.mlp.shared_expert.down_proj",
@@ -149,7 +146,6 @@
       "model.layers.4.linear_attn.in_proj_ba",
       "model.layers.4.linear_attn.out_proj",
       "model.layers.4.mlp.gate",
-      "model.layers.4.mlp.shared_expert.gate_up_proj",
       "model.layers.4.mlp.shared_expert.gate_proj",
       "model.layers.4.mlp.shared_expert.up_proj",
       "model.layers.4.mlp.shared_expert.down_proj",
@@ -158,7 +154,6 @@
       "model.layers.5.linear_attn.in_proj_ba",
       "model.layers.5.linear_attn.out_proj",
       "model.layers.5.mlp.gate",
-      "model.layers.5.mlp.shared_expert.gate_up_proj",
       "model.layers.5.mlp.shared_expert.gate_proj",
       "model.layers.5.mlp.shared_expert.up_proj",
       "model.layers.5.mlp.shared_expert.down_proj",
@@ -167,18 +162,15 @@
       "model.layers.6.linear_attn.in_proj_ba",
       "model.layers.6.linear_attn.out_proj",
       "model.layers.6.mlp.gate",
-      "model.layers.6.mlp.shared_expert.gate_up_proj",
       "model.layers.6.mlp.shared_expert.gate_proj",
       "model.layers.6.mlp.shared_expert.up_proj",
       "model.layers.6.mlp.shared_expert.down_proj",
       "model.layers.6.mlp.shared_expert_gate",
-      "model.layers.7.self_attn.qkv_proj",
       "model.layers.7.self_attn.q_proj",
       "model.layers.7.self_attn.k_proj",
       "model.layers.7.self_attn.v_proj",
       "model.layers.7.self_attn.o_proj",
       "model.layers.7.mlp.gate",
-      "model.layers.7.mlp.shared_expert.gate_up_proj",
       "model.layers.7.mlp.shared_expert.gate_proj",
       "model.layers.7.mlp.shared_expert.up_proj",
       "model.layers.7.mlp.shared_expert.down_proj",
@@ -187,7 +179,6 @@
       "model.layers.8.linear_attn.in_proj_ba",
       "model.layers.8.linear_attn.out_proj",
       "model.layers.8.mlp.gate",
-      "model.layers.8.mlp.shared_expert.gate_up_proj",
       "model.layers.8.mlp.shared_expert.gate_proj",
       "model.layers.8.mlp.shared_expert.up_proj",
       "model.layers.8.mlp.shared_expert.down_proj",
@@ -196,7 +187,6 @@
       "model.layers.9.linear_attn.in_proj_ba",
       "model.layers.9.linear_attn.out_proj",
       "model.layers.9.mlp.gate",
-      "model.layers.9.mlp.shared_expert.gate_up_proj",
       "model.layers.9.mlp.shared_expert.gate_proj",
       "model.layers.9.mlp.shared_expert.up_proj",
       "model.layers.9.mlp.shared_expert.down_proj",
@@ -205,18 +195,15 @@
       "model.layers.10.linear_attn.in_proj_ba",
       "model.layers.10.linear_attn.out_proj",
       "model.layers.10.mlp.gate",
-      "model.layers.10.mlp.shared_expert.gate_up_proj",
       "model.layers.10.mlp.shared_expert.gate_proj",
       "model.layers.10.mlp.shared_expert.up_proj",
       "model.layers.10.mlp.shared_expert.down_proj",
       "model.layers.10.mlp.shared_expert_gate",
-      "model.layers.11.self_attn.qkv_proj",
       "model.layers.11.self_attn.q_proj",
       "model.layers.11.self_attn.k_proj",
       "model.layers.11.self_attn.v_proj",
       "model.layers.11.self_attn.o_proj",
       "model.layers.11.mlp.gate",
-      "model.layers.11.mlp.shared_expert.gate_up_proj",
       "model.layers.11.mlp.shared_expert.gate_proj",
       "model.layers.11.mlp.shared_expert.up_proj",
       "model.layers.11.mlp.shared_expert.down_proj",
@@ -225,7 +212,6 @@
       "model.layers.12.linear_attn.in_proj_ba",
       "model.layers.12.linear_attn.out_proj",
       "model.layers.12.mlp.gate",
-      "model.layers.12.mlp.shared_expert.gate_up_proj",
       "model.layers.12.mlp.shared_expert.gate_proj",
       "model.layers.12.mlp.shared_expert.up_proj",
       "model.layers.12.mlp.shared_expert.down_proj",
@@ -234,7 +220,6 @@
       "model.layers.13.linear_attn.in_proj_ba",
       "model.layers.13.linear_attn.out_proj",
       "model.layers.13.mlp.gate",
-      "model.layers.13.mlp.shared_expert.gate_up_proj",
       "model.layers.13.mlp.shared_expert.gate_proj",
       "model.layers.13.mlp.shared_expert.up_proj",
       "model.layers.13.mlp.shared_expert.down_proj",
@@ -243,18 +228,15 @@
       "model.layers.14.linear_attn.in_proj_ba",
       "model.layers.14.linear_attn.out_proj",
       "model.layers.14.mlp.gate",
-      "model.layers.14.mlp.shared_expert.gate_up_proj",
       "model.layers.14.mlp.shared_expert.gate_proj",
       "model.layers.14.mlp.shared_expert.up_proj",
       "model.layers.14.mlp.shared_expert.down_proj",
       "model.layers.14.mlp.shared_expert_gate",
-      "model.layers.15.self_attn.qkv_proj",
       "model.layers.15.self_attn.q_proj",
       "model.layers.15.self_attn.k_proj",
       "model.layers.15.self_attn.v_proj",
       "model.layers.15.self_attn.o_proj",
       "model.layers.15.mlp.gate",
-      "model.layers.15.mlp.shared_expert.gate_up_proj",
       "model.layers.15.mlp.shared_expert.gate_proj",
       "model.layers.15.mlp.shared_expert.up_proj",
       "model.layers.15.mlp.shared_expert.down_proj",
@@ -263,7 +245,6 @@
       "model.layers.16.linear_attn.in_proj_ba",
       "model.layers.16.linear_attn.out_proj",
       "model.layers.16.mlp.gate",
-      "model.layers.16.mlp.shared_expert.gate_up_proj",
       "model.layers.16.mlp.shared_expert.gate_proj",
       "model.layers.16.mlp.shared_expert.up_proj",
       "model.layers.16.mlp.shared_expert.down_proj",
@@ -272,7 +253,6 @@
       "model.layers.17.linear_attn.in_proj_ba",
       "model.layers.17.linear_attn.out_proj",
       "model.layers.17.mlp.gate",
-      "model.layers.17.mlp.shared_expert.gate_up_proj",
       "model.layers.17.mlp.shared_expert.gate_proj",
       "model.layers.17.mlp.shared_expert.up_proj",
       "model.layers.17.mlp.shared_expert.down_proj",
@@ -281,18 +261,15 @@
       "model.layers.18.linear_attn.in_proj_ba",
       "model.layers.18.linear_attn.out_proj",
       "model.layers.18.mlp.gate",
-      "model.layers.18.mlp.shared_expert.gate_up_proj",
       "model.layers.18.mlp.shared_expert.gate_proj",
       "model.layers.18.mlp.shared_expert.up_proj",
       "model.layers.18.mlp.shared_expert.down_proj",
       "model.layers.18.mlp.shared_expert_gate",
-      "model.layers.19.self_attn.qkv_proj",
       "model.layers.19.self_attn.q_proj",
       "model.layers.19.self_attn.k_proj",
       "model.layers.19.self_attn.v_proj",
       "model.layers.19.self_attn.o_proj",
       "model.layers.19.mlp.gate",
-      "model.layers.19.mlp.shared_expert.gate_up_proj",
       "model.layers.19.mlp.shared_expert.gate_proj",
       "model.layers.19.mlp.shared_expert.up_proj",
       "model.layers.19.mlp.shared_expert.down_proj",
@@ -301,7 +278,6 @@
       "model.layers.20.linear_attn.in_proj_ba",
       "model.layers.20.linear_attn.out_proj",
       "model.layers.20.mlp.gate",
-      "model.layers.20.mlp.shared_expert.gate_up_proj",
       "model.layers.20.mlp.shared_expert.gate_proj",
       "model.layers.20.mlp.shared_expert.up_proj",
       "model.layers.20.mlp.shared_expert.down_proj",
@@ -310,7 +286,6 @@
       "model.layers.21.linear_attn.in_proj_ba",
       "model.layers.21.linear_attn.out_proj",
       "model.layers.21.mlp.gate",
-      "model.layers.21.mlp.shared_expert.gate_up_proj",
       "model.layers.21.mlp.shared_expert.gate_proj",
       "model.layers.21.mlp.shared_expert.up_proj",
       "model.layers.21.mlp.shared_expert.down_proj",
@@ -319,18 +294,15 @@
       "model.layers.22.linear_attn.in_proj_ba",
       "model.layers.22.linear_attn.out_proj",
       "model.layers.22.mlp.gate",
-      "model.layers.22.mlp.shared_expert.gate_up_proj",
       "model.layers.22.mlp.shared_expert.gate_proj",
       "model.layers.22.mlp.shared_expert.up_proj",
       "model.layers.22.mlp.shared_expert.down_proj",
       "model.layers.22.mlp.shared_expert_gate",
-      "model.layers.23.self_attn.qkv_proj",
       "model.layers.23.self_attn.q_proj",
       "model.layers.23.self_attn.k_proj",
       "model.layers.23.self_attn.v_proj",
       "model.layers.23.self_attn.o_proj",
       "model.layers.23.mlp.gate",
-      "model.layers.23.mlp.shared_expert.gate_up_proj",
       "model.layers.23.mlp.shared_expert.gate_proj",
       "model.layers.23.mlp.shared_expert.up_proj",
       "model.layers.23.mlp.shared_expert.down_proj",
@@ -339,7 +311,6 @@
       "model.layers.24.linear_attn.in_proj_ba",
       "model.layers.24.linear_attn.out_proj",
       "model.layers.24.mlp.gate",
-      "model.layers.24.mlp.shared_expert.gate_up_proj",
       "model.layers.24.mlp.shared_expert.gate_proj",
       "model.layers.24.mlp.shared_expert.up_proj",
       "model.layers.24.mlp.shared_expert.down_proj",
@@ -348,7 +319,6 @@
       "model.layers.25.linear_attn.in_proj_ba",
       "model.layers.25.linear_attn.out_proj",
       "model.layers.25.mlp.gate",
-      "model.layers.25.mlp.shared_expert.gate_up_proj",
       "model.layers.25.mlp.shared_expert.gate_proj",
       "model.layers.25.mlp.shared_expert.up_proj",
       "model.layers.25.mlp.shared_expert.down_proj",
@@ -357,18 +327,15 @@
       "model.layers.26.linear_attn.in_proj_ba",
       "model.layers.26.linear_attn.out_proj",
       "model.layers.26.mlp.gate",
-      "model.layers.26.mlp.shared_expert.gate_up_proj",
       "model.layers.26.mlp.shared_expert.gate_proj",
       "model.layers.26.mlp.shared_expert.up_proj",
       "model.layers.26.mlp.shared_expert.down_proj",
       "model.layers.26.mlp.shared_expert_gate",
-      "model.layers.27.self_attn.qkv_proj",
       "model.layers.27.self_attn.q_proj",
       "model.layers.27.self_attn.k_proj",
       "model.layers.27.self_attn.v_proj",
       "model.layers.27.self_attn.o_proj",
       "model.layers.27.mlp.gate",
-      "model.layers.27.mlp.shared_expert.gate_up_proj",
       "model.layers.27.mlp.shared_expert.gate_proj",
       "model.layers.27.mlp.shared_expert.up_proj",
       "model.layers.27.mlp.shared_expert.down_proj",
@@ -377,7 +344,6 @@
       "model.layers.28.linear_attn.in_proj_ba",
       "model.layers.28.linear_attn.out_proj",
       "model.layers.28.mlp.gate",
-      "model.layers.28.mlp.shared_expert.gate_up_proj",
       "model.layers.28.mlp.shared_expert.gate_proj",
       "model.layers.28.mlp.shared_expert.up_proj",
       "model.layers.28.mlp.shared_expert.down_proj",
@@ -386,7 +352,6 @@
       "model.layers.29.linear_attn.in_proj_ba",
       "model.layers.29.linear_attn.out_proj",
       "model.layers.29.mlp.gate",
-      "model.layers.29.mlp.shared_expert.gate_up_proj",
       "model.layers.29.mlp.shared_expert.gate_proj",
       "model.layers.29.mlp.shared_expert.up_proj",
       "model.layers.29.mlp.shared_expert.down_proj",
@@ -395,18 +360,15 @@
       "model.layers.30.linear_attn.in_proj_ba",
       "model.layers.30.linear_attn.out_proj",
       "model.layers.30.mlp.gate",
-      "model.layers.30.mlp.shared_expert.gate_up_proj",
       "model.layers.30.mlp.shared_expert.gate_proj",
       "model.layers.30.mlp.shared_expert.up_proj",
       "model.layers.30.mlp.shared_expert.down_proj",
       "model.layers.30.mlp.shared_expert_gate",
-      "model.layers.31.self_attn.qkv_proj",
       "model.layers.31.self_attn.q_proj",
       "model.layers.31.self_attn.k_proj",
       "model.layers.31.self_attn.v_proj",
       "model.layers.31.self_attn.o_proj",
       "model.layers.31.mlp.gate",
-      "model.layers.31.mlp.shared_expert.gate_up_proj",
       "model.layers.31.mlp.shared_expert.gate_proj",
       "model.layers.31.mlp.shared_expert.up_proj",
       "model.layers.31.mlp.shared_expert.down_proj",
@@ -415,7 +377,6 @@
       "model.layers.32.linear_attn.in_proj_ba",
       "model.layers.32.linear_attn.out_proj",
       "model.layers.32.mlp.gate",
-      "model.layers.32.mlp.shared_expert.gate_up_proj",
       "model.layers.32.mlp.shared_expert.gate_proj",
       "model.layers.32.mlp.shared_expert.up_proj",
       "model.layers.32.mlp.shared_expert.down_proj",
@@ -424,7 +385,6 @@
       "model.layers.33.linear_attn.in_proj_ba",
       "model.layers.33.linear_attn.out_proj",
       "model.layers.33.mlp.gate",
-      "model.layers.33.mlp.shared_expert.gate_up_proj",
       "model.layers.33.mlp.shared_expert.gate_proj",
       "model.layers.33.mlp.shared_expert.up_proj",
       "model.layers.33.mlp.shared_expert.down_proj",
@@ -433,18 +393,15 @@
       "model.layers.34.linear_attn.in_proj_ba",
       "model.layers.34.linear_attn.out_proj",
       "model.layers.34.mlp.gate",
-      "model.layers.34.mlp.shared_expert.gate_up_proj",
       "model.layers.34.mlp.shared_expert.gate_proj",
       "model.layers.34.mlp.shared_expert.up_proj",
       "model.layers.34.mlp.shared_expert.down_proj",
       "model.layers.34.mlp.shared_expert_gate",
-      "model.layers.35.self_attn.qkv_proj",
       "model.layers.35.self_attn.q_proj",
       "model.layers.35.self_attn.k_proj",
       "model.layers.35.self_attn.v_proj",
       "model.layers.35.self_attn.o_proj",
       "model.layers.35.mlp.gate",
-      "model.layers.35.mlp.shared_expert.gate_up_proj",
       "model.layers.35.mlp.shared_expert.gate_proj",
       "model.layers.35.mlp.shared_expert.up_proj",
       "model.layers.35.mlp.shared_expert.down_proj",
@@ -453,7 +410,6 @@
       "model.layers.36.linear_attn.in_proj_ba",
       "model.layers.36.linear_attn.out_proj",
       "model.layers.36.mlp.gate",
-      "model.layers.36.mlp.shared_expert.gate_up_proj",
       "model.layers.36.mlp.shared_expert.gate_proj",
       "model.layers.36.mlp.shared_expert.up_proj",
       "model.layers.36.mlp.shared_expert.down_proj",
@@ -462,7 +418,6 @@
       "model.layers.37.linear_attn.in_proj_ba",
       "model.layers.37.linear_attn.out_proj",
       "model.layers.37.mlp.gate",
-      "model.layers.37.mlp.shared_expert.gate_up_proj",
       "model.layers.37.mlp.shared_expert.gate_proj",
       "model.layers.37.mlp.shared_expert.up_proj",
       "model.layers.37.mlp.shared_expert.down_proj",
@@ -471,18 +426,15 @@
       "model.layers.38.linear_attn.in_proj_ba",
       "model.layers.38.linear_attn.out_proj",
       "model.layers.38.mlp.gate",
-      "model.layers.38.mlp.shared_expert.gate_up_proj",
       "model.layers.38.mlp.shared_expert.gate_proj",
       "model.layers.38.mlp.shared_expert.up_proj",
       "model.layers.38.mlp.shared_expert.down_proj",
       "model.layers.38.mlp.shared_expert_gate",
-      "model.layers.39.self_attn.qkv_proj",
       "model.layers.39.self_attn.q_proj",
       "model.layers.39.self_attn.k_proj",
       "model.layers.39.self_attn.v_proj",
       "model.layers.39.self_attn.o_proj",
       "model.layers.39.mlp.gate",
-      "model.layers.39.mlp.shared_expert.gate_up_proj",
       "model.layers.39.mlp.shared_expert.gate_proj",
       "model.layers.39.mlp.shared_expert.up_proj",
       "model.layers.39.mlp.shared_expert.down_proj",
@@ -491,7 +443,6 @@
       "model.layers.40.linear_attn.in_proj_ba",
       "model.layers.40.linear_attn.out_proj",
       "model.layers.40.mlp.gate",
-      "model.layers.40.mlp.shared_expert.gate_up_proj",
       "model.layers.40.mlp.shared_expert.gate_proj",
       "model.layers.40.mlp.shared_expert.up_proj",
       "model.layers.40.mlp.shared_expert.down_proj",
@@ -500,7 +451,6 @@
       "model.layers.41.linear_attn.in_proj_ba",
       "model.layers.41.linear_attn.out_proj",
       "model.layers.41.mlp.gate",
-      "model.layers.41.mlp.shared_expert.gate_up_proj",
       "model.layers.41.mlp.shared_expert.gate_proj",
       "model.layers.41.mlp.shared_expert.up_proj",
       "model.layers.41.mlp.shared_expert.down_proj",
@@ -509,18 +459,15 @@
       "model.layers.42.linear_attn.in_proj_ba",
       "model.layers.42.linear_attn.out_proj",
       "model.layers.42.mlp.gate",
-      "model.layers.42.mlp.shared_expert.gate_up_proj",
       "model.layers.42.mlp.shared_expert.gate_proj",
       "model.layers.42.mlp.shared_expert.up_proj",
       "model.layers.42.mlp.shared_expert.down_proj",
       "model.layers.42.mlp.shared_expert_gate",
-      "model.layers.43.self_attn.qkv_proj",
       "model.layers.43.self_attn.q_proj",
       "model.layers.43.self_attn.k_proj",
       "model.layers.43.self_attn.v_proj",
       "model.layers.43.self_attn.o_proj",
       "model.layers.43.mlp.gate",
-      "model.layers.43.mlp.shared_expert.gate_up_proj",
       "model.layers.43.mlp.shared_expert.gate_proj",
       "model.layers.43.mlp.shared_expert.up_proj",
       "model.layers.43.mlp.shared_expert.down_proj",
@@ -529,7 +476,6 @@
       "model.layers.44.linear_attn.in_proj_ba",
       "model.layers.44.linear_attn.out_proj",
       "model.layers.44.mlp.gate",
-      "model.layers.44.mlp.shared_expert.gate_up_proj",
       "model.layers.44.mlp.shared_expert.gate_proj",
       "model.layers.44.mlp.shared_expert.up_proj",
       "model.layers.44.mlp.shared_expert.down_proj",
@@ -538,7 +484,6 @@
       "model.layers.45.linear_attn.in_proj_ba",
       "model.layers.45.linear_attn.out_proj",
       "model.layers.45.mlp.gate",
-      "model.layers.45.mlp.shared_expert.gate_up_proj",
       "model.layers.45.mlp.shared_expert.gate_proj",
       "model.layers.45.mlp.shared_expert.up_proj",
       "model.layers.45.mlp.shared_expert.down_proj",
@@ -547,18 +492,15 @@
       "model.layers.46.linear_attn.in_proj_ba",
       "model.layers.46.linear_attn.out_proj",
       "model.layers.46.mlp.gate",
-      "model.layers.46.mlp.shared_expert.gate_up_proj",
       "model.layers.46.mlp.shared_expert.gate_proj",
       "model.layers.46.mlp.shared_expert.up_proj",
       "model.layers.46.mlp.shared_expert.down_proj",
       "model.layers.46.mlp.shared_expert_gate",
-      "model.layers.47.self_attn.qkv_proj",
       "model.layers.47.self_attn.q_proj",
       "model.layers.47.self_attn.k_proj",
       "model.layers.47.self_attn.v_proj",
       "model.layers.47.self_attn.o_proj",
       "model.layers.47.mlp.gate",
-      "model.layers.47.mlp.shared_expert.gate_up_proj",
       "model.layers.47.mlp.shared_expert.gate_proj",
       "model.layers.47.mlp.shared_expert.up_proj",
       "model.layers.47.mlp.shared_expert.down_proj",
@@ -570,7 +512,7 @@
     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
-    "version": "0.12.3.a20251114"
   },
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
@@ -578,8 +520,8 @@
   "router_aux_loss_coef": 0.001,
   "shared_expert_intermediate_size": 512,
   "tie_word_embeddings": false,
-  "transformers_version": "4.57.3",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
-}

           "num_bits": 4,
           "observer": "mse",
           "observer_kwargs": {},
+          "scale_dtype": null,
           "strategy": "group",
           "symmetric": true,
+          "type": "int",
+          "zp_dtype": null
         }
       }
     },
       "model.layers.0.linear_attn.in_proj_ba",
       "model.layers.0.linear_attn.out_proj",
       "model.layers.0.mlp.gate",
       "model.layers.0.mlp.shared_expert.gate_proj",
       "model.layers.0.mlp.shared_expert.up_proj",
       "model.layers.0.mlp.shared_expert.down_proj",
       "model.layers.1.linear_attn.in_proj_ba",
       "model.layers.1.linear_attn.out_proj",
       "model.layers.1.mlp.gate",
       "model.layers.1.mlp.shared_expert.gate_proj",
       "model.layers.1.mlp.shared_expert.up_proj",
       "model.layers.1.mlp.shared_expert.down_proj",
       "model.layers.2.linear_attn.in_proj_ba",
       "model.layers.2.linear_attn.out_proj",
       "model.layers.2.mlp.gate",
       "model.layers.2.mlp.shared_expert.gate_proj",
       "model.layers.2.mlp.shared_expert.up_proj",
       "model.layers.2.mlp.shared_expert.down_proj",
       "model.layers.2.mlp.shared_expert_gate",
       "model.layers.3.self_attn.q_proj",
       "model.layers.3.self_attn.k_proj",
       "model.layers.3.self_attn.v_proj",
       "model.layers.3.self_attn.o_proj",
       "model.layers.3.mlp.gate",
       "model.layers.3.mlp.shared_expert.gate_proj",
       "model.layers.3.mlp.shared_expert.up_proj",
       "model.layers.3.mlp.shared_expert.down_proj",
       "model.layers.4.linear_attn.in_proj_ba",
       "model.layers.4.linear_attn.out_proj",
       "model.layers.4.mlp.gate",
       "model.layers.4.mlp.shared_expert.gate_proj",
       "model.layers.4.mlp.shared_expert.up_proj",
       "model.layers.4.mlp.shared_expert.down_proj",
       "model.layers.5.linear_attn.in_proj_ba",
       "model.layers.5.linear_attn.out_proj",
       "model.layers.5.mlp.gate",
       "model.layers.5.mlp.shared_expert.gate_proj",
       "model.layers.5.mlp.shared_expert.up_proj",
       "model.layers.5.mlp.shared_expert.down_proj",
       "model.layers.6.linear_attn.in_proj_ba",
       "model.layers.6.linear_attn.out_proj",
       "model.layers.6.mlp.gate",
       "model.layers.6.mlp.shared_expert.gate_proj",
       "model.layers.6.mlp.shared_expert.up_proj",
       "model.layers.6.mlp.shared_expert.down_proj",
       "model.layers.6.mlp.shared_expert_gate",
       "model.layers.7.self_attn.q_proj",
       "model.layers.7.self_attn.k_proj",
       "model.layers.7.self_attn.v_proj",
       "model.layers.7.self_attn.o_proj",
       "model.layers.7.mlp.gate",
       "model.layers.7.mlp.shared_expert.gate_proj",
       "model.layers.7.mlp.shared_expert.up_proj",
       "model.layers.7.mlp.shared_expert.down_proj",
       "model.layers.8.linear_attn.in_proj_ba",
       "model.layers.8.linear_attn.out_proj",
       "model.layers.8.mlp.gate",
       "model.layers.8.mlp.shared_expert.gate_proj",
       "model.layers.8.mlp.shared_expert.up_proj",
       "model.layers.8.mlp.shared_expert.down_proj",
       "model.layers.9.linear_attn.in_proj_ba",
       "model.layers.9.linear_attn.out_proj",
       "model.layers.9.mlp.gate",
       "model.layers.9.mlp.shared_expert.gate_proj",
       "model.layers.9.mlp.shared_expert.up_proj",
       "model.layers.9.mlp.shared_expert.down_proj",
       "model.layers.10.linear_attn.in_proj_ba",
       "model.layers.10.linear_attn.out_proj",
       "model.layers.10.mlp.gate",
       "model.layers.10.mlp.shared_expert.gate_proj",
       "model.layers.10.mlp.shared_expert.up_proj",
       "model.layers.10.mlp.shared_expert.down_proj",
       "model.layers.10.mlp.shared_expert_gate",
       "model.layers.11.self_attn.q_proj",
       "model.layers.11.self_attn.k_proj",
       "model.layers.11.self_attn.v_proj",
       "model.layers.11.self_attn.o_proj",
       "model.layers.11.mlp.gate",
       "model.layers.11.mlp.shared_expert.gate_proj",
       "model.layers.11.mlp.shared_expert.up_proj",
       "model.layers.11.mlp.shared_expert.down_proj",
       "model.layers.12.linear_attn.in_proj_ba",
       "model.layers.12.linear_attn.out_proj",
       "model.layers.12.mlp.gate",
       "model.layers.12.mlp.shared_expert.gate_proj",
       "model.layers.12.mlp.shared_expert.up_proj",
       "model.layers.12.mlp.shared_expert.down_proj",
       "model.layers.13.linear_attn.in_proj_ba",
       "model.layers.13.linear_attn.out_proj",
       "model.layers.13.mlp.gate",
       "model.layers.13.mlp.shared_expert.gate_proj",
       "model.layers.13.mlp.shared_expert.up_proj",
       "model.layers.13.mlp.shared_expert.down_proj",
       "model.layers.14.linear_attn.in_proj_ba",
       "model.layers.14.linear_attn.out_proj",
       "model.layers.14.mlp.gate",
       "model.layers.14.mlp.shared_expert.gate_proj",
       "model.layers.14.mlp.shared_expert.up_proj",
       "model.layers.14.mlp.shared_expert.down_proj",
       "model.layers.14.mlp.shared_expert_gate",
       "model.layers.15.self_attn.q_proj",
       "model.layers.15.self_attn.k_proj",
       "model.layers.15.self_attn.v_proj",
       "model.layers.15.self_attn.o_proj",
       "model.layers.15.mlp.gate",
       "model.layers.15.mlp.shared_expert.gate_proj",
       "model.layers.15.mlp.shared_expert.up_proj",
       "model.layers.15.mlp.shared_expert.down_proj",
       "model.layers.16.linear_attn.in_proj_ba",
       "model.layers.16.linear_attn.out_proj",
       "model.layers.16.mlp.gate",
       "model.layers.16.mlp.shared_expert.gate_proj",
       "model.layers.16.mlp.shared_expert.up_proj",
       "model.layers.16.mlp.shared_expert.down_proj",
       "model.layers.17.linear_attn.in_proj_ba",
       "model.layers.17.linear_attn.out_proj",
       "model.layers.17.mlp.gate",
       "model.layers.17.mlp.shared_expert.gate_proj",
       "model.layers.17.mlp.shared_expert.up_proj",
       "model.layers.17.mlp.shared_expert.down_proj",
       "model.layers.18.linear_attn.in_proj_ba",
       "model.layers.18.linear_attn.out_proj",
       "model.layers.18.mlp.gate",
       "model.layers.18.mlp.shared_expert.gate_proj",
       "model.layers.18.mlp.shared_expert.up_proj",
       "model.layers.18.mlp.shared_expert.down_proj",
       "model.layers.18.mlp.shared_expert_gate",
       "model.layers.19.self_attn.q_proj",
       "model.layers.19.self_attn.k_proj",
       "model.layers.19.self_attn.v_proj",
       "model.layers.19.self_attn.o_proj",
       "model.layers.19.mlp.gate",
       "model.layers.19.mlp.shared_expert.gate_proj",
       "model.layers.19.mlp.shared_expert.up_proj",
       "model.layers.19.mlp.shared_expert.down_proj",
       "model.layers.20.linear_attn.in_proj_ba",
       "model.layers.20.linear_attn.out_proj",
       "model.layers.20.mlp.gate",
       "model.layers.20.mlp.shared_expert.gate_proj",
       "model.layers.20.mlp.shared_expert.up_proj",
       "model.layers.20.mlp.shared_expert.down_proj",
       "model.layers.21.linear_attn.in_proj_ba",
       "model.layers.21.linear_attn.out_proj",
       "model.layers.21.mlp.gate",
       "model.layers.21.mlp.shared_expert.gate_proj",
       "model.layers.21.mlp.shared_expert.up_proj",
       "model.layers.21.mlp.shared_expert.down_proj",
       "model.layers.22.linear_attn.in_proj_ba",
       "model.layers.22.linear_attn.out_proj",
       "model.layers.22.mlp.gate",
       "model.layers.22.mlp.shared_expert.gate_proj",
       "model.layers.22.mlp.shared_expert.up_proj",
       "model.layers.22.mlp.shared_expert.down_proj",
       "model.layers.22.mlp.shared_expert_gate",
       "model.layers.23.self_attn.q_proj",
       "model.layers.23.self_attn.k_proj",
       "model.layers.23.self_attn.v_proj",
       "model.layers.23.self_attn.o_proj",
       "model.layers.23.mlp.gate",
       "model.layers.23.mlp.shared_expert.gate_proj",
       "model.layers.23.mlp.shared_expert.up_proj",
       "model.layers.23.mlp.shared_expert.down_proj",
       "model.layers.24.linear_attn.in_proj_ba",
       "model.layers.24.linear_attn.out_proj",
       "model.layers.24.mlp.gate",
       "model.layers.24.mlp.shared_expert.gate_proj",
       "model.layers.24.mlp.shared_expert.up_proj",
       "model.layers.24.mlp.shared_expert.down_proj",
       "model.layers.25.linear_attn.in_proj_ba",
       "model.layers.25.linear_attn.out_proj",
       "model.layers.25.mlp.gate",
       "model.layers.25.mlp.shared_expert.gate_proj",
       "model.layers.25.mlp.shared_expert.up_proj",
       "model.layers.25.mlp.shared_expert.down_proj",
       "model.layers.26.linear_attn.in_proj_ba",
       "model.layers.26.linear_attn.out_proj",
       "model.layers.26.mlp.gate",
       "model.layers.26.mlp.shared_expert.gate_proj",
       "model.layers.26.mlp.shared_expert.up_proj",
       "model.layers.26.mlp.shared_expert.down_proj",
       "model.layers.26.mlp.shared_expert_gate",
       "model.layers.27.self_attn.q_proj",
       "model.layers.27.self_attn.k_proj",
       "model.layers.27.self_attn.v_proj",
       "model.layers.27.self_attn.o_proj",
       "model.layers.27.mlp.gate",
       "model.layers.27.mlp.shared_expert.gate_proj",
       "model.layers.27.mlp.shared_expert.up_proj",
       "model.layers.27.mlp.shared_expert.down_proj",
       "model.layers.28.linear_attn.in_proj_ba",
       "model.layers.28.linear_attn.out_proj",
       "model.layers.28.mlp.gate",
       "model.layers.28.mlp.shared_expert.gate_proj",
       "model.layers.28.mlp.shared_expert.up_proj",
       "model.layers.28.mlp.shared_expert.down_proj",
       "model.layers.29.linear_attn.in_proj_ba",
       "model.layers.29.linear_attn.out_proj",
       "model.layers.29.mlp.gate",
       "model.layers.29.mlp.shared_expert.gate_proj",
       "model.layers.29.mlp.shared_expert.up_proj",
       "model.layers.29.mlp.shared_expert.down_proj",
       "model.layers.30.linear_attn.in_proj_ba",
       "model.layers.30.linear_attn.out_proj",
       "model.layers.30.mlp.gate",
       "model.layers.30.mlp.shared_expert.gate_proj",
       "model.layers.30.mlp.shared_expert.up_proj",
       "model.layers.30.mlp.shared_expert.down_proj",
       "model.layers.30.mlp.shared_expert_gate",
       "model.layers.31.self_attn.q_proj",
       "model.layers.31.self_attn.k_proj",
       "model.layers.31.self_attn.v_proj",
       "model.layers.31.self_attn.o_proj",
       "model.layers.31.mlp.gate",
       "model.layers.31.mlp.shared_expert.gate_proj",
       "model.layers.31.mlp.shared_expert.up_proj",
       "model.layers.31.mlp.shared_expert.down_proj",
       "model.layers.32.linear_attn.in_proj_ba",
       "model.layers.32.linear_attn.out_proj",
       "model.layers.32.mlp.gate",
       "model.layers.32.mlp.shared_expert.gate_proj",
       "model.layers.32.mlp.shared_expert.up_proj",
       "model.layers.32.mlp.shared_expert.down_proj",
       "model.layers.33.linear_attn.in_proj_ba",
       "model.layers.33.linear_attn.out_proj",
       "model.layers.33.mlp.gate",
       "model.layers.33.mlp.shared_expert.gate_proj",
       "model.layers.33.mlp.shared_expert.up_proj",
       "model.layers.33.mlp.shared_expert.down_proj",
       "model.layers.34.linear_attn.in_proj_ba",
       "model.layers.34.linear_attn.out_proj",
       "model.layers.34.mlp.gate",
       "model.layers.34.mlp.shared_expert.gate_proj",
       "model.layers.34.mlp.shared_expert.up_proj",
       "model.layers.34.mlp.shared_expert.down_proj",
       "model.layers.34.mlp.shared_expert_gate",
       "model.layers.35.self_attn.q_proj",
       "model.layers.35.self_attn.k_proj",
       "model.layers.35.self_attn.v_proj",
       "model.layers.35.self_attn.o_proj",
       "model.layers.35.mlp.gate",
       "model.layers.35.mlp.shared_expert.gate_proj",
       "model.layers.35.mlp.shared_expert.up_proj",
       "model.layers.35.mlp.shared_expert.down_proj",
       "model.layers.36.linear_attn.in_proj_ba",
       "model.layers.36.linear_attn.out_proj",
       "model.layers.36.mlp.gate",
       "model.layers.36.mlp.shared_expert.gate_proj",
       "model.layers.36.mlp.shared_expert.up_proj",
       "model.layers.36.mlp.shared_expert.down_proj",
       "model.layers.37.linear_attn.in_proj_ba",
       "model.layers.37.linear_attn.out_proj",
       "model.layers.37.mlp.gate",
       "model.layers.37.mlp.shared_expert.gate_proj",
       "model.layers.37.mlp.shared_expert.up_proj",
       "model.layers.37.mlp.shared_expert.down_proj",
       "model.layers.38.linear_attn.in_proj_ba",
       "model.layers.38.linear_attn.out_proj",
       "model.layers.38.mlp.gate",
       "model.layers.38.mlp.shared_expert.gate_proj",
       "model.layers.38.mlp.shared_expert.up_proj",
       "model.layers.38.mlp.shared_expert.down_proj",
       "model.layers.38.mlp.shared_expert_gate",
       "model.layers.39.self_attn.q_proj",
       "model.layers.39.self_attn.k_proj",
       "model.layers.39.self_attn.v_proj",
       "model.layers.39.self_attn.o_proj",
       "model.layers.39.mlp.gate",
       "model.layers.39.mlp.shared_expert.gate_proj",
       "model.layers.39.mlp.shared_expert.up_proj",
       "model.layers.39.mlp.shared_expert.down_proj",
       "model.layers.40.linear_attn.in_proj_ba",
       "model.layers.40.linear_attn.out_proj",
       "model.layers.40.mlp.gate",
       "model.layers.40.mlp.shared_expert.gate_proj",
       "model.layers.40.mlp.shared_expert.up_proj",
       "model.layers.40.mlp.shared_expert.down_proj",
       "model.layers.41.linear_attn.in_proj_ba",
       "model.layers.41.linear_attn.out_proj",
       "model.layers.41.mlp.gate",
       "model.layers.41.mlp.shared_expert.gate_proj",
       "model.layers.41.mlp.shared_expert.up_proj",
       "model.layers.41.mlp.shared_expert.down_proj",
       "model.layers.42.linear_attn.in_proj_ba",
       "model.layers.42.linear_attn.out_proj",
       "model.layers.42.mlp.gate",
       "model.layers.42.mlp.shared_expert.gate_proj",
       "model.layers.42.mlp.shared_expert.up_proj",
       "model.layers.42.mlp.shared_expert.down_proj",
       "model.layers.42.mlp.shared_expert_gate",
       "model.layers.43.self_attn.q_proj",
       "model.layers.43.self_attn.k_proj",
       "model.layers.43.self_attn.v_proj",
       "model.layers.43.self_attn.o_proj",
       "model.layers.43.mlp.gate",
       "model.layers.43.mlp.shared_expert.gate_proj",
       "model.layers.43.mlp.shared_expert.up_proj",
       "model.layers.43.mlp.shared_expert.down_proj",
       "model.layers.44.linear_attn.in_proj_ba",
       "model.layers.44.linear_attn.out_proj",
       "model.layers.44.mlp.gate",
       "model.layers.44.mlp.shared_expert.gate_proj",
       "model.layers.44.mlp.shared_expert.up_proj",
       "model.layers.44.mlp.shared_expert.down_proj",
       "model.layers.45.linear_attn.in_proj_ba",
       "model.layers.45.linear_attn.out_proj",
       "model.layers.45.mlp.gate",
       "model.layers.45.mlp.shared_expert.gate_proj",
       "model.layers.45.mlp.shared_expert.up_proj",
       "model.layers.45.mlp.shared_expert.down_proj",
       "model.layers.46.linear_attn.in_proj_ba",
       "model.layers.46.linear_attn.out_proj",
       "model.layers.46.mlp.gate",
       "model.layers.46.mlp.shared_expert.gate_proj",
       "model.layers.46.mlp.shared_expert.up_proj",
       "model.layers.46.mlp.shared_expert.down_proj",
       "model.layers.46.mlp.shared_expert_gate",
       "model.layers.47.self_attn.q_proj",
       "model.layers.47.self_attn.k_proj",
       "model.layers.47.self_attn.v_proj",
       "model.layers.47.self_attn.o_proj",
       "model.layers.47.mlp.gate",
       "model.layers.47.mlp.shared_expert.gate_proj",
       "model.layers.47.mlp.shared_expert.up_proj",
       "model.layers.47.mlp.shared_expert.down_proj",
     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
+    "version": "0.14.1.a20260320"
   },
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "router_aux_loss_coef": 0.001,
   "shared_expert_intermediate_size": 512,
   "tie_word_embeddings": false,
+  "transformers_version": "4.57.6",
   "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
+}

model-00001-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f1bf29ad2b51bc3a992bb633305fbbc35bfc7a19d8324dce0b460907a0206cd
-size 5002226064

 version https://git-lfs.github.com/spec/v1
+oid sha256:38346174c2fa8ef4a39bf6aad5ae43c3f098a14c92300834fde6d6e0ee9cff9d
+size 5002291600

model-00002-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd2520c7032699794c4ae513798fb04caeae32a53dd3b1291410f8be0efa91c6
-size 5002906536

 version https://git-lfs.github.com/spec/v1
+oid sha256:85ee28f274855d20371d07655b77b821b1524c66f1270dd226615e5e241ccd89
+size 5002906672

model-00003-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cda4dcded091b086486f276ccb2db651cbd9f646626976403e6b294324fc4bc9
-size 5002469472

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5b0825db924deaa583ca25c4c95f777ae98dc9522a39478fd024e949cf475a8
+size 5002469336

model-00004-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fad74aeb225703cc4f3e4f45fc212e141c9bac69d55f9cfbc5f76becb502920
 size 5002480424

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a8ed95928c07be635a501a977aa0d6da7c3b458719368303fee4aae915a8895
 size 5002480424

model-00005-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8862f785e8504de2e3e880e98f56c5e3b1880517b939fc0150f38cfb2faef162
-size 5002930176

 version https://git-lfs.github.com/spec/v1
+oid sha256:67ba44e47240e145e8fbfc857a504df0c75301f617a2cee02e38692d032f38ab
+size 5002930304

model-00006-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6ef760529dedc341ed3d627ad84208c9b7d9b0125c02667546cc8a2435926b0
-size 4991135440

 version https://git-lfs.github.com/spec/v1
+oid sha256:532b7d3e9be96cdfe6398194be73340524224a1c02370ee24430e392b37bdc48
+size 4991069776

model-00007-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b175fc6655e94593f8aa41370ca3ce284a3eb80c57048ff8fb6f45ebaa58a0be
-size 5002894032

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ede3407647ee761e9e2f2cd6e7df224ee0ebd0a89c5c1a010495a257c7641aa
+size 5002893904

model-00008-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ae4bea2067673d59efd9a6ccd1bed5351bd60c230b3e552dd15e52e9bffd43f
-size 5002929656

 version https://git-lfs.github.com/spec/v1
+oid sha256:93cb84f225732180ff1b75d3cd2190c466e88424986d12e4bbb37b9677fbe684
+size 5002470896

model-00009-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b117abba3c0ef744a40f3c5102720eb31680ddd72c423358f4dd88043a29f69
-size 5002471416

 version https://git-lfs.github.com/spec/v1
+oid sha256:2065d4eb0add6733cdc1cfb162a281a61232e3877c60b09724da6f880ed0edf9
+size 5002930168

model-00010-of-00010.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64e087c100efbdf0890e7d19cbd7e515c406e9a8abe8dc27138f6dfe2f7d8b53
-size 3232720920

 version https://git-lfs.github.com/spec/v1
+oid sha256:befce0f17c85de8c9dc9f4fead748533b8d7d77225e08872fa260fb3715d17f9
+size 3232721048

model.safetensors.index.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7de3074ca86e26d7798358028f7e09b856066ab3b0f6b76ce120b209dc1cd25d
 size 21565735

 version https://git-lfs.github.com/spec/v1
+oid sha256:1676e69c5ebbbba8b3ee983adf6fc469dc9afd976ff2e69a5cd49f563b5dc711
 size 21565735

recipe.yaml ADDED Viewed

	@@ -0,0 +1,40 @@

+default_stage:
+  default_modifiers:
+    AWQModifier:
+      config_groups:
+        group_0:
+          targets: [Linear]
+          weights:
+            num_bits: 4
+            type: int
+            symmetric: true
+            group_size: 32
+            strategy: group
+            block_structure: null
+            dynamic: false
+            actorder: null
+            scale_dtype: null
+            zp_dtype: null
+            observer: mse
+            observer_kwargs: {}
+          input_activations: null
+          output_activations: null
+          format: null
+      targets: [Linear]
+      ignore: [model.embed_tokens, 're:.*linear_attn.*', 're:.*norm.*', 're:.*shared_expert.*',
+        're:.*shared_expert_gate$', 're:.*mlp[.]gate$', 're:.*router.*', 're:.*self_attn.*',
+        lm_head]
+      bypass_divisibility_checks: false
+      mappings:
+      - smooth_layer: re:.*post_attention_layernorm
+        balance_layers: ['re:.*mlp.gate', 're:.*mlp.shared_expert.gate_proj', 're:.*mlp.shared_expert.up_proj',
+          're:.*mlp.shared_expert_gate', 're:.*mlp.experts.*gate_proj', 're:.*mlp.experts.*up_proj']
+        activation_hook_target: null
+        balance_exponent: 1
+      - smooth_layer: re:.*mlp.experts.*up_proj
+        balance_layers: ['re:.*mlp.experts.*down_proj']
+        activation_hook_target: null
+        balance_exponent: 1
+      offload_device: !!python/object/apply:torch.device [cpu]
+      duo_scaling: true
+      n_grid: 20

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}