ISTA-DASLab
/

DeepSeek-R1-GPTQ-4b-128g-experts

@@ -15,6 +15,12 @@ Only non-shared experts within transformer blocks are compressed. Weights are qu
 Model checkpoint is saved in [compressed_tensors](https://github.com/neuralmagic/compressed-tensors) format.
 ### Evaluation
 This model was evaluated on the OpenLLM v1 benchmarks and reasoning tasks (AIME-24, GPQA-Diamond, MATH-500).
@@ -29,14 +35,14 @@ For reasoning tasks we estimate pass@1 based on 10 runs with different seeds and
 |-------------------------------|---------------|-------|-----------|------|------------|------------|---------------|----------|
 | deepseek-ai/DeepSeek-R1 |     72.53      | 95.91 |   89.83    | 87.22 |   59.28    |     82.00     |     81.04      |   100.00    |
 | cognitivecomputations/DeepSeek-R1-AWQ    |     73.12     | 95.15 |   89.07   | 86.86|   60.09    |   82.32    |      81.10     |  100.07  |
-| daslab-testing/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts (this) |     72.53     | 95.68 |   89.36   | 86.99|   59.77    |   83.35    |     81.28     |  100.30   |
 `Reasoning tasks`
 |      Model                                   | AIME-2024 pass@1 | MATH-500 pass@1 | GPQA-Diamond pass@1 | Average | Recovery |
 |-----------------------------------------|------------------|-----------------|---------------------|---------|----------|
 | deepseek-ai/DeepSeek-R1                       |     78.34       |       97.24     |        73.383       |  82.99  |   100.00    |
 | cognitivecomputations/DeepSeek-R1-AWQ |     70.67      |       93.64     |        70.456       |  78.25  |  94.29   |
-| daslab-testing/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts (this)            |  77.00         |    97.08       |        71.92       |   82.00    |  98.81   |
 ## Reproduction
@@ -44,7 +50,7 @@ The results were obtained using the following commands:
 `OpenLLM v1`
 ```bash
-MODEL=daslab-testing/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts
 MODEL_ARGS="pretrained=$MODEL,dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True"
 lm_eval \
@@ -58,7 +64,7 @@ For reasoning evals we adopted the protocol from the [open-r1 repository](https:
 `Reasoning tasks`
 ```bash
-MODEL=daslab-testing/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts
 MODEL_ARGS="pretrained=$MODEL,dtype=bfloat16,max_model_length=38768,gpu_memory_utilization=0.8,tensor_parallel_size=8,add_special_tokens=false,generation_parameters={\"max_new_tokens\":32768,\"temperature\":0.6,\"top_p\":0.95,\"seed\":7686}"
 export VLLM_WORKER_MULTIPROC_METHOD=spawn

 Model checkpoint is saved in [compressed_tensors](https://github.com/neuralmagic/compressed-tensors) format.
+| Models | Experts Quantized | Attention blocks quantized | Size (Gb) |
+| ------ |  --------- | --------- | --------- |
+| [deepseek-ai/DeepSeek-R1](https://huggingface.co/deepseek-ai/DeepSeek-R1) | ❌ | ❌  | 671 GB |
+| [ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-experts](https://huggingface.co/ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-experts) | ✅  | ❌  | 346 GB |
+| [cognitivecomputations/DeepSeek-R1-AWQ](https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ) | ✅  | ✅  | 340 GB |
 ### Evaluation
 This model was evaluated on the OpenLLM v1 benchmarks and reasoning tasks (AIME-24, GPQA-Diamond, MATH-500).
 |-------------------------------|---------------|-------|-----------|------|------------|------------|---------------|----------|
 | deepseek-ai/DeepSeek-R1 |     72.53      | 95.91 |   89.83    | 87.22 |   59.28    |     82.00     |     81.04      |   100.00    |
 | cognitivecomputations/DeepSeek-R1-AWQ    |     73.12     | 95.15 |   89.07   | 86.86|   60.09    |   82.32    |      81.10     |  100.07  |
+| ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts (this) |     72.53     | 95.68 |   89.36   | 86.99|   59.77    |   83.35    |     81.28     |  100.30   |
 `Reasoning tasks`
 |      Model                                   | AIME-2024 pass@1 | MATH-500 pass@1 | GPQA-Diamond pass@1 | Average | Recovery |
 |-----------------------------------------|------------------|-----------------|---------------------|---------|----------|
 | deepseek-ai/DeepSeek-R1                       |     78.34       |       97.24     |        73.383       |  82.99  |   100.00    |
 | cognitivecomputations/DeepSeek-R1-AWQ |     70.67      |       93.64     |        70.456       |  78.25  |  94.29   |
+| ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts (this)            |  77.00         |    97.08       |        71.92       |   82.00    |  98.81   |
 ## Reproduction
 `OpenLLM v1`
 ```bash
+MODEL=ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts
 MODEL_ARGS="pretrained=$MODEL,dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True"
 lm_eval \
 `Reasoning tasks`
 ```bash
+MODEL=ISTA-DASLab/DeepSeek-R1-GPTQ-4b-128g-act_order-mse_scale-experts
 MODEL_ARGS="pretrained=$MODEL,dtype=bfloat16,max_model_length=38768,gpu_memory_utilization=0.8,tensor_parallel_size=8,add_special_tokens=false,generation_parameters={\"max_new_tokens\":32768,\"temperature\":0.6,\"top_p\":0.95,\"seed\":7686}"
 export VLLM_WORKER_MULTIPROC_METHOD=spawn