amd
/

DeepSeek-R1-MXFP4

8-bit precision

Model card Files Files and versions

linzhao-amd commited on Aug 6, 2025

Commit

e24005b

·

verified ·

1 Parent(s): ff33cb4

Update README.md

Files changed (1) hide show

README.md +1 -0

README.md CHANGED Viewed

@@ -36,6 +36,7 @@ cd Quark/examples/torch/language_modeling/llm_ptq/
 python3 quantize_quark.py --model_dir $MODEL_DIR \
                           --quant_scheme w_mxfp4_a_mxfp4 \
                           --group_size 32 \
                           --num_calib_data 128 \
                           --exclude_layers "lm_head" \
                           --multi_device \

 python3 quantize_quark.py --model_dir $MODEL_DIR \
                           --quant_scheme w_mxfp4_a_mxfp4 \
                           --group_size 32 \
+                          --kv_cache_dtype fp8 \
                           --num_calib_data 128 \
                           --exclude_layers "lm_head" \
                           --multi_device \