jiaxwang
/

test

Model card Files Files and versions

xet

Community

jiaxwang commited on Dec 30, 2025

Commit

8f07720

verified ·

1 Parent(s): add62b8

Update README.md

Browse files

change the model name

Files changed (1) hide show

README.md +10 -10

README.md CHANGED Viewed

@@ -40,7 +40,7 @@ python3 internal_scripts/quantize_quark.py \
     --attention_dtype fp8 \
     --exclude_layers $exclude_layers \
     --num_calib_data 512 \
-    --output_dir amd/gpt-oss120b-moe_w-mxfp4-a-fp8-attn_ptpc-kv-soft_fp8 \
     --model_export hf_format \
     --multi_gpu
 ```
@@ -61,7 +61,7 @@ The model was evaluated on AIME25 and GPQA Diamond benchmarks with `medium` reas
    </td>
    <td><strong>gpt-oss-120b </strong>
    </td>
-   <td><strong>gpt-oss120b-moe_w-mxfp4-a-fp8-attn_ptpc-kv-soft_fp8(this model)</strong>
    </td>
    <td><strong>Recovery</strong>
    </td>
@@ -69,21 +69,21 @@ The model was evaluated on AIME25 and GPQA Diamond benchmarks with `medium` reas
   <tr>
    <td>AIME25
    </td>
-   <td>78.47
    </td>
-   <td>78.33
    </td>
-   <td>99.82%
    </td>
   </tr>
   <tr>
    <td>GPQA
    </td>
-   <td>71.86
    </td>
-   <td>71.86
    </td>
-   <td>100.00%
    </td>
   </tr>
 </table>
@@ -94,7 +94,7 @@ The results of AIME25 and GPQA Diamond were obtained using [gpt_oss.evals](https
 #### Launching server
 ```
-vllm serve amd/gpt-oss120b-moe_w-mxfp4-a-fp8-attn_ptpc-kv-soft_fp8 \
   --tensor_parallel_size 2 \
   --gpu-memory-utilization 0.90 \
   --no-enable-prefix-caching \
@@ -104,7 +104,7 @@ vllm serve amd/gpt-oss120b-moe_w-mxfp4-a-fp8-attn_ptpc-kv-soft_fp8 \
 #### Evaluating model in a new terminal
 ```
-python -m gpt_oss.evals --model /shareddata/amd/gpt-oss120b-moe_w-mxfp4-a-fp8-attn_ptpc-kv-soft_fp8 --eval aime25,gpqa --reasoning-effort medium --n-threads 128
 ```
 # License

     --attention_dtype fp8 \
     --exclude_layers $exclude_layers \
     --num_calib_data 512 \
+    --output_dir amd/gpt-oss-120b-w-mxfp4-a-fp8-qkvo-ptpc-fp8-kv-fp8-fp8attn \
     --model_export hf_format \
     --multi_gpu
 ```
    </td>
    <td><strong>gpt-oss-120b </strong>
    </td>
+   <td><strong>gpt-oss-120b-w-mxfp4-a-fp8-qkvo-ptpc-fp8-kv-fp8-fp8attn(this model)</strong>
    </td>
    <td><strong>Recovery</strong>
    </td>
   <tr>
    <td>AIME25
    </td>
+   <td>78.61
    </td>
+   <td>77.08
    </td>
+   <td>98.06%
    </td>
   </tr>
   <tr>
    <td>GPQA
    </td>
+   <td>71.21
    </td>
+   <td>71.16
    </td>
+   <td>99.93%
    </td>
   </tr>
 </table>
 #### Launching server
 ```
+vllm serve amd/gpt-oss-120b-w-mxfp4-a-fp8-qkvo-ptpc-fp8-kv-fp8-fp8attn \
   --tensor_parallel_size 2 \
   --gpu-memory-utilization 0.90 \
   --no-enable-prefix-caching \
 #### Evaluating model in a new terminal
 ```
+python -m gpt_oss.evals --model /shareddata/amd/gpt-oss-120b-w-mxfp4-a-fp8-qkvo-ptpc-fp8-kv-fp8-fp8attn --eval aime25,gpqa --reasoning-effort medium --n-threads 128
 ```
 # License