RedHatAI
/

Qwen3-14B-FP8-block

Text Generation

compressed-tensors

Model card Files Files and versions

krishnateja95 commited on Oct 22, 2025

Commit

354a81c

·

verified ·

1 Parent(s): 1231910

Update README.md

Files changed (1) hide show

README.md +29 -20

README.md CHANGED Viewed

@@ -131,38 +131,47 @@ The model was evaluated on the OpenLLMv1 leaderboard task, using [lm-evaluation-
 <details>
   <summary>Evaluation details</summary>
-  **lm-evaluation-harness**
   ```
   lm_eval \
     --model vllm \
-    --model_args pretrained="nm-testing/Qwen3-14B-FP8-block",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=4,gpu_memory_utilization=0.8,enable_chunked_prefill=True \
     --tasks openllm \
     --write_out \
     --batch_size auto \
-    --output_path output_dir \
     --show_config
   ```
-  **lighteval**
-  lighteval_model_arguments.yaml
-  ```yaml
-  model_parameters:
-    model_name: nm-testing/Qwen3-14B-FP8-block
-    dtype: auto
-    gpu_memory_utilization: 0.9
-    generation_parameters:
-      temperature: 0.6
-      min_p: 0.0
-      top_p: 0.95
-      top_k: 20
-      max_new_tokens: 32768
   ```
   ```
-  lighteval vllm \
-    --model_args lighteval_model_arguments.yaml \
-    --tasks lighteval|aime25|0 \
   ```

 <details>
   <summary>Evaluation details</summary>
+  **Openllm V1**
   ```
   lm_eval \
     --model vllm \
+    --model_args pretrained=$model,dtype=auto,add_bos_token=True,max_model_len=16384,tensor_parallel_size=4,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True \
     --tasks openllm \
     --write_out \
     --batch_size auto \
+    --output_path $output_path/openllm.json \
     --show_config
   ```
+  **Openllm V2**
+  ```
+  lm_eval \
+    --model vllm \
+    --model_args pretrained=$model,dtype=auto,add_bos_token=False,max_model_len=16384,tensor_parallel_size=4,gpu_memory_utilization=0.7,disable_log_stats=True,enable_chunked_prefill=True,trust_remote_code=True \
+    --tasks leaderboard \
+    --apply_chat_template \
+    --fewshot_as_multiturn \
+    --write_out \
+    --batch_size auto \
+    --output_path $output_path/leaderboard.json \
+    --show_config
   ```
+  **Coding Benchmarks**
   ```
+  evalplus.evaluate --model $model \
+                    --dataset "humaneval" \
+                    --backend vllm \
+                    --tp 4 \
+                    --greedy
+  evalplus.evaluate --model $model \
+                  --dataset "mbpp" \
+                  --backend vllm \
+                  --tp 4 \
+                  --greedy
   ```