Update README.md

Browse files

Files changed (1) hide show

README.md +21 -9

README.md CHANGED Viewed

@@ -115,15 +115,27 @@ lm_eval --model hf --model_args pretrained=pytorch/Phi-4-mini-instruct-int4wo-hq
 `TODO: more complete eval results`
-| Benchmark                        |             |                   |
-|----------------------------------|-------------|-------------------|
-|                                  | Phi-4 mini-Ins | phi4-mini-int4wo |
-| **Popular aggregated benchmark** |             |                   |
-| **Reasoning**                    |             |                   |
-| HellaSwag                        | 54.57        | 53.54            |
-| **Multilingual**                 |             |                   |
-| **Math**                         |             |                   |
-| **Overall**                      | **TODO**    | **TODO**          |
 # Model Performance

 `TODO: more complete eval results`
+| Benchmark                        |                |                     |
+|----------------------------------|----------------|---------------------|
+|                                  | Phi-4 mini-Ins | phi4-mini-int4wo    |
+| **Popular aggregated benchmark** |                |                     |
+| mmlu (0-shot)                    |                |  63.56              |
+| mmlu_pro (5-shot)                |                |  36.74              |
+| **Reasoning**                    |                |                     |
+| arc_challenge (0-shot)           |                |  54.86              |
+| gpqa_main_zeroshot               |                |  30.58              |
+| HellaSwag                        | 54.57          |  53.54              |
+| openbookqa                       |                |  34.40              |
+| piqa (0-shot)	                   |                |  76.33              |
+| social_iqa                       |                |  47.90              |
+| truthfulqa_mc2 (0-shot)          |                |  46.44              |
+| winogrande  (0-shot)             |                |  71.51              |
+| **Multilingual**                 |                |                     |
+| mgsm_en_cot_en                   |                |  59.6               |
+| **Math**                         |                |                     |
+| gsm8k (5-shot)                   |                |  74.37              |
+| mathqa (0-shot)                  |                |  42.75              |
+| **Overall**                      | **TODO**       | **TODO**            |
 # Model Performance