ssmits
/

Qwen2.5-95B-Instruct

@@ -196,7 +196,37 @@ outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7,
 print(outputs[0]["generated_text"])
 ```
-# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
 Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_ssmits__Qwen2.5-95B-Instruct)
 |      Metric       |Value|
@@ -212,103 +242,103 @@ Detailed results can be found [here](https://huggingface.co/datasets/open-llm-le
 | Key                                                                       |   72b Result |   95b Result |   Difference | Which is Higher   | Multiplier   |
 |:--------------------------------------------------------------------------|-------------:|-------------:|-------------:|:------------------|:-------------|
-| leaderboard_musr.acc_norm,none                                            |        0.419 |        0.427 |        0.008 | 95b               | 1.02x        |
-| leaderboard_bbh_sports_understanding.acc_norm,none                        |        0.892 |        0.876 |        0.016 | 72b               | 0.98x        |
-| leaderboard_bbh_logical_deduction_three_objects.acc_norm,none             |        0.94  |        0.928 |        0.012 | 72b               | 0.99x        |
-| leaderboard_math_geometry_hard.exact_match,none                           |        0     |        0.008 |        0.008 | 95b               | 0.00x        |
-| leaderboard_gpqa.acc_norm,none                                            |        0.375 |        0.364 |        0.011 | 72b               | 0.97x        |
-| leaderboard_math_hard.exact_match,none                                    |        0.012 |        0.06  |        0.048 | 95b               | 5.00x        |
-| leaderboard.exact_match,none                                              |        0.012 |        0.06  |        0.048 | 95b               | 5.00x        |
-| leaderboard.prompt_level_loose_acc,none                                   |        0.861 |        0.839 |        0.022 | 72b               | 0.97x        |
-| leaderboard.prompt_level_strict_acc,none                                  |        0.839 |        0.813 |        0.026 | 72b               | 0.97x        |
-| leaderboard.inst_level_loose_acc,none                                     |        0.904 |        0.891 |        0.013 | 72b               | 0.99x        |
-| leaderboard.acc_norm,none                                                 |        0.641 |        0.622 |        0.02  | 72b               | 0.97x        |
-| leaderboard.inst_level_strict_acc,none                                    |        0.888 |        0.873 |        0.016 | 72b               | 0.98x        |
-| leaderboard.acc,none                                                      |        0.563 |        0.522 |        0.041 | 72b               | 0.93x        |
-| leaderboard_bbh_causal_judgement.acc_norm,none                            |        0.668 |        0.663 |        0.005 | 72b               | 0.99x        |
-| leaderboard_bbh_salient_translation_error_detection.acc_norm,none         |        0.668 |        0.588 |        0.08  | 72b               | 0.88x        |
-| leaderboard_gpqa_extended.acc_norm,none                                   |        0.372 |        0.364 |        0.007 | 72b               | 0.98x        |
-| leaderboard_math_prealgebra_hard.exact_match,none                         |        0.047 |        0.155 |        0.109 | 95b               | 3.33x        |
-| leaderboard_math_algebra_hard.exact_match,none                            |        0.02  |        0.114 |        0.094 | 95b               | 5.83x        |
-| leaderboard_bbh_boolean_expressions.acc_norm,none                         |        0.936 |        0.92  |        0.016 | 72b               | 0.98x        |
-| leaderboard_math_num_theory_hard.exact_match,none                         |        0     |        0.058 |        0.058 | 95b               | 0.00x        |
-| leaderboard_bbh_movie_recommendation.acc_norm,none                        |        0.768 |        0.78  |        0.012 | 95b               | 1.02x        |
-| leaderboard_math_counting_and_prob_hard.exact_match,none                  |        0     |        0.024 |        0.024 | 95b               | 0.00x        |
-| leaderboard_math_intermediate_algebra_hard.exact_match,none               |        0     |        0.004 |        0.004 | 95b               | 0.00x        |
-| leaderboard_ifeval.prompt_level_strict_acc,none                           |        0.839 |        0.813 |        0.026 | 72b               | 0.97x        |
-| leaderboard_ifeval.inst_level_strict_acc,none                             |        0.888 |        0.873 |        0.016 | 72b               | 0.98x        |
-| leaderboard_ifeval.inst_level_loose_acc,none                              |        0.904 |        0.891 |        0.013 | 72b               | 0.99x        |
-| leaderboard_ifeval.prompt_level_loose_acc,none                            |        0.861 |        0.839 |        0.022 | 72b               | 0.97x        |
-| leaderboard_bbh_snarks.acc_norm,none                                      |        0.927 |        0.904 |        0.022 | 72b               | 0.98x        |
-| leaderboard_bbh_web_of_lies.acc_norm,none                                 |        0.676 |        0.616 |        0.06  | 72b               | 0.91x        |
-| leaderboard_bbh_penguins_in_a_table.acc_norm,none                         |        0.719 |        0.767 |        0.048 | 95b               | 1.07x        |
-| leaderboard_bbh_hyperbaton.acc_norm,none                                  |        0.892 |        0.9   |        0.008 | 95b               | 1.01x        |
-| leaderboard_bbh_object_counting.acc_norm,none                             |        0.612 |        0.544 |        0.068 | 72b               | 0.89x        |
-| leaderboard_musr_object_placements.acc_norm,none                          |        0.258 |        0.285 |        0.027 | 95b               | 1.11x        |
-| leaderboard_bbh_logical_deduction_five_objects.acc_norm,none              |        0.704 |        0.592 |        0.112 | 72b               | 0.84x        |
-| leaderboard_musr_team_allocation.acc_norm,none                            |        0.456 |        0.396 |        0.06  | 72b               | 0.87x        |
-| leaderboard_bbh_navigate.acc_norm,none                                    |        0.832 |        0.788 |        0.044 | 72b               | 0.95x        |
-| leaderboard_bbh_tracking_shuffled_objects_seven_objects.acc_norm,none     |        0.34  |        0.304 |        0.036 | 72b               | 0.89x        |
-| leaderboard_bbh_formal_fallacies.acc_norm,none                            |        0.776 |        0.756 |        0.02  | 72b               | 0.97x        |
-| all.leaderboard_musr.acc_norm,none                                        |        0.419 |        0.427 |        0.008 | 95b               | 1.02x        |
-| all.leaderboard_bbh_sports_understanding.acc_norm,none                    |        0.892 |        0.876 |        0.016 | 72b               | 0.98x        |
-| all.leaderboard_bbh_logical_deduction_three_objects.acc_norm,none         |        0.94  |        0.928 |        0.012 | 72b               | 0.99x        |
-| all.leaderboard_math_geometry_hard.exact_match,none                       |        0     |        0.008 |        0.008 | 95b               | 0.00x        |
-| all.leaderboard_gpqa.acc_norm,none                                        |        0.375 |        0.364 |        0.011 | 72b               | 0.97x        |
-| all.leaderboard_math_hard.exact_match,none                                |        0.012 |        0.06  |        0.048 | 95b               | 5.00x        |
-| all.leaderboard.exact_match,none                                          |        0.012 |        0.06  |        0.048 | 95b               | 5.00x        |
-| all.leaderboard.prompt_level_loose_acc,none                               |        0.861 |        0.839 |        0.022 | 72b               | 0.97x        |
-| all.leaderboard.prompt_level_strict_acc,none                              |        0.839 |        0.813 |        0.026 | 72b               | 0.97x        |
-| all.leaderboard.inst_level_loose_acc,none                                 |        0.904 |        0.891 |        0.013 | 72b               | 0.99x        |
-| all.leaderboard.acc_norm,none                                             |        0.641 |        0.622 |        0.02  | 72b               | 0.97x        |
-| all.leaderboard.inst_level_strict_acc,none                                |        0.888 |        0.873 |        0.016 | 72b               | 0.98x        |
-| all.leaderboard.acc,none                                                  |        0.563 |        0.522 |        0.041 | 72b               | 0.93x        |
-| all.leaderboard_bbh_causal_judgement.acc_norm,none                        |        0.668 |        0.663 |        0.005 | 72b               | 0.99x        |
-| all.leaderboard_bbh_salient_translation_error_detection.acc_norm,none     |        0.668 |        0.588 |        0.08  | 72b               | 0.88x        |
-| all.leaderboard_gpqa_extended.acc_norm,none                               |        0.372 |        0.364 |        0.007 | 72b               | 0.98x        |
-| all.leaderboard_math_prealgebra_hard.exact_match,none                     |        0.047 |        0.155 |        0.109 | 95b               | 3.33x        |
-| all.leaderboard_math_algebra_hard.exact_match,none                        |        0.02  |        0.114 |        0.094 | 95b               | 5.83x        |
-| all.leaderboard_bbh_boolean_expressions.acc_norm,none                     |        0.936 |        0.92  |        0.016 | 72b               | 0.98x        |
-| all.leaderboard_math_num_theory_hard.exact_match,none                     |        0     |        0.058 |        0.058 | 95b               | 0.00x        |
-| all.leaderboard_bbh_movie_recommendation.acc_norm,none                    |        0.768 |        0.78  |        0.012 | 95b               | 1.02x        |
-| all.leaderboard_math_counting_and_prob_hard.exact_match,none              |        0     |        0.024 |        0.024 | 95b               | 0.00x        |
-| all.leaderboard_math_intermediate_algebra_hard.exact_match,none           |        0     |        0.004 |        0.004 | 95b               | 0.00x        |
-| all.leaderboard_ifeval.prompt_level_strict_acc,none                       |        0.839 |        0.813 |        0.026 | 72b               | 0.97x        |
-| all.leaderboard_ifeval.inst_level_strict_acc,none                         |        0.888 |        0.873 |        0.016 | 72b               | 0.98x        |
-| all.leaderboard_ifeval.inst_level_loose_acc,none                          |        0.904 |        0.891 |        0.013 | 72b               | 0.99x        |
-| all.leaderboard_ifeval.prompt_level_loose_acc,none                        |        0.861 |        0.839 |        0.022 | 72b               | 0.97x        |
-| all.leaderboard_bbh_snarks.acc_norm,none                                  |        0.927 |        0.904 |        0.022 | 72b               | 0.98x        |
-| all.leaderboard_bbh_web_of_lies.acc_norm,none                             |        0.676 |        0.616 |        0.06  | 72b               | 0.91x        |
-| all.leaderboard_bbh_penguins_in_a_table.acc_norm,none                     |        0.719 |        0.767 |        0.048 | 95b               | 1.07x        |
-| all.leaderboard_bbh_hyperbaton.acc_norm,none                              |        0.892 |        0.9   |        0.008 | 95b               | 1.01x        |
-| all.leaderboard_bbh_object_counting.acc_norm,none                         |        0.612 |        0.544 |        0.068 | 72b               | 0.89x        |
-| all.leaderboard_musr_object_placements.acc_norm,none                      |        0.258 |        0.285 |        0.027 | 95b               | 1.11x        |
-| all.leaderboard_bbh_logical_deduction_five_objects.acc_norm,none          |        0.704 |        0.592 |        0.112 | 72b               | 0.84x        |
-| all.leaderboard_musr_team_allocation.acc_norm,none                        |        0.456 |        0.396 |        0.06  | 72b               | 0.87x        |
-| all.leaderboard_bbh_navigate.acc_norm,none                                |        0.832 |        0.788 |        0.044 | 72b               | 0.95x        |
-| all.leaderboard_bbh_tracking_shuffled_objects_seven_objects.acc_norm,none |        0.34  |        0.304 |        0.036 | 72b               | 0.89x        |
-| all.leaderboard_bbh_formal_fallacies.acc_norm,none                        |        0.776 |        0.756 |        0.02  | 72b               | 0.97x        |
-| all.leaderboard_gpqa_main.acc_norm,none                                   |        0.375 |        0.355 |        0.02  | 72b               | 0.95x        |
-| all.leaderboard_bbh_disambiguation_qa.acc_norm,none                       |        0.744 |        0.772 |        0.028 | 95b               | 1.04x        |
-| all.leaderboard_bbh_tracking_shuffled_objects_five_objects.acc_norm,none  |        0.32  |        0.284 |        0.036 | 72b               | 0.89x        |
-| all.leaderboard_bbh_date_understanding.acc_norm,none                      |        0.784 |        0.764 |        0.02  | 72b               | 0.97x        |
-| all.leaderboard_bbh_geometric_shapes.acc_norm,none                        |        0.464 |        0.412 |        0.052 | 72b               | 0.89x        |
-| all.leaderboard_bbh_reasoning_about_colored_objects.acc_norm,none         |        0.864 |        0.84  |        0.024 | 72b               | 0.97x        |
-| all.leaderboard_musr_murder_mysteries.acc_norm,none                       |        0.548 |        0.604 |        0.056 | 95b               | 1.10x        |
-| all.leaderboard_bbh_ruin_names.acc_norm,none                              |        0.888 |        0.86  |        0.028 | 72b               | 0.97x        |
-| all.leaderboard_bbh_logical_deduction_seven_objects.acc_norm,none         |        0.644 |        0.664 |        0.02  | 95b               | 1.03x        |
-| all.leaderboard_bbh.acc_norm,none                                         |        0.726 |        0.701 |        0.025 | 72b               | 0.97x        |
-| all.leaderboard_bbh_temporal_sequences.acc_norm,none                      |        0.996 |        0.968 |        0.028 | 72b               | 0.97x        |
-| all.leaderboard_mmlu_pro.acc,none                                         |        0.563 |        0.522 |        0.041 | 72b               | 0.93x        |
-| leaderboard_gpqa_main.acc_norm,none                                       |        0.375 |        0.355 |        0.02  | 72b               | 0.95x        |
-| leaderboard_bbh_disambiguation_qa.acc_norm,none                           |        0.744 |        0.772 |        0.028 | 95b               | 1.04x        |
-| leaderboard_bbh_tracking_shuffled_objects_five_objects.acc_norm,none      |        0.32  |        0.284 |        0.036 | 72b               | 0.89x        |
-| leaderboard_bbh_date_understanding.acc_norm,none                          |        0.784 |        0.764 |        0.02  | 72b               | 0.97x        |
-| leaderboard_bbh_geometric_shapes.acc_norm,none                            |        0.464 |        0.412 |        0.052 | 72b               | 0.89x        |
-| leaderboard_bbh_reasoning_about_colored_objects.acc_norm,none             |        0.864 |        0.84  |        0.024 | 72b               | 0.97x        |
-| leaderboard_musr_murder_mysteries.acc_norm,none                           |        0.548 |        0.604 |        0.056 | 95b               | 1.10x        |
-| leaderboard_bbh_ruin_names.acc_norm,none                                  |        0.888 |        0.86  |        0.028 | 72b               | 0.97x        |
-| leaderboard_bbh_logical_deduction_seven_objects.acc_norm,none             |        0.644 |        0.664 |        0.02  | 95b               | 1.03x        |
-| leaderboard_bbh.acc_norm,none                                             |        0.726 |        0.701 |        0.025 | 72b               | 0.97x        |
-| leaderboard_bbh_temporal_sequences.acc_norm,none                          |        0.996 |        0.968 |        0.028 | 72b               | 0.97x        |
-| leaderboard_mmlu_pro.acc,none                                             |        0.563 |        0.522 |        0.041 | 72b               | 0.93x        |

 print(outputs[0]["generated_text"])
 ```
+## 🏆 Evaluation
+Initial benchmarks show interesting performance characteristics compared to the 72B model:
+### Strengths
+The 95B model shows notable improvements in:
+1. **Mathematical Reasoning**
+- Up to 5.83x improvement in algebra tasks
+- 3.33x improvement in pre-algebra
+- Consistent gains across geometry, number theory, and probability tasks
+- Overall stronger performance in complex mathematical reasoning
+2. **Spatial & Object Understanding**
+- 11% improvement in object placement tasks
+- 7% better at tabular data interpretation
+- Enhanced performance in logical deduction with multiple objects
+3. **Complex Language Tasks**
+- 4% improvement in disambiguation tasks
+- 2% better at movie recommendations
+- Slight improvements in hyperbaton (complex word order) tasks
+4. **Creative & Analytical Reasoning**
+- 10% improvement in murder mystery solving
+- Better performance in tasks requiring creative problem-solving
+### Areas for Consideration
+While the model shows improvements in specific areas, users should note that the 72B model still performs better in many general language and reasoning tasks. The 95B version appears to excel particularly in mathematical and spatial reasoning while maintaining comparable performance in other areas.
+### [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
 Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_ssmits__Qwen2.5-95B-Instruct)
 |      Metric       |Value|
 | Key                                                                       |   72b Result |   95b Result |   Difference | Which is Higher   | Multiplier   |
 |:--------------------------------------------------------------------------|-------------:|-------------:|-------------:|:------------------|:-------------|
+| leaderboard_musr.acc_norm,none                                            |        0.419 |        0.427 |        0.008 | 95b               | 1.02        |
+| leaderboard_bbh_sports_understanding.acc_norm,none                        |        0.892 |        0.876 |       -0.016 | 72b               | 0.98        |
+| leaderboard_bbh_logical_deduction_three_objects.acc_norm,none             |        0.94  |        0.928 |       -0.012 | 72b               | 0.99        |
+| leaderboard_math_geometry_hard.exact_match,none                           |        0     |        0.008 |        0.008 | 95b               | 0.00        |
+| leaderboard_gpqa.acc_norm,none                                            |        0.375 |        0.364 |       -0.011 | 72b               | 0.97        |
+| leaderboard_math_hard.exact_match,none                                    |        0.012 |        0.06  |        0.048 | 95b               | 5.00        |
+| leaderboard.exact_match,none                                              |        0.012 |        0.06  |        0.048 | 95b               | 5.00        |
+| leaderboard.prompt_level_loose_acc,none                                   |        0.861 |        0.839 |       -0.022 | 72b               | 0.97        |
+| leaderboard.prompt_level_strict_acc,none                                  |        0.839 |        0.813 |       -0.026 | 72b               | 0.97        |
+| leaderboard.inst_level_loose_acc,none                                     |        0.904 |        0.891 |       -0.013 | 72b               | 0.99        |
+| leaderboard.acc_norm,none                                                 |        0.641 |        0.622 |       -0.020 | 72b               | 0.97        |
+| leaderboard.inst_level_strict_acc,none                                    |        0.888 |        0.873 |       -0.016 | 72b               | 0.98        |
+| leaderboard.acc,none                                                      |        0.563 |        0.522 |       -0.041 | 72b               | 0.93        |
+| leaderboard_bbh_causal_judgement.acc_norm,none                            |        0.668 |        0.663 |       -0.005 | 72b               | 0.99        |
+| leaderboard_bbh_salient_translation_error_detection.acc_norm,none         |        0.668 |        0.588 |       -0.080 | 72b               | 0.88        |
+| leaderboard_gpqa_extended.acc_norm,none                                   |        0.372 |        0.364 |       -0.007 | 72b               | 0.98        |
+| leaderboard_math_prealgebra_hard.exact_match,none                         |        0.047 |        0.155 |        0.109 | 95b               | 3.33        |
+| leaderboard_math_algebra_hard.exact_match,none                            |        0.02  |        0.114 |        0.094 | 95b               | 5.83        |
+| leaderboard_bbh_boolean_expressions.acc_norm,none                         |        0.936 |        0.92  |       -0.016 | 72b               | 0.98        |
+| leaderboard_math_num_theory_hard.exact_match,none                         |        0     |        0.058 |        0.058 | 95b               | 0.00        |
+| leaderboard_bbh_movie_recommendation.acc_norm,none                        |        0.768 |        0.78  |        0.012 | 95b               | 1.02        |
+| leaderboard_math_counting_and_prob_hard.exact_match,none                  |        0     |        0.024 |        0.024 | 95b               | 0.00        |
+| leaderboard_math_intermediate_algebra_hard.exact_match,none               |        0     |        0.004 |        0.004 | 95b               | 0.00        |
+| leaderboard_ifeval.prompt_level_strict_acc,none                           |        0.839 |        0.813 |       -0.026 | 72b               | 0.97        |
+| leaderboard_ifeval.inst_level_strict_acc,none                             |        0.888 |        0.873 |       -0.016 | 72b               | 0.98        |
+| leaderboard_ifeval.inst_level_loose_acc,none                              |        0.904 |        0.891 |       -0.013 | 72b               | 0.99        |
+| leaderboard_ifeval.prompt_level_loose_acc,none                            |        0.861 |        0.839 |       -0.022 | 72b               | 0.97        |
+| leaderboard_bbh_snarks.acc_norm,none                                      |        0.927 |        0.904 |       -0.022 | 72b               | 0.98        |
+| leaderboard_bbh_web_of_lies.acc_norm,none                                 |        0.676 |        0.616 |       -0.060 | 72b               | 0.91        |
+| leaderboard_bbh_penguins_in_a_table.acc_norm,none                         |        0.719 |        0.767 |        0.048 | 95b               | 1.07        |
+| leaderboard_bbh_hyperbaton.acc_norm,none                                  |        0.892 |        0.9   |        0.008 | 95b               | 1.01        |
+| leaderboard_bbh_object_counting.acc_norm,none                             |        0.612 |        0.544 |       -0.068 | 72b               | 0.89        |
+| leaderboard_musr_object_placements.acc_norm,none                          |        0.258 |        0.285 |        0.027 | 95b               | 1.11        |
+| leaderboard_bbh_logical_deduction_five_objects.acc_norm,none              |        0.704 |        0.592 |       -0.112 | 72b               | 0.84        |
+| leaderboard_musr_team_allocation.acc_norm,none                            |        0.456 |        0.396 |       -0.060 | 72b               | 0.87        |
+| leaderboard_bbh_navigate.acc_norm,none                                    |        0.832 |        0.788 |       -0.044 | 72b               | 0.95        |
+| leaderboard_bbh_tracking_shuffled_objects_seven_objects.acc_norm,none     |        0.34  |        0.304 |       -0.036 | 72b               | 0.89        |
+| leaderboard_bbh_formal_fallacies.acc_norm,none                            |        0.776 |        0.756 |       -0.020 | 72b               | 0.97        |
+| all.leaderboard_musr.acc_norm,none                                        |        0.419 |        0.427 |        0.008 | 95b               | 1.02        |
+| all.leaderboard_bbh_sports_understanding.acc_norm,none                    |        0.892 |        0.876 |       -0.016 | 72b               | 0.98        |
+| all.leaderboard_bbh_logical_deduction_three_objects.acc_norm,none         |        0.94  |        0.928 |       -0.012 | 72b               | 0.99        |
+| all.leaderboard_math_geometry_hard.exact_match,none                       |        0     |        0.008 |        0.008 | 95b               | 0.00        |
+| all.leaderboard_gpqa.acc_norm,none                                        |        0.375 |        0.364 |       -0.011 | 72b               | 0.97        |
+| all.leaderboard_math_hard.exact_match,none                                |        0.012 |        0.06  |        0.048 | 95b               | 5.00        |
+| all.leaderboard.exact_match,none                                          |        0.012 |        0.06  |        0.048 | 95b               | 5.00        |
+| all.leaderboard.prompt_level_loose_acc,none                               |        0.861 |        0.839 |       -0.022 | 72b               | 0.97        |
+| all.leaderboard.prompt_level_strict_acc,none                              |        0.839 |        0.813 |       -0.026 | 72b               | 0.97        |
+| all.leaderboard.inst_level_loose_acc,none                                 |        0.904 |        0.891 |       -0.013 | 72b               | 0.99        |
+| all.leaderboard.acc_norm,none                                             |        0.641 |        0.622 |       -0.020 | 72b               | 0.97        |
+| all.leaderboard.inst_level_strict_acc,none                                |        0.888 |        0.873 |       -0.016 | 72b               | 0.98        |
+| all.leaderboard.acc,none                                                  |        0.563 |        0.522 |       -0.041 | 72b               | 0.93        |
+| all.leaderboard_bbh_causal_judgement.acc_norm,none                        |        0.668 |        0.663 |       -0.005 | 72b               | 0.99        |
+| all.leaderboard_bbh_salient_translation_error_detection.acc_norm,none     |        0.668 |        0.588 |       -0.080 | 72b               | 0.88        |
+| all.leaderboard_gpqa_extended.acc_norm,none                               |        0.372 |        0.364 |       -0.007 | 72b               | 0.98        |
+| all.leaderboard_math_prealgebra_hard.exact_match,none                     |        0.047 |        0.155 |        0.109 | 95b               | 3.33        |
+| all.leaderboard_math_algebra_hard.exact_match,none                        |        0.02  |        0.114 |        0.094 | 95b               | 5.83        |
+| all.leaderboard_bbh_boolean_expressions.acc_norm,none                     |        0.936 |        0.92  |       -0.016 | 72b               | 0.98        |
+| all.leaderboard_math_num_theory_hard.exact_match,none                     |        0     |        0.058 |        0.058 | 95b               | 0.00        |
+| all.leaderboard_bbh_movie_recommendation.acc_norm,none                    |        0.768 |        0.78  |        0.012 | 95b               | 1.02        |
+| all.leaderboard_math_counting_and_prob_hard.exact_match,none              |        0     |        0.024 |        0.024 | 95b               | 0.00        |
+| all.leaderboard_math_intermediate_algebra_hard.exact_match,none           |        0     |        0.004 |        0.004 | 95b               | 0.00        |
+| all.leaderboard_ifeval.prompt_level_strict_acc,none                       |        0.839 |        0.813 |       -0.026 | 72b               | 0.97        |
+| all.leaderboard_ifeval.inst_level_strict_acc,none                         |        0.888 |        0.873 |       -0.016 | 72b               | 0.98        |
+| all.leaderboard_ifeval.inst_level_loose_acc,none                          |        0.904 |        0.891 |       -0.013 | 72b               | 0.99        |
+| all.leaderboard_ifeval.prompt_level_loose_acc,none                        |        0.861 |        0.839 |       -0.022 | 72b               | 0.97        |
+| all.leaderboard_bbh_snarks.acc_norm,none                                  |        0.927 |        0.904 |       -0.022 | 72b               | 0.98        |
+| all.leaderboard_bbh_web_of_lies.acc_norm,none                             |        0.676 |        0.616 |       -0.060 | 72b               | 0.91        |
+| all.leaderboard_bbh_penguins_in_a_table.acc_norm,none                     |        0.719 |        0.767 |        0.048 | 95b               | 1.07        |
+| all.leaderboard_bbh_hyperbaton.acc_norm,none                              |        0.892 |        0.9   |        0.008 | 95b               | 1.01        |
+| all.leaderboard_bbh_object_counting.acc_norm,none                         |        0.612 |        0.544 |       -0.068 | 72b               | 0.89        |
+| all.leaderboard_musr_object_placements.acc_norm,none                      |        0.258 |        0.285 |        0.027 | 95b               | 1.11        |
+| all.leaderboard_bbh_logical_deduction_five_objects.acc_norm,none          |        0.704 |        0.592 |       -0.112 | 72b               | 0.84        |
+| all.leaderboard_musr_team_allocation.acc_norm,none                        |        0.456 |        0.396 |       -0.060 | 72b               | 0.87        |
+| all.leaderboard_bbh_navigate.acc_norm,none                                |        0.832 |        0.788 |       -0.044 | 72b               | 0.95        |
+| all.leaderboard_bbh_tracking_shuffled_objects_seven_objects.acc_norm,none |        0.34  |        0.304 |       -0.036 | 72b               | 0.89        |
+| all.leaderboard_bbh_formal_fallacies.acc_norm,none                        |        0.776 |        0.756 |       -0.020 | 72b               | 0.97        |
+| all.leaderboard_gpqa_main.acc_norm,none                                   |        0.375 |        0.355 |       -0.020 | 72b               | 0.95        |
+| all.leaderboard_bbh_disambiguation_qa.acc_norm,none                       |        0.744 |        0.772 |        0.028 | 95b               | 1.04        |
+| all.leaderboard_bbh_tracking_shuffled_objects_five_objects.acc_norm,none  |        0.32  |        0.284 |       -0.036 | 72b               | 0.89        |
+| all.leaderboard_bbh_date_understanding.acc_norm,none                      |        0.784 |        0.764 |       -0.020 | 72b               | 0.97        |
+| all.leaderboard_bbh_geometric_shapes.acc_norm,none                        |        0.464 |        0.412 |       -0.052 | 72b               | 0.89        |
+| all.leaderboard_bbh_reasoning_about_colored_objects.acc_norm,none         |        0.864 |        0.84  |       -0.024 | 72b               | 0.97        |
+| all.leaderboard_musr_murder_mysteries.acc_norm,none                       |        0.548 |        0.604 |        0.056 | 95b               | 1.10        |
+| all.leaderboard_bbh_ruin_names.acc_norm,none                              |        0.888 |        0.86  |       -0.028 | 72b               | 0.97        |
+| all.leaderboard_bbh_logical_deduction_seven_objects.acc_norm,none         |        0.644 |        0.664 |        0.020 | 95b               | 1.03        |
+| all.leaderboard_bbh.acc_norm,none                                         |        0.726 |        0.701 |       -0.025 | 72b               | 0.97        |
+| all.leaderboard_bbh_temporal_sequences.acc_norm,none                      |        0.996 |        0.968 |       -0.028 | 72b               | 0.97        |
+| all.leaderboard_mmlu_pro.acc,none                                         |        0.563 |        0.522 |       -0.041 | 72b               | 0.93        |
+| leaderboard_gpqa_main.acc_norm,none                                       |        0.375 |        0.355 |       -0.020 | 72b               | 0.95        |
+| leaderboard_bbh_disambiguation_qa.acc_norm,none                           |        0.744 |        0.772 |        0.028 | 95b               | 1.04        |
+| leaderboard_bbh_tracking_shuffled_objects_five_objects.acc_norm,none      |        0.32  |        0.284 |       -0.036 | 72b               | 0.89        |
+| leaderboard_bbh_date_understanding.acc_norm,none                          |        0.784 |        0.764 |       -0.020 | 72b               | 0.97        |
+| leaderboard_bbh_geometric_shapes.acc_norm,none                            |        0.464 |        0.412 |       -0.052 | 72b               | 0.89        |
+| leaderboard_bbh_reasoning_about_colored_objects.acc_norm,none             |        0.864 |        0.84  |       -0.024 | 72b               | 0.97        |
+| leaderboard_musr_murder_mysteries.acc_norm,none                           |        0.548 |        0.604 |        0.056 | 95b               | 1.10        |
+| leaderboard_bbh_ruin_names.acc_norm,none                                  |        0.888 |        0.86  |       -0.028 | 72b               | 0.97        |
+| leaderboard_bbh_logical_deduction_seven_objects.acc_norm,none             |        0.644 |        0.664 |        0.020 | 95b               | 1.03        |
+| leaderboard_bbh.acc_norm,none                                             |        0.726 |        0.701 |       -0.025 | 72b               | 0.97        |
+| leaderboard_bbh_temporal_sequences.acc_norm,none                          |        0.996 |        0.968 |       -0.028 | 72b               | 0.97        |
+| leaderboard_mmlu_pro.acc,none                                             |        0.563 |        0.522 |       -0.041 | 72b               | 0.93        |