trillionlabs
/

Tri-7B

@@ -138,8 +138,8 @@ We evaluated Tri-7B across a comprehensive suite of benchmarks assessing general
 | • CLIcK | Korean | 0-shot | accuracy |
 | • KoBEST | Korean | 5-shot | accuracy |
 | **Knowledge and Reasoning** | | | |
-| • KMMLU | Korean | 5-shot | accuracy |
-| • MMLU | English | 5-shot | accuracy |
 | • Global-MMLU-Lite-ja | English | 5-shot | accuracy |
 | **Coding** | | | |
 | • HumanEval | English | 0-shot | pass@1 |
@@ -176,8 +176,8 @@ Models compared:
 | HAERAE | 82.49 | 80.02 | +2.47 |
 | KoBEST | 82.72 | 79.61 | +3.11 |
 | CLIcK | 64.43 | 60.41 | +4.02 |
-| KMMLU | 51.74 | 48.09 | +3.65 |
-| MMLU | 68.16 | 63.52 | +4.64 |
 | Global-MMLU-Lite-ja | 59.25 | 60.75 | -1.50 |

 | • CLIcK | Korean | 0-shot | accuracy |
 | • KoBEST | Korean | 5-shot | accuracy |
 | **Knowledge and Reasoning** | | | |
+| • KMMLU | Korean | 5-shot (0-shot, CoT) | accuracy |
+| • MMLU | English | 5-shot (0-shot, CoT) | accuracy |
 | • Global-MMLU-Lite-ja | English | 5-shot | accuracy |
 | **Coding** | | | |
 | • HumanEval | English | 0-shot | pass@1 |
 | HAERAE | 82.49 | 80.02 | +2.47 |
 | KoBEST | 82.72 | 79.61 | +3.11 |
 | CLIcK | 64.43 | 60.41 | +4.02 |
+| KMMLU | 51.74 (53.51) | 48.09 | +3.65 |
+| MMLU | 68.16 (74.67) | 63.52 | +4.64 |
 | Global-MMLU-Lite-ja | 59.25 | 60.75 | -1.50 |