DigitalLearningGmbH
/

educa-ai-nemo-dpo

Text Generation

text-generation-inference

Model card Files Files and versions

LenDigLearn commited on Jan 31, 2025

Commit

a3a4e3f

·

verified ·

1 Parent(s): fc10053

added multilingual benchmarks

Files changed (1) hide show

README.md +30 -1

README.md CHANGED Viewed

@@ -90,7 +90,36 @@ For comparison, we performed the same benchmarks on the base model as well, in t
 ### Multilingual Benchmarks
-... coming soon!
 ## Model Card Authors [optional]

 ### Multilingual Benchmarks
+| Benchmark | Mistral-Nemo-Instruct-2407 | educa-ai-nemo-dpo |
+| --- | --- | --- |
+| global_mmlu_full (acc) | | |
+|  * de | 55.8% | **57.5%** |
+|  * en | 63.1% | **63.8%** |
+|  * es | 58.1% | **58.9%** |
+|  * fr | 56.3% | **58.1%** |
+|  * it | 58.1% | **59.6%** |
+|  * ja | 50.0% | **51.0%** |
+|  * pt | 43.5% | **55.7%** |
+|  * ru | 54.9% | **55.0%** |
+|  * zh | 52.2% | **55.6%** |
+| arc_challenge_mt (acc_norm) | | |
+|  * de | 42.6% | **46.8%** |
+|  * es | 45.6% | **47.3%** |
+|  * it | 44.3% | **46.7%** |
+|  * pt | 42.3% | **46.8%** |
+| xnli (acc) | | |
+|  * de | **47.6%** | 47.1% |
+|  * en | 57.3% | **57.8%** |
+|  * es | 45.0% | **47.0%** |
+|  * fr | 38.5% | **40.0%** |
+|  * ru | **41.8%** | 38.6% |
+|  * zh | **36.3%** | 36.1% |
+| xquad (f1) | | |
+|  * de | 22.7% | **35.6%** |
+|  * en | 21.8% | **29.9%** |
+|  * es | 17.6% | **29.6%** |
+|  * ru | 24.6% | **37.3%** |
+|  * zh | 10.0% | **16.7%** |
 ## Model Card Authors [optional]