Update README.md
Browse files
README.md
CHANGED
|
@@ -28,4 +28,29 @@ print(tokenizer.decode(output[0]))
|
|
| 28 |
Output:
|
| 29 |
```
|
| 30 |
Искусственный интеллект - это всего-навсего программа, которая анализирует данные и решает, насколько тот или иной выбор может оказаться оптимальным. Как и во всех остальных сферах человеческой деятельности, в IT есть свои плюсы и минусы. И если в прошлом веке искусственный интеллект был чем
|
| 31 |
-
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 28 |
Output:
|
| 29 |
```
|
| 30 |
Искусственный интеллект - это всего-навсего программа, которая анализирует данные и решает, насколько тот или иной выбор может оказаться оптимальным. Как и во всех остальных сферах человеческой деятельности, в IT есть свои плюсы и минусы. И если в прошлом веке искусственный интеллект был чем
|
| 31 |
+
```
|
| 32 |
+
|
| 33 |
+
# Evaluation
|
| 34 |
+
The results are obtained through the Russian-language benchmark [MERA](https://mera.a-ai.ru/ru)
|
| 35 |
+
|
| 36 |
+
Total score: 0.198
|
| 37 |
+
|
| 38 |
+
| Задача | Результат | Метрика |
|
| 39 |
+
|--------------|---------------|--------------------|
|
| 40 |
+
| BPS | 0.44 | Accuracy |
|
| 41 |
+
| LCS | 0.118 | Accuracy |
|
| 42 |
+
| RCB | 0.333 / 0.167 | Avg. F1 / Accuracy |
|
| 43 |
+
| USE | 0 | Grade Norm |
|
| 44 |
+
| RWSD | 0.523 | Accuracy |
|
| 45 |
+
| PARus | 0.498 | Accuracy |
|
| 46 |
+
| ruTiE | 0.5 | Accuracy |
|
| 47 |
+
| MultiQ | 0.059 / 0.007 | F1-score/EM |
|
| 48 |
+
| ruMMLU | 0.25 | Accuracy |
|
| 49 |
+
| CheGeKa | 0.006 / 0 | F1 / EM |
|
| 50 |
+
| ruModAr | 0.001 | Accuracy |
|
| 51 |
+
| SimpleAr | 0.001 | Accuracy |
|
| 52 |
+
| ruMultiAr | 0.011 | Accuracy |
|
| 53 |
+
| MathLogicQA | 0.245 | Accuracy |
|
| 54 |
+
| ruHumanEval | 0 / 0 / 0 | pass@k |
|
| 55 |
+
| ruWorldTree | 0.265 / 0.246 | Avg. F1 / Accuracy |
|
| 56 |
+
| ruOpenBookQA | 0.24 / 0.221 | Avg. F1 / Accuracy |
|