sharafetdinov42 commited on
Commit
94df1cf
·
verified ·
1 Parent(s): cfed2ba

Upload 4 files

Browse files
Files changed (4) hide show
  1. Leaderboard.csv +2 -2
  2. Provocativeness.csv +2 -2
  3. Subject.csv +2 -2
  4. Type_of_question.csv +2 -2
Leaderboard.csv CHANGED
@@ -1,8 +1,8 @@
1
  model,RU_adaptation,Access,Team,Country,"n_params, B",NUM_Q_multich_EM,NUM_Q_multich_CC,NUM_Q_multich_PM,NUM_Q_onech_EM,NUM_Q_seq_EM,NUM_Q_seq_CC,NUM_Q_seq_PM,NUM_Q_map_EM,NUM_Q_map_CC,NUM_Q_map_PM,OPEN_Q_EM,OPEN_Q_F1,OPEN_Q_LR,rank,LEADERBOARD
2
  Alice AI LLM,RU,API,Yandex,Россия,,85.0,86.0,91.0,93.0,91.0,91.0,91.0,91.0,91.0,93.0,57.0,67.0,75.0,1.0,84.76923076923077
3
- YandexGPT/rc,RU,API,Yandex,Россия,,82.0,83.0,89.0,92.0,85.0,85.0,85.0,84.0,84.0,89.0,27.0,60.0,70.0,2.0,78.07692307692308
4
  Gigachat 2 Max,RU,API,Sber,Россия,,82.0,86.0,90.0,94.0,80.0,80.0,80.0,71.0,71.0,77.0,54.0,61.0,72.0,3.0,76.76923076923077
5
- YandexGPT/latest,RU,API,Yandex,Россия,,77.0,79.0,86.0,91.0,75.0,75.0,75.0,73.0,73.0,81.0,32.0,55.0,66.0,4.0,72.15384615384616
6
  Gigachat 2 Pro,RU,API,Sber,Россия,,76.0,81.0,86.0,91.0,63.0,63.0,63.0,64.0,64.0,75.0,42.0,50.0,64.0,5.0,67.84615384615384
7
  YandexGPT Lite,RU,API,Yandex,Россия,,66.0,68.0,79.0,88.0,56.0,56.0,56.0,48.0,48.0,59.0,36.0,53.0,63.0,6.0,59.69230769230769
8
  GPT 5 mini,-,API,OpenAI,США,,73.0,78.0,84.0,94.0,60.0,60.0,62.0,16.0,17.0,25.0,30.0,63.0,72.0,7.0,56.46153846153846
 
1
  model,RU_adaptation,Access,Team,Country,"n_params, B",NUM_Q_multich_EM,NUM_Q_multich_CC,NUM_Q_multich_PM,NUM_Q_onech_EM,NUM_Q_seq_EM,NUM_Q_seq_CC,NUM_Q_seq_PM,NUM_Q_map_EM,NUM_Q_map_CC,NUM_Q_map_PM,OPEN_Q_EM,OPEN_Q_F1,OPEN_Q_LR,rank,LEADERBOARD
2
  Alice AI LLM,RU,API,Yandex,Россия,,85.0,86.0,91.0,93.0,91.0,91.0,91.0,91.0,91.0,93.0,57.0,67.0,75.0,1.0,84.76923076923077
3
+ YandexGPT Pro 5.1,RU,API,Yandex,Россия,,82.0,83.0,89.0,92.0,85.0,85.0,85.0,84.0,84.0,89.0,27.0,60.0,70.0,2.0,78.07692307692308
4
  Gigachat 2 Max,RU,API,Sber,Россия,,82.0,86.0,90.0,94.0,80.0,80.0,80.0,71.0,71.0,77.0,54.0,61.0,72.0,3.0,76.76923076923077
5
+ YandexGPT Pro 5,RU,API,Yandex,Россия,,77.0,79.0,86.0,91.0,75.0,75.0,75.0,73.0,73.0,81.0,32.0,55.0,66.0,4.0,72.15384615384616
6
  Gigachat 2 Pro,RU,API,Sber,Россия,,76.0,81.0,86.0,91.0,63.0,63.0,63.0,64.0,64.0,75.0,42.0,50.0,64.0,5.0,67.84615384615384
7
  YandexGPT Lite,RU,API,Yandex,Россия,,66.0,68.0,79.0,88.0,56.0,56.0,56.0,48.0,48.0,59.0,36.0,53.0,63.0,6.0,59.69230769230769
8
  GPT 5 mini,-,API,OpenAI,США,,73.0,78.0,84.0,94.0,60.0,60.0,62.0,16.0,17.0,25.0,30.0,63.0,72.0,7.0,56.46153846153846
Provocativeness.csv CHANGED
@@ -1,9 +1,9 @@
1
  model,RU_adaptation,Access,PROVOC_1_num_q_EM,PROVOC_1_num_q_CC,PROVOC_1_num_q_PM,PROVOC_1_open_q_EM,PROVOC_1_open_q_F1,PROVOC_1_open_q_LR,rank_provoc_1,PROVOC_1_avg,PROVOC_2_num_q_EM,PROVOC_2_num_q_CC,PROVOC_2_num_q_PM,PROVOC_2_open_q_EM,PROVOC_2_open_q_F1,PROVOC_2_open_q_LR,rank_provoc_2,PROVOC_2_avg,PROVOC_3_num_q_EM,PROVOC_3_num_q_CC,PROVOC_3_num_q_PM,PROVOC_3_open_q_EM,PROVOC_3_open_q_F1,PROVOC_3_open_q_LR,rank_provoc_3,PROVOC_3_avg,PROVOC_avg
2
  Alice AI LLM,RU,API,92.0,92.0,94.0,64.0,73.0,81.0,1.0,82.66666666666667,91.0,91.0,92.0,57.0,68.0,76.0,1.0,79.16666666666667,83.0,85.0,88.0,49.0,58.0,67.0,1.0,71.66666666666667,77.83333333333333
3
  Gigachat 2 Max,RU,API,91.0,92.0,93.0,61.0,68.0,79.0,2.0,80.66666666666667,87.0,88.0,90.0,51.0,59.0,68.0,2.0,73.83333333333333,78.0,80.0,84.0,47.0,54.0,68.0,2.0,68.5,74.33333333333333
4
- YandexGPT/rc,RU,API,91.0,91.0,93.0,35.0,67.0,77.0,3.0,75.66666666666667,88.0,89.0,91.0,21.0,57.0,66.0,4.0,68.66666666666667,79.0,79.0,85.0,23.0,56.0,64.0,3.0,64.33333333333333,69.55555555555556
5
  Gigachat 2 Pro,RU,API,82.0,84.0,85.0,46.0,54.0,68.0,17.0,69.83333333333333,83.0,85.0,88.0,42.0,50.0,66.0,3.0,69.0,75.0,78.0,83.0,36.0,45.0,58.0,4.0,62.5,67.11111111111111
6
- YandexGPT/latest,RU,API,87.0,87.0,89.0,37.0,59.0,71.0,14.0,71.66666666666667,84.0,85.0,88.0,33.0,56.0,66.0,4.0,68.66666666666667,74.0,75.0,81.0,25.0,50.0,60.0,5.0,60.83333333333334,67.05555555555556
7
  Deepseek R1 0528,-,API,82.0,84.0,86.0,44.0,70.0,80.0,4.0,74.33333333333333,76.0,78.0,81.0,21.0,63.0,71.0,8.0,65.0,64.0,66.0,72.0,31.0,58.0,67.0,9.0,59.66666666666666,66.33333333333333
8
  Claude Sonnet 4.5,-,API,82.0,84.0,86.0,42.0,68.0,77.0,8.0,73.16666666666667,77.0,78.0,81.0,23.0,63.0,71.0,5.0,65.5,65.0,68.0,73.0,31.0,57.0,67.0,6.0,60.16666666666666,66.27777777777777
9
  Qwen3 Max,-,API,83.0,84.0,86.0,40.0,68.0,79.0,7.0,73.33333333333333,76.0,78.0,81.0,21.0,63.0,71.0,8.0,65.0,63.0,66.0,72.0,33.0,58.0,68.0,7.0,60.0,66.11111111111111
 
1
  model,RU_adaptation,Access,PROVOC_1_num_q_EM,PROVOC_1_num_q_CC,PROVOC_1_num_q_PM,PROVOC_1_open_q_EM,PROVOC_1_open_q_F1,PROVOC_1_open_q_LR,rank_provoc_1,PROVOC_1_avg,PROVOC_2_num_q_EM,PROVOC_2_num_q_CC,PROVOC_2_num_q_PM,PROVOC_2_open_q_EM,PROVOC_2_open_q_F1,PROVOC_2_open_q_LR,rank_provoc_2,PROVOC_2_avg,PROVOC_3_num_q_EM,PROVOC_3_num_q_CC,PROVOC_3_num_q_PM,PROVOC_3_open_q_EM,PROVOC_3_open_q_F1,PROVOC_3_open_q_LR,rank_provoc_3,PROVOC_3_avg,PROVOC_avg
2
  Alice AI LLM,RU,API,92.0,92.0,94.0,64.0,73.0,81.0,1.0,82.66666666666667,91.0,91.0,92.0,57.0,68.0,76.0,1.0,79.16666666666667,83.0,85.0,88.0,49.0,58.0,67.0,1.0,71.66666666666667,77.83333333333333
3
  Gigachat 2 Max,RU,API,91.0,92.0,93.0,61.0,68.0,79.0,2.0,80.66666666666667,87.0,88.0,90.0,51.0,59.0,68.0,2.0,73.83333333333333,78.0,80.0,84.0,47.0,54.0,68.0,2.0,68.5,74.33333333333333
4
+ YandexGPT Pro 5.1,RU,API,91.0,91.0,93.0,35.0,67.0,77.0,3.0,75.66666666666667,88.0,89.0,91.0,21.0,57.0,66.0,4.0,68.66666666666667,79.0,79.0,85.0,23.0,56.0,64.0,3.0,64.33333333333333,69.55555555555556
5
  Gigachat 2 Pro,RU,API,82.0,84.0,85.0,46.0,54.0,68.0,17.0,69.83333333333333,83.0,85.0,88.0,42.0,50.0,66.0,3.0,69.0,75.0,78.0,83.0,36.0,45.0,58.0,4.0,62.5,67.11111111111111
6
+ YandexGPT Pro 5,RU,API,87.0,87.0,89.0,37.0,59.0,71.0,14.0,71.66666666666667,84.0,85.0,88.0,33.0,56.0,66.0,4.0,68.66666666666667,74.0,75.0,81.0,25.0,50.0,60.0,5.0,60.83333333333334,67.05555555555556
7
  Deepseek R1 0528,-,API,82.0,84.0,86.0,44.0,70.0,80.0,4.0,74.33333333333333,76.0,78.0,81.0,21.0,63.0,71.0,8.0,65.0,64.0,66.0,72.0,31.0,58.0,67.0,9.0,59.66666666666666,66.33333333333333
8
  Claude Sonnet 4.5,-,API,82.0,84.0,86.0,42.0,68.0,77.0,8.0,73.16666666666667,77.0,78.0,81.0,23.0,63.0,71.0,5.0,65.5,65.0,68.0,73.0,31.0,57.0,67.0,6.0,60.16666666666666,66.27777777777777
9
  Qwen3 Max,-,API,83.0,84.0,86.0,40.0,68.0,79.0,7.0,73.33333333333333,76.0,78.0,81.0,21.0,63.0,71.0,8.0,65.0,63.0,66.0,72.0,33.0,58.0,68.0,7.0,60.0,66.11111111111111
Subject.csv CHANGED
@@ -2,8 +2,8 @@ model,RU_adaptation,Access,GEO_num_q_EM,GEO_num_q_CC,GEO_num_q_PM,GEO_open_q_EM,
2
  Alice AI LLM,RU,API,96.0,96.0,97.0,62.0,73.0,77.0,1.0,83.5,87.0,88.0,90.0,48.0,58.0,70.0,1.0,73.5,92.0,93.0,96.0,95.0,96.0,97.0,1.0,94.83333333333333,64.0,64.0,66.0,14.0,64.66666666666667,81.19047619047619
3
  Gigachat 2 Max,RU,API,93.0,93.0,94.0,61.0,68.0,73.0,2.0,80.33333333333333,84.0,85.0,87.0,43.0,52.0,67.0,2.0,69.66666666666667,88.0,90.0,93.0,92.0,94.0,96.0,2.0,92.16666666666667,71.0,71.0,73.0,8.0,71.66666666666667,79.42857142857143
4
  Gigachat 2 Pro,RU,API,89.0,89.0,90.0,52.0,59.0,70.0,3.0,74.83333333333333,73.0,73.0,78.0,30.0,40.0,57.0,14.0,58.5,86.0,89.0,91.0,79.0,82.0,87.0,5.0,85.66666666666667,71.0,71.0,73.0,8.0,71.66666666666667,72.80952380952381
5
- YandexGPT/rc,RU,API,93.0,93.0,95.0,17.0,57.0,63.0,4.0,69.66666666666667,83.0,84.0,86.0,26.0,54.0,67.0,3.0,66.66666666666667,92.0,93.0,95.0,53.0,96.0,94.0,4.0,87.16666666666667,60.0,60.0,62.0,18.0,60.66666666666666,72.52380952380952
6
- YandexGPT/latest,RU,API,89.0,89.0,92.0,21.0,58.0,65.0,5.0,69.0,77.0,78.0,81.0,26.0,46.0,60.0,13.0,61.33333333333334,89.0,90.0,93.0,79.0,96.0,96.0,3.0,90.5,58.0,58.0,61.0,19.0,59.0,71.52380952380952
7
  Gemini 2.5 Pro,-,API,79.0,80.0,82.0,6.0,71.0,74.0,7.0,65.33333333333333,71.0,71.0,76.0,34.0,56.0,69.0,10.0,62.83333333333334,81.0,85.0,87.0,55.0,83.0,89.0,8.0,80.0,74.0,74.0,76.0,4.0,74.66666666666667,70.14285714285714
8
  Qwen3 Max,-,API,78.0,79.0,81.0,9.0,70.0,74.0,8.0,65.16666666666667,71.0,72.0,76.0,36.0,57.0,70.0,5.0,63.66666666666666,81.0,84.0,87.0,55.0,83.0,89.0,9.0,79.83333333333333,73.0,73.0,75.0,5.0,73.66666666666667,70.14285714285714
9
  GPT 5 mini,-,API,79.0,79.0,82.0,6.0,69.0,72.0,12.0,64.5,71.0,72.0,76.0,34.0,56.0,69.0,9.0,63.0,81.0,84.0,87.0,53.0,83.0,89.0,11.0,79.5,75.0,75.0,78.0,2.0,76.0,70.0
 
2
  Alice AI LLM,RU,API,96.0,96.0,97.0,62.0,73.0,77.0,1.0,83.5,87.0,88.0,90.0,48.0,58.0,70.0,1.0,73.5,92.0,93.0,96.0,95.0,96.0,97.0,1.0,94.83333333333333,64.0,64.0,66.0,14.0,64.66666666666667,81.19047619047619
3
  Gigachat 2 Max,RU,API,93.0,93.0,94.0,61.0,68.0,73.0,2.0,80.33333333333333,84.0,85.0,87.0,43.0,52.0,67.0,2.0,69.66666666666667,88.0,90.0,93.0,92.0,94.0,96.0,2.0,92.16666666666667,71.0,71.0,73.0,8.0,71.66666666666667,79.42857142857143
4
  Gigachat 2 Pro,RU,API,89.0,89.0,90.0,52.0,59.0,70.0,3.0,74.83333333333333,73.0,73.0,78.0,30.0,40.0,57.0,14.0,58.5,86.0,89.0,91.0,79.0,82.0,87.0,5.0,85.66666666666667,71.0,71.0,73.0,8.0,71.66666666666667,72.80952380952381
5
+ YandexGPT Pro 5.1,RU,API,93.0,93.0,95.0,17.0,57.0,63.0,4.0,69.66666666666667,83.0,84.0,86.0,26.0,54.0,67.0,3.0,66.66666666666667,92.0,93.0,95.0,53.0,96.0,94.0,4.0,87.16666666666667,60.0,60.0,62.0,18.0,60.66666666666666,72.52380952380952
6
+ YandexGPT Pro 5,RU,API,89.0,89.0,92.0,21.0,58.0,65.0,5.0,69.0,77.0,78.0,81.0,26.0,46.0,60.0,13.0,61.33333333333334,89.0,90.0,93.0,79.0,96.0,96.0,3.0,90.5,58.0,58.0,61.0,19.0,59.0,71.52380952380952
7
  Gemini 2.5 Pro,-,API,79.0,80.0,82.0,6.0,71.0,74.0,7.0,65.33333333333333,71.0,71.0,76.0,34.0,56.0,69.0,10.0,62.83333333333334,81.0,85.0,87.0,55.0,83.0,89.0,8.0,80.0,74.0,74.0,76.0,4.0,74.66666666666667,70.14285714285714
8
  Qwen3 Max,-,API,78.0,79.0,81.0,9.0,70.0,74.0,8.0,65.16666666666667,71.0,72.0,76.0,36.0,57.0,70.0,5.0,63.66666666666666,81.0,84.0,87.0,55.0,83.0,89.0,9.0,79.83333333333333,73.0,73.0,75.0,5.0,73.66666666666667,70.14285714285714
9
  GPT 5 mini,-,API,79.0,79.0,82.0,6.0,69.0,72.0,12.0,64.5,71.0,72.0,76.0,34.0,56.0,69.0,9.0,63.0,81.0,84.0,87.0,53.0,83.0,89.0,11.0,79.5,75.0,75.0,78.0,2.0,76.0,70.0
Type_of_question.csv CHANGED
@@ -19,8 +19,8 @@ Deepseek Chat V3.1,-,API,73.0,78.0,84.0,7.0,78.33333333333333,94.0,94.0,94.0,1.0
19
  Grok 4.1 Fast,-,API,73.0,77.0,83.0,9.0,77.66666666666667,94.0,94.0,94.0,1.0,94.0,56.0,56.0,56.0,15.0,56.0,15.0,15.0,23.0,17.0,17.66666666666667,30.0,62.0,72.0,9.0,54.66666666666666,60.0
20
  Claude Haiku 4.5,-,API,74.0,78.0,84.0,6.0,78.66666666666667,94.0,94.0,94.0,1.0,94.0,56.0,56.0,58.0,14.0,56.66666666666666,12.0,13.0,21.0,23.0,15.33333333333333,31.0,62.0,72.0,8.0,55.0,59.93333333333333
21
  Alice AI LLM,RU,API,85.0,86.0,91.0,1.0,87.33333333333333,93.0,93.0,93.0,2.0,93.0,91.0,91.0,91.0,1.0,91.0,91.0,91.0,93.0,1.0,91.66666666666667,57.0,67.0,75.0,1.0,66.33333333333333,85.86666666666666
22
- YandexGPT/rc,RU,API,82.0,83.0,89.0,3.0,84.66666666666667,92.0,92.0,92.0,3.0,92.0,85.0,85.0,85.0,2.0,85.0,84.0,84.0,89.0,2.0,85.66666666666667,27.0,60.0,70.0,13.0,52.33333333333334,79.93333333333334
23
- YandexGPT/latest,RU,API,77.0,79.0,86.0,5.0,80.66666666666667,91.0,91.0,91.0,4.0,91.0,75.0,75.0,75.0,4.0,75.0,73.0,73.0,81.0,3.0,75.66666666666667,32.0,55.0,66.0,15.0,51.0,74.66666666666667
24
  Gigachat 2 Pro,RU,API,76.0,81.0,86.0,4.0,81.0,91.0,91.0,91.0,4.0,91.0,63.0,63.0,63.0,5.0,63.0,64.0,64.0,75.0,5.0,67.66666666666667,42.0,50.0,64.0,14.0,52.0,70.93333333333334
25
  Vistral 24B Instruct,RU,OS,62.0,72.0,76.0,12.0,70.0,88.0,89.0,88.0,5.0,88.33333333333333,58.0,58.0,58.0,12.0,58.0,18.0,19.0,24.0,10.0,20.33333333333333,25.0,47.0,60.0,17.0,44.0,56.13333333333333
26
  YandexGPT Lite,RU,API,66.0,68.0,79.0,11.0,71.0,88.0,88.0,88.0,6.0,88.0,56.0,56.0,56.0,15.0,56.0,48.0,48.0,59.0,6.0,51.66666666666666,36.0,53.0,63.0,16.0,50.66666666666666,63.46666666666667
 
19
  Grok 4.1 Fast,-,API,73.0,77.0,83.0,9.0,77.66666666666667,94.0,94.0,94.0,1.0,94.0,56.0,56.0,56.0,15.0,56.0,15.0,15.0,23.0,17.0,17.66666666666667,30.0,62.0,72.0,9.0,54.66666666666666,60.0
20
  Claude Haiku 4.5,-,API,74.0,78.0,84.0,6.0,78.66666666666667,94.0,94.0,94.0,1.0,94.0,56.0,56.0,58.0,14.0,56.66666666666666,12.0,13.0,21.0,23.0,15.33333333333333,31.0,62.0,72.0,8.0,55.0,59.93333333333333
21
  Alice AI LLM,RU,API,85.0,86.0,91.0,1.0,87.33333333333333,93.0,93.0,93.0,2.0,93.0,91.0,91.0,91.0,1.0,91.0,91.0,91.0,93.0,1.0,91.66666666666667,57.0,67.0,75.0,1.0,66.33333333333333,85.86666666666666
22
+ YandexGPT Pro 5.1,RU,API,82.0,83.0,89.0,3.0,84.66666666666667,92.0,92.0,92.0,3.0,92.0,85.0,85.0,85.0,2.0,85.0,84.0,84.0,89.0,2.0,85.66666666666667,27.0,60.0,70.0,13.0,52.33333333333334,79.93333333333334
23
+ YandexGPT Pro 5,RU,API,77.0,79.0,86.0,5.0,80.66666666666667,91.0,91.0,91.0,4.0,91.0,75.0,75.0,75.0,4.0,75.0,73.0,73.0,81.0,3.0,75.66666666666667,32.0,55.0,66.0,15.0,51.0,74.66666666666667
24
  Gigachat 2 Pro,RU,API,76.0,81.0,86.0,4.0,81.0,91.0,91.0,91.0,4.0,91.0,63.0,63.0,63.0,5.0,63.0,64.0,64.0,75.0,5.0,67.66666666666667,42.0,50.0,64.0,14.0,52.0,70.93333333333334
25
  Vistral 24B Instruct,RU,OS,62.0,72.0,76.0,12.0,70.0,88.0,89.0,88.0,5.0,88.33333333333333,58.0,58.0,58.0,12.0,58.0,18.0,19.0,24.0,10.0,20.33333333333333,25.0,47.0,60.0,17.0,44.0,56.13333333333333
26
  YandexGPT Lite,RU,API,66.0,68.0,79.0,11.0,71.0,88.0,88.0,88.0,6.0,88.0,56.0,56.0,56.0,15.0,56.0,48.0,48.0,59.0,6.0,51.66666666666666,36.0,53.0,63.0,16.0,50.66666666666666,63.46666666666667