ai-forever commited on
Commit
f64bba4
·
verified ·
1 Parent(s): 5c3537c

Init results file.

Browse files
Files changed (1) hide show
  1. results.json +589 -423
results.json CHANGED
@@ -1,424 +1,590 @@
1
- {
2
- "items": {
3
- "1.11.0": {
4
- "af59b6402c5f4354805df6751c9e6621": {
5
- "model_name": "RuadaptQwen2.5-32B-Instruct",
6
- "timestamp": "2025-07-20T14:19:49",
7
- "config": {
8
- "embedding_model": "FRIDA_0",
9
- "retriever_type": "mmr",
10
- "retrieval_config": {
11
- "top_k": 5,
12
- "chunk_size": 500,
13
- "chunk_overlap": 100
14
- }
15
- },
16
- "metrics": {
17
- "simple": {
18
- "retrieval": {
19
- "hit_rate": 0.8,
20
- "mrr": 0.7546666666666666,
21
- "precision": 0.16399999999999995
22
- },
23
- "generation": {
24
- "rouge1": 0.34263166427902236,
25
- "rougeL": 0.3415649976123557
26
- }
27
- },
28
- "cond": {
29
- "retrieval": {
30
- "hit_rate": 0.8866666666666667,
31
- "mrr": 0.844111111111111,
32
- "precision": 0.18399999999999997
33
- },
34
- "generation": {
35
- "rouge1": 0.588568088354604,
36
- "rougeL": 0.588568088354604
37
- }
38
- },
39
- "set": {
40
- "retrieval": {
41
- "hit_rate": 0.7666666666666667,
42
- "mrr": 0.7155555555555555,
43
- "precision": 0.15988888888888886
44
- },
45
- "generation": {
46
- "rouge1": 0.201784949062967,
47
- "rougeL": 0.2015000487780667
48
- }
49
- },
50
- "mh": {
51
- "retrieval": {
52
- "hit_rate": 0.8933333333333333,
53
- "mrr": 0.8258888888888889,
54
- "precision": 0.18355555555555553
55
- },
56
- "generation": {
57
- "rouge1": 0.3723811038951089,
58
- "rougeL": 0.3723811038951089
59
- }
60
- },
61
- "overall": {
62
- "retrieval": {
63
- "hit_rate": 0.8366666666666667,
64
- "mrr": 0.7850555555555555,
65
- "precision": 0.1728611111111111
66
- },
67
- "generation": {
68
- "rouge1": 0.3763414513979256,
69
- "rougeL": 0.37600355966003385
70
- }
71
- },
72
- "judge": {
73
- "judge_completeness_score": 0.0033333333333333335,
74
- "judge_cons_w_real_world_score": 0.3416666666666667,
75
- "judge_correctness_score": 0.8547579298831386,
76
- "judge_factual_accuracy_score": 0.18333333333333332,
77
- "judge_fluff_score": 1.29,
78
- "judge_pres_details_score": 0.011666666666666667,
79
- "judge_total_score": 0.44745965498052315
80
- }
81
- },
82
- "metadata": {
83
- "n_questions": 600,
84
- "submit_timestamp": ""
85
- }
86
- },
87
- "2ca16eb25d7d4fe4ab10ce63b91c99d3": {
88
- "model_name": "Qwen3-32B",
89
- "timestamp": "2025-07-20T14:21:11",
90
- "config": {
91
- "embedding_model": "Qwen3-Embedding-8B_0",
92
- "retriever_type": "mmr",
93
- "retrieval_config": {
94
- "top_k": 5,
95
- "chunk_size": 500,
96
- "chunk_overlap": 100
97
- }
98
- },
99
- "metrics": {
100
- "simple": {
101
- "retrieval": {
102
- "hit_rate": 0.92,
103
- "mrr": 0.8833333333333333,
104
- "precision": 0.19311111111111107
105
- },
106
- "generation": {
107
- "rouge1": 0.015639103312674214,
108
- "rougeL": 0.015387462081739963
109
- }
110
- },
111
- "cond": {
112
- "retrieval": {
113
- "hit_rate": 0.9533333333333334,
114
- "mrr": 0.9268888888888889,
115
- "precision": 0.2052222222222222
116
- },
117
- "generation": {
118
- "rouge1": 0.016503291304771118,
119
- "rougeL": 0.016503291304771118
120
- }
121
- },
122
- "set": {
123
- "retrieval": {
124
- "hit_rate": 0.8466666666666667,
125
- "mrr": 0.7911111111111111,
126
- "precision": 0.18277777777777773
127
- },
128
- "generation": {
129
- "rouge1": 0.23980014906892347,
130
- "rougeL": 0.2395648549512764
131
- }
132
- },
133
- "mh": {
134
- "retrieval": {
135
- "hit_rate": 0.9533333333333334,
136
- "mrr": 0.918888888888889,
137
- "precision": 0.2062222222222222
138
- },
139
- "generation": {
140
- "rouge1": 0.015102025468084885,
141
- "rougeL": 0.01465743331048401
142
- }
143
- },
144
- "overall": {
145
- "retrieval": {
146
- "hit_rate": 0.9183333333333333,
147
- "mrr": 0.8800555555555555,
148
- "precision": 0.19683333333333333
149
- },
150
- "generation": {
151
- "rouge1": 0.07176114228861342,
152
- "rougeL": 0.07152826041206786
153
- }
154
- },
155
- "judge": {
156
- "judge_completeness_score": 0.0033333333333333335,
157
- "judge_cons_w_real_world_score": 0.3416666666666667,
158
- "judge_correctness_score": 0.8547579298831386,
159
- "judge_factual_accuracy_score": 0.18333333333333332,
160
- "judge_fluff_score": 1.29,
161
- "judge_pres_details_score": 0.011666666666666667,
162
- "judge_total_score": 0.44745965498052315
163
- }
164
- },
165
- "metadata": {
166
- "n_questions": 600,
167
- "submit_timestamp": ""
168
- }
169
- },
170
- "309775398b0f44b7b1959de7e9ef9394": {
171
- "model_name": "Qwen3-32B",
172
- "timestamp": "2025-07-20T14:21:17",
173
- "config": {
174
- "embedding_model": "Qwen3-Embedding-8B_1",
175
- "retriever_type": "mmr",
176
- "retrieval_config": {
177
- "top_k": 10,
178
- "chunk_size": 500,
179
- "chunk_overlap": 100
180
- }
181
- },
182
- "metrics": {
183
- "simple": {
184
- "retrieval": {
185
- "hit_rate": 0.96,
186
- "mrr": 0.887611111111111,
187
- "precision": 0.10937566137566136
188
- },
189
- "generation": {
190
- "rouge1": 0.012209811938593794,
191
- "rougeL": 0.012030648410230277
192
- }
193
- },
194
- "cond": {
195
- "retrieval": {
196
- "hit_rate": 0.98,
197
- "mrr": 0.9364444444444446,
198
- "precision": 0.11538095238095236
199
- },
200
- "generation": {
201
- "rouge1": 0.011099998442989704,
202
- "rougeL": 0.010834672038128414
203
- }
204
- },
205
- "set": {
206
- "retrieval": {
207
- "hit_rate": 0.9,
208
- "mrr": 0.8004603174603174,
209
- "precision": 0.10820105820105819
210
- },
211
- "generation": {
212
- "rouge1": 0.15617178592023445,
213
- "rougeL": 0.15617178592023445
214
- }
215
- },
216
- "mh": {
217
- "retrieval": {
218
- "hit_rate": 0.9733333333333334,
219
- "mrr": 0.9255555555555555,
220
- "precision": 0.11473015873015872
221
- },
222
- "generation": {
223
- "rouge1": 0.011475598424813337,
224
- "rougeL": 0.011379207385187495
225
- }
226
- },
227
- "overall": {
228
- "retrieval": {
229
- "hit_rate": 0.9533333333333334,
230
- "mrr": 0.8875178571428572,
231
- "precision": 0.11192195767195767
232
- },
233
- "generation": {
234
- "rouge1": 0.04773929868165783,
235
- "rougeL": 0.04760407843844516
236
- }
237
- },
238
- "judge": {
239
- "judge_completeness_score": 0.0033333333333333335,
240
- "judge_cons_w_real_world_score": 0.3416666666666667,
241
- "judge_correctness_score": 0.8547579298831386,
242
- "judge_factual_accuracy_score": 0.18333333333333332,
243
- "judge_fluff_score": 1.29,
244
- "judge_pres_details_score": 0.011666666666666667,
245
- "judge_total_score": 0.44745965498052315
246
- }
247
- },
248
- "metadata": {
249
- "n_questions": 600,
250
- "submit_timestamp": ""
251
- }
252
- },
253
- "9449f344fe664e8db1f755f1b27f7714": {
254
- "model_name": "RuadaptQwen2.5-32B-Instruct",
255
- "timestamp": "2025-07-20T14:22:44",
256
- "config": {
257
- "embedding_model": "multilingual-e5-large-instruct_0",
258
- "retriever_type": "mmr",
259
- "retrieval_config": {
260
- "top_k": 2,
261
- "chunk_size": 500,
262
- "chunk_overlap": 100
263
- }
264
- },
265
- "metrics": {
266
- "simple": {
267
- "retrieval": {
268
- "hit_rate": 0.8533333333333334,
269
- "mrr": 0.83,
270
- "precision": 0.43
271
- },
272
- "generation": {
273
- "rouge1": 0.4218555867119719,
274
- "rougeL": 0.4218555867119719
275
- }
276
- },
277
- "cond": {
278
- "retrieval": {
279
- "hit_rate": 0.9,
280
- "mrr": 0.8766666666666667,
281
- "precision": 0.45666666666666667
282
- },
283
- "generation": {
284
- "rouge1": 0.7324504198891844,
285
- "rougeL": 0.7297837532225178
286
- }
287
- },
288
- "set": {
289
- "retrieval": {
290
- "hit_rate": 0.6933333333333334,
291
- "mrr": 0.6733333333333333,
292
- "precision": 0.3566666666666667
293
- },
294
- "generation": {
295
- "rouge1": 0.27998074031346254,
296
- "rougeL": 0.27998074031346254
297
- }
298
- },
299
- "mh": {
300
- "retrieval": {
301
- "hit_rate": 0.82,
302
- "mrr": 0.81,
303
- "precision": 0.42333333333333334
304
- },
305
- "generation": {
306
- "rouge1": 0.4475666714238857,
307
- "rougeL": 0.4475666714238857
308
- }
309
- },
310
- "overall": {
311
- "retrieval": {
312
- "hit_rate": 0.8166666666666667,
313
- "mrr": 0.7975,
314
- "precision": 0.4166666666666667
315
- },
316
- "generation": {
317
- "rouge1": 0.4704633545846262,
318
- "rougeL": 0.4697966879179594
319
- }
320
- },
321
- "judge": {
322
- "judge_completeness_score": 0.0033333333333333335,
323
- "judge_cons_w_real_world_score": 0.3416666666666667,
324
- "judge_correctness_score": 0.8547579298831386,
325
- "judge_factual_accuracy_score": 0.18333333333333332,
326
- "judge_fluff_score": 1.29,
327
- "judge_pres_details_score": 0.011666666666666667,
328
- "judge_total_score": 0.44745965498052315
329
- }
330
- },
331
- "metadata": {
332
- "n_questions": 600,
333
- "submit_timestamp": ""
334
- }
335
- },
336
- "bf559defa13140f088d974ea62675688": {
337
- "model_name": "RuadaptQwen2.5-32B-Instruct",
338
- "timestamp": "2025-07-20T14:22:47",
339
- "config": {
340
- "embedding_model": "multilingual-e5-large-instruct_1",
341
- "retriever_type": "mmr",
342
- "retrieval_config": {
343
- "top_k": 5,
344
- "chunk_size": 500,
345
- "chunk_overlap": 100
346
- }
347
- },
348
- "metrics": {
349
- "simple": {
350
- "retrieval": {
351
- "hit_rate": 0.88,
352
- "mrr": 0.8405555555555556,
353
- "precision": 0.1834444444444444
354
- },
355
- "generation": {
356
- "rouge1": 0.2983866101662599,
357
- "rougeL": 0.2983866101662599
358
- }
359
- },
360
- "cond": {
361
- "retrieval": {
362
- "hit_rate": 0.9533333333333334,
363
- "mrr": 0.8906666666666666,
364
- "precision": 0.19899999999999995
365
- },
366
- "generation": {
367
- "rouge1": 0.6480719582985028,
368
- "rougeL": 0.6454052916318361
369
- }
370
- },
371
- "set": {
372
- "retrieval": {
373
- "hit_rate": 0.8333333333333334,
374
- "mrr": 0.7273333333333333,
375
- "precision": 0.17911111111111105
376
- },
377
- "generation": {
378
- "rouge1": 0.2668045422555955,
379
- "rougeL": 0.2668045422555955
380
- }
381
- },
382
- "mh": {
383
- "retrieval": {
384
- "hit_rate": 0.9066666666666666,
385
- "mrr": 0.8437777777777777,
386
- "precision": 0.19777777777777777
387
- },
388
- "generation": {
389
- "rouge1": 0.3450429133503272,
390
- "rougeL": 0.3450429133503272
391
- }
392
- },
393
- "overall": {
394
- "retrieval": {
395
- "hit_rate": 0.8933333333333333,
396
- "mrr": 0.8255833333333332,
397
- "precision": 0.18983333333333335
398
- },
399
- "generation": {
400
- "rouge1": 0.3895765060176714,
401
- "rougeL": 0.38890983935100476
402
- }
403
- },
404
- "judge": {
405
- "judge_completeness_score": 0.0033333333333333335,
406
- "judge_cons_w_real_world_score": 0.3416666666666667,
407
- "judge_correctness_score": 0.8547579298831386,
408
- "judge_factual_accuracy_score": 0.18333333333333332,
409
- "judge_fluff_score": 1.29,
410
- "judge_pres_details_score": 0.011666666666666667,
411
- "judge_total_score": 0.44745965498052315
412
- }
413
- },
414
- "metadata": {
415
- "n_questions": 600,
416
- "submit_timestamp": ""
417
- }
418
- }
419
- }
420
- },
421
- "last_version": "1.11.0",
422
- "n_questions": 600,
423
- "date_title": "20 \u0438\u044e\u043b\u044f 2025"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
424
  }
 
1
+ {
2
+ "items": {
3
+ "1.11.0": {
4
+ "e08710e0497a40a19335f00e33ff5169": {
5
+ "model_name": "Qwen2.5-32B-Instruct",
6
+ "timestamp": "2025-07-03T13:59:41",
7
+ "config": {
8
+ "embedding_model": "FRIDA_0",
9
+ "retriever_type": "mmr",
10
+ "retrieval_config": {
11
+ "top_k": 5,
12
+ "chunk_size": 500,
13
+ "chunk_overlap": 100
14
+ }
15
+ },
16
+ "metrics": {
17
+ "simple": {
18
+ "retrieval": {
19
+ "hit_rate": 0.8066666666666666,
20
+ "mrr": 0.8066666666666666,
21
+ "precision": 0.8066666666666666
22
+ },
23
+ "generation": {
24
+ "rouge1": 0.43398257014170327,
25
+ "rougeL": 0.4312788664379995
26
+ }
27
+ },
28
+ "cond": {
29
+ "retrieval": {
30
+ "hit_rate": 0.7866666666666666,
31
+ "mrr": 0.7866666666666666,
32
+ "precision": 0.7866666666666666
33
+ },
34
+ "generation": {
35
+ "rouge1": 0.6388590785598907,
36
+ "rougeL": 0.6388590785598907
37
+ }
38
+ },
39
+ "set": {
40
+ "retrieval": {
41
+ "hit_rate": 0.74,
42
+ "mrr": 0.74,
43
+ "precision": 0.74
44
+ },
45
+ "generation": {
46
+ "rouge1": 0.2568338011871614,
47
+ "rougeL": 0.19417994362310756
48
+ }
49
+ },
50
+ "mh": {
51
+ "retrieval": {
52
+ "hit_rate": 0.78,
53
+ "mrr": 0.78,
54
+ "precision": 0.78
55
+ },
56
+ "generation": {
57
+ "rouge1": 0.5099486232721527,
58
+ "rougeL": 0.5096152899388193
59
+ }
60
+ },
61
+ "overall": {
62
+ "retrieval": {
63
+ "hit_rate": 0.7783333333333333,
64
+ "mrr": 0.7783333333333333,
65
+ "precision": 0.7783333333333333
66
+ },
67
+ "generation": {
68
+ "rouge1": 0.45990601829022704,
69
+ "rougeL": 0.44348329463995434
70
+ }
71
+ },
72
+ "judge": {
73
+ "judge_completeness_score": 1.315,
74
+ "judge_cons_w_real_world_score": 1.5933333333333333,
75
+ "judge_correctness_score": 1.6533333333333333,
76
+ "judge_factual_accuracy_score": 1.4183333333333332,
77
+ "judge_fluff_score": 1.7966666666666666,
78
+ "judge_pres_details_score": 1.5266666666666666,
79
+ "judge_total_score": 1.5505555555555555
80
+ }
81
+ },
82
+ "metadata": {
83
+ "n_questions": 600,
84
+ "submit_timestamp": ""
85
+ }
86
+ },
87
+ "9e772c1476f54f8d951c56a7641ad39e": {
88
+ "model_name": "Qwen2.5-32B-Instruct",
89
+ "timestamp": "2025-07-03T13:59:52",
90
+ "config": {
91
+ "embedding_model": "Qwen3-Embedding-8B_2",
92
+ "retriever_type": "mmr",
93
+ "retrieval_config": {
94
+ "top_k": 20,
95
+ "chunk_size": 500,
96
+ "chunk_overlap": 100
97
+ }
98
+ },
99
+ "metrics": {
100
+ "simple": {
101
+ "retrieval": {
102
+ "hit_rate": 0.9533333333333334,
103
+ "mrr": 0.8910634920634921,
104
+ "precision": 0.16466666666666663
105
+ },
106
+ "generation": {
107
+ "rouge1": 0.14963729657137595,
108
+ "rougeL": 0.14963729657137595
109
+ }
110
+ },
111
+ "cond": {
112
+ "retrieval": {
113
+ "hit_rate": 0.96,
114
+ "mrr": 0.8960079365079364,
115
+ "precision": 0.18133333333333335
116
+ },
117
+ "generation": {
118
+ "rouge1": 0.2761723569541383,
119
+ "rougeL": 0.2761723569541383
120
+ }
121
+ },
122
+ "set": {
123
+ "retrieval": {
124
+ "hit_rate": 0.9533333333333334,
125
+ "mrr": 0.8746825396825396,
126
+ "precision": 0.16666666666666666
127
+ },
128
+ "generation": {
129
+ "rouge1": 0.1298719612841915,
130
+ "rougeL": 0.10841675633484674
131
+ }
132
+ },
133
+ "mh": {
134
+ "retrieval": {
135
+ "hit_rate": 0.9666666666666667,
136
+ "mrr": 0.8398306878306879,
137
+ "precision": 0.14933333333333332
138
+ },
139
+ "generation": {
140
+ "rouge1": 0.27951014007174413,
141
+ "rougeL": 0.27951014007174413
142
+ }
143
+ },
144
+ "overall": {
145
+ "retrieval": {
146
+ "hit_rate": 0.9583333333333334,
147
+ "mrr": 0.8753961640211639,
148
+ "precision": 0.1655
149
+ },
150
+ "generation": {
151
+ "rouge1": 0.20879793872036248,
152
+ "rougeL": 0.20343413748302627
153
+ }
154
+ },
155
+ "judge": {
156
+ "judge_completeness_score": 0.6533333333333333,
157
+ "judge_cons_w_real_world_score": 0.9466666666666667,
158
+ "judge_correctness_score": 1.275,
159
+ "judge_factual_accuracy_score": 0.8083333333333333,
160
+ "judge_fluff_score": 1.075,
161
+ "judge_pres_details_score": 0.7916666666666666,
162
+ "judge_total_score": 0.9250000000000002
163
+ }
164
+ },
165
+ "metadata": {
166
+ "n_questions": 600,
167
+ "submit_timestamp": ""
168
+ }
169
+ },
170
+ "d6ccf3ae4d874a1e8fd256e07a9189d7": {
171
+ "model_name": "Qwen2.5-7B-Instruct",
172
+ "timestamp": "2025-07-03T14:00:00",
173
+ "config": {
174
+ "embedding_model": "e5-mistral-7b-instruct_2",
175
+ "retriever_type": "mmr",
176
+ "retrieval_config": {
177
+ "top_k": 20,
178
+ "chunk_size": 500,
179
+ "chunk_overlap": 100
180
+ }
181
+ },
182
+ "metrics": {
183
+ "simple": {
184
+ "retrieval": {
185
+ "hit_rate": 0.94,
186
+ "mrr": 0.8339814814814815,
187
+ "precision": 0.16666666666666666
188
+ },
189
+ "generation": {
190
+ "rouge1": 0.12809115762301465,
191
+ "rougeL": 0.12720226873412577
192
+ }
193
+ },
194
+ "cond": {
195
+ "retrieval": {
196
+ "hit_rate": 0.9733333333333334,
197
+ "mrr": 0.8786931216931217,
198
+ "precision": 0.17733333333333332
199
+ },
200
+ "generation": {
201
+ "rouge1": 0.22438283005922466,
202
+ "rougeL": 0.22407979975619435
203
+ }
204
+ },
205
+ "set": {
206
+ "retrieval": {
207
+ "hit_rate": 0.9133333333333333,
208
+ "mrr": 0.8075925925925925,
209
+ "precision": 0.164
210
+ },
211
+ "generation": {
212
+ "rouge1": 0.11787408709850448,
213
+ "rougeL": 0.09943376362370457
214
+ }
215
+ },
216
+ "mh": {
217
+ "retrieval": {
218
+ "hit_rate": 0.9533333333333334,
219
+ "mrr": 0.8364444444444444,
220
+ "precision": 0.156
221
+ },
222
+ "generation": {
223
+ "rouge1": 0.17552305949148053,
224
+ "rougeL": 0.17552305949148053
225
+ }
226
+ },
227
+ "overall": {
228
+ "retrieval": {
229
+ "hit_rate": 0.945,
230
+ "mrr": 0.8391779100529101,
231
+ "precision": 0.16599999999999998
232
+ },
233
+ "generation": {
234
+ "rouge1": 0.16146778356805608,
235
+ "rougeL": 0.15655972290137632
236
+ }
237
+ },
238
+ "judge": {
239
+ "judge_completeness_score": 0.5292153589315526,
240
+ "judge_cons_w_real_world_score": 0.895,
241
+ "judge_correctness_score": 1.255,
242
+ "judge_factual_accuracy_score": 0.71,
243
+ "judge_fluff_score": 0.9266666666666666,
244
+ "judge_pres_details_score": 0.6583333333333333,
245
+ "judge_total_score": 0.8290358931552587
246
+ }
247
+ },
248
+ "metadata": {
249
+ "n_questions": 600,
250
+ "submit_timestamp": ""
251
+ }
252
+ },
253
+ "3ffd4582172e4dd08a6df3a2bc7b0a70": {
254
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
255
+ "timestamp": "2025-07-03T14:00:09",
256
+ "config": {
257
+ "embedding_model": "FRIDA_2",
258
+ "retriever_type": "mmr",
259
+ "retrieval_config": {
260
+ "top_k": 20,
261
+ "chunk_size": 500,
262
+ "chunk_overlap": 100
263
+ }
264
+ },
265
+ "metrics": {
266
+ "simple": {
267
+ "retrieval": {
268
+ "hit_rate": 0.9,
269
+ "mrr": 0.835867724867725,
270
+ "precision": 0.128
271
+ },
272
+ "generation": {
273
+ "rouge1": 0.1989593421164771,
274
+ "rougeL": 0.1989593421164771
275
+ }
276
+ },
277
+ "cond": {
278
+ "retrieval": {
279
+ "hit_rate": 0.9066666666666666,
280
+ "mrr": 0.8335555555555555,
281
+ "precision": 0.14066666666666666
282
+ },
283
+ "generation": {
284
+ "rouge1": 0.30769111937570354,
285
+ "rougeL": 0.30769111937570354
286
+ }
287
+ },
288
+ "set": {
289
+ "retrieval": {
290
+ "hit_rate": 0.9,
291
+ "mrr": 0.7952301587301587,
292
+ "precision": 0.1293333333333333
293
+ },
294
+ "generation": {
295
+ "rouge1": 0.13627692051127355,
296
+ "rougeL": 0.11183016718646731
297
+ }
298
+ },
299
+ "mh": {
300
+ "retrieval": {
301
+ "hit_rate": 0.9466666666666667,
302
+ "mrr": 0.8368492063492063,
303
+ "precision": 0.1333333333333333
304
+ },
305
+ "generation": {
306
+ "rouge1": 0.3335992099545257,
307
+ "rougeL": 0.3335992099545257
308
+ }
309
+ },
310
+ "overall": {
311
+ "retrieval": {
312
+ "hit_rate": 0.9133333333333333,
313
+ "mrr": 0.8253756613756614,
314
+ "precision": 0.13283333333333333
315
+ },
316
+ "generation": {
317
+ "rouge1": 0.244131647989495,
318
+ "rougeL": 0.2380199596582934
319
+ }
320
+ },
321
+ "judge": {
322
+ "judge_completeness_score": 0.7183333333333334,
323
+ "judge_cons_w_real_world_score": 0.9916666666666667,
324
+ "judge_correctness_score": 1.32,
325
+ "judge_factual_accuracy_score": 0.8133333333333334,
326
+ "judge_fluff_score": 1.18,
327
+ "judge_pres_details_score": 0.855,
328
+ "judge_total_score": 0.9797222222222223
329
+ }
330
+ },
331
+ "metadata": {
332
+ "n_questions": 600,
333
+ "submit_timestamp": ""
334
+ }
335
+ },
336
+ "af59b6402c5f4354805df6751c9e6621": {
337
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
338
+ "timestamp": "2025-07-20T14:19:49",
339
+ "config": {
340
+ "embedding_model": "FRIDA_0",
341
+ "retriever_type": "mmr",
342
+ "retrieval_config": {
343
+ "top_k": 5,
344
+ "chunk_size": 500,
345
+ "chunk_overlap": 100
346
+ }
347
+ },
348
+ "metrics": {
349
+ "simple": {
350
+ "retrieval": {
351
+ "hit_rate": 0.8,
352
+ "mrr": 0.7546666666666666,
353
+ "precision": 0.16399999999999995
354
+ },
355
+ "generation": {
356
+ "rouge1": 0.34263166427902236,
357
+ "rougeL": 0.3415649976123557
358
+ }
359
+ },
360
+ "cond": {
361
+ "retrieval": {
362
+ "hit_rate": 0.8866666666666667,
363
+ "mrr": 0.844111111111111,
364
+ "precision": 0.18399999999999997
365
+ },
366
+ "generation": {
367
+ "rouge1": 0.588568088354604,
368
+ "rougeL": 0.588568088354604
369
+ }
370
+ },
371
+ "set": {
372
+ "retrieval": {
373
+ "hit_rate": 0.7666666666666667,
374
+ "mrr": 0.7155555555555555,
375
+ "precision": 0.15988888888888886
376
+ },
377
+ "generation": {
378
+ "rouge1": 0.201784949062967,
379
+ "rougeL": 0.2015000487780667
380
+ }
381
+ },
382
+ "mh": {
383
+ "retrieval": {
384
+ "hit_rate": 0.8933333333333333,
385
+ "mrr": 0.8258888888888889,
386
+ "precision": 0.18355555555555553
387
+ },
388
+ "generation": {
389
+ "rouge1": 0.3723811038951089,
390
+ "rougeL": 0.3723811038951089
391
+ }
392
+ },
393
+ "overall": {
394
+ "retrieval": {
395
+ "hit_rate": 0.8366666666666667,
396
+ "mrr": 0.7850555555555555,
397
+ "precision": 0.1728611111111111
398
+ },
399
+ "generation": {
400
+ "rouge1": 0.3763414513979256,
401
+ "rougeL": 0.37600355966003385
402
+ }
403
+ },
404
+ "judge": {
405
+ "judge_completeness_score": 0.0033333333333333335,
406
+ "judge_cons_w_real_world_score": 0.3416666666666667,
407
+ "judge_correctness_score": 0.8547579298831386,
408
+ "judge_factual_accuracy_score": 0.18333333333333332,
409
+ "judge_fluff_score": 1.29,
410
+ "judge_pres_details_score": 0.011666666666666667,
411
+ "judge_total_score": 0.44745965498052315
412
+ }
413
+ },
414
+ "metadata": {
415
+ "n_questions": 600,
416
+ "submit_timestamp": ""
417
+ }
418
+ },
419
+ "9449f344fe664e8db1f755f1b27f7714": {
420
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
421
+ "timestamp": "2025-07-20T14:22:44",
422
+ "config": {
423
+ "embedding_model": "multilingual-e5-large-instruct_0",
424
+ "retriever_type": "mmr",
425
+ "retrieval_config": {
426
+ "top_k": 2,
427
+ "chunk_size": 500,
428
+ "chunk_overlap": 100
429
+ }
430
+ },
431
+ "metrics": {
432
+ "simple": {
433
+ "retrieval": {
434
+ "hit_rate": 0.8533333333333334,
435
+ "mrr": 0.83,
436
+ "precision": 0.43
437
+ },
438
+ "generation": {
439
+ "rouge1": 0.4218555867119719,
440
+ "rougeL": 0.4218555867119719
441
+ }
442
+ },
443
+ "cond": {
444
+ "retrieval": {
445
+ "hit_rate": 0.9,
446
+ "mrr": 0.8766666666666667,
447
+ "precision": 0.45666666666666667
448
+ },
449
+ "generation": {
450
+ "rouge1": 0.7324504198891844,
451
+ "rougeL": 0.7297837532225178
452
+ }
453
+ },
454
+ "set": {
455
+ "retrieval": {
456
+ "hit_rate": 0.6933333333333334,
457
+ "mrr": 0.6733333333333333,
458
+ "precision": 0.3566666666666667
459
+ },
460
+ "generation": {
461
+ "rouge1": 0.27998074031346254,
462
+ "rougeL": 0.27998074031346254
463
+ }
464
+ },
465
+ "mh": {
466
+ "retrieval": {
467
+ "hit_rate": 0.82,
468
+ "mrr": 0.81,
469
+ "precision": 0.42333333333333334
470
+ },
471
+ "generation": {
472
+ "rouge1": 0.4475666714238857,
473
+ "rougeL": 0.4475666714238857
474
+ }
475
+ },
476
+ "overall": {
477
+ "retrieval": {
478
+ "hit_rate": 0.8166666666666667,
479
+ "mrr": 0.7975,
480
+ "precision": 0.4166666666666667
481
+ },
482
+ "generation": {
483
+ "rouge1": 0.4704633545846262,
484
+ "rougeL": 0.4697966879179594
485
+ }
486
+ },
487
+ "judge": {
488
+ "judge_completeness_score": 0.0033333333333333335,
489
+ "judge_cons_w_real_world_score": 0.3416666666666667,
490
+ "judge_correctness_score": 0.8547579298831386,
491
+ "judge_factual_accuracy_score": 0.18333333333333332,
492
+ "judge_fluff_score": 1.29,
493
+ "judge_pres_details_score": 0.011666666666666667,
494
+ "judge_total_score": 0.44745965498052315
495
+ }
496
+ },
497
+ "metadata": {
498
+ "n_questions": 600,
499
+ "submit_timestamp": ""
500
+ }
501
+ },
502
+ "bf559defa13140f088d974ea62675688": {
503
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
504
+ "timestamp": "2025-07-20T14:22:47",
505
+ "config": {
506
+ "embedding_model": "multilingual-e5-large-instruct_1",
507
+ "retriever_type": "mmr",
508
+ "retrieval_config": {
509
+ "top_k": 5,
510
+ "chunk_size": 500,
511
+ "chunk_overlap": 100
512
+ }
513
+ },
514
+ "metrics": {
515
+ "simple": {
516
+ "retrieval": {
517
+ "hit_rate": 0.88,
518
+ "mrr": 0.8405555555555556,
519
+ "precision": 0.1834444444444444
520
+ },
521
+ "generation": {
522
+ "rouge1": 0.2983866101662599,
523
+ "rougeL": 0.2983866101662599
524
+ }
525
+ },
526
+ "cond": {
527
+ "retrieval": {
528
+ "hit_rate": 0.9533333333333334,
529
+ "mrr": 0.8906666666666666,
530
+ "precision": 0.19899999999999995
531
+ },
532
+ "generation": {
533
+ "rouge1": 0.6480719582985028,
534
+ "rougeL": 0.6454052916318361
535
+ }
536
+ },
537
+ "set": {
538
+ "retrieval": {
539
+ "hit_rate": 0.8333333333333334,
540
+ "mrr": 0.7273333333333333,
541
+ "precision": 0.17911111111111105
542
+ },
543
+ "generation": {
544
+ "rouge1": 0.2668045422555955,
545
+ "rougeL": 0.2668045422555955
546
+ }
547
+ },
548
+ "mh": {
549
+ "retrieval": {
550
+ "hit_rate": 0.9066666666666666,
551
+ "mrr": 0.8437777777777777,
552
+ "precision": 0.19777777777777777
553
+ },
554
+ "generation": {
555
+ "rouge1": 0.3450429133503272,
556
+ "rougeL": 0.3450429133503272
557
+ }
558
+ },
559
+ "overall": {
560
+ "retrieval": {
561
+ "hit_rate": 0.8933333333333333,
562
+ "mrr": 0.8255833333333332,
563
+ "precision": 0.18983333333333335
564
+ },
565
+ "generation": {
566
+ "rouge1": 0.3895765060176714,
567
+ "rougeL": 0.38890983935100476
568
+ }
569
+ },
570
+ "judge": {
571
+ "judge_completeness_score": 0.0033333333333333335,
572
+ "judge_cons_w_real_world_score": 0.3416666666666667,
573
+ "judge_correctness_score": 0.8547579298831386,
574
+ "judge_factual_accuracy_score": 0.18333333333333332,
575
+ "judge_fluff_score": 1.29,
576
+ "judge_pres_details_score": 0.011666666666666667,
577
+ "judge_total_score": 0.44745965498052315
578
+ }
579
+ },
580
+ "metadata": {
581
+ "n_questions": 600,
582
+ "submit_timestamp": ""
583
+ }
584
+ }
585
+ }
586
+ },
587
+ "last_version": "1.34.1",
588
+ "n_questions": 600,
589
+ "date_title": "03 \u0438\u044e\u043b\u044f 2025"
590
  }