ai-forever commited on
Commit
d14ddbe
·
verified ·
1 Parent(s): f64bba4

Init results file.

Browse files
Files changed (1) hide show
  1. results.json +0 -166
results.json CHANGED
@@ -1,172 +1,6 @@
1
  {
2
  "items": {
3
  "1.11.0": {
4
- "e08710e0497a40a19335f00e33ff5169": {
5
- "model_name": "Qwen2.5-32B-Instruct",
6
- "timestamp": "2025-07-03T13:59:41",
7
- "config": {
8
- "embedding_model": "FRIDA_0",
9
- "retriever_type": "mmr",
10
- "retrieval_config": {
11
- "top_k": 5,
12
- "chunk_size": 500,
13
- "chunk_overlap": 100
14
- }
15
- },
16
- "metrics": {
17
- "simple": {
18
- "retrieval": {
19
- "hit_rate": 0.8066666666666666,
20
- "mrr": 0.8066666666666666,
21
- "precision": 0.8066666666666666
22
- },
23
- "generation": {
24
- "rouge1": 0.43398257014170327,
25
- "rougeL": 0.4312788664379995
26
- }
27
- },
28
- "cond": {
29
- "retrieval": {
30
- "hit_rate": 0.7866666666666666,
31
- "mrr": 0.7866666666666666,
32
- "precision": 0.7866666666666666
33
- },
34
- "generation": {
35
- "rouge1": 0.6388590785598907,
36
- "rougeL": 0.6388590785598907
37
- }
38
- },
39
- "set": {
40
- "retrieval": {
41
- "hit_rate": 0.74,
42
- "mrr": 0.74,
43
- "precision": 0.74
44
- },
45
- "generation": {
46
- "rouge1": 0.2568338011871614,
47
- "rougeL": 0.19417994362310756
48
- }
49
- },
50
- "mh": {
51
- "retrieval": {
52
- "hit_rate": 0.78,
53
- "mrr": 0.78,
54
- "precision": 0.78
55
- },
56
- "generation": {
57
- "rouge1": 0.5099486232721527,
58
- "rougeL": 0.5096152899388193
59
- }
60
- },
61
- "overall": {
62
- "retrieval": {
63
- "hit_rate": 0.7783333333333333,
64
- "mrr": 0.7783333333333333,
65
- "precision": 0.7783333333333333
66
- },
67
- "generation": {
68
- "rouge1": 0.45990601829022704,
69
- "rougeL": 0.44348329463995434
70
- }
71
- },
72
- "judge": {
73
- "judge_completeness_score": 1.315,
74
- "judge_cons_w_real_world_score": 1.5933333333333333,
75
- "judge_correctness_score": 1.6533333333333333,
76
- "judge_factual_accuracy_score": 1.4183333333333332,
77
- "judge_fluff_score": 1.7966666666666666,
78
- "judge_pres_details_score": 1.5266666666666666,
79
- "judge_total_score": 1.5505555555555555
80
- }
81
- },
82
- "metadata": {
83
- "n_questions": 600,
84
- "submit_timestamp": ""
85
- }
86
- },
87
- "9e772c1476f54f8d951c56a7641ad39e": {
88
- "model_name": "Qwen2.5-32B-Instruct",
89
- "timestamp": "2025-07-03T13:59:52",
90
- "config": {
91
- "embedding_model": "Qwen3-Embedding-8B_2",
92
- "retriever_type": "mmr",
93
- "retrieval_config": {
94
- "top_k": 20,
95
- "chunk_size": 500,
96
- "chunk_overlap": 100
97
- }
98
- },
99
- "metrics": {
100
- "simple": {
101
- "retrieval": {
102
- "hit_rate": 0.9533333333333334,
103
- "mrr": 0.8910634920634921,
104
- "precision": 0.16466666666666663
105
- },
106
- "generation": {
107
- "rouge1": 0.14963729657137595,
108
- "rougeL": 0.14963729657137595
109
- }
110
- },
111
- "cond": {
112
- "retrieval": {
113
- "hit_rate": 0.96,
114
- "mrr": 0.8960079365079364,
115
- "precision": 0.18133333333333335
116
- },
117
- "generation": {
118
- "rouge1": 0.2761723569541383,
119
- "rougeL": 0.2761723569541383
120
- }
121
- },
122
- "set": {
123
- "retrieval": {
124
- "hit_rate": 0.9533333333333334,
125
- "mrr": 0.8746825396825396,
126
- "precision": 0.16666666666666666
127
- },
128
- "generation": {
129
- "rouge1": 0.1298719612841915,
130
- "rougeL": 0.10841675633484674
131
- }
132
- },
133
- "mh": {
134
- "retrieval": {
135
- "hit_rate": 0.9666666666666667,
136
- "mrr": 0.8398306878306879,
137
- "precision": 0.14933333333333332
138
- },
139
- "generation": {
140
- "rouge1": 0.27951014007174413,
141
- "rougeL": 0.27951014007174413
142
- }
143
- },
144
- "overall": {
145
- "retrieval": {
146
- "hit_rate": 0.9583333333333334,
147
- "mrr": 0.8753961640211639,
148
- "precision": 0.1655
149
- },
150
- "generation": {
151
- "rouge1": 0.20879793872036248,
152
- "rougeL": 0.20343413748302627
153
- }
154
- },
155
- "judge": {
156
- "judge_completeness_score": 0.6533333333333333,
157
- "judge_cons_w_real_world_score": 0.9466666666666667,
158
- "judge_correctness_score": 1.275,
159
- "judge_factual_accuracy_score": 0.8083333333333333,
160
- "judge_fluff_score": 1.075,
161
- "judge_pres_details_score": 0.7916666666666666,
162
- "judge_total_score": 0.9250000000000002
163
- }
164
- },
165
- "metadata": {
166
- "n_questions": 600,
167
- "submit_timestamp": ""
168
- }
169
- },
170
  "d6ccf3ae4d874a1e8fd256e07a9189d7": {
171
  "model_name": "Qwen2.5-7B-Instruct",
172
  "timestamp": "2025-07-03T14:00:00",
 
1
  {
2
  "items": {
3
  "1.11.0": {
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  "d6ccf3ae4d874a1e8fd256e07a9189d7": {
5
  "model_name": "Qwen2.5-7B-Instruct",
6
  "timestamp": "2025-07-03T14:00:00",