Benchmark Datasets
updated
Benchmark
•
Updated
•
17.6k
•
422k
•
1.1k
Note
Lv 2.9
Viewer
•
Updated
•
81.4k
•
166k
•
74
Note
Lv 3.1
Viewer
•
Updated
•
1.21k
•
1.28k
•
45
Note
Lv 3.5
Viewer
•
Updated
•
6.51k
•
815
•
38
Note
Lv 4.3
Viewer
•
Updated
•
164
•
132k
•
361
Note
Lv 4.8
Viewer
•
Updated
•
1k
•
1.28k
•
27
Note
Lv 4.9
google-research-datasets/mbpp
Viewer
•
Updated
•
1.4k
•
1.75M
•
203
Note
Lv 5.1
Viewer
•
Updated
•
231k
•
290k
•
614
Note
Lv 6.0
Viewer
•
Updated
•
7.79k
•
235k
•
251
Note
Lv 6.2
edinburgh-dawg/mmlu-redux-2.0
Viewer
•
Updated
•
5.7k
•
6.27k
•
34
Note
Lv 6.3
Viewer
•
Updated
•
164
•
18.7k
•
18
Note
Lv 6.3
Viewer
•
Updated
•
13.8k
•
408
•
8
Note
Lv 6.5
Viewer
•
Updated
•
378
•
9.7k
•
15
Note
Lv 6.8
Viewer
•
Updated
•
541
•
46.2k
•
118
Note
Lv 7.1
Viewer
•
Updated
•
4.43k
•
3.61k
•
121
Note
Lv 7.5
Viewer
•
Updated
•
12.1k
•
68.2k
•
404
Note
Lv 7.9
livecodebench/code_generation
Viewer
•
Updated
•
121
•
3.45k
•
26
Note
Lv 8.3
Viewer
•
Updated
•
800
•
9
•
1
Note
Lv 8.6
princeton-nlp/SWE-bench_Verified
Viewer
•
Updated
•
500
•
571k
•
245
Note
Lv 9.0
Viewer
•
Updated
•
30
•
6.67k
•
12
Note
Lv 9.2
Viewer
•
Updated
•
30
•
22.6k
•
24
Note
Lv 9.3
Viewer
•
Updated
•
30
•
4.39k
•
7
Note
Lv 9.5
Viewer
•
Updated
•
1.25k
•
67.2k
•
339
Note
Lv 9.6
Viewer
•
Updated
•
2.5k
•
20.3k
•
652
Note
Lv 10.0