LLM evals and benchmark datasets
updated
Viewer
•
Updated
•
8.11k
•
8.43k
•
102
Viewer
•
Updated
•
164
•
109k
•
357
Viewer
•
Updated
•
541
•
39.7k
•
112
Viewer
•
Updated
•
7.79k
•
242k
•
234
Viewer
•
Updated
•
81.4k
•
150k
•
73
Viewer
•
Updated
•
12.1k
•
62.7k
•
398
Viewer
•
Updated
•
231k
•
314k
•
599
Viewer
•
Updated
•
1.63k
•
64.3k
•
268
Viewer
•
Updated
•
17.6k
•
440k
•
1.02k
Viewer
•
Updated
•
60k
•
193k
•
155
Updated
•
20.3k
•
61
HuggingFaceH4/mt_bench_prompts
Viewer
•
Updated
•
80
•
3.44k
•
21
Viewer
•
Updated
•
34.6k
•
1.7k
•
114
Viewer
•
Updated
•
95.4k
•
4.52k
•
92
Viewer
•
Updated
•
4.05k
•
996
•
12
Viewer
•
Updated
•
393k
•
12.8k
•
513