LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.69k
• 106
Viewer
• Updated • 164 • 213k
• 383
Viewer
• Updated • 541 • 105k
• 149
Viewer
• Updated • 7.79k • 410k
• 331
Viewer
• Updated • 81.4k • 214k
• 79
Benchmark
• Updated • 12.1k • 111k
• 468
Viewer
• Updated • 231k • 436k
• 715
Viewer
• Updated • 1.63k • 91k
• 278
Benchmark
• Updated • 17.6k • 829k
• 1.27k
Viewer
• Updated • 60k • 302k
• 169
Updated • 22k
• 64
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 7.52k
• 25
Viewer
• Updated • 34.6k • 1.26k
• 117
Viewer
• Updated • 95.4k • 2.91k
• 109
Viewer
• Updated • 4.05k • 289
• 13
Viewer
• Updated • 393k • 9.54k
• 521