LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.53k
• 107
Viewer
• Updated • 164 • 209k
• 383
Viewer
• Updated • 541 • 105k
• 149
Viewer
• Updated • 7.79k • 407k
• 331
Viewer
• Updated • 81.4k • 210k
• 79
Benchmark
• Updated • 12.1k • 110k
• 468
Viewer
• Updated • 231k • 435k
• 715
Viewer
• Updated • 1.63k • 89.9k
• 278
Benchmark
• Updated • 17.6k • 824k
• 1.27k
Viewer
• Updated • 60k • 298k
• 169
Updated • 21.5k
• 64
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 7.32k
• 25
Viewer
• Updated • 34.6k • 1.24k
• 117
Viewer
• Updated • 95.4k • 2.91k
• 109
Viewer
• Updated • 4.05k • 280
• 13
Viewer
• Updated • 393k • 9.58k
• 521