LLM evals and benchmark datasets
updated
Viewer
• Updated • 8.11k • 8.69k
• 107
Viewer
• Updated • 164 • 206k
• 383
Viewer
• Updated • 541 • 107k
• 149
Viewer
• Updated • 7.79k • 410k
• 331
Viewer
• Updated • 81.4k • 213k
• 79
Benchmark
• Updated • 12.1k • 116k
• 469
Viewer
• Updated • 231k • 447k
• 716
Viewer
• Updated • 1.63k • 92.3k
• 278
Benchmark
• Updated • 17.6k • 831k
• 1.28k
Viewer
• Updated • 60k • 300k
• 169
Updated • 21.5k
• 64
HuggingFaceH4/mt_bench_prompts
Viewer
• Updated • 80 • 7.14k
• 25
Viewer
• Updated • 34.6k • 1.31k
• 117
Viewer
• Updated • 95.4k • 3.07k
• 109
Viewer
• Updated • 4.05k • 280
• 13
Viewer
• Updated • 393k • 9.87k
• 521