Benchmark - a JuanRafap Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

JuanRafap 's Collections

Fondation model

Benchmark

updated 4 days ago

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Paper • 2505.13227 • Published May 19, 2025 • 46
facebook/natural_reasoning

Viewer • Updated Feb 21, 2025 • 1.15M • 1.93k • 573
nvidia/OpenMathReasoning

Viewer • Updated May 27, 2025 • 5.68M • 17.4k • 467
Search Arena: Analyzing Search-Augmented LLMs

Paper • 2506.05334 • Published Jun 5, 2025 • 19
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Paper • 2506.07977 • Published Jun 9, 2025 • 40
google/frames-benchmark

Viewer • Updated Oct 15, 2024 • 824 • 18.6k • 262
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Paper • 2506.11928 • Published Jun 13, 2025 • 25
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18, 2025 • 12
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published Jun 16, 2025 • 94
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Paper • 2506.11763 • Published Jun 13, 2025 • 74
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Paper • 2506.09049 • Published Jun 10, 2025 • 37
yandex/alchemist

Viewer • Updated Jun 6, 2025 • 3.35k • 87 • 53
Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

Paper • 2507.02694 • Published Jul 3, 2025 • 19
REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

Paper • 2507.10541 • Published Jul 14, 2025 • 30
HuggingFaceTB/SmolLM3-3B-Base

Text Generation • 3B • Updated Aug 14, 2025 • 232k • 163
AgentsNet: Coordination and Collaborative Reasoning in Multi-Agent LLMs

Paper • 2507.08616 • Published Jul 11, 2025 • 15
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations

Paper • 2507.13302 • Published Jul 17, 2025 • 6
SWE-Perf/SWE-Perf

Viewer • Updated Aug 5, 2025 • 140 • 249 • 7
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published Jul 17, 2025 • 20
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Paper • 2507.11527 • Published Jul 15, 2025 • 35
Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Paper • 2507.10787 • Published Jul 14, 2025 • 13
WideSearch: Benchmarking Agentic Broad Info-Seeking

Paper • 2508.07999 • Published Aug 11, 2025 • 113
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Paper • 2508.13186 • Published Aug 14, 2025 • 20
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Paper • 2508.16402 • Published Aug 22, 2025 • 14
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

Paper • 2508.14704 • Published Aug 20, 2025 • 43
NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Paper • 2508.14444 • Published Aug 20, 2025 • 51
UQ: Assessing Language Models on Unsolved Questions

Paper • 2508.17580 • Published Aug 25, 2025 • 15
T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

Paper • 2508.17472 • Published Aug 24, 2025 • 26
ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

Paper • 2508.15804 • Published Aug 14, 2025 • 15
MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

Paper • 2508.20453 • Published Aug 28, 2025 • 63
DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

Paper • 2509.01396 • Published Sep 1, 2025 • 58
Salesforce/CRMArenaPro

Viewer • Updated Jul 9, 2025 • 8.61k • 685 • 17
TIGER-Lab/MMLU-Pro

Benchmark • Updated May 2 • 12.1k • 162k • 488
On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

Paper • 2509.04013 • Published Sep 4, 2025 • 4
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Paper • 2509.07968 • Published Sep 9, 2025 • 14
LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

Paper • 2509.09614 • Published Sep 11, 2025 • 7
GenExam: A Multidisciplinary Text-to-Image Exam

Paper • 2509.14232 • Published Sep 17, 2025 • 22
ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark

Paper • 2501.01290 • Published Jan 2, 2025 • 1
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

Paper • 2509.24002 • Published Sep 28, 2025 • 180
OceanGym: A Benchmark Environment for Underwater Embodied Agents

Paper • 2509.26536 • Published Sep 30, 2025 • 36
PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs

Paper • 2510.09507 • Published Oct 10, 2025 • 12
PICABench: How Far Are We from Physically Realistic Image Editing?

Paper • 2510.17681 • Published Oct 20, 2025 • 65
LiveTradeBench: Seeking Real-World Alpha with Large Language Models

Paper • 2511.03628 • Published Nov 5, 2025 • 13
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Paper • 2511.15065 • Published Nov 19, 2025 • 78
M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

Paper • 2511.17729 • Published Nov 21, 2025 • 17
Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

Paper • 2511.20561 • Published Nov 25, 2025 • 33
RefineBench: Evaluating Refinement Capability of Language Models via Checklists

Paper • 2511.22173 • Published Nov 27, 2025 • 15
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Paper • 2512.04324 • Published Dec 3, 2025 • 159
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

Paper • 2512.12730 • Published Dec 14, 2025 • 52
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value

Paper • 2512.14051 • Published Dec 16, 2025 • 47
MMGR: Multi-Modal Generative Reasoning

Paper • 2512.14691 • Published Dec 16, 2025 • 121
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Paper • 2512.19432 • Published Dec 22, 2025 • 13
FrontierCS: Evolving Challenges for Evolving Intelligence

Paper • 2512.15699 • Published Dec 17, 2025 • 5
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

Paper • 2512.15560 • Published Dec 17, 2025 • 25
Benchmark^2: Systematic Evaluation of LLM Benchmarks

Paper • 2601.03986 • Published Jan 7 • 34
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Paper • 2602.11964 • Published Feb 12 • 13
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Paper • 2602.15112 • Published Feb 16 • 21
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Paper • 2602.12670 • Published Feb 13 • 62
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Paper • 2410.07095 • Published Oct 9, 2024 • 8
RubricBench: Aligning Model-Generated Rubrics with Human Standards

Paper • 2603.01562 • Published Mar 2 • 64
SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Paper • 2603.03823 • Published Mar 4 • 7
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Paper • 2602.23166 • Published Feb 26 • 45
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Paper • 2603.12180 • Published Mar 12 • 65
GEBench: Benchmarking Image Generation Models as GUI Environments

Paper • 2602.09007 • Published Feb 9 • 39
MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Paper • 2603.14145 • Published Mar 14 • 15
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

Paper • 2603.14465 • Published Mar 15 • 23
LMEB: Long-horizon Memory Embedding Benchmark

Paper • 2603.12572 • Published Mar 13 • 74
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Paper • 2603.08262 • Published Mar 9 • 42
nvidia/SPEED-Bench

Viewer • Updated Apr 28 • 8.56k • 8.07k • 34
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Paper • 2603.24755 • Published Mar 25 • 30
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Paper • 2603.28407 • Published Mar 30 • 72
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Paper • 2604.03016 • Published Apr 3 • 37
Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Paper • 2604.01128 • Published Apr 1 • 15
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Paper • 2604.02368 • Published Mar 27 • 12
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Paper • 2604.02947 • Published Apr 3 • 19
DeonticBench: A Benchmark for Reasoning over Rules

Paper • 2604.04443 • Published Apr 6 • 9
CocoaBench: Evaluating Unified Digital Agents in the Wild

Paper • 2604.11201 • Published Apr 13 • 37
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Paper • 2604.09557 • Published Feb 10 • 12
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Paper • 2604.14683 • Published Apr 16 • 36
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

Paper • 2605.04018 • Published May 5 • 41
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

Paper • 2606.17861 • Published 10 days ago • 56
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Paper • 2606.20517 • Published 8 days ago • 58

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs