Austin Xu's picture

Austin Xu

austinxu87

·

AI & ML interests

None yet

Organizations

None yet

upvoted a paper 5 months ago

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Paper • 2601.14652 • Published Jan 21 • 4

upvoted a collection 8 months ago

FARE

FARE are Salesforce AI Research's open multi-task evaluator models. • 3 items • Updated Mar 2 • 2

upvoted 3 papers 8 months ago

Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

Paper • 2510.17793 • Published Oct 20, 2025 • 4

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Paper • 2510.14240 • Published Oct 16, 2025 • 13

Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

Paper • 2510.13744 • Published Oct 15, 2025 • 6

upvoted a paper about 1 year ago

J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

Paper • 2505.13346 • Published May 19, 2025 • 2