Alex Li

alexyogo22

·

AlexanderYogurt

AI & ML interests

Agents

Organizations

upvoted 2 papers 10 months ago

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Paper • 2509.08755 • Published Sep 10, 2025 • 56

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Paper • 2509.02547 • Published Sep 2, 2025 • 239

upvoted a paper 11 months ago

Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published Jul 26, 2025 • 161

upvoted a paper 12 months ago

A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8, 2025 • 95

upvoted a paper about 1 year ago

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18, 2025 • 146

upvoted a collection about 1 year ago

Qwen3

84 items • Updated Dec 31, 2025 • 1.82k

upvoted 2 articles over 1 year ago

Article

DABStep: Data Agent Benchmark for Multi-step Reasoning

+5

eggie5, martinigoyanes, frisokingma, andreumora, lvwerra, thomwolf, m-ric

•

Feb 4, 2025

• 130

Article

Open-R1: a fully open reproduction of DeepSeek-R1

+1

eliebak, lvwerra, lewtun

•

Jan 28, 2025

• 890