RL&LLM Agent-强化学习 - a ziqi7 Collection

ziqi7 's Collections

RL&LLM Agent-强化学习

RL&LLM Agent-强化学习

updated Dec 23, 2025

Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

Paper • 2509.08721 • Published Sep 10, 2025 • 662

Note 20250926
Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

Paper • 2506.14245 • Published Jun 17, 2025 • 45