LLM - a czy020202 Collection

czy020202 's Collections

LLM

updated Feb 3

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Paper • 2602.01058 • Published Feb 1 • 45