Post-Training - a difanjiao Collection

difanjiao 's Collections

Post-Training

updated Apr 3

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Paper • 2604.01591 • Published Apr 2 • 42