IS-SFT

Paper • 2602.01058 • Published Feb 1 • 44

authored a paper about 2 months ago

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

shizhuo2

submitted a paper to Daily Papers 3 months ago

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Paper • 2602.01058 • Published Feb 1 • 44

updated a model 3 months ago

is-sft-271828/synlogic_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_8

4B • Updated Jan 27 • 4

published a model 3 months ago

is-sft-271828/synlogic_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_8

4B • Updated Jan 27 • 4

updated a model 3 months ago

is-sft-271828/math-offline-models

Updated Jan 27

published a model 3 months ago

is-sft-271828/math-offline-models

Updated Jan 27

updated a model 3 months ago

is-sft-271828/synlogic_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_4

published a model 3 months ago

is-sft-271828/synlogic_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_4

updated a model 3 months ago

is-sft-271828/math_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_8

published a model 3 months ago

is-sft-271828/math_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_8

updated a model 3 months ago

is-sft-271828/math_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_4

published a model 3 months ago

is-sft-271828/math_grpo_qwen3-4b-base-qwen3-8b-3e-5-seq-seqlen_8192_chunksize_4

updated 2 models 3 months ago

is-sft-271828/grpo-is-token-math

is-sft-271828/qwen3-1.7b-math-offline

published 2 models 3 months ago

is-sft-271828/qwen3-1.7b-math-offline

is-sft-271828/grpo-is-token-math

updated a model 3 months ago

is-sft-271828/grpo_qwen3-8b-base-qwen3-8b-3e-5-seq-seqlen_8192

8B • Updated Jan 26 • 4

published a model 3 months ago

is-sft-271828/grpo_qwen3-8b-base-qwen3-8b-3e-5-seq-seqlen_8192

8B • Updated Jan 26 • 4

updated a model 3 months ago

is-sft-271828/is_seq_qwen3-8b-base-qwen3-8b-3e-5-seq-seqlen_8192

8B • Updated Jan 25 • 1