Janus / sft_worldsplit_1_5b

1.32 GB

Ctrl+K

Replace SFT reward curve with baseline-anchored learning curve (tool-aware baseline → checkpoint-40 … final)

10fa2de verified 27 days ago