SaiManish123
/

Janus

Reinforcement Learning

Model card Files Files and versions

SaiManish123 commited on Apr 26

Commit

10fa2de

·

verified ·

1 Parent(s): 51ebc24

Replace SFT reward curve with baseline-anchored learning curve (tool-aware baseline → checkpoint-40 … final)

Files changed (1) hide show

sft_worldsplit_1_5b/reward_curve.png +0 -0

sft_worldsplit_1_5b/reward_curve.png CHANGED Viewed