vivekvar
/

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Text Generation

reinforcement-learning

mathematical-reasoning

policy-optimization

sequence-level-training

Model card Files Files and versions

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

7.12 GB

1 contributor

History: 4 commits

vivekvar's picture

Update README.md

3840067 verified 7 months ago