vivekvar
/

GSPO-DeepSeek-R1-Distill-Qwen-1.5B

Text Generation

reinforcement-learning

mathematical-reasoning

policy-optimization

sequence-level-training

Model card Files Files and versions

GSPO-DeepSeek-R1-Distill-Qwen-1.5B / tokenizer.json

Commit History

Upload folder using huggingface_hub

201b329
verified

vivekvar commited on Jul 31, 2025