anujathore
/

DeepSeek-R1-Distill-Qwen-1.5B-GRPO

Model card Files Files and versions

DeepSeek-R1-Distill-Qwen-1.5B-GRPO / prev_models /checkpoint-10000

28.4 GB

Ctrl+K

Ctrl+K

1 contributor

History: 1 commit

anujathore's picture

Training in progress, step 500

8d790ce verified about 1 year ago