HuangXinBa
/

GRPO

Text Generation

reinforcement-learning

instruction-tuning

chain-of-thought

Model card Files Files and versions

274 MB

Ctrl+K

Ctrl+K

1 contributor

History: 11 commits

HuangXinBa's picture

Add full model card (README.md)

3bbfa9a verified 12 months ago