openai/gsm8k
Benchmark • Updated • 17.6k • 943k • 1.42k
license: mit base_model:
参考simple_GROP项目训练的模型,GSM8K,训练了200个step,出现了一次however。 使用了3张A800 80G,训练了20多分钟
训练结果:
loss

GPU

memory

测试结果
demo_math_chat_gen(simple_GRPO_why)
demo_math_chat_gen(Qwen2.5-7B)
notice
在GSM8K上进行评估,Qwen2.5-7B的得分为85.4。原因可能是是https://github.com/open-compass/opencompass/issues/1878