gavinqiangli
/

lora_GRPO_llama_8b_reasoning

text-generation-inference

Model card Files Files and versions

lora_GRPO_llama_8b_reasoning

353 MB

1 contributor

History: 4 commits

gavinqiangli's picture

Upload model trained with Unsloth

11e7703 verified 12 months ago