RegularizedSelfPlay
/

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter2

Model card Files Files and versions

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter2

Commit History

Upload tokenizer

a2245c3
verified

Sangwoong commited on Mar 29, 2025

Upload LlamaForCausalLM

9979198
verified

Sangwoong commited on Mar 29, 2025

initial commit

6f0dfec
verified

Sangwoong commited on Mar 28, 2025