RegularizedSelfPlay
/

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter3

Model card Files Files and versions

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter3

Commit History

Upload tokenizer

b9ac9e0
verified

Sangwoong commited on Mar 29, 2025

Upload LlamaForCausalLM

dc8eaa7
verified

Sangwoong commited on Mar 29, 2025

initial commit

db2d314
verified

Sangwoong commited on Mar 28, 2025