RegularizedSelfPlay
/

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter1

Model card Files Files and versions

sppo_reversekl-0.5-Llama-3-8B-Instruct-RSPO-Iter1

Commit History

Upload tokenizer

94f1aa8
verified

Sangwoong commited on Mar 29, 2025

Upload LlamaForCausalLM

67affb1
verified

Sangwoong commited on Mar 29, 2025

initial commit

adc447b
verified

Sangwoong commited on Mar 28, 2025