payelb
/

aligned_llama32_1b_ultrafeedback_fixed1k_baseline

Model card Files Files and versions

aligned_llama32_1b_ultrafeedback_fixed1k_baseline

Commit History

Add PPO value head weights (value_head.pt)

9781bcc
verified

payelb commited on Jan 16

Upload tokenizer

5c71ed8
verified

payelb commited on Jan 16

Upload LlamaForCausalLM

92f2751
verified

payelb commited on Jan 16

initial commit

ba6b11a
verified

payelb commited on Jan 16