RTO-RL
/

Llama3-8B-RTO

Model card Files Files and versions

zkshan2002 commited on Dec 29, 2024

Commit

71c49be

·

verified ·

1 Parent(s): 2e81574

Create README.md

Files changed (1) hide show

README.md +10 -0

README.md ADDED Viewed

	@@ -0,0 +1,10 @@

+---
+datasets:
+- weqweasdas/ultra_train
+base_model:
+- OpenRLHF/Llama-3-8b-sft-mixture
+reward_model:
+- zkshan2002/r1B-sft_tokenizer
+dpo_model:
+- zkshan2002/DPO-uf-llama3-8B-OpenRLHF
+---