Sean13
/

llama-8b-instruct-rdpo-full-multipref-0.80

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

llama-8b-instruct-rdpo-full-multipref-0.80

Commit History

Model save

4d72800
verified

Sean13 commited on Nov 20, 2025

Training in progress, step 229

b993e1e
verified

Sean13 commited on Nov 20, 2025

initial commit

a600dcd
verified

Sean13 commited on Nov 20, 2025