Sean13
/

llama-8b-instruct-rdpo-full-multipref

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

llama-8b-instruct-rdpo-full-multipref / config.json

Commit History

Model save

ac93571
verified

Sean13 commited on Nov 20, 2025

Training in progress, step 229

cba50ff
verified

Sean13 commited on Nov 16, 2025

Training in progress, step 229

6ebdbf1
verified

Sean13 commited on Nov 16, 2025