gemma-9b-sft / README.md

Create README.md

1b400b6 verified 3 days ago

256 Bytes

Trained on 1600 samples of LM-SYS conversational data having undergone the REFLECT process.

Official finetuned model using REFLECT generated for analyzing trend in KL Divergence against Winrate as training progresses.