| !deepspeed kto.py \ | |
| --save_path '/root/chai/kto' \ | |
| --save_steps 50 \ | |
| --logging_steps 10 \ | |
| --eval_steps -1 \ | |
| --train_batch_size 256 \ | |
| --micro_train_batch_size 1 \ | |
| --pretrain '/root/chai/mistralai/Mistral-Nemo-Instruct-2407' \ | |
| --bf16 \ | |
| --max_epochs 1 \ | |
| --max_len 1348 \ | |
| --zero_stage 2 \ | |
| --learning_rate 5e-7 \ | |
| --dataset '/root/chai/1_kto' \ | |
| --input_key instruction \ | |
| --output_key response \ | |
| --label_key score \ | |
| --flash_attn \ | |
| --beta 0.1 \ | |
| --max_samples 100000 \ | |
| --gradient_checkpointing \ | |
| --lora_rank 16 \ | |
| --lora_alpha 32 \ | |
| --lora_dropout 0.05 | |
| # --use_ms False | |
| # Dylan2048/ultrafeedback-unpaired-preferences |