| deepspeed --module openrlhf.cli.train_sft \ | |
| --max_len 4096 \ | |
| --dataset TIGER-Lab/WebInstructSub \ | |
| --input_key question \ | |
| --output_key answer \ | |
| --apply_chat_template \ | |
| --train_batch_size 1024 \ | |
| --micro_train_batch_size 8 \ | |
| --max_samples 300000 \ | |
| --pretrain Qwen/Qwen3-4B-Base \ | |
| --save_path ./checkpoint/qwen3-4b-webinstruct-sft \ | |
| --save_steps -1 \ | |
| --logging_steps 1 \ | |
| --eval_steps -1 \ | |
| --zero_stage 2 \ | |
| --max_epochs 1 \ | |
| --packing_samples \ | |
| --bf16 \ | |
| --flash_attn \ | |
| --learning_rate 5e-6 \ | |
| --gradient_checkpointing \ | |
| --use_wandb b9840f6192b6cbeaf06e22e6761aa88a9001f356 |