MrLight
/

general-reasoner-ckpt

Model card Files Files and versions

general-reasoner-ckpt / train_sft_webinstruct.sh

MrLight's picture

Upload folder using huggingface_hub

09b6972 verified 7 months ago

history blame contribute delete

628 Bytes

	deepspeed --module openrlhf.cli.train_sft \
	--max_len 4096 \
	--dataset TIGER-Lab/WebInstructSub \
	--input_key question \
	--output_key answer \
	--apply_chat_template \
	--train_batch_size 1024 \
	--micro_train_batch_size 8 \
	--max_samples 300000 \
	--pretrain Qwen/Qwen3-4B-Base \
	--save_path ./checkpoint/qwen3-4b-webinstruct-sft \
	--save_steps -1 \
	--logging_steps 1 \
	--eval_steps -1 \
	--zero_stage 2 \
	--max_epochs 1 \
	--packing_samples \
	--bf16 \
	--flash_attn \
	--learning_rate 5e-6 \
	--gradient_checkpointing \
	--use_wandb b9840f6192b6cbeaf06e22e6761aa88a9001f356