configs/orpo_3b_1gpu.yaml · pathcosmos/EVAFRILL-Mo-3B at main

EVAFRILL-Mo-3B / configs /orpo_3b_1gpu.yaml

Upload folder using huggingface_hub

29fc577 verified about 1 month ago

730 Bytes

	# EVAFRILL-Mo 3B ORPO — Single GPU (H100 MIG 3g.40gb, 42.3GB VRAM)
	#
	# Base model: checkpoints/3b_final/checkpoint-0319772 (Pretrained, NOT SFT)
	# Method: ORPO (SFT + Odds Ratio Preference) with LoRA
	#
	# [설계 근거]
	# - ORPO는 SFT+정렬을 동시에 학습 → pretrained 모델에서 시작
	# - Reference model 불필요 → DPO보다 VRAM 절약
	# - LoRA rank=32: base(6GB) + LoRA(0.3GB) + optim(0.2GB) + act(~8GB) ≈ 15GB
	# - eff_batch: 1 × 16 grad_accum = 16

	train:
	max_steps: 10000
	batch_size: 1
	grad_accum_steps: 16
	lr: 5.0e-6
	weight_decay: 0.01
	warmup_steps: 500
	max_length: 1024
	lambda_or: 1.0

	use_lora: true
	lora_rank: 32
	lora_alpha: 64

	save_interval: 1000
	log_interval: 10