source/scripts/launch_3b_orpo.sh · pathcosmos/frankenstallm at main

frankenstallm / source /scripts /launch_3b_orpo.sh

Upload folder using huggingface_hub (#17)

48ecd01 30 days ago

6.6 kB

	#!/usr/bin/env bash
	# =============================================================================
	# launch_3b_orpo.sh — 8-GPU ORPO fine-tuning launcher for Korean 3B LLM
	#
	# Usage:
	# bash scripts/launch_3b_orpo.sh # 기본 실행
	# bash scripts/launch_3b_orpo.sh --max_steps 200 # 빠른 테스트
	# RUN_NAME=my_orpo bash scripts/launch_3b_orpo.sh # 이름 지정
	#
	# 기반 모델 : eval/outputs/hf_3b_sft_best (SFT v1 best)
	# 데이터 : data/preference/combined_preference.jsonl
	# 출력 : checkpoints/korean_3b_orpo_v1/
	# 로그 : checkpoints/korean_3b_orpo_v1/train.log
	#
	# 체크포인트 크기 예상:
	# model weights: ~6GB (bf16)
	# optimizer states: ~24GB
	# 총 ~30GB/개 × max 5개 = 150GB
	# =============================================================================
	set -euo pipefail

	# ---- Configurable defaults --------------------------------------------------
	RUN_NAME="${RUN_NAME:-korean_3b_orpo_v1}"
	BASE_MODEL="${BASE_MODEL:-eval/outputs/hf_3b_sft_best}"
	DATA_PATH="${DATA_PATH:-data/preference/combined_preference.jsonl}"
	OUTPUT_DIR="checkpoints/${RUN_NAME}"
	CKPT_DIR="checkpoints/${RUN_NAME}"
	LOG_FILE="${CKPT_DIR}/train.log"
	NPROC=8
	MASTER_PORT="${MASTER_PORT:-29502}"

	# ORPO 하이퍼파라미터
	BATCH_SIZE=4
	GRAD_ACCUM=4
	LR=1.2e-5
	BETA=0.25
	EPOCHS=2
	MAX_LENGTH=1536
	WARMUP_RATIO=0.05
	WEIGHT_DECAY=0.01
	EVAL_SPLIT_RATIO=0.05
	EVAL_STEPS=500
	EARLY_STOPPING_PATIENCE=3
	SAVE_TOTAL_LIMIT=5
	SEED=42

	EXTRA_ARGS="$@"

	# ---- B200 / NVSwitch single-node NCCL tuning --------------------------------
	# (launch_3b_pretrain.sh와 동일한 NCCL 설정 유지)
	export NCCL_IB_DISABLE=1
	export NCCL_PROTO=Simple
	export NCCL_MIN_NCHANNELS=16
	export NCCL_MAX_NCHANNELS=16
	# ORPO forward-backward 패스는 pretrain보다 메모리 변동이 크므로 버퍼 128MB 유지
	export NCCL_BUFFSIZE=134217728
	export OMP_NUM_THREADS=9
	export MKL_NUM_THREADS=9
	# OOM 방지: 메모리 단편화 완화 (ORPO는 chosen/rejected 동시 forward → 메모리 민감)
	export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
	# P2P NVLink 직접 통신 활성화
	export NCCL_P2P_LEVEL=NVL
	# Ring + Tree 병행 (3B gradient 크기 기준)
	export NCCL_ALGO=Ring,Tree

	export PYTHONWARNINGS="ignore::UserWarning:torch.library"

	cd "$(dirname "$0")/.."

	# ---- Pre-flight checks ------------------------------------------------------
	if [[ ! -d "${BASE_MODEL}" ]]; then
	echo "ERROR: 기반 모델 디렉토리 없음: ${BASE_MODEL}"
	echo " SFT 완료 후 HF 포맷으로 변환했는지 확인하세요."
	echo " 예: python scripts/convert_to_hf.py --checkpoint <sft_ckpt> --output ${BASE_MODEL}"
	exit 1
	fi

	if [[ ! -f "${DATA_PATH}" ]]; then
	echo "ERROR: 학습 데이터 없음: ${DATA_PATH}"
	echo " 먼저 데이터 통합 스크립트를 실행하세요:"
	echo " python data/prepare_preference_combined.py"
	exit 1
	fi

	if [[ ! -f "train/orpo.py" ]]; then
	echo "ERROR: train/orpo.py 없음"
	exit 1
	fi

	# GPU 메모리 체크
	GPU_MEM=$(nvidia-smi --query-gpu=memory.total --format=csv,noheader,nounits 2>/dev/null \| head -1 \|\| echo "0")
	if [[ "$GPU_MEM" -gt 0 && "$GPU_MEM" -lt 40000 ]]; then
	echo "WARNING: GPU 메모리 ${GPU_MEM}MB < 40GB. ORPO 3B 학습에 부족할 수 있음."
	fi

	# 중복 프로세스 방지
	EXISTING_PID=$(pgrep -f "orpo.py.*${RUN_NAME}" 2>/dev/null \| head -1 \|\| true)
	if [[ -n "$EXISTING_PID" ]]; then
	echo "ERROR: 이미 ORPO 프로세스 실행 중 (PID: ${EXISTING_PID})"
	echo " kill ${EXISTING_PID} 로 먼저 종료하세요."
	exit 1
	fi

	# 디스크 여유 확인 (최소 200GB)
	AVAIL_KB=$(df /PROJECT 2>/dev/null \| awk 'NR==2{print $4}' \|\| echo "0")
	if [[ -n "$AVAIL_KB" && "$AVAIL_KB" -gt 0 && "$AVAIL_KB" -lt 209715200 ]]; then
	AVAIL_GB=$(echo "scale=1; $AVAIL_KB / 1048576" \| bc 2>/dev/null \|\| echo "?")
	echo "WARNING: /PROJECT 여유 ${AVAIL_GB}GB < 200GB. 체크포인트 저장 공간 부족 가능."
	fi

	mkdir -p "${CKPT_DIR}" "${OUTPUT_DIR}"

	# ---- 데이터 레코드 수 확인 --------------------------------------------------
	DATA_LINES=$(wc -l < "${DATA_PATH}" 2>/dev/null \|\| echo "?")
	echo " 학습 데이터 레코드 수: ${DATA_LINES}"

	# ---- 유효 배치 크기 계산 ----------------------------------------------------
	EFF_BATCH=$((BATCH_SIZE * NPROC * GRAD_ACCUM))

	echo "=================================================================="
	echo " Korean 3B LLM ORPO Fine-Tuning"
	echo " Run name : ${RUN_NAME}"
	echo " Base model : ${BASE_MODEL}"
	echo " Data : ${DATA_PATH} (${DATA_LINES} records)"
	echo " Output dir : ${OUTPUT_DIR}"
	echo " CKPT dir : ${CKPT_DIR}"
	echo " Log file : ${LOG_FILE}"
	echo " Epochs : ${EPOCHS}"
	echo " LR : ${LR}"
	echo " Beta (ORPO) : ${BETA}"
	echo " Batch : ${BATCH_SIZE} (local) × ${NPROC} GPU × ${GRAD_ACCUM} accum = ${EFF_BATCH}"
	echo " Max length : ${MAX_LENGTH}"
	echo " Weight decay : ${WEIGHT_DECAY}"
	echo " Eval steps : ${EVAL_STEPS}"
	echo " Early stop : patience=${EARLY_STOPPING_PATIENCE}"
	echo " Started : $(date)"
	echo "=================================================================="

	torchrun \
	--nproc_per_node=${NPROC} \
	--master_port=${MASTER_PORT} \
	train/orpo.py \
	--model_path "${BASE_MODEL}" \
	--custom_data_path "${DATA_PATH}" \
	--output_dir "${OUTPUT_DIR}" \
	--epochs ${EPOCHS} \
	--lr ${LR} \
	--beta ${BETA} \
	--batch_size ${BATCH_SIZE} \
	--gradient_accumulation_steps ${GRAD_ACCUM} \
	--max_length ${MAX_LENGTH} \
	--weight_decay ${WEIGHT_DECAY} \
	--eval_split_ratio ${EVAL_SPLIT_RATIO} \
	--eval_steps ${EVAL_STEPS} \
	--early_stopping_patience ${EARLY_STOPPING_PATIENCE} \
	--save_total_limit ${SAVE_TOTAL_LIMIT} \
	${EXTRA_ARGS} \
	2>&1 \| tee "${LOG_FILE}" \
	\| grep -v "UserWarning" \
	\| grep -v "Warning only once" \
	\| grep -v "Overriding a previously" \
	\| grep -v "dispatch key:" \
	\| grep -v "previous kernel:" \
	\| grep -v "new kernel:" \
	\| grep -v "operator: flash_attn" \
	\| grep -v "registered at /usr/local" \
	\| grep -v "self.m.impl"

	EXIT_CODE=$?
	echo "=================================================================="
	echo " Done : $(date)"
	echo " Exit code: ${EXIT_CODE}"
	if [[ "${EXIT_CODE}" -eq 0 ]]; then
	echo " 모델 저장 위치: ${OUTPUT_DIR}"
	fi
	echo "=================================================================="
	exit $EXIT_CODE