source/eval/preference_opt_report.md · pathcosmos/frankenstallm at main

frankenstallm / source /eval /preference_opt_report.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 7 days ago

preview code

raw

history blame contribute delete

7.01 kB

	# Preference Optimization 조사 보고서

	작성일: 2026-02-26
	목적: SFT 이후 반복 퇴화(repetition degeneration) 해결을 위한 Preference Optimization 방법론 조사

	---

	## 1. 현재 환경

	\| 패키지 \| 버전 \| 비고 \|
	\|---------\|------\|------\|
	\| transformers \| 5.2.0 \| ✅ 설치됨 \|
	\| accelerate \| - \| 확인 필요 \|
	\| peft \| - \| 확인 필요 \|
	\| trl \| 미설치 \| ⚠️ `pip install trl` 필요 \|

	인프라: 8× B200 183GB
	모델: 커스텀 1B 파라미터 (Llama 계열 아키텍처, FP8 지원)
	최신 체크포인트:
	- Pretrain: `checkpoints/korean_1b_fp8_run1/checkpoint-0034000`
	- SFT: `checkpoints/korean_1b_sft/` (최종 체크포인트는 log 확인 필요)

	HF 변환: `scripts/convert_to_hf.py` 존재 ✅ — LlamaForCausalLM 포맷으로 변환 가능

	---

	## 2. ORPO vs DPO vs SimPO 비교

	### ORPO (Odds Ratio Preference Optimization)
	- 논문: Hong et al. 2024 (arXiv:2403.07691)
	- Reference model: 불필요 ✅
	- 핵심 아이디어: SFT loss + odds ratio 기반 preference loss를 단일 모델로 동시 학습
	- 메모리: SFT와 동일 (1× 모델만 필요)
	- 1B 모델 적용: 8× B200에서 매우 여유 (단일 GPU로도 가능)
	- 구현: TRL `ORPOTrainer` (trl >= 0.8.0)
	- 장점: 가장 간단, 메모리 효율적, SFT+preference 한 번에
	- 단점: DPO 대비 안정성 검증 사례 적음

	### DPO (Direct Preference Optimization)
	- 논문: Rafailov et al. 2023 (arXiv:2305.18290)
	- Reference model: 필요 (frozen copy, 2× 메모리)
	- 메모리: 1B 모델 × 2 ≈ 4GB (BF16) — 여전히 여유
	- 1B 모델 적용: 문제없음
	- 구현: TRL `DPOTrainer`
	- 장점: 가장 잘 검증됨, 안정적, 논문/사례 풍부
	- 단점: reference model 관리 필요

	### SimPO (Simple Preference Optimization)
	- 논문: Meng et al. 2024 (arXiv:2405.14734)
	- Reference model: 불필요
	- 핵심: Length-normalized implicit reward, margin 기반
	- 구현: TRL에 별도 Trainer 없음 → DPOTrainer의 `loss_type="simpo"` 로 사용 가능 (trl >= 0.9.0)
	- 장점: ORPO보다 성능 우수하다는 보고, reference-free
	- 단점: 상대적으로 새로운 방법

	### PPO (Proximal Policy Optimization) — 참고용
	- Reward model 별도 학습 필요 → 복잡도 높음
	- 1B 모델에는 과도한 오버헤드
	- 추천하지 않음 (데이터/인프라 대비 비효율)

	---

	## 3. 추천: ORPO → DPO 순서

	### 1순위: ORPO
	- Reference model 없음 → 메모리/구현 최소
	- SFT 체크포인트에서 바로 시작 가능
	- 반복 퇴화용 preference 데이터 제작이 간단

	### 2순위: DPO
	- ORPO로 부족하면 DPO로 전환
	- 1B 모델이라 reference model 부담 없음
	- 더 안정적이고 검증된 방법

	### 근거
	1B 모델 + 8× B200 환경에서는 DPO의 2× 메모리도 문제없지만,
	구현 속도와 단순성 면에서 ORPO가 먼저 시도할 가치가 있음.

	---

	## 4. 한국어 Preference 데이터셋

	### ✅ 접근 가능 (DPO/ORPO 형식 호환)

	\| 데이터셋 \| 형식 \| Downloads \| 적합도 \|
	\|----------\|------\|-----------\|--------\|
	\| kuotient/orca-math-korean-dpo-pairs \| `{system, question, chosen, rejected}` \| 111 \| ⭐⭐⭐ DPO/ORPO 즉시 사용 가능 \|
	\| ChuGyouk/argilla-distilabel-math-preference-dpo-korean \| DPO 형식 \| 10 \| ⭐⭐⭐ 수학 도메인 \|
	\| nayohan/preference-collection-ko-full \| `{response_A, response_B, orig_score_A, orig_score_B, orig_preference}` \| 30 \| ⭐⭐⭐ 변환 필요하지만 풍부 \|

	### ✅ 접근 가능 (SFT 형식, preference 변환 필요)

	\| 데이터셋 \| 형식 \| Downloads \|
	\|----------\|------\|-----------\|
	\| jojo0217/korean_rlhf_dataset \| `{instruction, input, output}` \| 54 \|
	\| FreedomIntelligence/alpaca-gpt4-korean \| SFT 형식 \| 158 \|
	\| nlpai-lab/kullm-v2 \| SFT 형식 \| 730 \|

	### ❌ 접근 불가
	maywell/ko_Ultrafeedback, HAERAE-HUB/KoRA, heegyu/OpenOrca-ko, Bongseok/ko-DPO-v0.1 — 모두 404

	### 💡 자체 Preference 데이터 생성 전략 (반복 퇴화 특화)

	가장 효과적인 방법: 현재 모델의 반복 출력을 rejected로 활용

	```
	{
	"prompt": "서울의 유명한 관광지를 추천해주세요.",
	"chosen": "서울의 대표적인 관광지로는 경복궁, 북촌한옥마을, 남산타워...",
	"rejected": "서울의 관광지로는 경복궁이 있습니다. 경복궁이 있습니다. 경복궁이 있습니다..."
	}
	```

	1. 현재 SFT 모델로 다양한 프롬프트에 대해 생성 (temperature 다양하게)
	2. 반복이 발생한 응답 → rejected
	3. 정상 응답 (또는 GPT-4로 생성) → chosen
	4. 500~2000개만으로도 효과적

	---

	## 5. HF 변환

	`scripts/convert_to_hf.py` 가 이미 존재하며 LlamaForCausalLM 포맷으로 변환:
	- FP8 / BF16 체크포인트 모두 지원
	- 출력: `config.json`, `model.safetensors`, `tokenizer.json` 등

	변환 명령:
	```bash
	cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang
	python scripts/convert_to_hf.py \
	--checkpoint checkpoints/korean_1b_sft/checkpoint-XXXXX \
	--output outputs/hf_for_orpo \
	--tokenizer tokenizer/korean_sp/tokenizer.json
	```

	변환 후 `AutoModelForCausalLM.from_pretrained("outputs/hf_for_orpo")` 로 로드 → TRL ORPOTrainer 사용 가능.

	---

	## 6. 반복 퇴화 해결에 ORPO가 효과적인 이유

	### 메커니즘
	ORPO의 odds ratio loss는 다음을 학습:
	- chosen 응답의 생성 확률 ↑ (정상적이고 다양한 응답)
	- rejected 응답의 생성 확률 ↓ (반복적인 응답)

	반복 퇴화는 특정 토큰 시퀀스의 확률이 자기강화(self-reinforcing)되면서 발생.
	ORPO는 이 패턴 자체를 직접적으로 페널티:

	1. 반복 패턴 = rejected → 모델이 반복 시퀀스에 높은 확률을 부여하는 것을 직접 억제
	2. 다양한 정상 응답 = chosen → 다양한 토큰 분포를 유도
	3. SFT loss와 동시 학습 → 일반 성능 유지하면서 반복 억제

	### 왜 SFT만으로 부족한가
	- SFT는 "좋은 응답을 따라하라"만 학습
	- "나쁜 응답을 피하라"는 신호가 없음
	- Preference optimization은 "이것은 하지 마라"를 명시적으로 학습

	### 예상 효과
	- 500~2000개의 반복-vs-정상 preference 쌍으로도 반복 퇴화 대폭 감소 가능
	- repetition penalty 같은 디코딩 트릭보다 근본적 해결
	- 일반 성능 저하 최소 (SFT loss가 함께 작용)

	---

	## 7. 실행 계획

	```
	1. TRL 설치: pip install trl --break-system-packages (또는 venv)
	2. HF 변환: python scripts/convert_to_hf.py --checkpoint ... --output outputs/hf_for_orpo
	3. Preference 데이터 준비:
	a. kuotient/orca-math-korean-dpo-pairs 다운로드 (즉시 사용 가능)
	b. 자체 반복 퇴화 데이터 생성 (eval/generate.py 활용)
	4. ORPO 학습: python train/orpo.py (아래 스크립트)
	5. 평가: 반복률 측정 + perplexity
	```

	ORPO 학습 스크립트: `train/orpo.py` 참조