frankenstallm / source /eval /preference_opt_report.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 7 days ago

preview code

raw

history blame contribute delete

7.01 kB

Preference Optimization 조사 보고서

작성일: 2026-02-26 목적: SFT 이후 반복 퇴화(repetition degeneration) 해결을 위한 Preference Optimization 방법론 조사

1. 현재 환경

패키지	버전	비고
transformers	5.2.0	✅ 설치됨
accelerate	-	확인 필요
peft	-	확인 필요
trl	미설치	⚠️ `pip install trl` 필요

인프라: 8× B200 183GB 모델: 커스텀 1B 파라미터 (Llama 계열 아키텍처, FP8 지원) 최신 체크포인트:

Pretrain: checkpoints/korean_1b_fp8_run1/checkpoint-0034000
SFT: checkpoints/korean_1b_sft/ (최종 체크포인트는 log 확인 필요)

HF 변환: scripts/convert_to_hf.py 존재 ✅ — LlamaForCausalLM 포맷으로 변환 가능

2. ORPO vs DPO vs SimPO 비교

ORPO (Odds Ratio Preference Optimization)

논문: Hong et al. 2024 (arXiv:2403.07691)
Reference model: 불필요 ✅
핵심 아이디어: SFT loss + odds ratio 기반 preference loss를 단일 모델로 동시 학습
메모리: SFT와 동일 (1× 모델만 필요)
1B 모델 적용: 8× B200에서 매우 여유 (단일 GPU로도 가능)
구현: TRL ORPOTrainer (trl >= 0.8.0)
장점: 가장 간단, 메모리 효율적, SFT+preference 한 번에
단점: DPO 대비 안정성 검증 사례 적음

DPO (Direct Preference Optimization)

논문: Rafailov et al. 2023 (arXiv:2305.18290)
Reference model: 필요 (frozen copy, 2× 메모리)
메모리: 1B 모델 × 2 ≈ 4GB (BF16) — 여전히 여유
1B 모델 적용: 문제없음
구현: TRL DPOTrainer
장점: 가장 잘 검증됨, 안정적, 논문/사례 풍부
단점: reference model 관리 필요

SimPO (Simple Preference Optimization)

논문: Meng et al. 2024 (arXiv:2405.14734)
Reference model: 불필요
핵심: Length-normalized implicit reward, margin 기반
구현: TRL에 별도 Trainer 없음 → DPOTrainer의 loss_type="simpo" 로 사용 가능 (trl >= 0.9.0)
장점: ORPO보다 성능 우수하다는 보고, reference-free
단점: 상대적으로 새로운 방법

PPO (Proximal Policy Optimization) — 참고용

Reward model 별도 학습 필요 → 복잡도 높음
1B 모델에는 과도한 오버헤드
추천하지 않음 (데이터/인프라 대비 비효율)

3. 추천: ORPO → DPO 순서

1순위: ORPO

Reference model 없음 → 메모리/구현 최소
SFT 체크포인트에서 바로 시작 가능
반복 퇴화용 preference 데이터 제작이 간단

2순위: DPO

ORPO로 부족하면 DPO로 전환
1B 모델이라 reference model 부담 없음
더 안정적이고 검증된 방법

근거

1B 모델 + 8× B200 환경에서는 DPO의 2× 메모리도 문제없지만, 구현 속도와 단순성 면에서 ORPO가 먼저 시도할 가치가 있음.

4. 한국어 Preference 데이터셋

✅ 접근 가능 (DPO/ORPO 형식 호환)

데이터셋	형식	Downloads	적합도
kuotient/orca-math-korean-dpo-pairs	`{system, question, chosen, rejected}`	111	⭐⭐⭐ DPO/ORPO 즉시 사용 가능
ChuGyouk/argilla-distilabel-math-preference-dpo-korean	DPO 형식	10	⭐⭐⭐ 수학 도메인
nayohan/preference-collection-ko-full	`{response_A, response_B, orig_score_A, orig_score_B, orig_preference}`	30	⭐⭐⭐ 변환 필요하지만 풍부

✅ 접근 가능 (SFT 형식, preference 변환 필요)

데이터셋	형식	Downloads
jojo0217/korean_rlhf_dataset	`{instruction, input, output}`	54
FreedomIntelligence/alpaca-gpt4-korean	SFT 형식	158
nlpai-lab/kullm-v2	SFT 형식	730

❌ 접근 불가

maywell/ko_Ultrafeedback, HAERAE-HUB/KoRA, heegyu/OpenOrca-ko, Bongseok/ko-DPO-v0.1 — 모두 404

💡 자체 Preference 데이터 생성 전략 (반복 퇴화 특화)

가장 효과적인 방법: 현재 모델의 반복 출력을 rejected로 활용

{
  "prompt": "서울의 유명한 관광지를 추천해주세요.",
  "chosen": "서울의 대표적인 관광지로는 경복궁, 북촌한옥마을, 남산타워...",
  "rejected": "서울의 관광지로는 경복궁이 있습니다. 경복궁이 있습니다. 경복궁이 있습니다..."
}

현재 SFT 모델로 다양한 프롬프트에 대해 생성 (temperature 다양하게)
반복이 발생한 응답 → rejected
정상 응답 (또는 GPT-4로 생성) → chosen
500~2000개만으로도 효과적

5. HF 변환

scripts/convert_to_hf.py 가 이미 존재하며 LlamaForCausalLM 포맷으로 변환:

FP8 / BF16 체크포인트 모두 지원
출력: config.json, model.safetensors, tokenizer.json 등

변환 명령:

cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang
python scripts/convert_to_hf.py \
    --checkpoint checkpoints/korean_1b_sft/checkpoint-XXXXX \
    --output outputs/hf_for_orpo \
    --tokenizer tokenizer/korean_sp/tokenizer.json

변환 후 AutoModelForCausalLM.from_pretrained("outputs/hf_for_orpo") 로 로드 → TRL ORPOTrainer 사용 가능.

6. 반복 퇴화 해결에 ORPO가 효과적인 이유

메커니즘

ORPO의 odds ratio loss는 다음을 학습:

chosen 응답의 생성 확률 ↑ (정상적이고 다양한 응답)
rejected 응답의 생성 확률 ↓ (반복적인 응답)

반복 퇴화는 특정 토큰 시퀀스의 확률이 자기강화(self-reinforcing)되면서 발생. ORPO는 이 패턴 자체를 직접적으로 페널티:

반복 패턴 = rejected → 모델이 반복 시퀀스에 높은 확률을 부여하는 것을 직접 억제
다양한 정상 응답 = chosen → 다양한 토큰 분포를 유도
SFT loss와 동시 학습 → 일반 성능 유지하면서 반복 억제

왜 SFT만으로 부족한가

SFT는 "좋은 응답을 따라하라"만 학습
"나쁜 응답을 피하라"는 신호가 없음
Preference optimization은 "이것은 하지 마라"를 명시적으로 학습

예상 효과

500~2000개의 반복-vs-정상 preference 쌍으로도 반복 퇴화 대폭 감소 가능
repetition penalty 같은 디코딩 트릭보다 근본적 해결
일반 성능 저하 최소 (SFT loss가 함께 작용)

7. 실행 계획

1. TRL 설치: pip install trl --break-system-packages (또는 venv)
2. HF 변환: python scripts/convert_to_hf.py --checkpoint ... --output outputs/hf_for_orpo
3. Preference 데이터 준비:
   a. kuotient/orca-math-korean-dpo-pairs 다운로드 (즉시 사용 가능)
   b. 자체 반복 퇴화 데이터 생성 (eval/generate.py 활용)
4. ORPO 학습: python train/orpo.py (아래 스크립트)
5. 평가: 반복률 측정 + perplexity

ORPO 학습 스크립트: train/orpo.py 참조