source/eval/roadmap_framework.md · pathcosmos/frankenstallm at refs/pr/49

frankenstallm / source /eval /roadmap_framework.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 11 days ago

preview code

raw

history blame

26.1 kB

	# 한국어 LLM 전체 로드맵 & 의사결정 프레임워크

	> 작성일: 2026-02-26
	> 현재 상태: SFT 5,000 steps 완료 (loss 1.9677), 1.19B 파라미터 모델
	> 목표: 실사용 가능한 한국어 LLM 배포

	---

	## 0. TL;DR — 지금 당장 할 일

	1. SFT 모델 빠른 생성 테스트 (30분, 오늘): temperature sampling으로 반복 퇴화 확인
	2. lm-eval-harness ko_ifeval + ko_winogrande 실행 (2~4시간): 숫자 확인
	3. 결과에 따라 분기 → 아래 의사결정 트리 참조

	---

	## 1. 현재 위치 파악

	### 1.1 SFT 학습 현황 요약

	\| 항목 \| 값 \|
	\|------\|-----\|
	\| Steps \| 5,000 \|
	\| Final Loss \| 1.9677 \|
	\| 학습 시간 \| 0.61h (~37분) \|
	\| 처리 속도 \| ~75,700 tok/s (단일 B200) \|
	\| LR (final) \| 2.00e-06 (완전히 decay됨) \|
	\| Gradient Norm \| 안정 (1.0~1.4 범위) \|
	\| SFT 데이터 \| 알 수 없음 (확인 필요) \|

	주목: 5,000 steps는 매우 적은 양이다. SFT에서 보통 1~3 에폭을 돌리는데, 데이터셋 크기에 따라 steps 충분성이 결정된다.

	### 1.2 업계 내 위치

	#### 벤치마크 기준 (Open Ko-LLM Leaderboard 실측치 기반 추정)

	```
	모델 규모 ko_ifeval ko_winogrande 비고
	──────────────────────────────────────────────────────────────────────
	EXAONE-3.0-7.8B-Instruct 7.8B ~55% ~80%+ 8T tokens, SFT+DPO
	Llama-3.1-8B-Korean-SFT 8B ~40% ~72% Llama 기반 한국어 적응
	SOLAR-10.7B-Instruct 10.7B ~50% ~78% 업스테이지
	Gemma-2-9B-Korean 9B ~45% ~75% Google 기반

	── 현실적 1B SFT 벤치마크 (타사 사례) ────────────────────────────────
	dltjdgh0928/test_instruction ~?B 24.1% 57.1% 리더보드 실측
	lookuss/test-llilu ~?B 22.9% 58.2% 리더보드 실측
	generic 1B SFT (추정) 1~2B 20-30% 52-62% 현실적 범위

	── 우리 모델 예상 ──────────────────────────────────────────────────────
	korean_1b_sft (5k steps) 1.19B 15-28%? 50-58%? 평가 전 추정
	```

	#### 핵심 격차 분석

	\| 비교 대상 \| 파라미터 차이 \| 예상 성능 격차 \| 주요 이유 \|
	\|-----------\|--------------\|---------------\|-----------\|
	\| EXAONE-3.0-7.8B \| 6.6× \| 매우 큼 \| 규모 + 데이터 + DPO \|
	\| 8B 한국어 SFT \| 6.7× \| 큼 \| 규모 차이가 지배적 \|
	\| 타사 1B SFT \| 유사 \| 작음~중간 \| 데이터/학습 방법 차이 \|

	현실적 평가: 1B 모델은 7~10B 모델과 direct 경쟁이 불가능하다. 그러나:
	- 엣지 배포 (로컬 서빙, 저지연 API): 1B가 명확한 우위
	- 리소스 효율: 1B는 단일 GPU, 심지어 CPU에서도 구동
	- 특화 도메인: 한국어 특화 fine-tuning으로 특정 태스크에서 대형 범용 모델 근접 가능

	### 1.3 1B 규모의 한계와 가능성

	현실적 한계:
	- ko_ifeval 30% 초과 어려움 (instruction following 복잡도)
	- 수학/코드: 사전학습 데이터 없으면 거의 불가
	- 장문 맥락 이해: 4K context에서 degradation 시작
	- 사실 기억: 세밀한 사실 저장 capacity 부족

	가능한 것:
	- 한국어 기본 QA, 요약, 분류
	- 간단한 지시 따르기 (1~2단계)
	- 한국어 자동완성, 교정
	- 도메인 특화 태스크 (제한된 형식)

	---

	## 2. 단계별 로드맵

	### Phase 1: SFT 검증 (지금 → ~1주)

	#### 목표
	SFT 5,000 steps 결과가 실사용 가능한 수준인지 판정

	#### 체크리스트

	```
	□ 1-1. 생성 품질 빠른 점검 (30분)
	- temperature=0.8, top_p=0.9으로 10개 프롬프트 생성
	- 체크: 반복 퇴화 비율 (목표: < 20%)
	- 체크: 한국어 어미/조사 처리 자연스러운가
	- 체크: instruction 따르는가 (base와 비교)

	□ 1-2. 공식 벤치마크 (2~4시간)
	- lm-evaluation-harness 설치 및 ko_ifeval 실행
	- lm-evaluation-harness ko_winogrande 실행
	- 선택: ko_gsm8k (수학 데이터 없으면 skip 가능)

	□ 1-3. SFT 데이터 품질 점검
	- SFT 학습에 사용된 데이터셋 확인
	- 데이터 수 (몇 개 샘플인가?)
	- 5,000 steps × batch_size = 총 토큰 수 산출
	- 에폭 수 계산: epoch 2에 진입했으므로 최소 1 에폭 완료 확인됨

	□ 1-4. Base vs SFT 비교
	- 동일 프롬프트에 base (pretrained)와 SFT 결과 비교
	- SFT가 instruction following 능력을 부여했는가?
	```

	#### Pass/Fail 기준 (수치화)

	\| 지표 \| Pass ✅ \| 경계선 ⚠️ \| Fail ❌ \|
	\|------\|---------\|-----------\|---------\|
	\| ko_ifeval (prompt strict) \| > 25% \| 15~25% \| < 15% \|
	\| ko_winogrande \| > 53% \| 50~53% \| < 50% \|
	\| 반복 퇴화율 (greedy) \| < 20% \| 20~40% \| > 40% \|
	\| temperature 샘플링 품질 \| 자연스러움 \| 어색함 \| 무의미 \|
	\| Base 대비 SFT 개선 \| 명확한 instruction 따르기 \| 미미한 개선 \| 개선 없음/악화 \|

	> 참고: ko_winogrande 50%는 random (binary choice) 수준. 실질적 의미 있으려면 53%+.

	#### 실패 시 대응

	- ko_ifeval < 15% + 반복 > 40%: SFT 데이터 문제 또는 steps 부족 → Phase 2A
	- Base 대비 개선 없음: SFT 데이터 형식/품질 점검, 학습률 재검토
	- 모든 지표 Fail: 데이터 파이프라인부터 재검토

	---

	### Phase 2A: SFT 개선 (선택적, Phase 1 결과 기준)

	#### 언제 진입하는가?

	```
	Phase 2A 진입 조건:
	├── ko_ifeval < 25% AND 반복 > 20% → 즉시 진입
	├── ko_ifeval 25-30% AND 반복 20-30% → 데이터 보강 후 진입
	└── ko_ifeval > 30% AND 반복 < 15% → Phase 2B 또는 4로 바로
	```

	#### 옵션별 분석

	옵션 A: Steps 증가 (5k → 10k~20k)
	- 언제: 데이터는 충분하고 아직 수렴하지 않은 경우
	- 확인 방법: Loss 곡선이 아직 하강 중인가? (5,000 steps에서 1.97 — 수렴 근접)
	- 예상 효과: 소폭 개선 (loss 1.97 → 1.80 목표, ko_ifeval +3~7%p 예상)
	- 비용: B200 1개 기준 1.5~3시간 추가
	- 주의: 이미 epoch 2에 진입 — 과적합 위험 있음

	옵션 B: 더 좋은 데이터
	- 언제: 현재 SFT 데이터가 부족하거나 품질이 낮을 때 (가장 흔한 이유)
	- 추천 데이터셋:
	- `beomi/KoAlpaca-v1.1a` — 21K 한국어 instruction
	- `HAERAE-HUB/KMMLU` — 한국어 지식 QA
	- `nayohan/llama3-baseline-ko-dataset` — 다양한 instruction
	- `squarelike/sharegpt_deepl_ko_ko-en` — ShareGPT 한국어
	- 합산 목표: 50K~200K 고품질 샘플
	- 예상 효과: 데이터 품질 개선이 steps 2배보다 효과적 (경험적 법칙)
	- 비용: 데이터 정제 1~2일, 학습 추가 2~6시간

	옵션 C: ORPO (Odds Ratio Preference Optimization)
	- 언제: SFT baseline 확보 후 preference 정렬이 필요할 때
	- 장점: reference model 불필요 → 메모리 절약, 학습 단순화
	- 한국어 데이터: `kuotient/orca-math-korean-preference` (193K), `heegyu/orca-math-korean-preference-cleaned` (192K) 존재
	- 예상 효과: 반복 퇴화 -10~20%p, instruction following +5~10%p
	- 비용: 데이터 준비 1일, 학습 3~6시간

	옵션 D: DPO (Direct Preference Optimization)
	- 언제: ORPO보다 더 강한 정렬이 필요할 때, 또는 SFT가 어느 정도 잘 됐을 때
	- 장점: RLHF와 유사한 효과, PPO보다 안정적
	- 단점: reference model 필요 (메모리 2×)
	- B200에서 가능성: 1.19B × 2 = ~2.4B params — 단일 B200 183GB에서 충분
	- 비용: 학습 4~8시간

	#### 권장 순서
	```
	데이터 점검 → 데이터 보강 (옵션 B) → Steps 추가 (옵션 A) → ORPO (옵션 C)
	```

	---

	### Phase 2B: 스케일업 — 3B 모델

	#### 데이터 충분성 분석

	\| 기준 \| 필요 토큰 \| 현재 보유 \| 판정 \|
	\|------\|-----------\|-----------\|------\|
	\| Chinchilla 최소 (20×) \| 3B × 20 = 60B \| ~150B \| ✅ 충분 \|
	\| Chinchilla 최적 (70×) \| 3B × 70 = 210B \| ~150B \| ⚠️ 71% 수준 \|
	\| Llama 방식 (고품질 집중) \| 3B × 100 = 300B \| ~150B \| ❌ 부족 \|

	결론: 지금 데이터로 3B 학습 가능. 단, optimal은 아님. 고품질 데이터를 50B 추가 수집하면 optimal 근접.

	#### 예상 학습 시간 (8× B200 기준)

	```
	3B 모델 설정 추정:
	- 처리 속도: ~2.5~3M tok/s (8× B200, 1.19B 기준 2.64M)
	→ 3B 모델은 속도 ~40% 감소 예상 (메모리/연산 증가)
	→ 실효 속도: ~1.6M tok/s (추정)

	60B tokens (최소): 60B / 1.6M = 37,500초 ≈ 10.4시간
	150B tokens (현재 보유 전량): 150B / 1.6M = 93,750초 ≈ 26시간
	210B tokens (optimal): 210B / 1.6M = 131,250초 ≈ 36.5시간

	→ 현실적 학습 기간: 1~2일 (8× B200)
	```

	#### 3B 학습 준비사항

	```
	□ 모델 아키텍처 설정 변경:
	- d_model: 2048 → 2560 (또는 3072)
	- n_layers: 24 → 32
	- n_heads: 16 → 32
	- n_kv_heads (GQA): 4 → 8
	- d_ffn: 5472 → ~8192
	→ 예상 파라미터: ~3B

	□ 데이터 준비:
	- cc100 ko 재다운로드 (버그 수정 후)
	- CulturaX 24.8B 활용
	- 총 150B+ 토큰 한국어 데이터 병합

	□ configs/korean_3b_fp8.yaml 작성
	□ 체크포인트 저장 전략: 매 5,000 steps
	□ FP8 설정 유지 (B200 최적화)
	```

	#### 1B SFT 결과의 3B 진행 여부 영향

	```
	1B SFT 결과 → 3B 진행 여부
	──────────────────────────────────────────────────────
	ko_ifeval > 30% → 강력히 추천: 1B가 이미 좋음, 3B는 확실히 더 좋을 것
	ko_ifeval 20-30% → 조건부 추천: 데이터/방법론 확인 후 3B
	ko_ifeval < 20% → 3B 전에 원인 분석 필수: 같은 문제가 3B에도 재현됨
	반복 퇴화 > 40% → 사전학습 데이터 문제 의심: 3B도 동일 문제 가능
	SFT 개선 없음 → SFT 파이프라인 수정 후 3B
	```

	---

	### Phase 3: RLHF / Preference Optimization (선택적)

	#### 언제 필요한가?

	\| 시나리오 \| 필요성 \|
	\|----------\|--------\|
	\| 서비스 배포 (사용자 대면) \| 강력히 필요 — safety, coherence \|
	\| 리더보드 점수 극대화 \| 필요 — DPO/ORPO로 +5~15%p \|
	\| 내부 연구/실험 \| 불필요 \|
	\| RAG 시스템 백엔드 \| 불필요 \|

	#### ORPO vs DPO vs PPO 비교

	\| 방법 \| 언제 \| 메모리 \| 복잡도 \| 한국어 데이터 \|
	\|------\|------\|--------\|--------\|---------------\|
	\| ORPO \| SFT와 동시, 빠른 정렬 \| 1× (ref 없음) \| 낮음 \| 193K+ 존재 \|
	\| DPO \| SFT 이후, 안정적 정렬 \| 2× (ref 필요) \| 중간 \| 193K+ 존재 \|
	\| SimPO \| ref 없이 DPO 효과 \| 1× \| 중간 \| 범용 적용 \|
	\| PPO \| RLHF 완전 구현 \| 3~4× \| 높음 \| reward model 필요 \|

	B200 환경에서 추천: ORPO 또는 SimPO (reference model 없음, 메모리 효율)

	#### 한국어 Preference 데이터 현황 (HuggingFace)

	```
	kuotient/orca-math-korean-preference 193K 샘플 수학 중심
	heegyu/orca-math-korean-preference-cleaned 192K 수학 (정제본)
	lemon-mint/korean-realqa-reasoning-v01-preference 7.7K 추론
	ChuGyouk/argilla-distilabel-math-preference-dpo-korean 2.4K 소규모

	→ 수학 특화 데이터가 많음. 일반 한국어 preference는 부족.
	→ 일반 preference는 자체 생성 또는 번역으로 보강 필요.
	방법: GPT-4/Claude로 chosen/rejected 쌍 생성 (Self-Play)
	```

	---

	### Phase 4: 배포

	#### 서빙 옵션 비교

	\| 옵션 \| 특징 \| B200 적합성 \| 추천 상황 \|
	\|------\|------\|-------------\|-----------\|
	\| vLLM \| PagedAttention, 고처리량 \| ✅ 최우수 \| API 서버, 배치 추론 \|
	\| TGI (Text Generation Inference) \| HF 공식, 안정적 \| ✅ 우수 \| HF Hub 연동 \|
	\| llama.cpp + GGUF \| CPU/저사양 가능 \| ⚠️ B200에선 과소 \| 엣지 배포, Ollama \|
	\| Ollama \| 로컬 배포 편의성 \| ⚠️ \| 개인 사용, 데모 \|

	B200 기준 vLLM 예상 throughput (1.19B 모델):

	```
	1.19B 모델 (BF16):
	- 메모리: ~2.4GB (파라미터) + KV cache
	- 단일 B200 183GB: KV cache 극대화 가능
	- 예상 throughput: 5,000~15,000 tokens/s (배치 처리)
	- 단일 스트리밍: 200~500 tokens/s (사용자 체감)
	→ 동시 사용자 100~500명 지원 가능 (단일 GPU)
	```

	#### 양자화 옵션 (B200 환경)

	\| 포맷 \| 정밀도 손실 \| 크기 \| B200 적합성 \| 추천 \|
	\|------\|------------\|------\|-------------\|------\|
	\| FP8 (Native) \| 없음 \| 1.2GB \| ✅ 최우수 (HW 지원) \| 최우선 \|
	\| BF16 \| 없음 \| 2.4GB \| ✅ 기본 \| 기준선 \|
	\| AWQ (W4A16) \| 매우 적음 \| 0.6GB \| ✅ 우수 \| 엣지/저메모리 \|
	\| GPTQ (W4) \| 적음 \| 0.6GB \| ✅ 우수 \| CPU 오프로드 \|
	\| GGUF Q4_K_M \| 적음 \| ~0.7GB \| ⚠️ (CPU용) \| Ollama 배포용 \|

	B200 권장: FP8 → AWQ 순서로 고려. B200은 FP8 하드웨어 지원으로 양자화 없이 이미 효율적.

	#### HuggingFace Hub 업로드

	```
	필요 작업:
	□ HF 포맷 변환: config.json, model.safetensors, tokenizer_config.json
	□ model card 작성 (한국어 설명, 벤치마크 결과, 사용법)
	□ 라이선스 설정 (Apache 2.0 권장)
	□ eval 결과 포함
	□ Open Ko-LLM Leaderboard 제출 (평가 요청)
	```

	---

	## 3. 의사결정 트리 (수치 기반)

	```
	══════════════════════════════════════════════════════════════════
	[Phase 1: SFT 평가 결과]
	══════════════════════════════════════════════════════════════════

	├── ko_ifeval > 30% AND 반복율 < 15%
	│ ├── 데이터 150B 모두 사용 가능? → Phase 2B (3B 사전학습)
	│ └── 지금 당장 배포가 목표? → Phase 4 (vLLM 서빙 + HF 업로드)
	│
	├── ko_ifeval 20~30% AND 반복율 15~30%
	│ ├── SFT 데이터가 < 10K 샘플? → Phase 2A-B (데이터 보강 최우선)
	│ ├── SFT 데이터가 10~50K 샘플? → Phase 2A-A (steps 추가) + 2A-C (ORPO)
	│ └── SFT 데이터가 > 50K 샘플? → Phase 2A-A (steps 추가) OR 2B (3B)
	│
	├── ko_ifeval 10~20% AND 반복율 30~50%
	│ ├── base 모델과 SFT 차이 없음? → SFT 파이프라인 버그 점검
	│ ├── SFT 데이터 품질 의심? → 데이터 전수 점검 후 Phase 2A-B
	│ └── base PPL이 높음 (> 15)? → 사전학습 더 필요 (데이터 추가)
	│
	└── ko_ifeval < 10% OR 반복율 > 50%
	├── base 모델 자체가 이미 반복 > 30%? → 사전학습 데이터 품질 문제
	│ └── → cc100 노이즈 필터링 후 추가 사전학습
	├── SFT loss가 발산했는가? → 학습률/optimizer 설정 재검토
	└── 모든 생성이 무의미? → 체크포인트 손상 확인, 이전 체크포인트 복원

	══════════════════════════════════════════════════════════════════
	[Phase 2A 내부 의사결정]
	══════════════════════════════════════════════════════════════════

	Phase 2A 진입 후:

	├── 현재 SFT 데이터 < 20K 샘플?
	│ └── → 데이터 보강이 steps 추가보다 효과적 (최우선)
	│ 데이터: beomi/KoAlpaca, squarelike/sharegpt_ko, nayohan/llama3-ko
	│
	├── loss curve가 아직 하강 중 (step 4000~5000 차이 > 0.05)?
	│ └── → steps 2배 추가 시도 (10k까지)
	│
	├── 반복율 > 30% (주요 문제)?
	│ └── → ORPO 또는 repetition penalty 적용 먼저
	│ ORPO 데이터: kuotient/orca-math-korean-preference (193K)
	│
	└── ko_ifeval < 20% + 데이터 보강 후에도 개선 없음?
	└── → 3B 사전학습으로 전환 (1B SFT 한계 도달 가능성)

	══════════════════════════════════════════════════════════════════
	[Phase 2B 내부 의사결정]
	══════════════════════════════════════════════════════════════════

	3B 사전학습 진행 결정 시:

	├── 현재 150B 토큰이 한국어 단일 언어?
	│ └── → 영어 데이터 10~30% 혼합 권장 (cross-lingual transfer)
	│ 영어 수학/코드 포함하면 ko_gsm8k 등 추가 개선 가능
	│
	├── cc100 ko 데이터 수집 완료?
	│ └── No → CulturaX 24.8B만으로 시작 가능 (60B 목표 달성 가능)
	│
	└── 3B 학습 중 중간 checkpoint에서 SFT 테스트?
	└── → 1B보다 3B base가 SFT 반응성이 높으면 3B SFT로 바로 진행

	══════════════════════════════════════════════════════════════════
	[Phase 4 배포 의사결정]
	══════════════════════════════════════════════════════════════════

	배포 방식 선택:

	├── 연구/데모 목적?
	│ └── → HF Hub 업로드 + Gradio Space 생성 (무료)
	│
	├── 내부 API 서빙?
	│ └── → vLLM (FP8 native) + OpenAI 호환 엔드포인트
	│ 커맨드: vllm serve ./checkpoints/korean_1b_sft --dtype fp8
	│
	├── 개인/팀 로컬 사용?
	│ └── → GGUF Q4_K_M 변환 + Ollama (이미 Modelfile 존재)
	│
	└── Open Ko-LLM 리더보드 등재?
	└── → HF Hub 업로드 필수 → 리더보드 제출 양식 작성
	```

	---

	## 4. 추가 확장 Job 후보군 (우선순위 순)

	### 즉시 가능 (지금 서버에서 바로, 추가 데이터 불필요)

	\| 우선순위 \| Job \| 예상 시간 \| 기대 효과 \|
	\|----------\|-----\|-----------\|-----------\|
	\| ⭐⭐⭐ \| SFT 모델 생성 테스트 (temperature sampling) \| 30분 \| 반복율 현황 파악 \|
	\| ⭐⭐⭐ \| lm-eval-harness 설치 + ko_ifeval 실행 \| 2~4시간 \| 공식 벤치마크 수치 \|
	\| ⭐⭐⭐ \| ko_winogrande 실행 \| 1~2시간 \| 언어 이해 수치 \|
	\| ⭐⭐ \| Base vs SFT 비교 생성 (동일 프롬프트) \| 1시간 \| SFT 효과 측정 \|
	\| ⭐⭐ \| SFT 학습 손실 곡선 분석 (tensorboard) \| 30분 \| 수렴 여부 판단 \|
	\| ⭐⭐ \| 반복 퇴화 정량 측정 (repetition_penalty 효과) \| 1시간 \| 배포 가능성 판단 \|
	\| ⭐ \| vLLM 서빙 테스트 (FP8) \| 1~2시간 \| throughput 측정 \|
	\| ⭐ \| HF 포맷 변환 (config.json, safetensors) \| 2~3시간 \| HF Hub 업로드 준비 \|

	### 데이터 준비 필요

	\| 우선순위 \| Job \| 준비 시간 \| 기대 효과 \|
	\|----------\|-----\|-----------\|-----------\|
	\| ⭐⭐⭐ \| SFT 데이터 보강 (KoAlpaca + ShareGPT-ko 50K~) \| 1~2일 \| ko_ifeval +5~15%p \|
	\| ⭐⭐⭐ \| cc100 재수집 (버그 수정 후) \| 0.5~1일 \| 150B+ 토큰 확보 \|
	\| ⭐⭐ \| ORPO 데이터 준비 (orca-math-korean 193K) \| 0.5일 \| 반복 퇴화 -20%p \|
	\| ⭐⭐ \| 3B 사전학습 데이터 병합 (150B 토큰 통합) \| 1~2일 \| 3B 학습 준비 \|
	\| ⭐ \| 일반 한국어 preference 데이터 생성 (GPT-4 활용) \| 3~7일 \| 범용 ORPO/DPO \|
	\| ⭐ \| 영어/코드 데이터 추가 (10~30% 혼합) \| 1~3일 \| 수학/코드 개선 \|

	### 외부 리소스 필요

	\| 우선순위 \| Job \| 필요 리소스 \| 기대 효과 \|
	\|----------\|-----\|-------------\|-----------\|
	\| ⭐⭐ \| HuggingFace Hub 계정 업로드 \| HF 계정, 인터넷 \| 리더보드 제출 가능 \|
	\| ⭐⭐ \| Open Ko-LLM Leaderboard 제출 \| HF 계정 \| 공식 순위 확인 \|
	\| ⭐ \| KoMT-Bench / LogicKor 평가 \| 외부 API 또는 스크립트 \| 질적 평가 \|
	\| ⭐ \| VRAM 증설 또는 Multi-GPU SFT \| 현재 12GB → 가능 더 필요? \| 더 큰 배치 \|

	---

	## 5. 리스크 분석

	### 5.1 현재 학습 방식의 잠재적 문제점

	\| 리스크 \| 심각도 \| 현재 증거 \| 완화 방법 \|
	\|--------\|--------\|-----------\|-----------\|
	\| SFT steps 과소 (5k) \| 🔴 높음 \| epoch 2 진입, loss 아직 1.97 \| steps 증가 또는 데이터 보강 \|
	\| 사전학습 데이터 부족 (~8.91B) \| 🟡 중간 \| Chinchilla 대비 1B × 20 = 20B 필요 → 미달 \| 150B 데이터 추가 학습 \|
	\| 코드/수학 데이터 없음 \| 🟡 중간 \| ko_gsm8k 거의 0 예상 \| 영어 코드/수학 데이터 혼합 \|
	\| Greedy decoding 반복 퇴화 \| 🔴 높음 \| base에서 30% 발생 확인 \| SFT + repetition_penalty + ORPO \|

	### 5.2 cc100 데이터 품질 이슈

	알려진 문제:
	- cc100은 CommonCrawl에서 추출된 웹 텍스트로 노이즈가 심함
	- 한국어 cc100 특히: 광고 텍스트, 스팸, 반복 콘텐츠 다수
	- 중복률: 문서 수준 중복 10~30% 추정 (MinHash 제거 필요)

	실제 영향:
	```
	노이즈 포함 학습 → 모델이 광고/스팸 패턴 학습 → 생성 품질 저하
	중복 데이터 → 특정 패턴 과도 암기 → 반복 퇴화 악화
	```

	권장 전처리:
	```bash
	# 1. 중복 제거 (MinHash LSH)
	python scripts/dedup_minhash.py --input cc100_ko.bin --threshold 0.8

	# 2. 품질 필터링 (perplexity 기반)
	# 낮은 품질 텍스트: PPL > 1000 제거
	python scripts/quality_filter.py --max_ppl 1000

	# 3. 길이 필터링
	# 너무 짧은 문장 (< 50 tokens) 제거
	```

	### 5.3 Tokenizer 선택 (korean_sp 64K)의 영향

	현재 설정: SentencePiece Unigram 64K vocab, 한국어 특화

	장점:
	- 한국어 형태소 분리에 최적화 → 효율적 인코딩
	- 64K vocab으로 영어 vs 한국어 token fertility 균형
	- 한국어 글자 1개 = 평균 1.2~1.8 tokens (BPE 대비 효율적)

	잠재적 문제:
	\| 문제 \| 심각도 \| 설명 \|
	\|------\|--------\|------\|
	\| 영어 vocabulary 부족 \| 🟡 중간 \| 영어 코드/수학 처리 효율 낮음 (byte fallback) \|
	\| 기존 모델과 호환 불가 \| 🟡 중간 \| RLHF 데이터 재토크나이징 필요 \|
	\| 신조어/외래어 처리 \| 🟡 중간 \| OOV 처리는 byte fallback이지만 느림 \|
	\| 표준 Llama/Mistral 토크나이저와 다름 \| 🟢 낮음 \| HF 업로드 시 tokenizer 포함하면 OK \|

	완화:
	- 향후 3B 모델에서는 tiktoken (cl100k_base) 또는 Llama 계열 토크나이저 채택 고려
	- 현재 1.19B 모델은 현재 토크나이저 유지 (재학습 비용 too high)

	---

	## 6. 시나리오 목록 ("만약 X라면 Y를 해야 한다")

	\| # \| 조건 (IF) \| 액션 (THEN) \|
	\|---\|-----------\|-------------\|
	\| 1 \| ko_ifeval > 30% AND 반복 < 15% \| → 즉시 HF Hub 업로드 + 리더보드 제출 + 3B 사전학습 병렬 진행 \|
	\| 2 \| ko_ifeval 20~30% AND 반복 15~30% \| → KoAlpaca+ShareGPT-ko로 데이터 보강 후 10k steps SFT 재실행 \|
	\| 3 \| ko_ifeval < 20% AND base와 차이 없음 \| → SFT 학습 파이프라인 버그 점검 (데이터 로딩, 포맷 확인) \|
	\| 4 \| 반복율 > 40% \| → ORPO (orca-math-korean 193K) 즉시 적용 \|
	\| 5 \| 모든 SFT 시도 후에도 ko_ifeval < 20% \| → 1B 한계 인정, 3B 사전학습으로 전환 \|
	\| 6 \| cc100 수집 완료 (65~100B) \| → 3B 사전학습 바로 시작 (26시간, 8× B200) \|
	\| 7 \| 3B base PPL < 8 달성 \| → 3B SFT (KoAlpaca + ORPO) → 리더보드 목표 ko_ifeval 40%+ \|
	\| 8 \| 서비스 배포 결정 \| → vLLM FP8 서빙 + GGUF Q4_K_M Ollama 병행 \|
	\| 9 \| 수학/코드 성능 필요 \| → 영어 수학+코드 데이터 20% 혼합하여 3B 재학습 \|
	\| 10 \| 한국어 preference 데이터 자체 생성 원함 \| → Claude/GPT-4로 chosen/rejected 쌍 10K 생성 후 DPO \|

	---

	## 7. 전체 타임라인

	```
	현재 (2026-02-26)
	│
	├─ Week 1: Phase 1 검증
	│ ├─ D+0: SFT 생성 테스트 (30분)
	│ ├─ D+0: lm-eval ko_ifeval + ko_winogrande (4시간)
	│ └─ D+2: 결과 분석 + 다음 단계 결정
	│
	├─ Week 2~3: Phase 2A 또는 2B 결정 후 실행
	│ ├─ [2A 경로] 데이터 보강 (3~5일) + 재학습 (1~2일)
	│ └─ [2B 경로] 3B 사전학습 (26시간) + 3B SFT (3~6시간)
	│
	├─ Week 4: Phase 3 (필요시)
	│ └─ ORPO 학습 (193K 데이터, 3~6시간)
	│
	└─ Week 4~5: Phase 4 배포
	├─ HF 포맷 변환 (2~3시간)
	├─ HF Hub 업로드 + Model Card
	├─ vLLM 서빙 설정
	└─ Ko-LLM 리더보드 제출

	총 예상 기간: 3~5주 (3B 스케일업 포함)
	```

	---

	## 8. 즉각적인 다음 단계 (Action Items)

	```bash
	# Step 1: lm-evaluation-harness 설치
	pip install lm-eval

	# Step 2: ko_ifeval 실행 (SFT 체크포인트)
	lm_eval \
	--model hf \
	--model_args pretrained=/PROJECT/0325120031_A/ghong/taketimes/llm-bang/checkpoints/korean_1b_sft/checkpoint-0005000,dtype=bfloat16 \
	--tasks ko_ifeval \
	--device cuda:0 \
	--output_path ./eval/results/sft_5k_ko_ifeval.json

	# Step 3: ko_winogrande 실행
	lm_eval \
	--model hf \
	--model_args pretrained=/PROJECT/0325120031_A/ghong/taketimes/llm-bang/checkpoints/korean_1b_sft/checkpoint-0005000,dtype=bfloat16 \
	--tasks ko_winogrande \
	--device cuda:0 \
	--output_path ./eval/results/sft_5k_ko_winogrande.json
	```

	---

	이 문서는 평가 결과에 따라 업데이트 예정.
	다음 업데이트: Phase 1 평가 완료 후 (예상: D+1~2)