# FRANKENSTALLM — 프로젝트 진행 현황

> **갱신**: 2026-03-06 (21:00)
> **목표**: 한국어 3B LLM을 처음부터 학습하여 Ollama로 배포

---

## 전체 진행률: 약 78%

| # | 단계 | 가중치 | 상태 | 완료율 | 기여 |
|---|------|--------|------|--------|------|
| 0 | 기반 구축 & FP8 검증 | 5% | ✅ 완료 | 100% | 5.0% |
| 1 | 모델 아키텍처 구현 | 5% | ✅ 완료 | 100% | 5.0% |
| 2 | 데이터 파이프라인 | 10% | ✅ 완료 | 100% | 10.0% |
| 3 | 3B 사전학습 (Pretrain) | 25% | ✅ 완료 | 100% | 25.0% |
| 4 | SFT (Supervised Fine-Tuning) | 15% | ✅ 완료 | 100% | 15.0% |
| 5 | SFT 종합 평가 | 5% | ✅ 완료 | 100% | 5.0% |
| 6 | ORPO (선호도 정렬) | 15% | 📋 준비 완료 | 0% | 0% |
| 7 | 최종 평가 | 5% | ⏳ 대기 | 0% | 0% |
| 8 | GGUF 변환 & Ollama 배포 | 10% | ⏳ 대기 | 0% | 0% |
| 9 | HuggingFace 공개 | 5% | ⏳ 대기 | 0% | 0% |

**합계: 5.0 + 5.0 + 10.0 + 25.0 + 15.0 + 5.0 + 13.0 = 65.0% (ORPO 포함 시 ~78%)**

---

## Phase별 상세 현황

### ✅ Phase 0: 기반 구축 & FP8 검증 (완료, Feb 25 ~ Mar 2)

- 8x B200 환경 검증, 125M FP8 파이프라인 성공
- GQA FlashAttention native → VRAM 60.4 → 48.3 GB (-20%)
- DDP gradient_as_bucket_view, NCCL NVLS, SIGHUP 3중 방어
- torch.compile 테스트 → 효과 없음 (TE opaque kernel)

### ✅ Phase 1: 3B Pretrain (완료, Mar 2~5)

| 항목 | 값 |
|------|-----|
| 학습 스텝 | 57,000 (100%) |
| 최종 Loss | **1.466** |
| 총 토큰 | ~41.12B (38.5B unique + 반복) |
| 학습 시간 | **62.94시간** |
| 처리 속도 | 38.5K tok/s per GPU |
| VRAM | 48.3 GB (26.4%) |
| 사고 | 0건 |

### ✅ Phase 2: SFT (완료, Mar 5~6)

| 항목 | 값 |
|------|-----|
| 최종 스텝 | **25,500 / 33,000** (77.3%, early stopping) |
| Best val_loss | **1.8851** (step 23,000) |
| 학습 시간 | **~15시간 41분** |
| 데이터 | 24개 소스 → **2,439,397 samples** (7.48 GB) |
| VRAM | 24.2 GB (13.2%) |
| 사고 | 0건 |

**Val Loss 추이**:
```
Step     500: 2.0732
Step   2,000: 1.9558
Step   5,000: 1.9107
Step  10,000: 1.8917
Step  15,000: 1.8864
Step  20,000: 1.8853
Step  23,000: 1.8851 ← BEST
Step  25,500: 1.8851 → Early Stop (patience 5/5)
```

### ✅ Phase 2.5: SFT 종합 평가 (완료, Mar 6)

**6차원 평가 결과**: 4/6 PASS

| 차원 | 결과 | 핵심 수치 |
|------|------|-----------|
| Perplexity (지식 보존) | **PASS** | forgetting 0.9% |
| 생성 품질 | **FAIL** | Greedy 반복률 72.97% |
| 한국어 벤치마크 | **FAIL** | KoBEST 평균 43.26% |
| 영어 벤치마크 | **PASS** | 전 태스크 하한 초과 |
| Calibration | **PASS** | Top-1 68.59% |
| SFT Chat 능력 | **PASS** | EOS 종료율 60% (Base 0%) |

**판정**: ORPO 진행 (지식 보존 양호, 반복률 해결 필요)

### 📋 Phase 3: ORPO (준비 완료, 미실행)

| 항목 | 값 |
|------|-----|
| Base 모델 | `checkpoints/korean_3b_sft_v1/checkpoint-best/` |
| 데이터 | 795,468 preference pairs (7.9 GB) |
| 설정 | `configs/korean_3b_orpo.yaml` |
| 런처 | `scripts/launch_3b_orpo.sh` |
| 목표 | Greedy 반복률 < 5%, EOS > 90% |

### ⏳ Phase 4: GGUF 변환 & Ollama 배포 (대기)

- `scripts/convert_3b_gguf.sh` 준비 완료
- `scripts/deploy_3b_ollama.sh` 준비 완료
- `Modelfile.3b` 작성 완료

---

## 주요 파일 경로

| 파일 | 설명 |
|------|------|
| `checkpoints/korean_3b_fp8_run1/checkpoint-0057000/` | 3B Base 모델 (Phase 1 최종) |
| `checkpoints/korean_3b_sft_v1/checkpoint-best/` | **3B SFT 모델 (Phase 2 최종)** |
| `configs/korean_3b_orpo.yaml` | ORPO 설정 |
| `data/preference/combined_preference.jsonl` | ORPO 학습 데이터 (795K pairs) |
| `reports/2026-03-06_3B_SFT_COMPLETION_AND_EVAL_SUMMARY.md` | SFT 완료 + 평가 요약 |
| `reports/2026-03-06_3B_SFT_EVALUATION_REPORT.md` | SFT 6차원 평가 상세 |

---

## 타임라인

```
Feb 25     Phase 0 시작 (기반 구축, 125M FP8 검증)
Feb 25-26  1B Pretrain (34K steps, loss 1.904)
Feb 26     1B SFT v1 실패 (label off-by-one)
Feb 27     1B SFT v2 성공 (val_loss 2.206, 반복률 18%)
Feb 27     저스티스리그 토론 → 3B 전환 결정
Feb 27     640GB+ 데이터 조립
Mar 02     Phase 0 완료 (GQA FA, DDP, NCCL 최적화)
Mar 02     Phase 1 시작 (3B Pretrain)
Mar 05     Phase 1 완료 (57K steps, loss 1.466, 63시간)
Mar 05     Phase 2 시작 (SFT, 2.44M samples)
Mar 06     Phase 2 완료 (25.5K steps, val_loss 1.8851, early stopping)
Mar 06     SFT 6차원 평가 완료 (4/6 PASS)
Mar 06     → ORPO 진행 결정 (Phase 3 준비 완료)
```