# 데이터 갭 분석 보고서
> 생성일: 2026-02-27 | 모델: 3B parameter LLM

## 1. 현재 데이터 인벤토리

### 1.1 Pretrain 데이터 (토큰화 완료 .bin)
| 파일 | 크기 | 토큰 수 (uint16) |
|------|------|------------------|
| korean_train.bin | 17GB | **8.9B** |
| korean_c4_train.bin | 15GB | 7.56B |
| korean_namuwiki_train.bin | 2.1GB | 1.08B |
| korean_wiki_train.bin | 500MB | 0.26B |
| train.bin (영어) | 1.2GB | 0.60B |
| **합계 (토큰화 완료)** | | **~18.4B tokens** |

> ⚠️ `korean_train.bin`은 c4+namuwiki+wiki의 머지본일 가능성 높음 → 실제 고유 토큰은 **~9B** 수준

### 1.2 미토큰화 원시 데이터 (korean_extra/)
| 소스 | 디스크 크기 | 추정 토큰 수 | 품질 등급 |
|------|-----------|-------------|---------|
| CulturaX ko | 60GB | ~15B | B+ |
| HPLT ko | 23GB | ~5B | B |
| cc100 ko | 14GB | ~3.5B | C+ |
| OSCAR ko | 9.2GB | ~2.3B | B |
| korean_textbooks | 6.4GB | ~1.5B | A |
| korean_webtext | 4.2GB | ~1B | B+ |
| finepdfs_edu_ko | 2.9GB | ~0.7B | A- |
| namuwiki_extracted | 2.2GB | ~0.5B | A- |
| wikipedia_korean | 1.7GB | ~0.4B | A |
| kovast | 449MB | ~0.1B | B |
| **소계** | **~124GB** | **~30B** |  |

### 1.3 SFT 데이터
- train.jsonl: 161,848 샘플 (276MB)
- val.jsonl: 8,518 샘플 (15MB)
- 소스: evol_instruct_ko, korean_safe_conv 등

### 1.4 Preference 데이터
- **현재 보유: 0** ❌

### 총합
| 단계 | 보유량 | 
|------|--------|
| Pretrain (토큰화) | ~9B tokens |
| Pretrain (미처리) | ~30B tokens |
| **Pretrain 합계** | **~39B tokens** |
| SFT | 170K 샘플 |
| Preference | 0 |

---

## 2. 3B 모델 학습 요구량 vs 현재

### 2.1 Pretrain
| 기준 | 필요 토큰 | 현재 | 갭 | 상태 |
|------|----------|------|-----|------|
| Chinchilla optimal (×70) | 210B | 39B | -171B | 🔴 심각 부족 |
| Chinchilla minimum (×20) | 60B | 39B | -21B | 🟡 부족 |
| LLaMA-style (×33) | 100B | 39B | -61B | 🔴 부족 |
| **실용적 목표** | **60~80B** | **39B** | **-21~41B** | 🟡 |

**결론:** 최소 기준(60B)에도 **21B tokens 부족**. 현실적으로 60~80B 타겟 시 추가 21~41B 필요.

### 2.2 SFT
| 기준 | 필요량 | 현재 | 갭 | 상태 |
|------|--------|------|-----|------|
| 최소 고품질 | 50K | 170K | 충분 | 🟢 |
| 업계 표준 | 100~200K | 170K | 충분 | 🟢 |
| 도메인 다양성 | 다양한 태스크 | 제한적 | 보완 필요 | 🟡 |

**결론:** 양적으로 충분하나 도메인 커버리지(수학, 코드, 추론) 보강 필요.

### 2.3 Preference (ORPO/DPO)
| 기준 | 필요량 | 현재 | 갭 | 상태 |
|------|--------|------|-----|------|
| 최소 | 5K 쌍 | 0 | -5K | 🔴 |
| 적정 | 20~60K 쌍 | 0 | -60K | 🔴 |

**결론:** **심각한 갭**. ORPO/DPO 학습 자체가 불가능.

---

## 3. 경쟁 모델 대비 포지셔닝

| 모델 | 파라미터 | Pretrain 토큰 | 우리 대비 |
|------|---------|-------------|----------|
| Polyglot-Ko 12.8B | 12.8B | 1.2T | 30× |
| EXAONE 3.0 | 7.8B | 8T | 200× |
| HyperCLOVA X | 비공개 | 수백B~수T | 10~100× |
| Phi-3 mini 3.8B | 3.8B | 3.3T | 85× |
| StableLM 3B | 3B | 4T | 100× |
| **우리 (목표)** | **3B** | **60~80B** | **기준** |

**분석:** 
- 우리 60~80B은 모델 크기 대비 Chinchilla minimum~적정 수준
- 대형 모델들은 10~100× 많은 데이터 사용하지만, 모델도 2~40× 큼
- **3B에 60B tokens은 합리적 최소치** — 학계에서 3B급은 50~100B에서 좋은 결과
- 품질 필터링 + 커리큘럼 학습으로 효율 보완 가능

---

## 4. 데이터 품질 분석

### 현재 품질 분포 (추정 토큰 기준)
```
A등급 (고품질):   ~3.0B (8%)  - wiki, textbooks, finepdfs_edu
B등급 (양호):    ~24B  (61%)  - CulturaX, OSCAR, HPLT, webtext
C등급 (노이즈):   ~12B (31%)  - cc100, 기타 웹 크롤링
```

**문제점:**
- 고품질(A급) 비중이 **8%로 매우 낮음**
- 코드/수학/과학 데이터 **전무**
- 영어 데이터 비중 극히 적음 (0.6B) — 다국어 능력 부족

---

## 5. 핵심 결론

### 현재 데이터로 3B 학습 충분한가?
## **No** — 다음 이유로 불충분:

1. **Pretrain 토큰 부족** (39B vs 최소 60B, 21B 갭)
2. **Preference 데이터 부재** (ORPO 학습 불가)
3. **코드/수학 데이터 전무** (범용 능력 제한)
4. **고품질 비율 낮음** (8%) 
5. **영어 데이터 부족** (cross-lingual transfer 제한)

### 부족한 데이터 유형 요약
| 유형 | 심각도 | 필요 조치 |
|------|--------|----------|
| Pretrain 토큰 | 🟡 중간 | +21~41B 토큰 확보 |
| 코드 데이터 | 🔴 심각 | 코드 코퍼스 추가 (5~10B) |
| 수학/과학 | 🔴 심각 | 전문 코퍼스 추가 (2~5B) |
| 영어 데이터 | 🟡 중간 | 고품질 영어 10~20B 추가 |
| Preference | 🔴 심각 | 20K+ 쌍 확보 |
| SFT 다양성 | 🟡 중간 | 코드/수학/추론 SFT 추가 |