ํ๊ตญ์ด ๊ณต๊ฐ Pretrain ๋ฐ์ดํฐ์ ์ ์ ์กฐ์ฌ
์กฐ์ฌ์ผ: 2026-02-27 HuggingFace API ์ค์ ๊ทผ ํ์ธ ์๋ฃ
1. ์ด๋ฏธ ๋ณด์ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์ | ๋ณด์ ํฌ๊ธฐ | ํ๊ตญ์ด ํ ํฐ ์ (์ถ์ ) | ๋น๊ณ |
|---|---|---|---|
uonlp/CulturaX (ko) |
60GB | ~24.8B | mC4+OSCAR ์ ์ ๋ณธ, GATED |
cc100 (ko) |
14GB | ~5.5B | Common Crawl 100 |
oscar-corpus/mOSCAR (ko) |
9.2GB | ~3.5B | OSCAR multilingual |
HPLT/hplt_monolingual_v1_2 (ko) |
23GB | ~9B | Internet Archive ๊ธฐ๋ฐ |
HAERAE-HUB/KOREAN-WEBTEXT |
๋ณด์ | ~1.5B | ๊ณ ํ์ง ํ๊ตญ์ด ์นํ ์คํธ |
maywell/korean_textbooks |
๋ณด์ | ~0.2B | ๊ต๊ณผ์ ์คํ์ผ ํฉ์ฑ ๋ฐ์ดํฐ |
๋ณด์ ํฉ๊ณ: ~106GB+ / ~44.5B ํ ํฐ
2. HuggingFace ์ ๊ทผ ๊ฐ๋ฅ - ์ถ๊ฐ ๋ค์ด๋ก๋ ํ์
2-1. ๋ํ ์น ์ฝํผ์ค (ํ๊ตญ์ด ๋ถ๋ถ)
| ๋ฐ์ดํฐ์ | ํ๊ตญ์ด ํฌ๊ธฐ (์ถ์ ) | ํ ํฐ ์ (์ถ์ ) | ์ ๊ทผ์ฑ | ์ฐ์ ๋ |
|---|---|---|---|---|
mc4 (ko) |
~50GB | ~20B | โ ๊ณต๊ฐ | โญโญโญ |
allenai/c4 (ko multilingual) |
~15GB | ~6B | โ ๊ณต๊ฐ | โญโญ |
HPLT/HPLT2.0_cleaned (ko) |
~30GB | ~12B | โ ๊ณต๊ฐ | โญโญโญ |
PleIAs/common_corpus (ko) |
~10-20GB | ~5-8B | โ ๊ณต๊ฐ | โญโญโญ |
minpeter/fineweb-2-edu-korean-raw |
~20-30GB | ~8-12B | โ ๊ณต๊ฐ | โญโญโญโญ |
minpeter/fineweb-2-edu-korean |
~5-10GB | ~2-4B | โ ๊ณต๊ฐ (edu ํํฐ๋ง) | โญโญโญโญ |
Viet-Mistral/CulturaY (ko) |
~5GB | ~2B | โ ๊ณต๊ฐ | โญโญ |
allenai/dolma (ko ๋ถ๋ถ) |
~3-5GB | ~1-2B | โ ๊ณต๊ฐ | โญโญ |
2-2. ํ๊ตญ์ด ์ ์ฉ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ (์ถ์ ) | ํ ํฐ ์ (์ถ์ ) | ์ ๊ทผ์ฑ | ๋น๊ณ |
|---|---|---|---|---|
KORMo-Team/korean-web-collection |
~50-80GB | ~20-30B | โ ๊ณต๊ฐ, dl=2.7k | ํ๊ตญ์ด ์น ํฌ๋กค, ๊ฐ์ฅ ํฐ ํ๊ตญ์ด ์ ์ฉ |
KORMo-Team/korean-public-corpus |
~10-20GB | ~4-8B | โ ๊ณต๊ฐ | ๊ณต๊ณต ๋ฐ์ดํฐ ๊ธฐ๋ฐ |
eliceai/korean-webtext-edu |
~2-5GB | ~1-2B | โ ๊ณต๊ฐ | ๊ต์ก ํ์ง ํํฐ๋ง |
CocoRoF/cc-100-korean-processing |
~14GB | ~5.5B | โ ๊ณต๊ฐ | cc100 ํ๊ตญ์ด ์ฒ๋ฆฌ๋ณธ |
MyeongHo0621/korean-quality-cleaned |
~5-10GB | ~2-4B | โ ๊ณต๊ฐ | ํ์ง ์ ์ |
opendatalab/WanJuan-Korean |
~3-5GB | ~1-2B | โ ๊ณต๊ฐ | ์ค๊ตญ AI ์ฐ๊ตฌ์ ์ ๊ณต |
2-3. ์ํค/๋๋ฌด์ํค/๋ฐฑ๊ณผ
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ํ ํฐ ์ (์ถ์ ) | ์ ๊ทผ์ฑ |
|---|---|---|---|
wikimedia/wikipedia (ko) |
~2GB | ~0.8B | โ ๊ณต๊ฐ |
lcw99/wikipedia-korean-20240501 |
~1.5GB | ~0.6B | โ ๊ณต๊ฐ |
heegyu/namuwiki-extracted |
~5-8GB | ~2-3B | โ ๊ณต๊ฐ |
heegyu/namuwiki |
~5-8GB | ~2-3B | โ ๊ณต๊ฐ |
seyoungsong/Open-Korean-Historical-Corpus |
~1-2GB | ~0.3-0.5B | โ ๊ณต๊ฐ |
2-4. ๋ฒ๋ฅ /๊ธ์ต/๋๋ฉ์ธ ํนํ
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ํ ํฐ ์ (์ถ์ ) | ์ ๊ทผ์ฑ |
|---|---|---|---|
smhilee/korean-law-dataset |
~1-3GB | ~0.3-1B | โ ๊ณต๊ฐ |
joonhok-exo-ai/korean_law_open_data_precedents |
~1-2GB | ~0.3-0.5B | โ ๊ณต๊ฐ |
Rootpye/korean-lawdata2 |
~0.5-1GB | ~0.2-0.3B | โ ๊ณต๊ฐ |
Rootpye/korean-lawdata4 |
~0.5-1GB | ~0.2-0.3B | โ ๊ณต๊ฐ |
ducut91/korean-constitutional-court-decisions |
~0.5GB | ~0.1-0.2B | โ ๊ณต๊ฐ |
2-5. ์ฝ๋ ๋ฐ์ดํฐ (๋ค๊ตญ์ด)
| ๋ฐ์ดํฐ์ | ์ ์ฒด ํฌ๊ธฐ | ํ๊ตญ์ด ๊ด๋ จ์ฑ | ์ ๊ทผ์ฑ |
|---|---|---|---|
codeparrot/github-code |
~1TB+ | ์ฝ๋ ์์ฒด (์ธ์ด ๋ฌด๊ด) | โ ๊ณต๊ฐ |
bigcode/the-stack-v2 |
~3TB+ | ์ฝ๋ (ํ๊ตญ์ด ์ฃผ์ ํฌํจ) | โ ๊ณต๊ฐ |
3. AI Hub / ๊ตญ๋ฆฝ๊ตญ์ด์ / ์ ๋ถ ๋ฐ์ดํฐ (HF ์ธ๋ถ)
3-1. AI Hub (aihub.or.kr) - ํ์๊ฐ์ +์น์ธ ํ์
| ๋ฐ์ดํฐ์ | ๊ท๋ชจ (์ถ์ ) | ๋น๊ณ |
|---|---|---|
| ํ๊ตญ์ด ๋ํ ๋ฐ์ดํฐ | ~10-20GB | ์ผ์๋ํ, ๋ชฉ์ ๋ํ ๋ฑ |
| ํ๊ตญ์ด ๋ด์ค ๊ธฐ์ฌ | ~30-50GB | ์๋ฐฑ๋ง ๊ฑด |
| ํ๊ตญ์ด ๋ฌธ์ ์์ฝ | ~5-10GB | ๋ด์ค/๋ฌธ์ ์์ฝ ์ |
| ํ๊ตญ์ด ๊ธฐ๊ณ๋ ํด | ~3-5GB | QA ๋ฐ์ดํฐ |
| ์ ๋ฌธ๋ถ์ผ ํ๊ตญ์ด | ~5-10GB | ์๋ฃ/๋ฒ๋ฅ /๊ธ์ต/๊ณผํ |
| ํ๊ตญ์ด SNS ๋ฐ์ดํฐ | ~5-10GB | ์์ ๋ฏธ๋์ด ํ ์คํธ |
| AI Hub ํฉ๊ณ | ~60-100GB | ์น์ธ ํ ๋ค์ด๋ก๋, ์์ ์ ์ด์ฉ ์ ํ ํ์ธ ํ์ |
3-2. ๊ตญ๋ฆฝ๊ตญ์ด์ ๋ชจ๋์ ๋ง๋ญ์น (corpus.korean.go.kr)
| ๋ฐ์ดํฐ์ | ๊ท๋ชจ (์ถ์ ) | ๋น๊ณ |
|---|---|---|
| ๋ฌธ์ด ๋ง๋ญ์น (์ ๋ฌธ, ์ก์ง, ์ฑ ) | ~15-20GB | 2020๋ ๋ ๊ธฐ์ค |
| ๊ตฌ์ด ๋ง๋ญ์น (๋ํ, ๊ฐ์ฐ) | ~5-10GB | ์ ์ฌ ๋ฐ์ดํฐ |
| ์น ๋ง๋ญ์น | ~10-15GB | ์น ์์ง ํ ์คํธ |
| ๋ฉ์ ์ ๋ง๋ญ์น | ~1-2GB | ์นด์นด์คํก ๋ฑ |
| ์ ๋ฌธ๋ถ์ผ ๋ง๋ญ์น | ~3-5GB | ๋ฒ๋ฅ /์ํ/๊ณผํ |
| NIKL ํฉ๊ณ | ~35-50GB | ๋น์์ ์ ์ฐ๊ตฌ์ฉ, ์ ์ฒญ ํ์ |
3-3. ๊ธฐํ ์ ๋ถ/๊ณต๊ณต ๋ฐ์ดํฐ
| ์์ค | ๊ท๋ชจ | ๋น๊ณ |
|---|---|---|
| ๊ตญ๊ฐ๋ฒ๋ น์ ๋ณด์ผํฐ (law.go.kr) | ~5-10GB | ๋ฒ๋ น/ํ๋ก ์ ๋ฌธ ํฌ๋กค ๊ฐ๋ฅ |
| ํ๊ตญํ์ ์ง์ธ์ฉ์์ธ (KCI) | ~3-5GB | ๋ ผ๋ฌธ ์ด๋ก |
| ๊ตญํ ํ์๋ก | ~2-3GB | ๊ณต๊ฐ |
| ํนํ ๋ฐ์ดํฐ (KIPRIS) | ~5-10GB | ํ๊ตญ์ด ํนํ |
4. ์ ๊ทผ ๋ถ๊ฐ / ํ์ธ ๋ถ๊ฐ
| ๋ฐ์ดํฐ์ | ์ํ | ๋น๊ณ |
|---|---|---|
snunlp/korean-hate-speech |
โ 404 | ์ญ์ ๋จ |
Bingsu/KoCC |
โ 404 | ์ญ์ ๋จ |
nindanaoto/ko-books |
โ 404 | ์ญ์ ๋จ |
snunlp/KR-FinPen |
โ 404 | ์ญ์ ๋จ |
bigscience/roots_ko_* |
โ 404 | BigScience ํ๋ก์ ํธ ์ข ๋ฃ |
open-llm-leaderboard/korean-fineweb |
โ ๋ฏธํ์ธ | ์กด์ฌ ์ฌ๋ถ ๋ถ๋ช |
5. ์ด ๊ฐ์ฉ ํ ํฐ ์ ์ถ์
| ์นดํ ๊ณ ๋ฆฌ | ํ ํฐ ์ (์ถ์ ) |
|---|---|
| ์ด๋ฏธ ๋ณด์ | ~44.5B |
| HF ์ถ๊ฐ ๋ค์ด๋ก๋ ๊ฐ๋ฅ (๋ํ ์น) | ~55-75B |
| HF ์ถ๊ฐ ๋ค์ด๋ก๋ ๊ฐ๋ฅ (ํ๊ตญ์ด ์ ์ฉ) | ~30-50B |
| HF ์ถ๊ฐ (์ํค/๋๋ฌด์ํค) | ~5-7B |
| HF ์ถ๊ฐ (๋ฒ๋ฅ /๋๋ฉ์ธ) | ~1-2B |
| AI Hub + NIKL (์ ์ฒญ ํ์) | ~35-55B |
| ๊ธฐํ ๊ณต๊ณต ๋ฐ์ดํฐ (ํฌ๋กค ํ์) | ~5-10B |
| ์ด ๊ฐ์ฉ | ~175-240B ํ ํฐ |
โ ๏ธ ์ค๋ณต ์ฃผ์: CulturaX, mc4, HPLT, cc100 ๋ฑ์ Common Crawl ๊ธฐ๋ฐ์ผ๋ก ์๋น ๋ถ๋ถ ์ค๋ณต๋จ. ์ค๋ณต ์ ๊ฑฐ ํ ์ ๋ํฌ ํ ํฐ์ ~80-120B ์์ค์ผ๋ก ์ถ์ .
6. ์ฆ์ ๋ค์ด๋ก๋ ๊ถ์ฅ Top 5
| ์์ | ๋ฐ์ดํฐ์ | ์ด์ |
|---|---|---|
| ๐ฅ 1 | KORMo-Team/korean-web-collection |
ํ๊ตญ์ด ์ ์ฉ ์ต๋ ๊ท๋ชจ, ๊ธฐ์กด ๋ณด์ ๋ฐ์ดํฐ์ ์ค๋ณต ์ ์ |
| ๐ฅ 2 | minpeter/fineweb-2-edu-korean-raw |
FineWeb2 ๊ธฐ๋ฐ ํ๊ตญ์ด ๊ต์ก ํ์ง, ์ต์ ๊ณ ํ์ง |
| ๐ฅ 3 | HPLT/HPLT2.0_cleaned (ko) |
v1.2 ์ด๋ฏธ ๋ณด์ , v2.0์ ๋ ํฌ๊ณ ์ ์ ๋จ |
| 4 | mc4 (ko) |
CulturaX์ ์ผ๋ถ ์ค๋ณต์ด๋ mC4 ์๋ณธ์ผ๋ก ์ถ๊ฐ ๋ฐ์ดํฐ ํ๋ณด ๊ฐ๋ฅ |
| 5 | heegyu/namuwiki-extracted + wikimedia/wikipedia (ko) |
๋ฐฑ๊ณผ์ฌ์ ํ์ง, ์ฌ์ค ์ ๋ณด ํ๋ถ |
๋ค์ด๋ก๋ ๋ช ๋ น ์์
# 1. KORMo korean-web-collection
huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection
# 2. FineWeb2 Korean
huggingface-cli download minpeter/fineweb-2-edu-korean-raw --repo-type dataset --local-dir ./data/fineweb2-korean
# 3. HPLT 2.0 Korean only
# (config ์ง์ ํ์ - ko subset)
python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"
# 4. mC4 Korean
python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"
# 5. ๋๋ฌด์ํค + ์ํคํผ๋์
huggingface-cli download heegyu/namuwiki-extracted --repo-type dataset --local-dir ./data/namuwiki
python -c "from datasets import load_dataset; ds = load_dataset('wikimedia/wikipedia', '20231101.ko', split='train'); ds.save_to_disk('./data/wiki-ko')"
7. ์ฐธ๊ณ ์ฌํญ
- ์ค๋ณต ์ฒ๋ฆฌ ํ์: ๋๋ถ๋ถ์ ๋ํ ์น ์ฝํผ์ค(CulturaX, mc4, cc100, OSCAR, HPLT)๋ Common Crawl์ด ์์ฒ์ด๋ฏ๋ก MinHash ๋ฑ์ผ๋ก dedup ํ์
- ํ์ง ํํฐ๋ง: FineWeb2-edu-korean์ ๊ต์ก ํ์ง ์ค์ฝ์ด๋ก ํํฐ๋ง๋์ด ์์ด pretrain ํ์ง์ด ๋์
- ๋ผ์ด์ ์ค ํ์ธ: AI Hub/NIKL ๋ฐ์ดํฐ๋ ์์ ์ ์ด์ฉ ์ ํ์ด ์์ ์ ์์. ์ฌ์ ํ์ธ ํ์
- ์ฝ๋ ๋ฐ์ดํฐ: ํ๊ตญ์ด LLM์ด๋ผ๋ ์ฝ๋ ๋ฅ๋ ฅ์ ์ํด
the-stack-v2๋๋github-code์์ Python/JS/etc ํฌํจ ๊ถ์ฅ (๋ณ๋ 50-100B ํ ํฐ)