ํ๊ตญ์ด ๊ณต๊ฐ Pretrain ๋ฐ์ดํฐ์
์ ์ ์กฐ์ฌ
์กฐ์ฌ์ผ: 2026-02-27
HuggingFace API ์ค์ ๊ทผ ํ์ธ ์๋ฃ
1. ์ด๋ฏธ ๋ณด์ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์
|
๋ณด์ ํฌ๊ธฐ |
ํ๊ตญ์ด ํ ํฐ ์ (์ถ์ ) |
๋น๊ณ |
uonlp/CulturaX (ko) |
60GB |
~24.8B |
mC4+OSCAR ์ ์ ๋ณธ, GATED |
cc100 (ko) |
14GB |
~5.5B |
Common Crawl 100 |
oscar-corpus/mOSCAR (ko) |
9.2GB |
~3.5B |
OSCAR multilingual |
HPLT/hplt_monolingual_v1_2 (ko) |
23GB |
~9B |
Internet Archive ๊ธฐ๋ฐ |
HAERAE-HUB/KOREAN-WEBTEXT |
๋ณด์ |
~1.5B |
๊ณ ํ์ง ํ๊ตญ์ด ์นํ
์คํธ |
maywell/korean_textbooks |
๋ณด์ |
~0.2B |
๊ต๊ณผ์ ์คํ์ผ ํฉ์ฑ ๋ฐ์ดํฐ |
๋ณด์ ํฉ๊ณ: ~106GB+ / ~44.5B ํ ํฐ
2. HuggingFace ์ ๊ทผ ๊ฐ๋ฅ - ์ถ๊ฐ ๋ค์ด๋ก๋ ํ์
2-1. ๋ํ ์น ์ฝํผ์ค (ํ๊ตญ์ด ๋ถ๋ถ)
| ๋ฐ์ดํฐ์
|
ํ๊ตญ์ด ํฌ๊ธฐ (์ถ์ ) |
ํ ํฐ ์ (์ถ์ ) |
์ ๊ทผ์ฑ |
์ฐ์ ๋ |
mc4 (ko) |
~50GB |
~20B |
โ
๊ณต๊ฐ |
โญโญโญ |
allenai/c4 (ko multilingual) |
~15GB |
~6B |
โ
๊ณต๊ฐ |
โญโญ |
HPLT/HPLT2.0_cleaned (ko) |
~30GB |
~12B |
โ
๊ณต๊ฐ |
โญโญโญ |
PleIAs/common_corpus (ko) |
~10-20GB |
~5-8B |
โ
๊ณต๊ฐ |
โญโญโญ |
minpeter/fineweb-2-edu-korean-raw |
~20-30GB |
~8-12B |
โ
๊ณต๊ฐ |
โญโญโญโญ |
minpeter/fineweb-2-edu-korean |
~5-10GB |
~2-4B |
โ
๊ณต๊ฐ (edu ํํฐ๋ง) |
โญโญโญโญ |
Viet-Mistral/CulturaY (ko) |
~5GB |
~2B |
โ
๊ณต๊ฐ |
โญโญ |
allenai/dolma (ko ๋ถ๋ถ) |
~3-5GB |
~1-2B |
โ
๊ณต๊ฐ |
โญโญ |
2-2. ํ๊ตญ์ด ์ ์ฉ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์
|
ํฌ๊ธฐ (์ถ์ ) |
ํ ํฐ ์ (์ถ์ ) |
์ ๊ทผ์ฑ |
๋น๊ณ |
KORMo-Team/korean-web-collection |
~50-80GB |
~20-30B |
โ
๊ณต๊ฐ, dl=2.7k |
ํ๊ตญ์ด ์น ํฌ๋กค, ๊ฐ์ฅ ํฐ ํ๊ตญ์ด ์ ์ฉ |
KORMo-Team/korean-public-corpus |
~10-20GB |
~4-8B |
โ
๊ณต๊ฐ |
๊ณต๊ณต ๋ฐ์ดํฐ ๊ธฐ๋ฐ |
eliceai/korean-webtext-edu |
~2-5GB |
~1-2B |
โ
๊ณต๊ฐ |
๊ต์ก ํ์ง ํํฐ๋ง |
CocoRoF/cc-100-korean-processing |
~14GB |
~5.5B |
โ
๊ณต๊ฐ |
cc100 ํ๊ตญ์ด ์ฒ๋ฆฌ๋ณธ |
MyeongHo0621/korean-quality-cleaned |
~5-10GB |
~2-4B |
โ
๊ณต๊ฐ |
ํ์ง ์ ์ |
opendatalab/WanJuan-Korean |
~3-5GB |
~1-2B |
โ
๊ณต๊ฐ |
์ค๊ตญ AI ์ฐ๊ตฌ์ ์ ๊ณต |
2-3. ์ํค/๋๋ฌด์ํค/๋ฐฑ๊ณผ
| ๋ฐ์ดํฐ์
|
ํฌ๊ธฐ |
ํ ํฐ ์ (์ถ์ ) |
์ ๊ทผ์ฑ |
wikimedia/wikipedia (ko) |
~2GB |
~0.8B |
โ
๊ณต๊ฐ |
lcw99/wikipedia-korean-20240501 |
~1.5GB |
~0.6B |
โ
๊ณต๊ฐ |
heegyu/namuwiki-extracted |
~5-8GB |
~2-3B |
โ
๊ณต๊ฐ |
heegyu/namuwiki |
~5-8GB |
~2-3B |
โ
๊ณต๊ฐ |
seyoungsong/Open-Korean-Historical-Corpus |
~1-2GB |
~0.3-0.5B |
โ
๊ณต๊ฐ |
2-4. ๋ฒ๋ฅ /๊ธ์ต/๋๋ฉ์ธ ํนํ
| ๋ฐ์ดํฐ์
|
ํฌ๊ธฐ |
ํ ํฐ ์ (์ถ์ ) |
์ ๊ทผ์ฑ |
smhilee/korean-law-dataset |
~1-3GB |
~0.3-1B |
โ
๊ณต๊ฐ |
joonhok-exo-ai/korean_law_open_data_precedents |
~1-2GB |
~0.3-0.5B |
โ
๊ณต๊ฐ |
Rootpye/korean-lawdata2 |
~0.5-1GB |
~0.2-0.3B |
โ
๊ณต๊ฐ |
Rootpye/korean-lawdata4 |
~0.5-1GB |
~0.2-0.3B |
โ
๊ณต๊ฐ |
ducut91/korean-constitutional-court-decisions |
~0.5GB |
~0.1-0.2B |
โ
๊ณต๊ฐ |
2-5. ์ฝ๋ ๋ฐ์ดํฐ (๋ค๊ตญ์ด)
| ๋ฐ์ดํฐ์
|
์ ์ฒด ํฌ๊ธฐ |
ํ๊ตญ์ด ๊ด๋ จ์ฑ |
์ ๊ทผ์ฑ |
codeparrot/github-code |
~1TB+ |
์ฝ๋ ์์ฒด (์ธ์ด ๋ฌด๊ด) |
โ
๊ณต๊ฐ |
bigcode/the-stack-v2 |
~3TB+ |
์ฝ๋ (ํ๊ตญ์ด ์ฃผ์ ํฌํจ) |
โ
๊ณต๊ฐ |
3. AI Hub / ๊ตญ๋ฆฝ๊ตญ์ด์ / ์ ๋ถ ๋ฐ์ดํฐ (HF ์ธ๋ถ)
3-1. AI Hub (aihub.or.kr) - ํ์๊ฐ์
+์น์ธ ํ์
| ๋ฐ์ดํฐ์
|
๊ท๋ชจ (์ถ์ ) |
๋น๊ณ |
| ํ๊ตญ์ด ๋ํ ๋ฐ์ดํฐ |
~10-20GB |
์ผ์๋ํ, ๋ชฉ์ ๋ํ ๋ฑ |
| ํ๊ตญ์ด ๋ด์ค ๊ธฐ์ฌ |
~30-50GB |
์๋ฐฑ๋ง ๊ฑด |
| ํ๊ตญ์ด ๋ฌธ์ ์์ฝ |
~5-10GB |
๋ด์ค/๋ฌธ์ ์์ฝ ์ |
| ํ๊ตญ์ด ๊ธฐ๊ณ๋
ํด |
~3-5GB |
QA ๋ฐ์ดํฐ |
| ์ ๋ฌธ๋ถ์ผ ํ๊ตญ์ด |
~5-10GB |
์๋ฃ/๋ฒ๋ฅ /๊ธ์ต/๊ณผํ |
| ํ๊ตญ์ด SNS ๋ฐ์ดํฐ |
~5-10GB |
์์
๋ฏธ๋์ด ํ
์คํธ |
| AI Hub ํฉ๊ณ |
~60-100GB |
์น์ธ ํ ๋ค์ด๋ก๋, ์์
์ ์ด์ฉ ์ ํ ํ์ธ ํ์ |
3-2. ๊ตญ๋ฆฝ๊ตญ์ด์ ๋ชจ๋์ ๋ง๋ญ์น (corpus.korean.go.kr)
| ๋ฐ์ดํฐ์
|
๊ท๋ชจ (์ถ์ ) |
๋น๊ณ |
| ๋ฌธ์ด ๋ง๋ญ์น (์ ๋ฌธ, ์ก์ง, ์ฑ
) |
~15-20GB |
2020๋
๋ ๊ธฐ์ค |
| ๊ตฌ์ด ๋ง๋ญ์น (๋ํ, ๊ฐ์ฐ) |
~5-10GB |
์ ์ฌ ๋ฐ์ดํฐ |
| ์น ๋ง๋ญ์น |
~10-15GB |
์น ์์ง ํ
์คํธ |
| ๋ฉ์ ์ ๋ง๋ญ์น |
~1-2GB |
์นด์นด์คํก ๋ฑ |
| ์ ๋ฌธ๋ถ์ผ ๋ง๋ญ์น |
~3-5GB |
๋ฒ๋ฅ /์ํ/๊ณผํ |
| NIKL ํฉ๊ณ |
~35-50GB |
๋น์์
์ ์ฐ๊ตฌ์ฉ, ์ ์ฒญ ํ์ |
3-3. ๊ธฐํ ์ ๋ถ/๊ณต๊ณต ๋ฐ์ดํฐ
| ์์ค |
๊ท๋ชจ |
๋น๊ณ |
| ๊ตญ๊ฐ๋ฒ๋ น์ ๋ณด์ผํฐ (law.go.kr) |
~5-10GB |
๋ฒ๋ น/ํ๋ก ์ ๋ฌธ ํฌ๋กค ๊ฐ๋ฅ |
| ํ๊ตญํ์ ์ง์ธ์ฉ์์ธ (KCI) |
~3-5GB |
๋
ผ๋ฌธ ์ด๋ก |
| ๊ตญํ ํ์๋ก |
~2-3GB |
๊ณต๊ฐ |
| ํนํ ๋ฐ์ดํฐ (KIPRIS) |
~5-10GB |
ํ๊ตญ์ด ํนํ |
4. ์ ๊ทผ ๋ถ๊ฐ / ํ์ธ ๋ถ๊ฐ
| ๋ฐ์ดํฐ์
|
์ํ |
๋น๊ณ |
snunlp/korean-hate-speech |
โ 404 |
์ญ์ ๋จ |
Bingsu/KoCC |
โ 404 |
์ญ์ ๋จ |
nindanaoto/ko-books |
โ 404 |
์ญ์ ๋จ |
snunlp/KR-FinPen |
โ 404 |
์ญ์ ๋จ |
bigscience/roots_ko_* |
โ 404 |
BigScience ํ๋ก์ ํธ ์ข
๋ฃ |
open-llm-leaderboard/korean-fineweb |
โ ๋ฏธํ์ธ |
์กด์ฌ ์ฌ๋ถ ๋ถ๋ช
|
5. ์ด ๊ฐ์ฉ ํ ํฐ ์ ์ถ์
| ์นดํ
๊ณ ๋ฆฌ |
ํ ํฐ ์ (์ถ์ ) |
| ์ด๋ฏธ ๋ณด์ |
~44.5B |
| HF ์ถ๊ฐ ๋ค์ด๋ก๋ ๊ฐ๋ฅ (๋ํ ์น) |
~55-75B |
| HF ์ถ๊ฐ ๋ค์ด๋ก๋ ๊ฐ๋ฅ (ํ๊ตญ์ด ์ ์ฉ) |
~30-50B |
| HF ์ถ๊ฐ (์ํค/๋๋ฌด์ํค) |
~5-7B |
| HF ์ถ๊ฐ (๋ฒ๋ฅ /๋๋ฉ์ธ) |
~1-2B |
| AI Hub + NIKL (์ ์ฒญ ํ์) |
~35-55B |
| ๊ธฐํ ๊ณต๊ณต ๋ฐ์ดํฐ (ํฌ๋กค ํ์) |
~5-10B |
| ์ด ๊ฐ์ฉ |
~175-240B ํ ํฐ |
โ ๏ธ ์ค๋ณต ์ฃผ์: CulturaX, mc4, HPLT, cc100 ๋ฑ์ Common Crawl ๊ธฐ๋ฐ์ผ๋ก ์๋น ๋ถ๋ถ ์ค๋ณต๋จ.
์ค๋ณต ์ ๊ฑฐ ํ ์ ๋ํฌ ํ ํฐ์ ~80-120B ์์ค์ผ๋ก ์ถ์ .
6. ์ฆ์ ๋ค์ด๋ก๋ ๊ถ์ฅ Top 5
| ์์ |
๋ฐ์ดํฐ์
|
์ด์ |
| ๐ฅ 1 |
KORMo-Team/korean-web-collection |
ํ๊ตญ์ด ์ ์ฉ ์ต๋ ๊ท๋ชจ, ๊ธฐ์กด ๋ณด์ ๋ฐ์ดํฐ์ ์ค๋ณต ์ ์ |
| ๐ฅ 2 |
minpeter/fineweb-2-edu-korean-raw |
FineWeb2 ๊ธฐ๋ฐ ํ๊ตญ์ด ๊ต์ก ํ์ง, ์ต์ ๊ณ ํ์ง |
| ๐ฅ 3 |
HPLT/HPLT2.0_cleaned (ko) |
v1.2 ์ด๋ฏธ ๋ณด์ , v2.0์ ๋ ํฌ๊ณ ์ ์ ๋จ |
| 4 |
mc4 (ko) |
CulturaX์ ์ผ๋ถ ์ค๋ณต์ด๋ mC4 ์๋ณธ์ผ๋ก ์ถ๊ฐ ๋ฐ์ดํฐ ํ๋ณด ๊ฐ๋ฅ |
| 5 |
heegyu/namuwiki-extracted + wikimedia/wikipedia (ko) |
๋ฐฑ๊ณผ์ฌ์ ํ์ง, ์ฌ์ค ์ ๋ณด ํ๋ถ |
๋ค์ด๋ก๋ ๋ช
๋ น ์์
huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection
huggingface-cli download minpeter/fineweb-2-edu-korean-raw --repo-type dataset --local-dir ./data/fineweb2-korean
python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"
python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"
huggingface-cli download heegyu/namuwiki-extracted --repo-type dataset --local-dir ./data/namuwiki
python -c "from datasets import load_dataset; ds = load_dataset('wikimedia/wikipedia', '20231101.ko', split='train'); ds.save_to_disk('./data/wiki-ko')"
7. ์ฐธ๊ณ ์ฌํญ
- ์ค๋ณต ์ฒ๋ฆฌ ํ์: ๋๋ถ๋ถ์ ๋ํ ์น ์ฝํผ์ค(CulturaX, mc4, cc100, OSCAR, HPLT)๋ Common Crawl์ด ์์ฒ์ด๋ฏ๋ก MinHash ๋ฑ์ผ๋ก dedup ํ์
- ํ์ง ํํฐ๋ง: FineWeb2-edu-korean์ ๊ต์ก ํ์ง ์ค์ฝ์ด๋ก ํํฐ๋ง๋์ด ์์ด pretrain ํ์ง์ด ๋์
- ๋ผ์ด์ ์ค ํ์ธ: AI Hub/NIKL ๋ฐ์ดํฐ๋ ์์
์ ์ด์ฉ ์ ํ์ด ์์ ์ ์์. ์ฌ์ ํ์ธ ํ์
- ์ฝ๋ ๋ฐ์ดํฐ: ํ๊ตญ์ด LLM์ด๋ผ๋ ์ฝ๋ ๋ฅ๋ ฅ์ ์ํด
the-stack-v2 ๋๋ github-code์์ Python/JS/etc ํฌํจ ๊ถ์ฅ (๋ณ๋ 50-100B ํ ํฐ)