frankenstallm / source /eval /data_inventory /pretrain_datasets.md
pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d
|
raw
history blame
8.32 kB

ํ•œ๊ตญ์–ด ๊ณต๊ฐœ Pretrain ๋ฐ์ดํ„ฐ์…‹ ์ „์ˆ˜ ์กฐ์‚ฌ

์กฐ์‚ฌ์ผ: 2026-02-27 HuggingFace API ์‹ค์ ‘๊ทผ ํ™•์ธ ์™„๋ฃŒ


1. ์ด๋ฏธ ๋ณด์œ  ๋ฐ์ดํ„ฐ์…‹

๋ฐ์ดํ„ฐ์…‹ ๋ณด์œ  ํฌ๊ธฐ ํ•œ๊ตญ์–ด ํ† ํฐ ์ˆ˜ (์ถ”์ •) ๋น„๊ณ 
uonlp/CulturaX (ko) 60GB ~24.8B mC4+OSCAR ์ •์ œ๋ณธ, GATED
cc100 (ko) 14GB ~5.5B Common Crawl 100
oscar-corpus/mOSCAR (ko) 9.2GB ~3.5B OSCAR multilingual
HPLT/hplt_monolingual_v1_2 (ko) 23GB ~9B Internet Archive ๊ธฐ๋ฐ˜
HAERAE-HUB/KOREAN-WEBTEXT ๋ณด์œ  ~1.5B ๊ณ ํ’ˆ์งˆ ํ•œ๊ตญ์–ด ์›นํ…์ŠคํŠธ
maywell/korean_textbooks ๋ณด์œ  ~0.2B ๊ต๊ณผ์„œ ์Šคํƒ€์ผ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ

๋ณด์œ  ํ•ฉ๊ณ„: ~106GB+ / ~44.5B ํ† ํฐ


2. HuggingFace ์ ‘๊ทผ ๊ฐ€๋Šฅ - ์ถ”๊ฐ€ ๋‹ค์šด๋กœ๋“œ ํ•„์š”

2-1. ๋Œ€ํ˜• ์›น ์ฝ”ํผ์Šค (ํ•œ๊ตญ์–ด ๋ถ€๋ถ„)

๋ฐ์ดํ„ฐ์…‹ ํ•œ๊ตญ์–ด ํฌ๊ธฐ (์ถ”์ •) ํ† ํฐ ์ˆ˜ (์ถ”์ •) ์ ‘๊ทผ์„ฑ ์šฐ์„ ๋„
mc4 (ko) ~50GB ~20B โœ… ๊ณต๊ฐœ โญโญโญ
allenai/c4 (ko multilingual) ~15GB ~6B โœ… ๊ณต๊ฐœ โญโญ
HPLT/HPLT2.0_cleaned (ko) ~30GB ~12B โœ… ๊ณต๊ฐœ โญโญโญ
PleIAs/common_corpus (ko) ~10-20GB ~5-8B โœ… ๊ณต๊ฐœ โญโญโญ
minpeter/fineweb-2-edu-korean-raw ~20-30GB ~8-12B โœ… ๊ณต๊ฐœ โญโญโญโญ
minpeter/fineweb-2-edu-korean ~5-10GB ~2-4B โœ… ๊ณต๊ฐœ (edu ํ•„ํ„ฐ๋ง) โญโญโญโญ
Viet-Mistral/CulturaY (ko) ~5GB ~2B โœ… ๊ณต๊ฐœ โญโญ
allenai/dolma (ko ๋ถ€๋ถ„) ~3-5GB ~1-2B โœ… ๊ณต๊ฐœ โญโญ

2-2. ํ•œ๊ตญ์–ด ์ „์šฉ ๋ฐ์ดํ„ฐ์…‹

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ (์ถ”์ •) ํ† ํฐ ์ˆ˜ (์ถ”์ •) ์ ‘๊ทผ์„ฑ ๋น„๊ณ 
KORMo-Team/korean-web-collection ~50-80GB ~20-30B โœ… ๊ณต๊ฐœ, dl=2.7k ํ•œ๊ตญ์–ด ์›น ํฌ๋กค, ๊ฐ€์žฅ ํฐ ํ•œ๊ตญ์–ด ์ „์šฉ
KORMo-Team/korean-public-corpus ~10-20GB ~4-8B โœ… ๊ณต๊ฐœ ๊ณต๊ณต ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜
eliceai/korean-webtext-edu ~2-5GB ~1-2B โœ… ๊ณต๊ฐœ ๊ต์œก ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง
CocoRoF/cc-100-korean-processing ~14GB ~5.5B โœ… ๊ณต๊ฐœ cc100 ํ•œ๊ตญ์–ด ์ฒ˜๋ฆฌ๋ณธ
MyeongHo0621/korean-quality-cleaned ~5-10GB ~2-4B โœ… ๊ณต๊ฐœ ํ’ˆ์งˆ ์ •์ œ
opendatalab/WanJuan-Korean ~3-5GB ~1-2B โœ… ๊ณต๊ฐœ ์ค‘๊ตญ AI ์—ฐ๊ตฌ์†Œ ์ œ๊ณต

2-3. ์œ„ํ‚ค/๋‚˜๋ฌด์œ„ํ‚ค/๋ฐฑ๊ณผ

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ํ† ํฐ ์ˆ˜ (์ถ”์ •) ์ ‘๊ทผ์„ฑ
wikimedia/wikipedia (ko) ~2GB ~0.8B โœ… ๊ณต๊ฐœ
lcw99/wikipedia-korean-20240501 ~1.5GB ~0.6B โœ… ๊ณต๊ฐœ
heegyu/namuwiki-extracted ~5-8GB ~2-3B โœ… ๊ณต๊ฐœ
heegyu/namuwiki ~5-8GB ~2-3B โœ… ๊ณต๊ฐœ
seyoungsong/Open-Korean-Historical-Corpus ~1-2GB ~0.3-0.5B โœ… ๊ณต๊ฐœ

2-4. ๋ฒ•๋ฅ /๊ธˆ์œต/๋„๋ฉ”์ธ ํŠนํ™”

๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ํ† ํฐ ์ˆ˜ (์ถ”์ •) ์ ‘๊ทผ์„ฑ
smhilee/korean-law-dataset ~1-3GB ~0.3-1B โœ… ๊ณต๊ฐœ
joonhok-exo-ai/korean_law_open_data_precedents ~1-2GB ~0.3-0.5B โœ… ๊ณต๊ฐœ
Rootpye/korean-lawdata2 ~0.5-1GB ~0.2-0.3B โœ… ๊ณต๊ฐœ
Rootpye/korean-lawdata4 ~0.5-1GB ~0.2-0.3B โœ… ๊ณต๊ฐœ
ducut91/korean-constitutional-court-decisions ~0.5GB ~0.1-0.2B โœ… ๊ณต๊ฐœ

2-5. ์ฝ”๋“œ ๋ฐ์ดํ„ฐ (๋‹ค๊ตญ์–ด)

๋ฐ์ดํ„ฐ์…‹ ์ „์ฒด ํฌ๊ธฐ ํ•œ๊ตญ์–ด ๊ด€๋ จ์„ฑ ์ ‘๊ทผ์„ฑ
codeparrot/github-code ~1TB+ ์ฝ”๋“œ ์ž์ฒด (์–ธ์–ด ๋ฌด๊ด€) โœ… ๊ณต๊ฐœ
bigcode/the-stack-v2 ~3TB+ ์ฝ”๋“œ (ํ•œ๊ตญ์–ด ์ฃผ์„ ํฌํ•จ) โœ… ๊ณต๊ฐœ

3. AI Hub / ๊ตญ๋ฆฝ๊ตญ์–ด์› / ์ •๋ถ€ ๋ฐ์ดํ„ฐ (HF ์™ธ๋ถ€)

3-1. AI Hub (aihub.or.kr) - ํšŒ์›๊ฐ€์ž…+์Šน์ธ ํ•„์š”

๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ (์ถ”์ •) ๋น„๊ณ 
ํ•œ๊ตญ์–ด ๋Œ€ํ™” ๋ฐ์ดํ„ฐ ~10-20GB ์ผ์ƒ๋Œ€ํ™”, ๋ชฉ์ ๋Œ€ํ™” ๋“ฑ
ํ•œ๊ตญ์–ด ๋‰ด์Šค ๊ธฐ์‚ฌ ~30-50GB ์ˆ˜๋ฐฑ๋งŒ ๊ฑด
ํ•œ๊ตญ์–ด ๋ฌธ์„œ ์š”์•ฝ ~5-10GB ๋‰ด์Šค/๋ฌธ์„œ ์š”์•ฝ ์Œ
ํ•œ๊ตญ์–ด ๊ธฐ๊ณ„๋…ํ•ด ~3-5GB QA ๋ฐ์ดํ„ฐ
์ „๋ฌธ๋ถ„์•ผ ํ•œ๊ตญ์–ด ~5-10GB ์˜๋ฃŒ/๋ฒ•๋ฅ /๊ธˆ์œต/๊ณผํ•™
ํ•œ๊ตญ์–ด SNS ๋ฐ์ดํ„ฐ ~5-10GB ์†Œ์…œ๋ฏธ๋””์–ด ํ…์ŠคํŠธ
AI Hub ํ•ฉ๊ณ„ ~60-100GB ์Šน์ธ ํ›„ ๋‹ค์šด๋กœ๋“œ, ์ƒ์—…์  ์ด์šฉ ์ œํ•œ ํ™•์ธ ํ•„์š”

3-2. ๊ตญ๋ฆฝ๊ตญ์–ด์› ๋ชจ๋‘์˜ ๋ง๋ญ‰์น˜ (corpus.korean.go.kr)

๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ (์ถ”์ •) ๋น„๊ณ 
๋ฌธ์–ด ๋ง๋ญ‰์น˜ (์‹ ๋ฌธ, ์žก์ง€, ์ฑ…) ~15-20GB 2020๋…„๋Œ€ ๊ธฐ์ค€
๊ตฌ์–ด ๋ง๋ญ‰์น˜ (๋Œ€ํ™”, ๊ฐ•์—ฐ) ~5-10GB ์ „์‚ฌ ๋ฐ์ดํ„ฐ
์›น ๋ง๋ญ‰์น˜ ~10-15GB ์›น ์ˆ˜์ง‘ ํ…์ŠคํŠธ
๋ฉ”์‹ ์ € ๋ง๋ญ‰์น˜ ~1-2GB ์นด์นด์˜คํ†ก ๋“ฑ
์ „๋ฌธ๋ถ„์•ผ ๋ง๋ญ‰์น˜ ~3-5GB ๋ฒ•๋ฅ /์˜ํ•™/๊ณผํ•™
NIKL ํ•ฉ๊ณ„ ~35-50GB ๋น„์ƒ์—…์  ์—ฐ๊ตฌ์šฉ, ์‹ ์ฒญ ํ•„์š”

3-3. ๊ธฐํƒ€ ์ •๋ถ€/๊ณต๊ณต ๋ฐ์ดํ„ฐ

์†Œ์Šค ๊ทœ๋ชจ ๋น„๊ณ 
๊ตญ๊ฐ€๋ฒ•๋ น์ •๋ณด์„ผํ„ฐ (law.go.kr) ~5-10GB ๋ฒ•๋ น/ํŒ๋ก€ ์ „๋ฌธ ํฌ๋กค ๊ฐ€๋Šฅ
ํ•œ๊ตญํ•™์ˆ ์ง€์ธ์šฉ์ƒ‰์ธ (KCI) ~3-5GB ๋…ผ๋ฌธ ์ดˆ๋ก
๊ตญํšŒ ํšŒ์˜๋ก ~2-3GB ๊ณต๊ฐœ
ํŠนํ—ˆ ๋ฐ์ดํ„ฐ (KIPRIS) ~5-10GB ํ•œ๊ตญ์–ด ํŠนํ—ˆ

4. ์ ‘๊ทผ ๋ถˆ๊ฐ€ / ํ™•์ธ ๋ถˆ๊ฐ€

๋ฐ์ดํ„ฐ์…‹ ์ƒํƒœ ๋น„๊ณ 
snunlp/korean-hate-speech โŒ 404 ์‚ญ์ œ๋จ
Bingsu/KoCC โŒ 404 ์‚ญ์ œ๋จ
nindanaoto/ko-books โŒ 404 ์‚ญ์ œ๋จ
snunlp/KR-FinPen โŒ 404 ์‚ญ์ œ๋จ
bigscience/roots_ko_* โŒ 404 BigScience ํ”„๋กœ์ ํŠธ ์ข…๋ฃŒ
open-llm-leaderboard/korean-fineweb โŒ ๋ฏธํ™•์ธ ์กด์žฌ ์—ฌ๋ถ€ ๋ถˆ๋ช…

5. ์ด ๊ฐ€์šฉ ํ† ํฐ ์ˆ˜ ์ถ”์ •

์นดํ…Œ๊ณ ๋ฆฌ ํ† ํฐ ์ˆ˜ (์ถ”์ •)
์ด๋ฏธ ๋ณด์œ  ~44.5B
HF ์ถ”๊ฐ€ ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅ (๋Œ€ํ˜• ์›น) ~55-75B
HF ์ถ”๊ฐ€ ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅ (ํ•œ๊ตญ์–ด ์ „์šฉ) ~30-50B
HF ์ถ”๊ฐ€ (์œ„ํ‚ค/๋‚˜๋ฌด์œ„ํ‚ค) ~5-7B
HF ์ถ”๊ฐ€ (๋ฒ•๋ฅ /๋„๋ฉ”์ธ) ~1-2B
AI Hub + NIKL (์‹ ์ฒญ ํ•„์š”) ~35-55B
๊ธฐํƒ€ ๊ณต๊ณต ๋ฐ์ดํ„ฐ (ํฌ๋กค ํ•„์š”) ~5-10B
์ด ๊ฐ€์šฉ ~175-240B ํ† ํฐ

โš ๏ธ ์ค‘๋ณต ์ฃผ์˜: CulturaX, mc4, HPLT, cc100 ๋“ฑ์€ Common Crawl ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ๋‹น ๋ถ€๋ถ„ ์ค‘๋ณต๋จ. ์ค‘๋ณต ์ œ๊ฑฐ ํ›„ ์œ ๋‹ˆํฌ ํ† ํฐ์€ ~80-120B ์ˆ˜์ค€์œผ๋กœ ์ถ”์ •.


6. ์ฆ‰์‹œ ๋‹ค์šด๋กœ๋“œ ๊ถŒ์žฅ Top 5

์ˆœ์œ„ ๋ฐ์ดํ„ฐ์…‹ ์ด์œ 
๐Ÿฅ‡ 1 KORMo-Team/korean-web-collection ํ•œ๊ตญ์–ด ์ „์šฉ ์ตœ๋Œ€ ๊ทœ๋ชจ, ๊ธฐ์กด ๋ณด์œ  ๋ฐ์ดํ„ฐ์™€ ์ค‘๋ณต ์ ์Œ
๐Ÿฅˆ 2 minpeter/fineweb-2-edu-korean-raw FineWeb2 ๊ธฐ๋ฐ˜ ํ•œ๊ตญ์–ด ๊ต์œก ํ’ˆ์งˆ, ์ตœ์‹  ๊ณ ํ’ˆ์งˆ
๐Ÿฅ‰ 3 HPLT/HPLT2.0_cleaned (ko) v1.2 ์ด๋ฏธ ๋ณด์œ , v2.0์€ ๋” ํฌ๊ณ  ์ •์ œ๋จ
4 mc4 (ko) CulturaX์™€ ์ผ๋ถ€ ์ค‘๋ณต์ด๋‚˜ mC4 ์›๋ณธ์œผ๋กœ ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ํ™•๋ณด ๊ฐ€๋Šฅ
5 heegyu/namuwiki-extracted + wikimedia/wikipedia (ko) ๋ฐฑ๊ณผ์‚ฌ์ „ ํ’ˆ์งˆ, ์‚ฌ์‹ค ์ •๋ณด ํ’๋ถ€

๋‹ค์šด๋กœ๋“œ ๋ช…๋ น ์˜ˆ์‹œ

# 1. KORMo korean-web-collection
huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection

# 2. FineWeb2 Korean
huggingface-cli download minpeter/fineweb-2-edu-korean-raw --repo-type dataset --local-dir ./data/fineweb2-korean

# 3. HPLT 2.0 Korean only
# (config ์ง€์ • ํ•„์š” - ko subset)
python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"

# 4. mC4 Korean
python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"

# 5. ๋‚˜๋ฌด์œ„ํ‚ค + ์œ„ํ‚คํ”ผ๋””์•„
huggingface-cli download heegyu/namuwiki-extracted --repo-type dataset --local-dir ./data/namuwiki
python -c "from datasets import load_dataset; ds = load_dataset('wikimedia/wikipedia', '20231101.ko', split='train'); ds.save_to_disk('./data/wiki-ko')"

7. ์ฐธ๊ณ ์‚ฌํ•ญ

  • ์ค‘๋ณต ์ฒ˜๋ฆฌ ํ•„์ˆ˜: ๋Œ€๋ถ€๋ถ„์˜ ๋Œ€ํ˜• ์›น ์ฝ”ํผ์Šค(CulturaX, mc4, cc100, OSCAR, HPLT)๋Š” Common Crawl์ด ์›์ฒœ์ด๋ฏ€๋กœ MinHash ๋“ฑ์œผ๋กœ dedup ํ•„์š”
  • ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง: FineWeb2-edu-korean์€ ๊ต์œก ํ’ˆ์งˆ ์Šค์ฝ”์–ด๋กœ ํ•„ํ„ฐ๋ง๋˜์–ด ์žˆ์–ด pretrain ํ’ˆ์งˆ์ด ๋†’์Œ
  • ๋ผ์ด์„ ์Šค ํ™•์ธ: AI Hub/NIKL ๋ฐ์ดํ„ฐ๋Š” ์ƒ์—…์  ์ด์šฉ ์ œํ•œ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Œ. ์‚ฌ์ „ ํ™•์ธ ํ•„์š”
  • ์ฝ”๋“œ ๋ฐ์ดํ„ฐ: ํ•œ๊ตญ์–ด LLM์ด๋ผ๋„ ์ฝ”๋“œ ๋Šฅ๋ ฅ์„ ์œ„ํ•ด the-stack-v2 ๋˜๋Š” github-code์—์„œ Python/JS/etc ํฌํ•จ ๊ถŒ์žฅ (๋ณ„๋„ 50-100B ํ† ํฐ)