pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d

๋ฐ์ดํ„ฐ ๊ฐญ ๋ถ„์„ ๋ณด๊ณ ์„œ

์ƒ์„ฑ์ผ: 2026-02-27 | ๋ชจ๋ธ: 3B parameter LLM

1. ํ˜„์žฌ ๋ฐ์ดํ„ฐ ์ธ๋ฒคํ† ๋ฆฌ

1.1 Pretrain ๋ฐ์ดํ„ฐ (ํ† ํฐํ™” ์™„๋ฃŒ .bin)

ํŒŒ์ผ ํฌ๊ธฐ ํ† ํฐ ์ˆ˜ (uint16)
korean_train.bin 17GB 8.9B
korean_c4_train.bin 15GB 7.56B
korean_namuwiki_train.bin 2.1GB 1.08B
korean_wiki_train.bin 500MB 0.26B
train.bin (์˜์–ด) 1.2GB 0.60B
ํ•ฉ๊ณ„ (ํ† ํฐํ™” ์™„๋ฃŒ) ~18.4B tokens

โš ๏ธ korean_train.bin์€ c4+namuwiki+wiki์˜ ๋จธ์ง€๋ณธ์ผ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ โ†’ ์‹ค์ œ ๊ณ ์œ  ํ† ํฐ์€ ~9B ์ˆ˜์ค€

1.2 ๋ฏธํ† ํฐํ™” ์›์‹œ ๋ฐ์ดํ„ฐ (korean_extra/)

์†Œ์Šค ๋””์Šคํฌ ํฌ๊ธฐ ์ถ”์ • ํ† ํฐ ์ˆ˜ ํ’ˆ์งˆ ๋“ฑ๊ธ‰
CulturaX ko 60GB ~15B B+
HPLT ko 23GB ~5B B
cc100 ko 14GB ~3.5B C+
OSCAR ko 9.2GB ~2.3B B
korean_textbooks 6.4GB ~1.5B A
korean_webtext 4.2GB ~1B B+
finepdfs_edu_ko 2.9GB ~0.7B A-
namuwiki_extracted 2.2GB ~0.5B A-
wikipedia_korean 1.7GB ~0.4B A
kovast 449MB ~0.1B B
์†Œ๊ณ„ ~124GB ~30B

1.3 SFT ๋ฐ์ดํ„ฐ

  • train.jsonl: 161,848 ์ƒ˜ํ”Œ (276MB)
  • val.jsonl: 8,518 ์ƒ˜ํ”Œ (15MB)
  • ์†Œ์Šค: evol_instruct_ko, korean_safe_conv ๋“ฑ

1.4 Preference ๋ฐ์ดํ„ฐ

  • ํ˜„์žฌ ๋ณด์œ : 0 โŒ

์ดํ•ฉ

๋‹จ๊ณ„ ๋ณด์œ ๋Ÿ‰
Pretrain (ํ† ํฐํ™”) ~9B tokens
Pretrain (๋ฏธ์ฒ˜๋ฆฌ) ~30B tokens
Pretrain ํ•ฉ๊ณ„ ~39B tokens
SFT 170K ์ƒ˜ํ”Œ
Preference 0

2. 3B ๋ชจ๋ธ ํ•™์Šต ์š”๊ตฌ๋Ÿ‰ vs ํ˜„์žฌ

2.1 Pretrain

๊ธฐ์ค€ ํ•„์š” ํ† ํฐ ํ˜„์žฌ ๊ฐญ ์ƒํƒœ
Chinchilla optimal (ร—70) 210B 39B -171B ๐Ÿ”ด ์‹ฌ๊ฐ ๋ถ€์กฑ
Chinchilla minimum (ร—20) 60B 39B -21B ๐ŸŸก ๋ถ€์กฑ
LLaMA-style (ร—33) 100B 39B -61B ๐Ÿ”ด ๋ถ€์กฑ
์‹ค์šฉ์  ๋ชฉํ‘œ 60~80B 39B -21~41B ๐ŸŸก

๊ฒฐ๋ก : ์ตœ์†Œ ๊ธฐ์ค€(60B)์—๋„ 21B tokens ๋ถ€์กฑ. ํ˜„์‹ค์ ์œผ๋กœ 6080B ํƒ€๊ฒŸ ์‹œ ์ถ”๊ฐ€ 2141B ํ•„์š”.

2.2 SFT

๊ธฐ์ค€ ํ•„์š”๋Ÿ‰ ํ˜„์žฌ ๊ฐญ ์ƒํƒœ
์ตœ์†Œ ๊ณ ํ’ˆ์งˆ 50K 170K ์ถฉ๋ถ„ ๐ŸŸข
์—…๊ณ„ ํ‘œ์ค€ 100~200K 170K ์ถฉ๋ถ„ ๐ŸŸข
๋„๋ฉ”์ธ ๋‹ค์–‘์„ฑ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ์ œํ•œ์  ๋ณด์™„ ํ•„์š” ๐ŸŸก

๊ฒฐ๋ก : ์–‘์ ์œผ๋กœ ์ถฉ๋ถ„ํ•˜๋‚˜ ๋„๋ฉ”์ธ ์ปค๋ฒ„๋ฆฌ์ง€(์ˆ˜ํ•™, ์ฝ”๋“œ, ์ถ”๋ก ) ๋ณด๊ฐ• ํ•„์š”.

2.3 Preference (ORPO/DPO)

๊ธฐ์ค€ ํ•„์š”๋Ÿ‰ ํ˜„์žฌ ๊ฐญ ์ƒํƒœ
์ตœ์†Œ 5K ์Œ 0 -5K ๐Ÿ”ด
์ ์ • 20~60K ์Œ 0 -60K ๐Ÿ”ด

๊ฒฐ๋ก : ์‹ฌ๊ฐํ•œ ๊ฐญ. ORPO/DPO ํ•™์Šต ์ž์ฒด๊ฐ€ ๋ถˆ๊ฐ€๋Šฅ.


3. ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ ํฌ์ง€์…”๋‹

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ Pretrain ํ† ํฐ ์šฐ๋ฆฌ ๋Œ€๋น„
Polyglot-Ko 12.8B 12.8B 1.2T 30ร—
EXAONE 3.0 7.8B 8T 200ร—
HyperCLOVA X ๋น„๊ณต๊ฐœ ์ˆ˜๋ฐฑB~์ˆ˜T 10~100ร—
Phi-3 mini 3.8B 3.8B 3.3T 85ร—
StableLM 3B 3B 4T 100ร—
์šฐ๋ฆฌ (๋ชฉํ‘œ) 3B 60~80B ๊ธฐ์ค€

๋ถ„์„:

  • ์šฐ๋ฆฌ 6080B์€ ๋ชจ๋ธ ํฌ๊ธฐ ๋Œ€๋น„ Chinchilla minimum์ ์ • ์ˆ˜์ค€
  • ๋Œ€ํ˜• ๋ชจ๋ธ๋“ค์€ 10100ร— ๋งŽ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋ชจ๋ธ๋„ 240ร— ํผ
  • 3B์— 60B tokens์€ ํ•ฉ๋ฆฌ์  ์ตœ์†Œ์น˜ โ€” ํ•™๊ณ„์—์„œ 3B๊ธ‰์€ 50~100B์—์„œ ์ข‹์€ ๊ฒฐ๊ณผ
  • ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง + ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต์œผ๋กœ ํšจ์œจ ๋ณด์™„ ๊ฐ€๋Šฅ

4. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ถ„์„

ํ˜„์žฌ ํ’ˆ์งˆ ๋ถ„ํฌ (์ถ”์ • ํ† ํฐ ๊ธฐ์ค€)

A๋“ฑ๊ธ‰ (๊ณ ํ’ˆ์งˆ):   ~3.0B (8%)  - wiki, textbooks, finepdfs_edu
B๋“ฑ๊ธ‰ (์–‘ํ˜ธ):    ~24B  (61%)  - CulturaX, OSCAR, HPLT, webtext
C๋“ฑ๊ธ‰ (๋…ธ์ด์ฆˆ):   ~12B (31%)  - cc100, ๊ธฐํƒ€ ์›น ํฌ๋กค๋ง

๋ฌธ์ œ์ :

  • ๊ณ ํ’ˆ์งˆ(A๊ธ‰) ๋น„์ค‘์ด 8%๋กœ ๋งค์šฐ ๋‚ฎ์Œ
  • ์ฝ”๋“œ/์ˆ˜ํ•™/๊ณผํ•™ ๋ฐ์ดํ„ฐ ์ „๋ฌด
  • ์˜์–ด ๋ฐ์ดํ„ฐ ๋น„์ค‘ ๊ทนํžˆ ์ ์Œ (0.6B) โ€” ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ ๋ถ€์กฑ

5. ํ•ต์‹ฌ ๊ฒฐ๋ก 

ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋กœ 3B ํ•™์Šต ์ถฉ๋ถ„ํ•œ๊ฐ€?

No โ€” ๋‹ค์Œ ์ด์œ ๋กœ ๋ถˆ์ถฉ๋ถ„:

  1. Pretrain ํ† ํฐ ๋ถ€์กฑ (39B vs ์ตœ์†Œ 60B, 21B ๊ฐญ)
  2. Preference ๋ฐ์ดํ„ฐ ๋ถ€์žฌ (ORPO ํ•™์Šต ๋ถˆ๊ฐ€)
  3. ์ฝ”๋“œ/์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ ์ „๋ฌด (๋ฒ”์šฉ ๋Šฅ๋ ฅ ์ œํ•œ)
  4. ๊ณ ํ’ˆ์งˆ ๋น„์œจ ๋‚ฎ์Œ (8%)
  5. ์˜์–ด ๋ฐ์ดํ„ฐ ๋ถ€์กฑ (cross-lingual transfer ์ œํ•œ)

๋ถ€์กฑํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜• ์š”์•ฝ

์œ ํ˜• ์‹ฌ๊ฐ๋„ ํ•„์š” ์กฐ์น˜
Pretrain ํ† ํฐ ๐ŸŸก ์ค‘๊ฐ„ +21~41B ํ† ํฐ ํ™•๋ณด
์ฝ”๋“œ ๋ฐ์ดํ„ฐ ๐Ÿ”ด ์‹ฌ๊ฐ ์ฝ”๋“œ ์ฝ”ํผ์Šค ์ถ”๊ฐ€ (5~10B)
์ˆ˜ํ•™/๊ณผํ•™ ๐Ÿ”ด ์‹ฌ๊ฐ ์ „๋ฌธ ์ฝ”ํผ์Šค ์ถ”๊ฐ€ (2~5B)
์˜์–ด ๋ฐ์ดํ„ฐ ๐ŸŸก ์ค‘๊ฐ„ ๊ณ ํ’ˆ์งˆ ์˜์–ด 10~20B ์ถ”๊ฐ€
Preference ๐Ÿ”ด ์‹ฌ๊ฐ 20K+ ์Œ ํ™•๋ณด
SFT ๋‹ค์–‘์„ฑ ๐ŸŸก ์ค‘๊ฐ„ ์ฝ”๋“œ/์ˆ˜ํ•™/์ถ”๋ก  SFT ์ถ”๊ฐ€