frankenstallm / data /DATA_README.md
pathcosmos's picture
feat: Add data pipeline scripts + phase reports (Tier 3 - reproducibility)
b3d361d verified

ํ•™์Šต ๋ฐ์ดํ„ฐ (FRANKENSTALLM)

์ด ๋””๋ ‰ํ„ฐ๋ฆฌ๋Š” ์‚ฌ์ „ํ•™์ŠตยทSFTยทORPO ํ•™์Šต์— ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์Šคํฌ๋ฆฝํŠธ์™€ ๋กœ๊ทธ๋ฅผ ๋‹ด์Šต๋‹ˆ๋‹ค.
์›์‹œ/ํ† ํฐํ™”๋œ ๋Œ€์šฉ๋Ÿ‰ ํŒŒ์ผ(.bin, ์ˆ˜ TB)์€ ์ €์žฅ ์šฉ๋Ÿ‰ ์ œํ•œ์œผ๋กœ Hugging Face์—๋Š” ์˜ฌ๋ฆฌ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

ํฌํ•จ๋œ ํŒŒ์ผ

ํŒŒ์ผ ์„ค๋ช…
build_dataset.sh ๋ฐ์ดํ„ฐ์…‹ ๋นŒ๋“œ ์ง„์ž… ์Šคํฌ๋ฆฝํŠธ
build_korean_dataset.sh ํ•œ๊ตญ์–ด LLM์šฉ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ (CC-100, mC4, Namuwiki โ†’ ํ† ํฌ๋‚˜์ด์ง• โ†’ .bin ๋ณ‘ํ•ฉ)
build_korean_dataset.log ํŒŒ์ดํ”„๋ผ์ธ ์‹คํ–‰ ๋กœ๊ทธ (์ฐธ๊ณ ์šฉ)
__init__.py ํŒจํ‚ค์ง€ ์ดˆ๊ธฐํ™”

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ (๋กœ์ปฌ/์‹คํ—˜ ํ™˜๊ฒฝ ๊ธฐ์ค€)

  • ์‚ฌ์ „ํ•™์Šต: CC-100 Korean, mC4 Korean, Namuwiki, Cosmo ๋“ฑ ํ˜ผํ•ฉ โ†’ *.bin
  • SFT/ORPO: ์„ ํ˜ธ ๋ฐ์ดํ„ฐ ๋“ฑ โ†’ ๋ณ„๋„ ์Šคํฌ๋ฆฝํŠธ/์„ค์ •์œผ๋กœ ์ƒ์„ฑ
  • ๊ทœ๋ชจ: ์•ฝ 1.2TB ์ˆ˜์ค€ (์›์‹œ + ํ† ํฐํ™” .bin). ์žฌํ˜„ ์‹œ ๋™์ผ ์Šคํฌ๋ฆฝํŠธ๋กœ ์ž์ฒด ๊ตฌ์ถ• ํ•„์š”.

์žฌํ˜„ ๋ฐฉ๋ฒ•

  1. build_korean_dataset.sh ์‹คํ–‰ (ํ•„์š” ์‹œ ๋‚ด๋ถ€ ๋ณ€์ˆ˜ ์กฐ์ •).
  2. Hugging Face/์™ธ๋ถ€์—์„œ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋‹ค์šด๋กœ๋“œ ํ›„ data/raw/ ๋“ฑ์— ๋ฐฐ์น˜.
  3. tokenizer/ ๋ฐ train/ ์„ค์ •์— ๋งž์ถฐ ํ† ํฌ๋‚˜์ด์ง•ยท๋ณ‘ํ•ฉ ํ›„ ํ•™์Šต ์Šคํฌ๋ฆฝํŠธ ์‹คํ–‰.

์ž์„ธํ•œ ํ”„๋กœ์ ํŠธ ๊ตฌ์กฐ์™€ ํ•™์Šต ์„ค์ •์€ ์ €์žฅ์†Œ ๋ฃจํŠธ์˜ source/README.md ๋ฐ configs/ ๋ฅผ ์ฐธ๊ณ ํ•˜์„ธ์š”.