source/eval/data_inventory/DOWNLOAD_PRIORITY.md · pathcosmos/frankenstallm at main

frankenstallm / source /eval /data_inventory /DOWNLOAD_PRIORITY.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 6 days ago

preview code

raw

history blame contribute delete

6.23 kB

	# 다운로드 우선순위 계획
	> 생성일: 2026-02-27 \| 디스크 여유: 19TB

	## 즉시 다운로드 Top 5 (우선순위순)

	---

	### 🥇 Priority 1: FineWeb-Edu (Korean subset)
	- 데이터셋: `HuggingFaceFW/fineweb-edu`
	- 왜: 교육 품질 필터링된 웹 데이터, 고품질(A급). 한국어 서브셋만 추출 가능
	- 예상: 5~15B tokens (한국어 부분)
	- 접근: ✅ 무료, gated 아님
	- 임팩트: 고품질 pretrain 토큰 대량 확보 + 교육 도메인 강화
	```bash
	# 한국어 서브셋 다운로드
	pip install datasets
	python3 -c "
	from datasets import load_dataset
	ds = load_dataset('HuggingFaceFW/fineweb-edu', 'CC-MAIN-2024-10', split='train', streaming=True)
	# language filter needed - fineweb-edu is primarily English
	# Alternative: fineweb-edu-score filtered Korean web data
	"
	```
	> ⚠️ 주의: fineweb-edu는 대부분 영어. 한국어 비중 적을 수 있음. 영어 고품질 보충용으로도 가치 있음.

	---

	### 🥈 Priority 2: Korean Preference/DPO 데이터 (다수 소스)
	- 데이터셋들:
	- `kuotient/orca-math-korean-preference` ✅
	- `kuotient/orca-math-korean-dpo-pairs` ✅
	- `heegyu/orca-math-korean-preference-cleaned` ✅
	- `ohsuz/dpo-v1010-korean` ✅
	- `ChuGyouk/argilla-distilabel-math-preference-dpo-korean` ✅
	- 왜: Preference 데이터 0건인 현재 상태에서 ORPO 학습 자체 불가 → 가장 시급
	- 예상: 합계 30~60K 쌍
	- 접근: ✅ 모두 무료
	- 임팩트: ORPO/DPO 학습 파이프라인 활성화
	```bash
	python3 << 'PYEOF'
	from datasets import load_dataset
	import json, os

	out_dir = "/PROJECT/0325120031_A/ghong/taketimes/llm-bang/data/preference"
	os.makedirs(out_dir, exist_ok=True)

	datasets_to_dl = [
	("kuotient/orca-math-korean-preference", None),
	("kuotient/orca-math-korean-dpo-pairs", None),
	("heegyu/orca-math-korean-preference-cleaned", None),
	("ohsuz/dpo-v1010-korean", None),
	]

	for name, config in datasets_to_dl:
	try:
	ds = load_dataset(name, config, split="train")
	safe_name = name.replace("/", "_")
	ds.to_json(f"{out_dir}/{safe_name}.jsonl")
	print(f"✅ {name}: {len(ds)} samples")
	except Exception as e:
	print(f"❌ {name}: {e}")
	PYEOF
	```

	---

	### 🥉 Priority 3: RedPajama-Data-1T (영어 고품질 서브셋)
	- 데이터셋: `togethercomputer/RedPajama-Data-1T`
	- 왜: 영어 데이터 극히 부족 (0.6B). 코드/ArXiv/Book/StackExchange 서브셋 선별 다운로드
	- 예상: 선별 10~20B tokens (코드 5B + ArXiv 3B + Book 2B + SE 2B)
	- 접근: ✅ 무료
	- 임팩트: 코드/과학/추론 능력 + cross-lingual transfer 대폭 강화
	```bash
	python3 << 'PYEOF'
	from datasets import load_dataset

	# 코드 서브셋만 먼저 (github subset)
	ds = load_dataset("togethercomputer/RedPajama-Data-1T", "github",
	split="train", streaming=True,
	cache_dir="/PROJECT/0325120031_A/ghong/taketimes/llm-bang/data/redpajama")
	# ArXiv subset
	ds_arxiv = load_dataset("togethercomputer/RedPajama-Data-1T", "arxiv",
	split="train", streaming=True,
	cache_dir="/PROJECT/0325120031_A/ghong/taketimes/llm-bang/data/redpajama")
	PYEOF
	```

	---

	### 4️⃣ Priority 4: 한국어 SFT 다양성 보강
	- 데이터셋들:
	- `kyujinpy/KOR-OpenOrca-Platypus-v3` ✅ (추론/수학)
	- `maywell/ko_wikidata_QA` ✅ (지식 QA)
	- `nlpai-lab/kullm-v2` ✅ (범용 지시)
	- 왜: 현재 SFT 170K은 양적 충분하나 코드/수학/추론 도메인 부족
	- 예상: +50~100K 다양한 도메인 샘플
	- 접근: ✅ 모두 무료
	```bash
	python3 << 'PYEOF'
	from datasets import load_dataset
	import os

	out_dir = "/PROJECT/0325120031_A/ghong/taketimes/llm-bang/data/sft_extra"
	os.makedirs(out_dir, exist_ok=True)

	for name in ["kyujinpy/KOR-OpenOrca-Platypus-v3", "maywell/ko_wikidata_QA", "nlpai-lab/kullm-v2"]:
	try:
	ds = load_dataset(name, split="train")
	safe = name.replace("/","_")
	ds.to_json(f"{out_dir}/{safe}.jsonl")
	print(f"✅ {name}: {len(ds)}")
	except Exception as e:
	print(f"❌ {name}: {e}")
	PYEOF
	```

	---

	### 5️⃣ Priority 5: Open-Web-Math (수학 특화)
	- 데이터셋: `open-web-math/open-web-math`
	- 왜: 수학 데이터 전무. 수학 능력은 LLM 벤치마크 핵심 영역
	- 예상: ~14B tokens (영어 수학)
	- 접근: ✅ 무료
	- 임팩트: 수학 추론 능력 기반 확보
	```bash
	python3 -c "
	from datasets import load_dataset
	ds = load_dataset('open-web-math/open-web-math', split='train', streaming=True,
	cache_dir='/PROJECT/0325120031_A/ghong/taketimes/llm-bang/data/open-web-math')
	# Stream and save
	"
	```

	---

	## 다운로드 후 예상 토큰 분포

	\| 카테고리 \| 현재 \| 추가 \| 합계 \|
	\|---------\|------\|------\|------\|
	\| 한국어 Pretrain \| 39B \| +5~10B (fineweb-edu ko) \| 44~49B \|
	\| 영어 코드 \| 0 \| +5B (RedPajama github) \| 5B \|
	\| 영어 과학/ArXiv \| 0 \| +3B (RedPajama arxiv) \| 3B \|
	\| 영어 수학 \| 0 \| +10B (open-web-math) \| 10B \|
	\| 영어 기타 고품질 \| 0.6B \| +5B (RedPajama book+SE) \| 5.6B \|
	\| Pretrain 합계 \| ~39B \| +28~33B \| ~67~72B \|
	\| SFT \| 170K \| +50~100K \| 220~270K \|
	\| Preference \| 0 \| +30~60K 쌍 \| 30~60K 쌍 \|

	### 목표 달성 여부
	- ✅ Chinchilla minimum (60B) 달성 가능
	- ✅ ORPO/DPO 학습 가능
	- ✅ 코드/수학/과학 도메인 커버
	- 🟡 Chinchilla optimal (210B)에는 여전히 부족 → 추후 CulturaX 전체, SlimPajama 등 추가 검토

	---

	## 데이터 믹스 권장 비율 (학습 시)

	```
	한국어 텍스트: 50% (~35B tokens)
	영어 코드: 15% (~10B tokens)
	영어 수학/과학: 15% (~10B tokens)
	영어 일반: 15% (~10B tokens)
	한국어 교육: 5% (~3B tokens)
	```

	## 주의사항
	1. CulturaX는 gated(auto) → HuggingFace에서 동의 필요 (이미 다운받은 60GB 활용)
	2. the-stack-dedup도 gated → 승인 필요, RedPajama github로 대체
	3. 다운로드 전 `huggingface-cli login --token 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` 실행
	4. 대용량 다운로드 시 `HF_HUB_ENABLE_HF_TRANSFER=1` 환경변수 설정 권장