source/eval/hyperparam_analysis.md · pathcosmos/frankenstallm at main

frankenstallm / source /eval /hyperparam_analysis.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 5 days ago

preview code

raw

history blame contribute delete

18.6 kB

	# SFT 하이퍼파라미터 분석 & 다음 튜닝 옵션 조사

	> 생성일: 2026-02-26
	> 모델: korean_1b_sft (1.19B params, base: korean_1b_fp8_run1/checkpoint-0034000)
	> 학습: 5000 steps, 39분, 8× B200

	---

	## 1. Loss Curve 분석

	### 1-1. 기본 통계

	\| 구간 \| Steps \| n \| Loss Mean \| Loss Stdev \| Loss Min \| Loss Max \| GNorm Mean \|
	\|------\|-------\|---\|-----------\|------------\|----------\|----------\|------------\|
	\| Warmup \| 10–150 \| 15 \| 2.3100 \| 0.1144 \| 2.1129 \| 2.5229 \| 1.414 \|
	\| Post-warmup 전체 \| 160–5000 \| 485 \| 1.9984 \| 0.0942 \| 1.7305 \| 2.3413 \| 1.133 \|
	\| Q1 (초기) \| 160–1360 \| 121 \| 2.0698 \| 0.0860 \| 1.8850 \| 2.3413 \| 1.138 \|
	\| Q2 (중반1) \| 1370–2570 \| 121 \| 1.9915 \| 0.0801 \| 1.7960 \| 2.2088 \| 1.131 \|
	\| Q3 (중반2) \| 2580–3780 \| 121 \| 1.9583 \| 0.0870 \| 1.7384 \| 2.1293 \| 1.119 \|
	\| Q4 (후반) \| 3790–5000 \| 122 \| 1.9739 \| 0.0835 \| 1.7305 \| 2.1635 \| 1.142 \|

	### 1-2. 500-step 이동 평균 Loss (±50 step 윈도우)

	\| Step \| Loss(avg) \| GNorm(avg) \| 해석 \|
	\|------\|-----------\|------------\|------\|
	\| ~500 \| 2.0658 \| 1.098 \| 초기 하강 단계 \|
	\| ~1000 \| 2.0281 \| 1.121 \| 빠른 하강 지속 \|
	\| ~1500 \| 1.9663 \| 1.092 \| ✅ 최초 <2.0 진입 \|
	\| ~2000 \| 1.9802 \| 1.158 \| 소폭 반등 (정상) \|
	\| ~2500 \| 1.9882 \| 1.140 \| 안정화 구간 시작 \|
	\| ~3000 \| 1.9628 \| 1.083 \| 최저점 근방 \|
	\| ~3500 \| 1.9668 \| 1.151 \| 수렴 신호 \|
	\| ~4000 \| 1.9679 \| 1.161 \| 고원 진입 \|
	\| ~4500 \| 1.9555 \| 1.142 \| 미세 하강 지속 \|
	\| ~5000 \| 1.9718 \| 1.195 \| 최종: 1.9677 \|

	### 1-3. 해석

	Warmup 구간 (step 10–150):
	- LR이 1.33e-6 → 2e-5로 선형 증가하는 동안 loss가 2.11–2.52 범위에서 불규칙함
	- Warmup 직후 step 160에서 loss spike (2.34, 3.6σ) 발생 — warmup 종료 직후 full LR 충격. 정상적이고 흔한 패턴
	- Warmup 150 steps는 총 5000 steps의 3% → 적절

	정상 학습 구간 (step 160–5000):
	- Loss가 Q1→Q3 구간에서 2.07→1.96으로 지속 하강 (총 0.11 감소)
	- Q3→Q4는 1.958→1.974으로 오히려 소폭 상승 — cosine LR이 충분히 낮아지면서 학습 속도 저하, 수렴 징후
	- 표준편차 0.094는 안정적 (SFT 기준 0.05–0.15 정상 범위)

	Outlier 분석:
	- Mean+2σ = 2.187 초과: 10개 / 485 = 2.1% → 정상 수준
	- 모두 초기(step 160–800)에 집중 + step 2190 1개 — 데이터 다양성에 의한 정상 변동
	- gnorm spike와 동반하지 않아 gradient 폭발 없음

	GNorm 패턴:
	- 전체 평균 1.13, max_grad_norm=1.0으로 설정되어 있으나 로그값은 0.89–1.53
	- 로그되는 gnorm은 clip 이전 값으로 추정; 실제 1.0 초과 시 clip 발생
	- Warmup 구간(평균 1.41)이 이후(평균 1.13)보다 높음 — 정상 패턴
	- 학습 전반에 걸쳐 감소 추세 (gnorm 안정화 = 학습이 수렴 중)

	핵심 결론: 학습은 건강하게 진행됨. Step ~3000 이후 수렴 신호가 있으나 loss는 여전히 미세 하강 중. 5000 steps 종료 시점이 적절한 stopping point였거나 추가 학습 여지 있음.

	---

	## 2. 하이퍼파라미터 영향 분석

	### 2-1. Learning Rate: 2e-5 → ✅ 적절 (업계 표준 범위)

	\| 모델/프레임워크 \| LR \| 규모 \|
	\|---\|---\|---\|
	\| Meta Alpaca (Llama 7B) \| 2e-5 \| 7B \|
	\| WizardLM (Vicuna 13B) \| 2e-5 \| 13B \|
	\| OpenHermes (Mistral 7B) \| 2e-5 \| 7B \|
	\| LIMA (65B) \| 1e-5 \| 65B \|
	\| TinyLlama SFT (1.1B) \| 2e-5 \| 1.1B \|
	\| 현재 설정 \| 2e-5 \| 1.2B \|

	- 1B 규모에서 2e-5는 업계 표준값과 정확히 일치
	- pretrain LR(2e-4)의 1/10으로 설정 → catastrophic forgetting 방지 원칙 충족
	- 단, 추가 epoch 시에는 1e-5로 낮추는 것이 안전

	개선 방향: 현재 설정 유지. 2차 학습 시 1e-5 추천.

	### 2-2. Cosine Decay 스케줄 → ✅ 적절 (단, 최종 LR 약간 높음)

	- 최종 LR: 2.00e-6 (peak의 10%)
	- 표준 cosine schedule: min_lr = 0.1 × peak_lr
	- 5000 steps에 맞는 설정: warmup 150 + cosine decay 4850 steps
	- step 5000에서 LR이 2e-6으로 자연 수렴 → 학습이 마무리된 느낌

	개선 방향: min_lr을 0 또는 1e-7로 낮추면 마지막 구간 더 안정적 수렴 가능. 현재 설정도 무방.

	### 2-3. Effective Batch Size: 64 sequences (=262K tokens/step) → ✅ 적절

	- 64 seqs × 평균 ~500 tokens (dynamic padding) ≈ 32,000 tokens/step 실제 처리량
	- max_seq_len=4096 기준 이론값은 262,144 tok/step이지만 동적 패딩으로 실제는 낮음
	- SFT 배치 크기 참고: Alpaca=128 seqs, WizardLM=64 seqs, LIMA=64 seqs
	- 64는 업계 표준값과 정확 일치

	개선 방향: 현재 설정 유지. 배치가 너무 크면 generalization 저하 가능성 있음.

	### 2-4. Epochs: ~2 epoch → ⚠️ 부족 가능성 (안전은 함)

	- 5000 steps × 64 seqs = 320,000 예제 처리 / 159,000 샘플 = 약 2.0 epoch
	- SFT 업계 기준:
	- LIMA: 15 epoch (소량 데이터 1K개)
	- Alpaca, WizardLM: 3 epoch
	- OpenHermes, Hermes: 3–5 epoch
	- 대규모 데이터(>100K): 1–3 epoch

	- 2 epoch는 과소학습 가능성 있음 (특히 낮은 빈도 데이터 패턴 학습 부족)
	- Q4 loss(1.974)가 Q3(1.958)보다 살짝 높아진 것은 cosine LR 감소 효과 + 아직 수렴 전일 가능성 공존
	- Val loss가 없어 과적합 여부 확인 불가 (✅ eval_interval=100으로 설정은 되어 있었으나 결과 없음)

	개선 방향: 3–4 epoch (7500–10000 steps) 추가 실험 권장. 단 val split 필수 확보 후 진행.

	### 2-5. NEFTune alpha=10 → ✅ 이 데이터셋 크기에 적합

	- 원논문(Jain et al., 2023) 권장값: 소규모(<10K) → 5, 중규모(10K–500K) → 10, 대규모(>500K) → 15
	- 159K 샘플 → alpha=10 적합
	- Noise magnitude = alpha / sqrt(seq_len × d_model) = 10 / sqrt(500 × 2048) ≈ 0.0099
	- 실제 embedding 값 대비 적절한 noise 비율
	- Loss curve 안정성(stdev 0.094)으로 볼 때 NEFTune이 학습을 불안정하게 만들지 않았음

	개선 방향: 현재 설정 유지. 데이터 증가(500K+) 시 alpha=15로 상향 고려.

	### 2-6. max_seq_len: 4096 → ✅ 적절 (단, 활용도 확인 필요)

	- 설정: max_seq_len=4096, dynamic padding 적용
	- 한국어 instruction 데이터 평균 길이: 200–1000 tokens (kullm/KoAlpaca 기준)
	- Dynamic padding 덕분에 짧은 시퀀스들은 실제로 4096을 채우지 않음 → compute 효율적
	- rope_theta=500000 (Llama-3 스타일) → 4096 이상 외삽도 지원

	잠재 문제:
	- 데이터셋에 4096 초과 대화가 있다면 truncation 발생 → 긴 multi-turn 대화 손실
	- 현재 데이터셋(kullm, KoAlpaca, LIMA 등)은 대부분 2048 이하이므로 실질적 영향 적음

	개선 방향: 현재 설정 유지. 장문 대화 데이터 추가 시 8192 고려.

	---

	## 3. 다음 튜닝 옵션 후보군

	### A. 추가 SFT Epoch (5000 → 10000 steps, epoch 4)

	Pros:
	- 현재 loss가 여전히 하강 추세 — 추가 학습 여지 있음
	- epoch 3–4는 SFT 업계 표준 (Alpaca, WizardLM 기준)
	- 기존 체크포인트에서 resume 가능, 39분 추가면 충분 (B200 속도 기준)
	- 구현 가능: `--resume checkpoints/korean_1b_sft/checkpoint-5000 --max_steps 10000`

	Cons:
	- Val loss 없이 진행 시 과적합 감지 불가
	- cosine schedule이 이미 step 5000 기준으로 설계되어 있음 → resume 시 LR 스케줄 재설정 필요
	- epoch 4 이후 과적합 위험 (특히 반복 패턴 memorization)

	추천: ✅ 조건부 추천 — val split 5–10% 확보 후, LR=1e-5로 새 cosine schedule 설정하여 추가 학습. Resume보다 fresh start 권장.

	구체적 설정:
	```yaml
	max_steps: 5000 # 추가 5000 steps (epoch 3-4)
	lr: 1.0e-5 # 이전의 절반
	warmup_steps: 50 # 짧은 warmup
	```

	---

	### B. LR 튜닝: 2e-5 vs 1e-5 vs 5e-6

	\| LR \| 장점 \| 단점 \| 추천 \|
	\|----\|------\|------\|------\|
	\| 5e-6 \| 매우 안전, 과적합 방지 \| 5000 steps에서 개선 폭 적을 수 있음 \| ❌ 너무 보수적 \|
	\| 1e-5 \| 균형잡힌 선택, 2차 학습 표준 \| 현재 대비 학습 속도 절반 \| ✅ 추천 \|
	\| 2e-5 (현재) \| 1차 학습에서 좋은 결과 \| 추가 epoch에서 과적합 위험 \| ⚠️ 추가 학습에 불리 \|

	결론: 2차 학습 시 lr=1e-5 사용. 현재 lr=2e-5는 1차 학습에 최적.

	---

	### C. ORPO (Odds Ratio Preference Optimization)

	개요: SFT + preference alignment을 단일 단계에서 동시 수행. Reference model 불필요.

	Pros:
	- Reference model 없어 메모리 절약 (DPO 대비 VRAM 약 40% 절약)
	- SFT와 preference를 동시에 최적화 → 모델 품질 저하 없이 alignment 가능
	- 1-stage 파이프라인 → 운영 단순화
	- `trl` 라이브러리로 쉽게 구현 가능

	Cons:
	- Chosen/rejected 쌍 데이터 필수 (현재 없음)
	- 한국어 preference 데이터 선택지가 제한적

	한국어 Preference 데이터 현황 (HuggingFace 기준):
	\| 데이터셋 \| 샘플 수 \| 특징 \|
	\|---------\|---------\|------\|
	\| `maywell/ko_Ultrafeedback` \| ~60K \| UltraFeedback 한국어 번역 \|
	\| `ChuGyouk/korean-ultrafeedback-armorm` \| ~60K \| ArmoRM 스코어 포함 \|
	\| `HAERAE-HUB/K2-Align` \| ~10K \| 한국어 RLHF alignment \|
	\| `heegyu/KORANI-v1` \| ~20K \| Korean RANI (human feedback) \|
	\| `trl-lib/ultrafeedback_binarized` \| ~60K \| 영어 (번역 필요) \|

	추천: ✅ 추천 — `maywell/ko_Ultrafeedback` 또는 `ChuGyouk/korean-ultrafeedback-armorm` 확보 후 TRL `ORPOTrainer`로 구현. SFT 후 ORPO 적용 또는 from scratch ORPO 모두 가능.

	구현 예시:
	```python
	from trl import ORPOConfig, ORPOTrainer
	config = ORPOConfig(learning_rate=5e-7, num_train_epochs=1, ...)
	trainer = ORPOTrainer(model, config, train_dataset=preference_data)
	```

	---

	### D. DPO (Direct Preference Optimization)

	개요: SFT 완료 모델 위에 preference alignment을 추가 학습. Reference model(=SFT 모델 frozen) 필요.

	vs ORPO:
	\| \| DPO \| ORPO \|
	\|--\|-----\|------\|
	\| Reference model \| 필요 (VRAM +40%) \| 불필요 \|
	\| SFT 단계 \| 별도 필요 \| 통합 가능 \|
	\| 안정성 \| 검증된 방법 \| 상대적으로 신규 \|
	\| 데이터 \| chosen/rejected \| chosen/rejected \|
	\| 구현 복잡도 \| 중간 \| 낮음 \|

	Pros:
	- 가장 널리 검증된 preference optimization 방법
	- `trl` 라이브러리 완전 지원
	- Llama, Mistral 기반 모든 주요 모델에 적용됨

	Cons:
	- SFT 모델을 reference로 두고 추가 학습 → 메모리 2배 (1.2B × 2 = ~16GB, B200 192GB에서 무리 없음)
	- 2단계 학습 파이프라인 복잡성

	추천: ✅ 추천 — ORPO보다 검증된 방법. B200 × 8에서 메모리 이슈 없음. ORPO와 A/B 테스트 가치 있음.

	---

	### E. LoRA/QLoRA

	맥락: 이미 full fine-tuning 완료. LoRA의 역할은?

	Pros:
	- 빠른 하이퍼파라미터 실험 (LR, epoch, alpha 조합): full FT 대비 3-5x 빠름
	- 여러 adaptation 동시 관리 (domain-specific LoRA weights)
	- DPO/ORPO 단계에서 adapter만 학습 가능
	- VRAM 사용 절약 → batch size 증가 가능

	Cons:
	- 이미 full FT된 모델이 있으므로 LoRA 성능 상한 ≤ full FT
	- 1B 모델은 이미 작아서 QLoRA의 4-bit quantization 이점이 크지 않음
	- Fine-tuning quality는 full FT가 항상 우세

	추천: ⚠️ 조건부 추천 — 하이퍼파라미터 탐색(lr 그리드서치, epoch sweep)에 LoRA 활용. 최종 모델은 full FT.

	실용적 사용법:
	```python
	# 빠른 실험: LoRA rank=64로 LR 그리드서치
	# rank=64, alpha=128, dropout=0.05
	# 약 5-10분 / 실험 (B200 기준)
	```

	---

	### F. 데이터 품질 개선

	현재 데이터 구성:
	- kullm: 대규모 한국어 instruction (품질 혼재)
	- KoAlpaca: Alpaca 한국어 번역 (번역 품질 이슈)
	- safe_conv: 안전 대화 데이터
	- LIMA: 고품질 영어 instruction (1000개)
	- evol_instruct: GPT-4 생성 (고품질)
	- kovast: 한국어 대화

	개선 방향:

	1. Deduplication (MinHash LSH):
	- instruction text에 대해 locality-sensitive hashing
	- 예상 중복 제거율: 5–15% (159K → 135–150K 정도)
	- 품질 향상 효과: 중복 패턴 memorization 방지

	2. Quality Filtering:
	- Perplexity 기반 필터: 너무 낮거나 너무 높은 perplexity 제거
	- 언어 확인: 한국어 비율 체크 (`langdetect`)
	- 길이 필터: 너무 짧은 응답(<50 tokens) 제거
	- 반복 패턴 제거: `n-gram repetition score` 기반

	3. Domain Mixing 조정:
	- LIMA-style: 소량의 고품질 데이터가 대량의 저품질보다 효과적
	- evol_instruct 비율 ↑ (GPT-4 생성이므로 고품질)
	- 단순 번역 데이터(KoAlpaca) 비율 ↓

	추천: ✅ 강력 추천 — 데이터 품질이 epoch 수보다 중요. 1주일 투자로 실질적 성능 향상 기대.

	---

	### G. 더 많은 SFT 데이터 (159K → 500K+)

	HuggingFace 추가 가능 데이터셋:

	\| 데이터셋 \| 샘플 수 \| 언어 \| 품질 \| 비고 \|
	\|---------\|---------\|------\|------\|------\|
	\| `HAERAE-HUB/qarv-instruct-100k` \| 100K \| 한국어 \| 중상 \| 한국어 instruction 100K \|
	\| `nayohan/llama3-instruct-ko-dataset` \| 58K \| 한국어 \| 상 \| Llama-3 instruction 한국어 \|
	\| `hPark/orca-ko` \| 200K+ \| 한국어 \| 상 \| Orca 스타일 한국어 \|
	\| `maywell/synatra-orca` \| 300K+ \| 한국어 \| 상 \| 합성 데이터, 고품질 \|
	\| `FreedomIntelligence/evol-instruct-korean` \| 70K \| 한국어 \| 상 \| GPT-4 생성 한국어 \|
	\| `Bingsu/ko_alpaca_data` \| 52K \| 한국어 \| 중 \| Alpaca 한국어 (번역) \|
	\| `HAERAE-HUB/KoInstruct` \| 50K+ \| 한국어 \| 중상 \| 한국어 instruction \|
	\| `Open-Orca/OpenOrca` \| 1M+ \| 영어 \| 최상 \| 고품질 영어 (한국어 모델에 혼합 가능) \|

	500K 달성 경로:
	1. 현재 159K
	2. `hPark/orca-ko` + `maywell/synatra-orca` 추가: +200K = 359K
	3. `HAERAE-HUB/qarv-instruct-100k` + `nayohan/llama3-instruct-ko-dataset`: +158K = 517K
	4. 품질 필터 후 유지 비율 ~80% → 약 400K 순 데이터

	Pros:
	- 더 많은 도메인 커버리지
	- 드문 패턴 학습 기회 증가
	- Generalization 향상

	Cons:
	- 데이터 품질 검증 필요 (무분별 추가는 역효과)
	- 학습 시간 증가 (같은 epoch 기준 3배 → 2시간+)
	- 고품질 소량 vs 저품질 다량 트레이드오프

	추천: ✅ 추천 (품질 필터 전제) — `hPark/orca-ko`나 `maywell/synatra-orca` 같은 고품질 합성 데이터 우선 추가. 단순 번역 데이터 비율 주의.

	---

	## 4. 즉시 실행 가능한 실험 Top 3

	### 🥇 1순위: 현재 모델 종합 평가 (eval 실행)

	이유:
	- Loss 1.9677이 실제로 좋은 모델인지 알 수 없음
	- 추가 학습 방향 결정 전 baseline 필수
	- 이미 `eval/comprehensive_eval.py` 존재

	즉시 실행:
	```bash
	cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang

	# Perplexity 평가
	python eval/perplexity.py \
	--checkpoint checkpoints/korean_1b_sft/checkpoint-5000 \
	--data data/sft/val.jsonl # val split 필요

	# 생성 품질 빠른 체크
	python eval/generate.py \
	--checkpoint checkpoints/korean_1b_sft/checkpoint-5000 \
	--prompts "안녕하세요, 저는 AI 모델입니다. 오늘 날씨에 대해 설명해주세요."
	```

	예상 시간: 10–30분

	---

	### 🥈 2순위: lr=1e-5로 추가 SFT (epoch 3–4까지)

	이유:
	- Loss curve가 아직 수렴하지 않았고 epoch 2는 업계 표준보다 부족
	- 구현 비용 최소 (기존 코드 재사용)
	- B200 × 8에서 약 40–60분 추가 (39분/5000steps 기준)

	구체적 설정:
	```bash
	# 새 run으로 checkpoint-5000에서 시작
	RUN_NAME=korean_1b_sft_v2 \
	BASE_CHECKPOINT=checkpoints/korean_1b_sft/checkpoint-5000 \
	LR=1.0e-5 \
	MAX_STEPS=5000 \ # epoch 3-4
	WARMUP_STEPS=50 \ # 짧은 warmup
	bash scripts/launch_sft.sh
	```

	주의: val split 없으면 step 3000–5000에서 val loss 체크하며 early stop 기준 수동 설정 필요.

	예상 결과: loss 1.90–1.93 (현재 1.97 대비 약 2–3% 개선), 생성 품질 체감 향상 기대.

	---

	### 🥉 3순위: 데이터 품질 개선 + 추가 데이터 수집

	이유:
	- 데이터 품질이 하이퍼파라미터 튜닝보다 장기적으로 중요
	- 현재 데이터에 중복/저품질 포함 가능성 있음
	- ORPO/DPO 파이프라인 준비를 위해 preference 데이터도 동시에 수집

	즉시 실행 가능한 작업:

	```python
	# 1. Deduplication (MinHash)
	pip install datasketch
	# instruction text 기준 MinHash dedup, threshold=0.8

	# 2. 추가 데이터 다운로드
	from datasets import load_dataset
	ds = load_dataset("hPark/orca-ko") # ~200K 고품질 한국어
	ds2 = load_dataset("maywell/synatra-orca") # ~300K 합성

	# 3. 한국어 Preference 데이터 수집 (ORPO/DPO 준비)
	pref = load_dataset("maywell/ko_Ultrafeedback") # ~60K preference 쌍
	```

	예상 시간: 데이터 준비 2–4시간, 재학습은 추가 설정 후 진행.

	---

	## 5. 종합 평가 요약

	### 현재 설정 평가

	\| 항목 \| 설정값 \| 평가 \| 비고 \|
	\|------\|--------\|------\|------\|
	\| Learning Rate \| 2e-5 \| ✅ 적절 \| 업계 표준 정중앙 \|
	\| Cosine Decay \| 5000 steps \| ✅ 적절 \| min_lr ~10% \|
	\| Warmup \| 150 steps (3%) \| ✅ 적절 \| 3-5% 권장 범위 \|
	\| Effective Batch \| 64 seqs \| ✅ 적절 \| 업계 표준 \|
	\| Epochs \| ~2 \| ⚠️ 부족 가능 \| 3 epoch 표준 \|
	\| NEFTune alpha \| 10 \| ✅ 적절 \| 159K 데이터에 맞음 \|
	\| max_seq_len \| 4096 \| ✅ 적절 \| 동적 패딩으로 효율적 \|
	\| Weight Decay \| 0.01 \| ✅ 적절 \| pretrain(0.1)의 1/10 \|

	### 옵션별 추천 우선순위

	\| 옵션 \| 추천 \| 이유 \|
	\|------\|------\|------\|
	\| A. 추가 SFT (epoch 4) \| ✅ 높음 \| epoch 부족, 즉시 실행 가능 \|
	\| B. LR 1e-5로 재학습 \| ✅ 높음 \| 추가 학습 시 필수 \|
	\| C. ORPO \| ✅ 중간 \| 데이터 준비 필요 \|
	\| D. DPO \| ✅ 중간 \| ORPO 대안, 더 검증됨 \|
	\| E. LoRA \| ⚠️ 낮음 \| 하이퍼파라미터 탐색에만 유용 \|
	\| F. 데이터 품질 개선 \| ✅ 높음 \| 장기 투자 대비 효과 큼 \|
	\| G. 데이터 추가 (500K) \| ✅ 중간 \| 고품질 소스 전제 \|

	### 학습 곡선 총평

	현재 SFT는 건강하게 완료됨:
	- Gradient norm 안정, spike 없음
	- Loss 단조 감소 (미시적 변동은 정상)
	- Outlier 2.1%는 정상 범위
	- 수렴 신호가 step 3000+ 이후 나타나지만 아직 plateau는 아님

	가장 우려되는 점: Validation loss 없음 → 과적합 여부 불명확. 즉시 val split 확보 필요.

	---

	분석 완료. 다음 실행 시 이 파일을 기반으로 실험 방향 결정 권장.