Update README with detailed data pipeline and reproduction steps

bab0696 verified 2 months ago

2.47 kB

	---
	language: ko
	license: apache-2.0
	base_model: google/gemma-3-1b-it
	tags:
	- math
	- korean
	- grpo
	- rl
	- gemma
	datasets:
	- NotoriousH2/HRM8K
	---

	# Gemma-3-1B-IT Math GRPO

	SFT → RS-SFT → GRPO 3단계 파이프라인으로 학습한 한국어 수학 모델.

	## 성능

	\| Benchmark \| Score \|
	\|-----------\|-------\|
	\| HRM8K eval GSM8K (264문제, Korean) \| ~46.2% \|
	\| HRM8K eval MATH (577문제, Korean) \| ~16.5% \|

	> ⚠️ GRPO는 base (RS-SFT, ~46.6%)대비 유의미한 개선 없음. 이미 SFT+RS-SFT로 최적화된 1B 모델에서 RL 추가 여지가 극히 제한적.

	## 데이터 & 학습 파이프라인

	### Stage 1-2: SFT → RS-SFT
	위 RS-SFT 모델과 동일. (SFT 교사 증류 → RS 샘플링 → RS-SFT with 5x replay)

	### Stage 3: GRPO

	#### Reward 함수


	#### 학습 데이터
	- 프롬프트만 필요 (GRPO는 학습 중 자체 생성)
	- GSM8K train 6,871개 unique 한국어 문제
	- 각 문제에 ground truth 답 포함 (reward 계산용)

	#### 학습 설정


	## DPO vs GRPO 비교 (실험 결과)

	### DPO 실패 분석 (10회)
	\| 데이터 전략 \| GSM8K \| 분석 \|
	\|------------\|-------\|------\|
	\| 기존 방식 (shortest correct + longest incorrect) \| 48.1% \| 길이 편향만 학습 \|
	\| Length-matched (55자 차이) \| 46.2% \| 신호 없음 (DPO acc≈0.50) \|
	\| Teacher-chosen (30B 교사 풀이=chosen) \| 47.3% \| OOD 문제 \|
	\| Multi-pair (질문당 3쌍, 난이도 가중) \| 46.6% \| 양 증가도 무효 \|
	\| base 대비 \| ±0-2%p \| 모두 variance 범위 \|

	DPO 근본 문제: 1B 모델이 정답/오답 풀이의 미묘한 차이를 내부적으로 구분할 capacity 부족.

	### GRPO 결과 (2회)
	\| beta \| steps \| GSM8K \| 비고 \|
	\|------\|-------\|-------\|------\|
	\| 0.001 \| 200 \| 43.9% \| format 퇴보 (boxed↓) \|
	\| 0.04 \| 500 \| 46.2% \| base와 동일 수준 \|

	## 환경
	- GPU: H100 NVL 95GB
	- Framework: trl 0.29.0, transformers 4.57.3, vllm 0.11.0
	- GRPO 학습: ~55분 (vLLM colocate 사용)

	## 재현 방법

	INFO 03-19 14:53:37 [__init__.py:216] Automatically detected platform cuda.
	[1;36m(APIServer pid=3429210)[0;0m INFO 03-19 14:53:43 [api_server.py:1839] vLLM API server version 0.11.0
	[1;36m(APIServer pid=3429210)[0;0m INFO 03-19 14:53:43 [utils.py:233] non-default args: {'model_tag': './grpo_model', 'model': './grpo_model', 'dtype': 'bfloat16', 'max_model_len': 4096, 'gpu_memory_utilization': 0.85}

	## 파일
	- : Stage 1 SFT
	- : RS 샘플링
	- : Stage 2 RS-SFT
	- : Stage 3 GRPO
	- : HRM8K 평가