# Preference/RLHF + Benchmark 데이터 전수 조사

> 조사일: 2026-02-27

---

## Part 1: 한국어 Preference/DPO 데이터

| 데이터셋 | 규모 | 다운로드 | 비고 |
|----------|------|----------|------|
| `kuotient/orca-math-korean-dpo-pairs` | 100K~1M | 111 | 한국어 수학 DPO. 대규모 |
| `nayohan/preference-collection-ko-full` | 100K~1M | 30 | 한국어 종합 preference |
| `jojo0217/korean_rlhf_dataset` | 100K~1M | 54 | 한국어 RLHF |
| `maywell/ko_Ultrafeedback_binarized` | 10K~100K | 108 | UltraFeedback 한국어 번역 |
| `ChuGyouk/argilla-distilabel-math-preference-dpo-korean` | 1K~10K | 10 | 수학 DPO 한국어 |
| `ohsuz/dpo-v1010-korean` | 10K~100K | 3 | 한국어 DPO |
| `ohsuz/dpo-v1010-korean-without-finance` | 10K~100K | 3 | 금융 제외 버전 |
| `tellang/yeji-preference-ko-v1` | 10K~100K | 13 | 한국어 preference |
| `AnonymousLLMer/Safety_preference-ko-cleaned` | 1K~10K | 4 | 안전성 preference |
| `mncai/distilabel-math-preference-dpo-ko` | 1K~10K | 4 | 수학 DPO 한국어 |
| `vaiv/ko-rag-preference` | <1K | 2 | RAG preference (소규모) |

### ❌ 접근 불가 (404)
- `Bongseok/ko-DPO-v0.1` — 삭제됨
- `HAERAE-HUB/KoRA` — 삭제됨
- `maywell/ko_Ultrafeedback` — 삭제됨 (binarized 버전만 존재)

---

## Part 2: 영어 Preference 데이터 (번역 가치 순위)

| 데이터셋 | 규모 | 다운로드 | 번역 가치 |
|----------|------|----------|-----------|
| `HuggingFaceH4/ultrafeedback_binarized` | 100K~1M (~62K쌍) | 5,158 | ⭐⭐⭐ 최고. 이미 ko 번역판 존재(maywell) |
| `Anthropic/hh-rlhf` | 100K~1M | 17,609 | ⭐⭐⭐ 인간 선호도. 대화형 |
| `nvidia/HelpSteer2` | 10K~100K | 15,448 | ⭐⭐⭐ 고품질 세밀 점수 |
| `openbmb/UltraFeedback` | 10K~100K | 2,317 | ⭐⭐ 원본 (binarized 버전 더 유용) |
| `argilla/distilabel-math-preference-dpo` | 1K~10K | 328 | ⭐⭐ 수학 특화 (이미 ko 번역판 존재) |
| `snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset` | 10K~100K | 71 | ⭐ 자동 생성 |
| `HuggingFaceH4/stack-exchange-preferences` | 10M~100M | 3,873 | ⭐ 너무 대규모, 코드 편향 |
| `allenai/preference-test-sets` | 10K~100K | 2,777 | 평가용 (학습 부적합) |

---

## Part 3: 벤치마크/평가 데이터

| 데이터셋 | 규모 | 다운로드 | 용도 |
|----------|------|----------|------|
| **`HAERAE-HUB/KMMLU`** | 100K~1M | 10,537 | 한국어 MMLU. 핵심 벤치마크 |
| `skt/kobest_v1` | 10K~100K | 3,194 | KoBEST 5개 태스크 (BoolQ, COPA, WiC, HellaSwag, SentiNeg) |
| `HAERAE-HUB/HAE_RAE_BENCH_1.0` | 1K~10K | 457 | 해래 벤치 |
| `HAERAE-HUB/K2-Eval` | <1K | 76 | K2 평가 |
| `openai/gsm8k` | 10K~100K | 465,032 | 수학 추론 (영어) |
| `HuggingFaceH4/MATH-500` | <1K | 94,894 | 수학 벤치마크 (영어) |
| `Rowan/hellaswag` | 10K~100K | 213,419 | 상식추론 (영어) |
| `google/IFEval` | <1K | 60,319 | 지시 따르기 평가 (영어) |

### ❌ 접근 불가 (404)
- `coastalcph/mimir`, `kuotient/korean-gsm8k`, `HAERAE-HUB/KorNAT-CV`, `HAERAE-HUB/KorNAT-NL2SQL`, `snunlp/korean-hate-speech`

---

## Part 4: 자체 Preference 데이터 생성 가능성

**SFT v2 모델 (반복률 18%) 기반 Self-Play 방식:**

### 방법
1. SFT 데이터의 프롬프트 풀에서 각 프롬프트당 N=4~8회 샘플링 (temperature 0.7~1.0)
2. 자동 품질 판단으로 chosen/rejected 선별

### 자동 품질 판단 기준
- **반복 탐지**: n-gram 반복률 > 20% → rejected
- **길이 필터**: 너무 짧거나(<50자) 너무 긴(>2000자) → rejected
- **Perplexity 기반**: 외부 judge 모델 (GPT-4 또는 더 큰 모델)로 점수 부여
- **Self-consistency**: 동일 프롬프트 응답 간 reward model 점수 비교

### 예상 생성량
- SFT 프롬프트 10K개 × 4회 샘플링 = 40K 응답
- chosen/rejected 쌍: ~10K~20K쌍 (상위 25% vs 하위 25%)
- **주의**: 반복률 18%인 모델로 생성 시 rejected 품질이 너무 낮을 수 있음 → 유의미한 학습 신호 약화 가능

### 권장
- 자체 생성보다 **기존 한국어 데이터 활용 우선** (아래 추천 참조)
- 자체 생성은 ORPO 1차 학습 후, 개선된 모델로 2차 Self-Play 시 더 효과적

---

## 🎯 ORPO 즉시 시작 가능한 데이터 조합 추천

### Tier 1: 즉시 사용 (한국어, 변환 최소)
| 데이터 | 예상 쌍수 | 우선순위 |
|--------|-----------|----------|
| `jojo0217/korean_rlhf_dataset` | ~100K+ | 🥇 가장 범용적 |
| `maywell/ko_Ultrafeedback_binarized` | ~60K | 🥇 UltraFeedback 한국어, 고품질 |
| `nayohan/preference-collection-ko-full` | ~100K+ | 🥇 종합 preference |
| `kuotient/orca-math-korean-dpo-pairs` | ~100K+ | 🥈 수학 특화 |

### Tier 2: 보충용
| 데이터 | 예상 쌍수 | 용도 |
|--------|-----------|------|
| `ohsuz/dpo-v1010-korean` | ~10K+ | 추가 다양성 |
| `tellang/yeji-preference-ko-v1` | ~10K+ | 추가 다양성 |
| `ChuGyouk/argilla-distilabel-math-preference-dpo-korean` | ~5K | 수학 보충 |

### 추천 조합
```
총 ~200K~300K쌍 확보 가능
1차: jojo0217 + maywell + nayohan 합산 → ~260K쌍 (예상)
2차: kuotient 수학 추가 → 수학 능력 강화
```

### 벤치마크 평가 파이프라인
- **KMMLU** (한국어 지식) + **KoBEST** (한국어 NLU) 필수
- **GSM8K** (수학) + **IFEval** (지시 따르기) 보조
- **HAE_RAE_BENCH** 한국어 종합 평가