# 02. 생성 품질 평가 보고서

**모델**: `korean_1b_fp8_run1` (1.19B 파라미터, 34,000 steps)
**평가일**: 2026-02-26
**평가자**: llm-bang 실험팀

---

## 1. 실험 설정

| 항목 | 값 |
|------|----|
| 모델 | korean_1b_fp8_run1 (체크포인트: step-34000) |
| 파라미터 수 | ~1.19B |
| 추론 dtype | BF16 |
| 하드웨어 | 1× NVIDIA B200 (192GB VRAM) |
| temperature | 0.8 |
| top_p | 0.9 |
| top_k | 50 |
| max_new_tokens | 200 |
| 테스트 프롬프트 수 | 10개 |
| 프롬프트 카테고리 | 사실 지식, 창의 생성, 코드, 수학, 요리, 역사 |

> **참고**: 이 보고서는 사전학습(pretraining)만 완료된 base 모델을 대상으로 한다. Instruction tuning(SFT) 및 RLHF는 적용되지 않았다.

---

## 2. 생성 결과

### 프롬프트 1: 사실 지식 — 수도

**입력 프롬프트**:
```
한국의 수도는
```

**생성 결과**:

> 한국의 수도는서울입니다.'서울'이라는 도시는 대한민국 수도이자, '서울'이라는 도시의 이름은 대한민국 수도이자, 서울의 옛이름이기도 한 '한성'입니다.'한성'은 서울의 옛 이름이고, '한성'은 수도 서울의 옛 이름이기도 합니다. (이후 반복...)

**분석**:
- 서울이 수도라는 핵심 사실은 올바르게 생성함.
- '한성'이 서울의 옛 이름이라는 사실도 맞지만, 이후 동일 설명이 반복적으로 나열되며 퇴화함.
- 사실 정확도는 부분적(Partial). 반복 퇴화(repetition degeneration) 징후 존재.

---

### 프롬프트 2: 개념 설명 — 인공지능

**입력 프롬프트**:
```
인공지능이란
```

**생성 결과**:

> 인공지능이란?1. '인공지능(AI)'의 등장 배경 2. 인공지능이 가진 특징 3. 인공지능의 기능 4. 인공지능의 문제점 5. 인공지능의 미래... (목차 구조 반복)

**분석**:
- 레포트 또는 에세이의 목차 구조를 생성함. 실제 내용 없이 목차만 나열.
- 학습 데이터에 레포트/목차 형식의 문서가 상당 비율 포함되어 있음을 시사.
- 반복은 없으나 정보 밀도가 매우 낮음. 의미 있는 답변으로 보기 어려움.

---

### 프롬프트 3: 창의 생성 — 일상 서술

**입력 프롬프트**:
```
오늘 날씨가 좋아서
```

**생성 결과**:

> 더 열심히 했어요..이번에는 여름을 주제로 한 노래들을 모아서 소개해드리려고 해요..'SUMMER SONIC'을 가져왔어요...

**분석**:
- 자연스러운 블로그 포스트 톤으로 생성됨.
- 날씨 이야기에서 노래 추천으로 전환되었으며, 창의적이지만 맥락이 다소 벗어남.
- 10개 프롬프트 중 반복이 없는 가장 자연스러운 생성 사례 중 하나.
- 학습 데이터에서 일상 블로그 포스트 스타일이 모델에 잘 흡수된 것으로 보임.

---

### 프롬프트 4: 사실 지식 — 역사적 사건

**입력 프롬프트**:
```
대한민국의 역사에서 가장 중요한 사건은
```

**생성 결과**:

> 대한민국 임시정부 수립입니다. (이후 같은 문장 11번 이상 반복)

**분석**:
- '대한민국 임시정부 수립'이라는 핵심 사실 자체는 역사적으로 타당한 답변임.
- 그러나 이후 동일 문장이 11번 이상 반복되는 심각한 반복 퇴화가 발생함.
- Trigram repetition 비율: **87.7%** — 가장 심각한 반복 퇴화 사례.
- Beam search 또는 repetition penalty 없이 greedy/top-p 샘플링만으로는 이러한 퇴화가 빈번하게 나타남.

---

### 프롬프트 5: 실용 정보 — 교통

**입력 프롬프트**:
```
서울에서 부산까지 가는 방법은
```

**생성 결과**:

> KTX와 SRT 두 가지. 요금 정보 제공 (부정확한 수치).

**분석**:
- 구조적으로 정돈된 답변을 생성함.
- KTX와 SRT를 구분하는 것은 정확함.
- 그러나 요금 수치가 실제와 다름 — 수치적 사실(hallucination) 문제 발생.
- 1B 모델의 사실 기억 한계가 드러나는 전형적인 사례.

---

### 프롬프트 6: 코드 생성 — Python

**입력 프롬프트**:
```
다음은 파이썬 코드입니다:
def hello():
```

**생성 결과**:

> print("Hello World!"); 이후 반복 퇴화.

**분석**:
- 기초적인 `print("Hello World!")` 완성은 가능함.
- 이후 의미 있는 코드 생성 없이 반복 퇴화로 진입.
- 코드 생성 능력은 매우 제한적임.
- 1B 한국어 특화 모델의 특성상 코드 학습 데이터 비율이 낮아 코드 능력이 부족한 것으로 보임.

---

### 프롬프트 7: 수학 — 산술

**입력 프롬프트**:
```
1 + 1 = 2이고, 2 + 2 =
```

**생성 결과**:

> 4인데, 이후 n + 2 = ... 패턴 반복하며 점점 오답. 21 + 2 = 40, 22 + 2 = 44 등.

**분석**:
- `2 + 2 = 4`는 올바르게 생성함.
- 이후 덧셈 패턴을 계속 이어가지만 수치가 점점 틀려짐 (예: `21 + 2 = 40`, `22 + 2 = 44`).
- 실제 산술 연산 능력은 없으며, 숫자 패턴을 표면적으로 모방하는 수준임.
- 수학적 추론 능력은 pretrain만으로는 형성되기 어려우며, 수식 데이터 추가 및 chain-of-thought 학습이 필요함.

---

### 프롬프트 8: 창의 생성 — 시적 서술

**입력 프롬프트**:
```
봄이 오면 꽃이 피고
```

**생성 결과**:

> 꽃이 지면 열매가 열린다... 만물이 소생하는 봄... (반복)

**분석**:
- 시적·서정적 서술 톤을 잘 포착함.
- 한국어 문학적 표현 패턴(계절 묘사, 자연 순환)을 자연스럽게 이어감.
- 후반부에서 반복 퇴화로 진입하지만, 초반부 생성 품질은 양호함.
- 한국어 문학 및 수필 스타일 학습이 잘 되어 있음을 시사.

---

### 프롬프트 9: 실용 지식 — 요리 레시피

**입력 프롬프트**:
```
맛있는 김치찌개를 만들려면
```

**생성 결과**:

> 찹쌀을 불려야 합니다... (잘못된 레시피)

**분석**:
- 레시피 형식(재료 나열, 순서 설명)은 맞추고 있음.
- 내용이 부정확함: 김치찌개 레시피에 찹쌀은 사용하지 않음.
- 도메인 특화 지식에서의 hallucination이 명확하게 드러나는 사례.
- 1B 모델이 레시피 형식은 학습했으나 실제 요리 지식의 정확성은 담보되지 않음.

---

### 프롬프트 10: 사실 지식 — 역사 인물

**입력 프롬프트**:
```
세종대왕은
```

**생성 결과**:

> 조선을 건국하고... (세종이 아니라 태조의 업적을 서술). 사실 오류 다수.

**분석**:
- 세종대왕의 가장 대표적인 업적인 훈민정음 창제를 언급하지 않음.
- 조선 건국은 태조 이성계의 업적으로, 세종대왕과 혼동하는 심각한 사실 오류.
- 역사 인물 관련 사실 정확도가 낮음.
- 1B 모델의 사실 기억 및 개체 구분 한계를 명확히 보여주는 사례.

---

## 3. 종합 분석

### 3.1 정량 지표 요약

| 프롬프트 | 카테고리 | 반복 퇴화 | 사실 정확도 | 자연스러움 |
|----------|----------|-----------|-------------|-----------|
| 1. 한국의 수도는 | 사실 지식 | 중간 | 부분적 | 보통 |
| 2. 인공지능이란 | 개념 설명 | 없음 | 낮음 (무내용) | 낮음 |
| 3. 오늘 날씨가 좋아서 | 창의 생성 | 없음 | N/A | 높음 |
| 4. 대한민국의 역사 | 사실 지식 | 심각 (87.7%) | 부분적 | 낮음 |
| 5. 서울→부산 교통 | 실용 정보 | 없음 | 부분적 | 높음 |
| 6. 파이썬 코드 | 코드 생성 | 중간 | 낮음 | 낮음 |
| 7. 1+1=2, 2+2= | 수학 | 중간 | 낮음 | 낮음 |
| 8. 봄이 오면 | 창의/시적 | 경미 | N/A | 높음 |
| 9. 김치찌개 레시피 | 실용 지식 | 없음 | 낮음 | 보통 |
| 10. 세종대왕은 | 역사 인물 | 없음 | 매우 낮음 | 보통 |

### 3.2 강점

1. **한국어 문법 및 자연스러운 문장 생성**: 문법적으로 올바른 한국어 문장을 생성하며, 블로그·일상 서술 톤에서 특히 자연스럽다.
2. **문학적·서정적 표현**: 시적 서술 프롬프트(프롬프트 8)에서 한국어 문학 스타일을 잘 포착하였다.
3. **구조적 형식 학습**: 레시피, 목차, 교통 정보 등 다양한 문서 형식을 인식하고 해당 구조로 생성하는 능력이 있다.
4. **기초 사실 인식**: 서울이 수도, KTX/SRT 구분, 임시정부 수립 등 기초적인 사실은 부분적으로 맞추고 있다.

### 3.3 약점

1. **반복 퇴화 (Repetition Degeneration)**
   - 10개 프롬프트 중 3개(프롬프트 1, 4, 8)에서 중간 이상의 반복 퇴화 발생.
   - 프롬프트 4의 경우 trigram 반복률 87.7%로 가장 심각.
   - Base pretrain 모델에서 repetition penalty 없이 greedy/top-p 샘플링 시 나타나는 일반적인 현상이나, 현재 수준은 개선이 필요함.

2. **사실 정확도 (Factual Accuracy)**
   - 수치 정보(교통 요금), 역사 인물 업적, 요리 레시피 등 디테일에서 hallucination 빈발.
   - 특히 역사 인물(세종대왕 vs. 태조 혼동)에서 개체 구분 오류가 두드러짐.
   - 1B 파라미터 규모의 base 모델로서 예상 범위 내의 한계이나, 실사용에는 적합하지 않음.

3. **코드 생성 능력**
   - 기초적인 코드 완성 외 실질적인 코드 생성 불가.
   - 한국어 특화 학습 데이터 특성상 코드 비율이 낮은 것이 주요 원인.

4. **수학 및 산술 능력**
   - `2 + 2 = 4` 수준의 단순 연산만 가능하며 이후 산술 패턴 모방으로만 동작.
   - 실질적인 수치 추론 능력 없음.

5. **전문 지식 정확도**
   - 레시피, 요금 등 전문/실용 지식 도메인에서 형식은 맞추나 내용의 정확성이 낮음.

### 3.4 1B Base 모델 관점에서의 종합 평가

사전학습(pretraining)만 완료된 1.19B base 모델로서, 이번 생성 품질 평가 결과는 **예상 범위 내**에 해당한다.

- 동일 규모의 타 오픈소스 1B base 모델(예: TinyLlama-1.1B, EXAONE-3.0-1.2B 초기 버전 등)과 비교 시 한국어 유창성 측면에서는 경쟁력 있는 수준.
- Instruction tuning(SFT) 및 RLHF 없이 반복 퇴화가 나타나는 것은 GPT-2, LLaMA-1 등 base 모델에서도 공통적으로 관찰되는 현상임.
- 사실 정확도의 한계는 1B 파라미터의 구조적 제약으로, 7B+ 모델에서 개선이 기대됨.

---

## 4. 개선 방향

### 4.1 단기 개선 (현재 모델에 즉시 적용 가능)

| 방법 | 효과 | 적용 난이도 |
|------|------|------------|
| `repetition_penalty=1.1~1.3` 적용 | 반복 퇴화 완화 | 낮음 (추론 파라미터 조정) |
| `no_repeat_ngram_size=3` 적용 | n-gram 반복 차단 | 낮음 (추론 파라미터 조정) |
| temperature 조정 (0.7~0.75) | 생성 안정성 향상 | 낮음 |

### 4.2 중기 개선 (추가 학습 필요)

1. **SFT (Supervised Fine-Tuning)**
   - 지시문 따르기(instruction-following) 능력 부여
   - 반복 퇴화 근본적 완화
   - 추천 데이터: Open-Platypus-ko, KoAlpaca, LIMA-ko 등

2. **코드 및 수학 데이터 추가 pretraining**
   - Python/코드 데이터(The Stack, CodeSearchNet 등) 혼합 학습
   - 수식 및 chain-of-thought 데이터 추가
   - 권장 비율: 코드 10~15%, 일반 한국어 85~90%

3. **RLHF / DPO**
   - 사실 정확도 및 지시 준수 추가 개선
   - 1B 규모에서는 DPO(Direct Preference Optimization)가 비용 대비 효과적

### 4.3 장기 개선 (모델 규모 확장)

- **7B+ 모델**로 확장 시 사실 정확도, 코드 생성, 수학 추론 능력 전반적으로 향상 기대.
- 현재 하드웨어(8× B200, ~1.47TB VRAM)로 7B FSDP 학습 충분히 가능.
- 한국어 특화 7B 모델 pretraining 후 SFT → DPO 파이프라인 적용 권장.

---

## 5. 결론

`korean_1b_fp8_run1` 모델(1.19B, 34k steps)은 한국어 문법 및 문체 생성 능력을 갖춘 base 모델로서의 기본 역할을 수행하고 있다. 블로그·일상·서정적 텍스트 생성에서 자연스러운 결과를 보이며, FP8 + DDP 환경의 학습 파이프라인이 안정적으로 동작했음을 확인하였다.

그러나 사실 정확도, 반복 퇴화, 코드/수학 능력 부재는 현재 모델의 명확한 한계이다. 이는 1B base 모델에서 일반적으로 기대되는 수준이며, SFT → DPO 파이프라인을 통해 상당 부분 개선 가능하다. 추후 7B 규모로의 확장을 통해 사실 정확도와 추론 능력의 근본적인 향상을 도모하는 것이 권장된다.

---

*이 보고서는 `eval/generate.py`를 통해 생성된 결과를 수동으로 분석한 것이다.*
*관련 평가 스크립트: `/PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/generate.py`*