---
language:
- ko
license: gpl-3.0
tags:
- bert
- masked-language-model
- korean
- pretrained
metrics:
- perplexity
pipeline_tag: fill-mask
model-index:
- name: bert-ko-pretrained
  results:
  - task:
      type: fill-mask
      name: Masked Language Modeling
    metrics:
    - name: Eval Loss
      type: loss
      value: 3.6679
    - name: Eval Perplexity
      type: perplexity
      value: 39.17
---

# bert-ko-pretrained

한국어 텍스트로 사전학습된 BERT (Masked Language Model) 입니다.

## 모델 정보

| 항목 | 값 |
|------|-----|
| Architecture | BertForMaskedLM |
| Hidden Size | 256 |
| Layers | 4 |
| Attention Heads | 4 |
| Intermediate Size | 1024 |
| Vocab Size | 32,000 |
| Max Length | 256 tokens |
| Parameters | 11,515,904 |
| Total Steps | 50,000 |

## 사전학습 성능 (MLM)

| Split | Loss | Perplexity |
|-------|-----:|-----------:|
| Eval | 3.6679 | 39.17 |

## 학습 코퍼스

| 코퍼스 | 크기 | 설명 |
|--------|------|------|
| injection_corpus.txt | 65MB | 프롬프트 인젝션 데이터 |
| external_all.txt | 9.6MB | KoSBi v2 + K-MHaS + BEEP\! |
| all_combined.txt | 15MB | 전체 통합 코퍼스 |

**총 ~90MB** 한국어 텍스트

## 사용 방법

### Fill-Mask


### 분류 모델 백본으로 사용


## 학습 설정

- **Tokenizer**: WordPiece (vocab_size=32,000)
- **Optimizer**: AdamW
- **Scheduler**: Cosine with warmup
- **MLM Probability**: 15%

## 라이선스

GPL-3.0 License