--- language: - ko license: gpl-3.0 tags: - bert - masked-language-model - korean - pretrained metrics: - perplexity pipeline_tag: fill-mask model-index: - name: bert-ko-pretrained results: - task: type: fill-mask name: Masked Language Modeling metrics: - name: Eval Loss type: loss value: 3.6679 - name: Eval Perplexity type: perplexity value: 39.17 --- # bert-ko-pretrained 한국어 텍스트로 사전학습된 BERT (Masked Language Model) 입니다. ## 모델 정보 | 항목 | 값 | |------|-----| | Architecture | BertForMaskedLM | | Hidden Size | 256 | | Layers | 4 | | Attention Heads | 4 | | Intermediate Size | 1024 | | Vocab Size | 32,000 | | Max Length | 256 tokens | | Parameters | 11,515,904 | | Total Steps | 50,000 | ## 사전학습 성능 (MLM) | Split | Loss | Perplexity | |-------|-----:|-----------:| | Eval | 3.6679 | 39.17 | ## 학습 코퍼스 | 코퍼스 | 크기 | 설명 | |--------|------|------| | injection_corpus.txt | 65MB | 프롬프트 인젝션 데이터 | | external_all.txt | 9.6MB | KoSBi v2 + K-MHaS + BEEP\! | | all_combined.txt | 15MB | 전체 통합 코퍼스 | **총 ~90MB** 한국어 텍스트 ## 사용 방법 ### Fill-Mask ### 분류 모델 백본으로 사용 ## 학습 설정 - **Tokenizer**: WordPiece (vocab_size=32,000) - **Optimizer**: AdamW - **Scheduler**: Cosine with warmup - **MLM Probability**: 15% ## 라이선스 GPL-3.0 License