bert-ko-pretrained / README.md
prismdata's picture
Upload README.md with huggingface_hub
930d692 verified
metadata
language:
  - ko
license: gpl-3.0
tags:
  - bert
  - masked-language-model
  - korean
  - pretrained
metrics:
  - perplexity
pipeline_tag: fill-mask
model-index:
  - name: bert-ko-pretrained
    results:
      - task:
          type: fill-mask
          name: Masked Language Modeling
        metrics:
          - name: Eval Loss
            type: loss
            value: 3.6679
          - name: Eval Perplexity
            type: perplexity
            value: 39.17

bert-ko-pretrained

한국어 텍스트로 사전학습된 BERT (Masked Language Model) 입니다.

모델 정보

항목
Architecture BertForMaskedLM
Hidden Size 256
Layers 4
Attention Heads 4
Intermediate Size 1024
Vocab Size 32,000
Max Length 256 tokens
Parameters 11,515,904
Total Steps 50,000

사전학습 성능 (MLM)

Split Loss Perplexity
Eval 3.6679 39.17

학습 코퍼스

코퍼스 크기 설명
injection_corpus.txt 65MB 프롬프트 인젝션 데이터
external_all.txt 9.6MB KoSBi v2 + K-MHaS + BEEP!
all_combined.txt 15MB 전체 통합 코퍼스

총 ~90MB 한국어 텍스트

사용 방법

Fill-Mask

분류 모델 백본으로 사용

학습 설정

  • Tokenizer: WordPiece (vocab_size=32,000)
  • Optimizer: AdamW
  • Scheduler: Cosine with warmup
  • MLM Probability: 15%

라이선스

GPL-3.0 License