Bingsu's picture
Create README.md
efdcfc6
metadata
language:
  - ko
tags:
  - roberta
  - tokenizer only
license:
  - mit

라이브러리 버전

  • transformers: 4.21.2
  • datasets: 2.4.0
  • tokenizers: 0.12.1

Bingsu/ko_BBPE_tokenizer_roberta와 같은 방법으로 훈련한 토크나이저.

다만 unicode_normalizer="nfkc"를 뺐습니다.

tokenizer = ByteLevelBPETokenizer(trim_offsets=True)