File size: 433 Bytes
efdcfc6 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
---
language:
- ko
tags:
- roberta
- tokenizer only
license:
- mit
---
## 라이브러리 버전
- transformers: 4.21.2
- datasets: 2.4.0
- tokenizers: 0.12.1
[Bingsu/ko_BBPE_tokenizer_roberta](https://huggingface.co/Bingsu/ko_BBPE_tokenizer_roberta)와 같은 방법으로 훈련한 토크나이저.
다만 `unicode_normalizer="nfkc"`를 뺐습니다.
```python
tokenizer = ByteLevelBPETokenizer(trim_offsets=True)
```
|