File size: 433 Bytes
efdcfc6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
---
language:
  - ko
tags:
  - roberta
  - tokenizer only
license:
  - mit
---

## 라이브러리 버전

- transformers: 4.21.2
- datasets: 2.4.0
- tokenizers: 0.12.1

[Bingsu/ko_BBPE_tokenizer_roberta](https://huggingface.co/Bingsu/ko_BBPE_tokenizer_roberta)와 같은 방법으로 훈련한 토크나이저.

다만 `unicode_normalizer="nfkc"`를 뺐습니다.

```python
tokenizer = ByteLevelBPETokenizer(trim_offsets=True)
```