File size: 2,818 Bytes
17c6d62 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 |
# ุงุณุชุฎุฏุงู
ู
ุฌุฒุฆูุงุช ุงููุตูุต ู
ู ๐ค Tokenizers
ูุนุชู
ุฏ [`PreTrainedTokenizerFast`] ุนูู ู
ูุชุจุฉ [๐ค Tokenizers](https://huggingface.co/docs/tokenizers). ูู
ูู ุชุญู
ูู ุงูู
ุฌุฒุฆุงุช ุงููุบูููู ุงูุฐูู ุชู
ุงูุญุตูู ุนูููู
ู
ู ู
ูุชุจุฉ ๐ค Tokenizers ุจุจุณุงุทุฉ ุดุฏูุฏุฉ ูู ๐ค Transformers.
ูุจู ุงูุฏุฎูู ูู ุงูุชูุงุตููุ ุฏุนููุง ูุจุฏุฃ ุฃููุงู ุจุฅูุดุงุก ู
ูุฌุฒูุก ูุบูู ุชุฌุฑูุจู ูู ุจุถุน ุณุทูุฑ:
```python
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
```
ุงูุขู ูุฏููุง ู
ูุฌุฒูุก ูุบูู ู
ุฏุฑุจ ุนูู ุงูู
ููุงุช ุงูุชู ุญุฏุฏูุงูุง. ูู
ูููุง ุฅู
ุง ุงูุงุณุชู
ุฑุงุฑ ูู ุงุณุชุฎุฏุงู
ู ูู ููุช ุงูุชุดุบูู ูุฐุงุ ุฃู ุญูุธู ูู ู
ูู JSON ูุฅุนุงุฏุฉ ุงุณุชุฎุฏุงู
ู ูุงุญููุง.
## ุชุญู
ูู ู
ูุฌุฒุฆ ุงูููุตูุต ู
ูุจุงุดุฑุฉู
ุฏุนููุง ูุฑู ููู ูู
ูููุง ุงูุงุณุชูุงุฏุฉ ู
ู ูุงุฆู (ู
ูุฌุฒุฆ ุงููุตูุต) ูู ู
ูุชุจุฉ ๐ค Transformers. ุชุณู
ุญ ูุฆุฉ [`PreTrainedTokenizerFast`] ุณูููุฉ ุฅูุดุงุก *tokenizer*ุ ู
ู ุฎูุงู ูุจูู ูุงุฆู *ุงูู
ูุฌุฒุฆ ุงููุตูุต* ู
ููููุฃ ู
ูุณุจููุง ูู
ุนุงู
ู:
```python
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
```
ูู
ูู ุงูุขู ุงุณุชุฎุฏุงู
ูุฐุง ุงููุงุฆู ู
ุน ุฌู
ูุน ุงูุทุฑู ุงูู
ูุดุชุฑูุฉ ุจูู ู
ูุฌุฒูุฆู ุงูููุตูุต ูู ๐ค Transformers! ุงูุชูู ุฅูู [ุตูุญุฉ ู
ูุฌุฒูุฆ ุงูููุตูุต](main_classes/tokenizer) ูู
ุฒูุฏ ู
ู ุงูู
ุนููู
ุงุช.
## ุงูุชุญู
ูู ู
ู ู
ูู JSON
ูุชุญู
ูู ู
ูุฌุฒูุฆ ุงููุต ู
ู ู
ูู JSONุ ุฏุนููุง ูุจุฏุฃ ุฃููุงู ุจุญูุธ ู
ูุฌุฒูุฆ ุงูููุตูุต:
```python
>>> tokenizer.save("tokenizer.json")
```
ูู
ูู ุชู
ุฑูุฑ ุงูู
ุณุงุฑ ุงูุฐู ุญูุธูุง ุจู ูุฐุง ุงูู
ูู ุฅูู ุทุฑููุฉ ุชููุฆุฉ [`PreTrainedTokenizerFast`] ุจุงุณุชุฎุฏุงู
ุงูู
ูุนุงู
ู `tokenizer_file`:
```python
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
```
ูู
ูู ุงูุขู ุงุณุชุฎุฏุงู
ูุฐุง ุงููุงุฆู ู
ุน ุฌู
ูุน ุงูุทุฑู ุงูุชู ุชุดุชุฑู ูููุง ู
ูุฌุฒูุฆู ุงูููุตูุต ูู ๐ค Transformers! ุงูุชูู ุฅูู [ุตูุญุฉ ู
ูุฌุฒูุฆ ุงููุต](main_classes/tokenizer) ูู
ุฒูุฏ ู
ู ุงูู
ุนููู
ุงุช. |