ุงุณุชุฎุฏุงู ู ุฌุฒุฆูุงุช ุงููุตูุต ู ู ๐ค Tokenizers
ูุนุชู
ุฏ [PreTrainedTokenizerFast] ุนูู ู
ูุชุจุฉ ๐ค Tokenizers. ูู
ูู ุชุญู
ูู ุงูู
ุฌุฒุฆุงุช ุงููุบูููู ุงูุฐูู ุชู
ุงูุญุตูู ุนูููู
ู
ู ู
ูุชุจุฉ ๐ค Tokenizers ุจุจุณุงุทุฉ ุดุฏูุฏุฉ ูู ๐ค Transformers.
ูุจู ุงูุฏุฎูู ูู ุงูุชูุงุตููุ ุฏุนููุง ูุจุฏุฃ ุฃููุงู ุจุฅูุดุงุก ู ูุฌุฒูุก ูุบูู ุชุฌุฑูุจู ูู ุจุถุน ุณุทูุฑ:
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
ุงูุขู ูุฏููุง ู ูุฌุฒูุก ูุบูู ู ุฏุฑุจ ุนูู ุงูู ููุงุช ุงูุชู ุญุฏุฏูุงูุง. ูู ูููุง ุฅู ุง ุงูุงุณุชู ุฑุงุฑ ูู ุงุณุชุฎุฏุงู ู ูู ููุช ุงูุชุดุบูู ูุฐุงุ ุฃู ุญูุธู ูู ู ูู JSON ูุฅุนุงุฏุฉ ุงุณุชุฎุฏุงู ู ูุงุญููุง.
ุชุญู ูู ู ูุฌุฒุฆ ุงูููุตูุต ู ูุจุงุดุฑุฉู
ุฏุนููุง ูุฑู ููู ูู
ูููุง ุงูุงุณุชูุงุฏุฉ ู
ู ูุงุฆู (ู
ูุฌุฒุฆ ุงููุตูุต) ูู ู
ูุชุจุฉ ๐ค Transformers. ุชุณู
ุญ ูุฆุฉ [PreTrainedTokenizerFast] ุณูููุฉ ุฅูุดุงุก tokenizerุ ู
ู ุฎูุงู ูุจูู ูุงุฆู ุงูู
ูุฌุฒุฆ ุงููุตูุต ู
ููููุฃ ู
ูุณุจููุง ูู
ุนุงู
ู:
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
ูู ูู ุงูุขู ุงุณุชุฎุฏุงู ูุฐุง ุงููุงุฆู ู ุน ุฌู ูุน ุงูุทุฑู ุงูู ูุดุชุฑูุฉ ุจูู ู ูุฌุฒูุฆู ุงูููุตูุต ูู ๐ค Transformers! ุงูุชูู ุฅูู ุตูุญุฉ ู ูุฌุฒูุฆ ุงูููุตูุต ูู ุฒูุฏ ู ู ุงูู ุนููู ุงุช.
ุงูุชุญู ูู ู ู ู ูู JSON
ูุชุญู ูู ู ูุฌุฒูุฆ ุงููุต ู ู ู ูู JSONุ ุฏุนููุง ูุจุฏุฃ ุฃููุงู ุจุญูุธ ู ูุฌุฒูุฆ ุงูููุตูุต:
>>> tokenizer.save("tokenizer.json")
ูู
ูู ุชู
ุฑูุฑ ุงูู
ุณุงุฑ ุงูุฐู ุญูุธูุง ุจู ูุฐุง ุงูู
ูู ุฅูู ุทุฑููุฉ ุชููุฆุฉ [PreTrainedTokenizerFast] ุจุงุณุชุฎุฏุงู
ุงูู
ูุนุงู
ู tokenizer_file:
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
ูู ูู ุงูุขู ุงุณุชุฎุฏุงู ูุฐุง ุงููุงุฆู ู ุน ุฌู ูุน ุงูุทุฑู ุงูุชู ุชุดุชุฑู ูููุง ู ูุฌุฒูุฆู ุงูููุตูุต ูู ๐ค Transformers! ุงูุชูู ุฅูู ุตูุญุฉ ู ูุฌุฒูุฆ ุงููุต ูู ุฒูุฏ ู ู ุงูู ุนููู ุงุช.