DrDavis's picture
Upload folder using huggingface_hub
17c6d62 verified

ุงุณุชุฎุฏุงู… ู…ุฌุฒุฆูŠุงุช ุงู„ู†ุตูˆุต ู…ู† ๐Ÿค— Tokenizers

ูŠุนุชู…ุฏ [PreTrainedTokenizerFast] ุนู„ู‰ ู…ูƒุชุจุฉ ๐Ÿค— Tokenizers. ูŠู…ูƒู† ุชุญู…ูŠู„ ุงู„ู…ุฌุฒุฆุงุช ุงู„ู„ุบูˆูŠูŠู† ุงู„ุฐูŠู† ุชู… ุงู„ุญุตูˆู„ ุนู„ูŠู‡ู… ู…ู† ู…ูƒุชุจุฉ ๐Ÿค— Tokenizers ุจุจุณุงุทุฉ ุดุฏูŠุฏุฉ ููŠ ๐Ÿค— Transformers.

ู‚ุจู„ ุงู„ุฏุฎูˆู„ ููŠ ุงู„ุชูุงุตูŠู„ุŒ ุฏุนูˆู†ุง ู†ุจุฏุฃ ุฃูˆู„ุงู‹ ุจุฅู†ุดุงุก ู…ูุฌุฒู‰ุก ู„ุบูˆูŠ ุชุฌุฑูŠุจูŠ ููŠ ุจุถุน ุณุทูˆุฑ:

>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace

>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)

ุงู„ุขู† ู„ุฏูŠู†ุง ู…ูุฌุฒู‰ุก ู„ุบูˆูŠ ู…ุฏุฑุจ ุนู„ู‰ ุงู„ู…ู„ูุงุช ุงู„ุชูŠ ุญุฏุฏู†ุงู‡ุง. ูŠู…ูƒู†ู†ุง ุฅู…ุง ุงู„ุงุณุชู…ุฑุงุฑ ููŠ ุงุณุชุฎุฏุงู…ู‡ ููŠ ูˆู‚ุช ุงู„ุชุดุบูŠู„ ู‡ุฐุงุŒ ุฃูˆ ุญูุธู‡ ููŠ ู…ู„ู JSON ู„ุฅุนุงุฏุฉ ุงุณุชุฎุฏุงู…ู‡ ู„ุงุญู‚ู‹ุง.

ุชุญู…ูŠู„ ู…ูุฌุฒุฆ ุงู„ู†ู‘ุตูˆุต ู…ูุจุงุดุฑุฉู‹

ุฏุนูˆู†ุง ู†ุฑู‰ ูƒูŠู ูŠู…ูƒู†ู†ุง ุงู„ุงุณุชูุงุฏุฉ ู…ู† ูƒุงุฆู† (ู…ูุฌุฒุฆ ุงู„ู†ุตูˆุต) ููŠ ู…ูƒุชุจุฉ ๐Ÿค— Transformers. ุชุณู…ุญ ูุฆุฉ [PreTrainedTokenizerFast] ุณู‡ูˆู„ุฉ ุฅู†ุดุงุก tokenizerุŒ ู…ู† ุฎู„ุงู„ ู‚ุจูˆู„ ูƒุงุฆู† ุงู„ู…ูุฌุฒุฆ ุงู„ู†ุตูˆุต ู…ูู‡ูŠู‘ุฃ ู…ูุณุจู‚ู‹ุง ูƒู…ุนุงู…ู„:

>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)

ูŠู…ูƒู† ุงู„ุขู† ุงุณุชุฎุฏุงู… ู‡ุฐุง ุงู„ูƒุงุฆู† ู…ุน ุฌู…ูŠุน ุงู„ุทุฑู‚ ุงู„ู…ูุดุชุฑูƒุฉ ุจูŠู† ู…ูุฌุฒู‘ุฆูŠ ุงู„ู†ู‘ุตูˆุต ู„ู€ ๐Ÿค— Transformers! ุงู†ุชู‚ู„ ุฅู„ู‰ ุตูุญุฉ ู…ูุฌุฒู‘ุฆ ุงู„ู†ู‘ุตูˆุต ู„ู…ุฒูŠุฏ ู…ู† ุงู„ู…ุนู„ูˆู…ุงุช.

ุงู„ุชุญู…ูŠู„ ู…ู† ู…ู„ู JSON

ู„ุชุญู…ูŠู„ ู…ูุฌุฒู‘ุฆ ุงู„ู†ุต ู…ู† ู…ู„ู JSONุŒ ุฏุนูˆู†ุง ู†ุจุฏุฃ ุฃูˆู„ุงู‹ ุจุญูุธ ู…ูุฌุฒู‘ุฆ ุงู„ู†ู‘ุตูˆุต:

>>> tokenizer.save("tokenizer.json")

ูŠู…ูƒู† ุชู…ุฑูŠุฑ ุงู„ู…ุณุงุฑ ุงู„ุฐูŠ ุญูุธู†ุง ุจู‡ ู‡ุฐุง ุงู„ู…ู„ู ุฅู„ู‰ ุทุฑูŠู‚ุฉ ุชู‡ูŠุฆุฉ [PreTrainedTokenizerFast] ุจุงุณุชุฎุฏุงู… ุงู„ู…ูุนุงู…ู„ tokenizer_file:

>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")

ูŠู…ูƒู† ุงู„ุขู† ุงุณุชุฎุฏุงู… ู‡ุฐุง ุงู„ูƒุงุฆู† ู…ุน ุฌู…ูŠุน ุงู„ุทุฑู‚ ุงู„ุชูŠ ุชุดุชุฑูƒ ููŠู‡ุง ู…ูุฌุฒู‘ุฆูŠ ุงู„ู†ู‘ุตูˆุต ู„ู€ ๐Ÿค— Transformers! ุงู†ุชู‚ู„ ุฅู„ู‰ ุตูุญุฉ ู…ูุฌุฒู‘ุฆ ุงู„ู†ุต ู„ู…ุฒูŠุฏ ู…ู† ุงู„ู…ุนู„ูˆู…ุงุช.