| # Tiktoken ูุงูุชูุงุนู ู ุน Transformers | |
| ูุชู ุฏู ุฌ ุฏุนู ู ููุงุช ูู ูุฐุฌ tiktoken ุจุณูุงุณุฉ ูู ๐ค transformers ุนูุฏ ุชุญู ูู ุงููู ุงุฐุฌ | |
| `from_pretrained` ู ุน ู ูู `tokenizer.model` tiktoken ุนูู Hubุ ูุงูุฐู ูุชู ุชุญูููู ุชููุงุฆููุง ุฅูู [ุงูู ุญูู ุงููุบูู ุงูุณุฑูุน](https://huggingface.co/docs/transformers/main/en/main_classes/tokenizer#transformers.PreTrainedTokenizerFast). | |
| ### ุงููู ุงุฐุฌ ุงูู ุนุฑููุฉ ุงูุชู ุชู ุฅุตุฏุงุฑูุง ู ุน `tiktoken.model`: | |
| - gpt2 | |
| - llama3 | |
| ## ู ุซุงู ุนูู ุงูุงุณุชุฎุฏุงู | |
| ู ู ุฃุฌู ุชุญู ูู ู ููุงุช `tiktoken` ูู `transformers`ุ ุชุฃูุฏ ู ู ุฃู ู ูู `tokenizer.model` ูู ู ูู tiktoken ูุณูุชู ุชุญู ููู ุชููุงุฆููุง ุนูุฏ ุงูุชุญู ูู `from_pretrained`. ุฅููู ููููุฉ ุชุญู ูู ู ุฌุฒูุก ูุบูู ููู ูุฐุฌุ ูุงูุฐู | |
| ูู ูู ุชุญู ููู ู ู ููุณ ุงูู ูู ุจุงูุถุจุท: | |
| ```py | |
| from transformers import AutoTokenizer | |
| model_id = "meta-llama/Meta-Llama-3-8B-Instruct" | |
| tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original") | |
| ``` | |
| ## ุฅูุดุงุก ู ุฌุฒูุก ูุบูู tiktoken | |
| ูุง ูุญุชูู ู ูู `tokenizer.model` ุนูู ุฃู ู ุนููู ุงุช ุญูู ุงูุฑู ูุฒ ุฃู ุงูุฃูู ุงุท ุงูุฅุถุงููุฉ. ุฅุฐุง ูุงูุช ูุฐู ุงูุฃู ูุฑ ู ูู ุฉุ ูู ุจุชุญููู ุงูู ุญูู ุงููุบูู ุฅูู `tokenizer.json`ุ ููู ุงูุชูุณูู ุงูู ูุงุณุจ ูู [`PreTrainedTokenizerFast`]. | |
| ูู ุจุชูููุฏ ู ูู `tokenizer.model` ุจุงุณุชุฎุฏุงู [tiktoken.get_encoding](https://github.com/openai/tiktoken/blob/63527649963def8c759b0f91f2eb69a40934e468/tiktoken/registry.py#L63) ุซู ูู ุจุชุญูููู ุฅูู `tokenizer.json` ุจุงุณุชุฎุฏุงู [`convert_tiktoken_to_fast`]. | |
| ```py | |
| from transformers.integrations.tiktoken import convert_tiktoken_to_fast | |
| from tiktoken import get_encoding | |
| # ูู ููู ุชุญู ูู ุชุฑู ูุฒู ุงูู ุฎุตุต ุฃู ุงูุชุฑู ูุฒ ุงูุฐู ุชููุฑู OpenAI | |
| encoding = get_encoding("gpt2") | |
| convert_tiktoken_to_fast(encoding, "config/save/dir") | |
| ``` | |
| ูุชู ุญูุธ ู ูู `tokenizer.json` ุงููุงุชุฌ ูู ุงูุฏููู ุงูู ุญุฏุฏ ููู ูู ุชุญู ููู ุจุงุณุชุฎุฏุงู [`PreTrainedTokenizerFast`]. | |
| ```py | |
| tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir") | |
| ``` | |