Tiktoken ูุงูุชูุงุนู ู ุน Transformers
ูุชู
ุฏู
ุฌ ุฏุนู
ู
ููุงุช ูู
ูุฐุฌ tiktoken ุจุณูุงุณุฉ ูู ๐ค transformers ุนูุฏ ุชุญู
ูู ุงููู
ุงุฐุฌ
from_pretrained ู
ุน ู
ูู tokenizer.model tiktoken ุนูู Hubุ ูุงูุฐู ูุชู
ุชุญูููู ุชููุงุฆููุง ุฅูู ุงูู
ุญูู ุงููุบูู ุงูุณุฑูุน.
ุงููู
ุงุฐุฌ ุงูู
ุนุฑููุฉ ุงูุชู ุชู
ุฅุตุฏุงุฑูุง ู
ุน tiktoken.model:
- gpt2
- llama3
ู ุซุงู ุนูู ุงูุงุณุชุฎุฏุงู
ู
ู ุฃุฌู ุชุญู
ูู ู
ููุงุช tiktoken ูู transformersุ ุชุฃูุฏ ู
ู ุฃู ู
ูู tokenizer.model ูู ู
ูู tiktoken ูุณูุชู
ุชุญู
ููู ุชููุงุฆููุง ุนูุฏ ุงูุชุญู
ูู from_pretrained. ุฅููู ููููุฉ ุชุญู
ูู ู
ุฌุฒูุก ูุบูู ููู
ูุฐุฌุ ูุงูุฐู
ูู
ูู ุชุญู
ููู ู
ู ููุณ ุงูู
ูู ุจุงูุถุจุท:
from transformers import AutoTokenizer
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original")
ุฅูุดุงุก ู ุฌุฒูุก ูุบูู tiktoken
ูุง ูุญุชูู ู
ูู tokenizer.model ุนูู ุฃู ู
ุนููู
ุงุช ุญูู ุงูุฑู
ูุฒ ุฃู ุงูุฃูู
ุงุท ุงูุฅุถุงููุฉ. ุฅุฐุง ูุงูุช ูุฐู ุงูุฃู
ูุฑ ู
ูู
ุฉุ ูู
ุจุชุญููู ุงูู
ุญูู ุงููุบูู ุฅูู tokenizer.jsonุ ููู ุงูุชูุณูู ุงูู
ูุงุณุจ ูู [PreTrainedTokenizerFast].
ูู
ุจุชูููุฏ ู
ูู tokenizer.model ุจุงุณุชุฎุฏุงู
tiktoken.get_encoding ุซู
ูู
ุจุชุญูููู ุฅูู tokenizer.json ุจุงุณุชุฎุฏุงู
[convert_tiktoken_to_fast].
from transformers.integrations.tiktoken import convert_tiktoken_to_fast
from tiktoken import get_encoding
# ูู
ููู ุชุญู
ูู ุชุฑู
ูุฒู ุงูู
ุฎุตุต ุฃู ุงูุชุฑู
ูุฒ ุงูุฐู ุชููุฑู OpenAI
encoding = get_encoding("gpt2")
convert_tiktoken_to_fast(encoding, "config/save/dir")
ูุชู
ุญูุธ ู
ูู tokenizer.json ุงููุงุชุฌ ูู ุงูุฏููู ุงูู
ุญุฏุฏ ููู
ูู ุชุญู
ููู ุจุงุณุชุฎุฏุงู
[PreTrainedTokenizerFast].
tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir")