ุงูุญุดู ูุงูุชูููู
ุบุงูุจูุง ู ุง ุชุฎุชูู ู ุฏุฎูุงุช ุงูุฏููุนุงุช ูู ุงูุทููุ ูุฐุง ูุง ูู ูู ุชุญููููุง ุฅูู ู ุตูููุงุช ุฐุงุช ุญุฌู ุซุงุจุช .ููุนุฏู ุงูุญุดู ูุงูุชูููู ูู ุง ุงุณุชุฑุงุชูุฌูุชุงู ููุชุนุงู ู ู ุน ูุฐู ุงูู ุดููุฉุ ูุฅูุดุงุก ู ุตูููุงุช ู ุณุชุทููุฉ ู ู ู ุฌู ูุนุงุช ุฐุงุช ุฃุทูุงู ู ุฎุชููุฉ. ููุถูู ุงูุญุดู ุฑู ุฒ ุญุดู ุฎุงุต ูุถู ุงู ุฃู ูููู ููุชุณูุณูุงุช ุงูุฃูุตุฑ ููุณ ุทูู ุฃุทูู ุชุณูุณู ูู ุงูุฏูุนุฉ ุฃู ุงูุทูู ุงูุฃูุตู ุงูุฐู ููุจูู ุงููู ูุฐุฌ. ููุนู ู ุงูุชูููู ุนูุณ ุฐูู ุจุชูููู ุงูุชุณูุณูุงุช ุงูุทูููุฉ.
ูู ู
ุนุธู
ุงูุญุงูุงุชุ ูููุนุฏู ุญุดู ุฏููุนุชู ุฅูู ุทูู ุฃุทูู ุชุณูุณู ูููุง ูุชูููู
ูุง ุฅูู ุงูุทูู ุงูุฃูุตู ุงูู
ูุจูู ู
ู ุงููู
ูุฐุฌ ุญููุง ูุนุงููุง. ูู
ุน ุฐููุ ุชุฏุนู
ูุงุฌูุฉ ุจุฑู
ุฌุฉ ุงูุชุทุจููุงุช ุงูู
ุฒูุฏ ู
ู ุงูุงุณุชุฑุงุชูุฌูุงุช ุฅุฐุง ููุช ุจุญุงุฌุฉ ุฅูููุง. ููุงู ุซูุงุซุฉ ู
ุนุงู
๏ปปุช ุชุญุชุงุฌูุง ูููู
ุขููุฉ ุงูุนู
ู: paddingุ ูtruncationุ ูmax_length.
ูุญูู
ู
ุนุงู
ู padding ุนู
ููุฉ ุงูุญุดู. ูู
ูู ุฃู ูููู ููู
ุฉ ู
ูุทููุฉ ุฃู ูุตูุฉ:
Trueุฃู'longest': ุงูุญุดู ุฅูู ุฃุทูู ุชุณูุณู ูู ุงูุฏูุนุฉ (ูุง ูุชู ุชุทุจูู ุงูุญุดู ุนูุฏ ุชูุฏูู ุชุณูุณู ูุงุญุฏ ููุท).'max_length': ุงูุญุดู ุฅูู ุทูู ู ุญุฏุฏ ุจูุงุณุทุฉ ู ุนุงู ูmax_lengthุฃู ุงูุทูู ุงูุฃูุตู ุงูุฐู ููุจูู ุงููู ูุฐุฌ ุฅุฐุง ูู ูุชู ุชูููุฑmax_length(max_length=None). ุณูุธู ุงูุญุดู ู ุทุจููุง ุฅุฐุง ูุฏู ุช ุชุณูุณููุง ูุงุญุฏูุง ููุท.Falseุฃู'do_not_pad': ูุง ูุชู ุชุทุจูู ุฃู ุญุดู. ูุฐุง ูู ุงูุณููู ุงูุงูุชุฑุงุถู.
ุชุญูู
ู
ุนุงู
ู truncation ุนู
ููุฉ ุงูุชูููู
. ูู
ูู ุฃู ูููู ููู
ุฉ ู
ูุทููุฉ ุฃู ูุตูุฉ:
-ููู
ุฉ True ุฃู 'longest_first' : ุชูููู
ุงูุชุณูุณูุงุช ุฅูู ุทูู ุฃูุตู ู
ูุญุฏุฏ ุจูุงุณุทุฉ ู
ุนุงู
ู max_lengthุ ุฃู ุฃูุตู ุทูู ููุจูู ุงููู
ูุฐุฌ ูู ุญุงู ุนุฏู
ุชุญุฏูุฏ ุทูู ู
ูุญุฏุฏ ู
ู ูุจู ุงูู
ุณุชุฎุฏู
(max_length=None). ุณุชุชู
ุนู
ููุฉ ุงูุชูููู
ุฅุฒุงูุฉ ุฑู
ุฒ ุชูู ุงูุขุฎุฑุ ุจุฏุกูุง ู
ู ุฃุทูู ุชุณูุณู ูู ุงูุฒูุฌุ ุฅูู ุฃู ูุตู ุงูุทูู ุฅูู ุงูููู
ุฉ ุงูู
ูุญุฏุฏุฉ.
-ููู
ุฉ 'only_second': ุงูุทุน ุฅูู ุทูู ุฃูุตู ู
ุญุฏุฏ ุจูุงุณุทุฉ ู
ุนุงู
ู max_length ุฃู ุฃูุตู ุทูู ููุจูู ุงููู
ูุฐุฌ ุฅุฐุง ูู
ูุชู
ุชูููุฑ max_length (max_length=None). ูุฐุง ุณูููู
ููุท ุงูุฌู
ูุฉ ุงูุซุงููุฉ ู
ู ุงูุฒูุฌ ุฅุฐุง ุชู
ุชูููุฑ ุฒูุฌ ู
ู ุงูุชุณูุณูุงุช (ุฃู ุฏููุนุฉ ู
ู ุฃุฒูุงุฌ ุงูุชุณูุณูุงุช).
-ููู
ุฉ 'only_first': ุชูููู
ุงูุฌู
ูุฉ ุงูุฃููู ููุท ู
ู ุงูุฒูุฌ ุนูุฏ ุชูุฏูู
ุฒูุฌ ู
ู ุงูุชุณูุณูุงุช (ุฃู ุฏููุนุฉ ู
ู ุฃุฒูุงุฌ ุงูุชุณูุณูุงุช) ุฅูู ุทูู ุฃูุตู ู
ูุญุฏุฏ ุจูุงุณุทุฉ ุญุฌุฉ max_lengthุ ุฃู ุฃูุตู ุทูู ููุจูู ุงููู
ูุฐุฌ ูู ุญุงู ุนุฏู
ุชุญุฏูุฏ ุทูู ู
ูุญุฏุฏ ู
ู ูุจู ุงูู
ุณุชุฎุฏู
(max_length=None).
-ููู
ุฉ False ุฃู 'do_not_truncate': ูุง ูุชู
ุชุทุจูู ุฃู ุชูููู
. ูุฐุง ูู ุงูุณููู ุงูุงูุชุฑุงุถู.
``
ูุญูู
ู
ุนุงู
ู max_length ุทูู ุงูุญุดู ูุงูุชูููู
. ูู
ูู ุฃู ูููู ุนุฏุฏ ุตุญูุญ ุฃู Noneุ ูุนูุฏูุง ููุญุฏุฏ ุงูุชุฑุงุถููุง ุฅูู ุงูุทูู ุงูุฃูุตู ุงูุฐู ูู
ูู ุฃู ููุจูู ุงููู
ูุฐุฌ. ุฅุฐุง ูู
ููู ูููู
ูุฐุฌ ุทูู ุฅุฏุฎุงู ุฃูุตู ู
ุญุฏุฏุ ูุชู
ุฅูุบุงุก ุชูุดูุท ุงูุชูููู
ุฃู ุงูุญุดู ุฅูู max_length.
ููุฎูุต ุงูุฌุฏูู ุงูุชุงูู ุงูุทุฑููุฉ ุงูู
ููุตู ุจูุง ูุฅุนุฏุงุฏ ุงูุญุดู ูุงูุชูููู
. ุฅุฐุง ููุช ุชุณุชุฎุฏู
ุฃุฒูุงุฌ ุชุณูุณูุงุช ุงูุฅุฏุฎุงู ูู ุฃู ู
ู ุงูุฃู
ุซูุฉ ุงูุชุงููุฉุ ููู
ููู ุงุณุชุจุฏุงู truncation=True ุจู STRATEGY ุงูู
ุญุฏุฏ ูู ['only_first'ุ 'only_second'ุ 'longest_first']ุ ุฃู truncation='only_second' ุฃู truncation='longest_first' ููุชุญูู
ูู ููููุฉ ุชูููู
ููุง ุงูุชุณูุณููู ูู ุงูุฒูุฌ ูู
ุง ูู ู
ูุถูุญ ุณุงุจููุง.
ุญูู ุงูุชุฑู ูุฒ
ููุงู ุงูุนุฏูุฏ ู ู ุงูุงุณุชุฑุงุชูุฌูุงุช ูุชุฑู ูุฒ ุฏูุนุงุช ุงูุฌู ู. ููู ุง ููู ุจุนุถ ุงูุฃู ุซูุฉ ุนูู ุฐูู.
| ุงูุชุฑู ูุฒ | ุงูุญุดู | ุงูุชุนููู ุงุช |
|---|---|---|
| ูุง ุชุฑู ูุฒ | ูุง ุญุดู | tokenizer(batch_sentences) |
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ููุชุณูุณู ูู ุงูุฏูุนุฉ | tokenizer(batch_sentences, padding=True) ุฃู |
|
tokenizer(batch_sentences, padding='longest') |
||
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ูุทูู ุฅุฏุฎุงู ุงููู ูุฐุฌ | tokenizer(batch_sentences, padding='max_length') |
|
| ุงูุญุดู ุฅูู ุทูู ู ุญุฏุฏ | tokenizer(batch_sentences, padding='max_length', max_length=42) |
|
| ุงูุญุดู ุฅูู ู ุถุงุนู ูููู ุฉ ู ุนููุฉ | tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8) |
|
| ุงูุชุฑู ูุฒ ุฅูู ุงูุญุฏ ุงูุฃูุตู ูุทูู ุฅุฏุฎุงู ุงููู ูุฐุฌ | ูุง ุญุดู | tokenizer(batch_sentences, truncation=True) ุฃู |
tokenizer(batch_sentences, truncation=STRATEGY) |
||
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ููุชุณูุณู ูู ุงูุฏูุนุฉ | tokenizer(batch_sentences, padding=True, truncation=True) ุฃู |
|
tokenizer(batch_sentences, padding=True, truncation=STRATEGY) |
||
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ูุทูู ุฅุฏุฎุงู ุงููู ูุฐุฌ | tokenizer(batch_sentences, padding='max_length', truncation=True) ุฃู |
|
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY) |
||
| ุงูุญุดู ุฅูู ุทูู ู ุญุฏุฏ | ุบูุฑ ู ู ูู | |
| ุงูุชุฑู ูุฒ ุฅูู ุทูู ู ุญุฏุฏ | ูุง ุญุดู | tokenizer(batch_sentences, truncation=True, max_length=42) ุฃู |
tokenizer(batch_sentences, truncation=STRATEGY, max_length=42) |
||
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ููุชุณูุณู ูู ุงูุฏูุนุฉ | tokenizer(batch_sentences, padding=True, truncation=True, max_length=42) ุฃู |
|
tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42) |
||
| ุงูุญุดู ุฅูู ุงูุญุฏ ุงูุฃูุตู ูุทูู ุฅุฏุฎุงู ุงููู ูุฐุฌ | ุบูุฑ ู ู ูู | |
| ุงูุญุดู ุฅูู ุทูู ู ุญุฏุฏ | tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42) ุฃู |
|
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42) |