DrDavis's picture
Upload folder using huggingface_hub
17c6d62 verified

ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู…

ุบุงู„ุจู‹ุง ู…ุง ุชุฎุชู„ู ู…ุฏุฎู„ุงุช ุงู„ุฏููุนุงุช ููŠ ุงู„ุทูˆู„ุŒ ู„ุฐุง ู„ุง ูŠู…ูƒู† ุชุญูˆูŠู„ู‡ุง ุฅู„ู‰ ู…ุตููˆูุงุช ุฐุงุช ุญุฌู… ุซุงุจุช .ูŠูุนุฏู‘ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู… ู‡ู…ุง ุงุณุชุฑุงุชูŠุฌูŠุชุงู† ู„ู„ุชุนุงู…ู„ ู…ุน ู‡ุฐู‡ ุงู„ู…ุดูƒู„ุฉุŒ ู„ุฅู†ุดุงุก ู…ุตููˆูุงุช ู…ุณุชุทูŠู„ุฉ ู…ู† ู…ุฌู…ูˆุนุงุช ุฐุงุช ุฃุทูˆุงู„ ู…ุฎุชู„ูุฉ. ูˆูŠุถูŠู ุงู„ุญุดูˆ ุฑู…ุฒ ุญุดูˆ ุฎุงุต ู„ุถู…ุงู† ุฃู† ูŠูƒูˆู† ู„ู„ุชุณู„ุณู„ุงุช ุงู„ุฃู‚ุตุฑ ู†ูุณ ุทูˆู„ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ ุฃูˆ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ. ูˆูŠุนู…ู„ ุงู„ุชู‚ู„ูŠู… ุนูƒุณ ุฐู„ูƒ ุจุชู‚ู„ูŠู… ุงู„ุชุณู„ุณู„ุงุช ุงู„ุทูˆูŠู„ุฉ.

ููŠ ู…ุนุธู… ุงู„ุญุงู„ุงุชุŒ ูŠูŠูุนุฏู‘ ุญุดูˆ ุฏููุนุชูƒ ุฅู„ู‰ ุทูˆู„ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠู‡ุง ูˆุชู‚ู„ูŠู…ู‡ุง ุฅู„ู‰ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ู…ู‚ุจูˆู„ ู…ู† ุงู„ู†ู…ูˆุฐุฌ ุญู„ู‹ุง ูุนุงู„ู‹ุง. ูˆู…ุน ุฐู„ูƒุŒ ุชุฏุนู… ูˆุงุฌู‡ุฉ ุจุฑู…ุฌุฉ ุงู„ุชุทุจูŠู‚ุงุช ุงู„ู…ุฒูŠุฏ ู…ู† ุงู„ุงุณุชุฑุงุชูŠุฌูŠุงุช ุฅุฐุง ูƒู†ุช ุจุญุงุฌุฉ ุฅู„ูŠู‡ุง. ู‡ู†ุงูƒ ุซู„ุงุซุฉ ู…ุนุงู…๏ปปุช ุชุญุชุงุฌู‡ุง ู„ูู‡ู… ุขู„ูŠุฉ ุงู„ุนู…ู„: paddingุŒ ูˆtruncationุŒ ูˆmax_length.

ูŠุญูƒู… ู…ุนุงู…ู„ padding ุนู…ู„ูŠุฉ ุงู„ุญุดูˆ. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ู‚ูŠู…ุฉ ู…ู†ุทู‚ูŠุฉ ุฃูˆ ู†ุตูŠุฉ:

  • True ุฃูˆ 'longest': ุงู„ุญุดูˆ ุฅู„ู‰ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ (ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุงู„ุญุดูˆ ุนู†ุฏ ุชู‚ุฏูŠู… ุชุณู„ุณู„ ูˆุงุญุฏ ูู‚ุท).
  • 'max_length': ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ max_length ุฃูˆ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ุฅุฐุง ู„ู… ูŠุชู… ุชูˆููŠุฑ max_length (max_length=None). ุณูŠุธู„ ุงู„ุญุดูˆ ู…ุทุจู‚ู‹ุง ุฅุฐุง ู‚ุฏู…ุช ุชุณู„ุณู„ู‹ุง ูˆุงุญุฏู‹ุง ูู‚ุท.
  • False ุฃูˆ 'do_not_pad': ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุฃูŠ ุญุดูˆ. ู‡ุฐุง ู‡ูˆ ุงู„ุณู„ูˆูƒ ุงู„ุงูุชุฑุงุถูŠ.

ุชุญูƒู… ู…ุนุงู…ู„ truncation ุนู…ู„ูŠุฉ ุงู„ุชู‚ู„ูŠู…. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ู‚ูŠู…ุฉ ู…ู†ุทู‚ูŠุฉ ุฃูˆ ู†ุตูŠุฉ:

-ู‚ูŠู…ุฉ True ุฃูˆ 'longest_first' : ุชู‚ู„ูŠู… ุงู„ุชุณู„ุณู„ุงุช ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ูุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ max_lengthุŒ ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ููŠ ุญุงู„ ุนุฏู… ุชุญุฏูŠุฏ ุทูˆู„ ู…ูุญุฏุฏ ู…ู† ู‚ุจู„ ุงู„ู…ุณุชุฎุฏู… (max_length=None). ุณุชุชู… ุนู…ู„ูŠุฉ ุงู„ุชู‚ู„ูŠู… ุฅุฒุงู„ุฉ ุฑู…ุฒ ุชู„ูˆ ุงู„ุขุฎุฑุŒ ุจุฏุกู‹ุง ู…ู† ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฒูˆุฌุŒ ุฅู„ู‰ ุฃู† ูŠุตู„ ุงู„ุทูˆู„ ุฅู„ู‰ ุงู„ู‚ูŠู…ุฉ ุงู„ู…ูุญุฏุฏุฉ. -ู‚ูŠู…ุฉ 'only_second': ุงู‚ุทุน ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ max_length ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ุฅุฐุง ู„ู… ูŠุชู… ุชูˆููŠุฑ max_length (max_length=None). ู‡ุฐุง ุณูŠู‚ู„ู… ูู‚ุท ุงู„ุฌู…ู„ุฉ ุงู„ุซุงู†ูŠุฉ ู…ู† ุงู„ุฒูˆุฌ ุฅุฐุง ุชู… ุชูˆููŠุฑ ุฒูˆุฌ ู…ู† ุงู„ุชุณู„ุณู„ุงุช (ุฃูˆ ุฏููุนุฉ ู…ู† ุฃุฒูˆุงุฌ ุงู„ุชุณู„ุณู„ุงุช). -ู‚ูŠู…ุฉ 'only_first': ุชู‚ู„ูŠู… ุงู„ุฌู…ู„ุฉ ุงู„ุฃูˆู„ู‰ ูู‚ุท ู…ู† ุงู„ุฒูˆุฌ ุนู†ุฏ ุชู‚ุฏูŠู… ุฒูˆุฌ ู…ู† ุงู„ุชุณู„ุณู„ุงุช (ุฃูˆ ุฏููุนุฉ ู…ู† ุฃุฒูˆุงุฌ ุงู„ุชุณู„ุณู„ุงุช) ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ูุญุฏุฏ ุจูˆุงุณุทุฉ ุญุฌุฉ max_lengthุŒ ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ููŠ ุญุงู„ ุนุฏู… ุชุญุฏูŠุฏ ุทูˆู„ ู…ูุญุฏุฏ ู…ู† ู‚ุจู„ ุงู„ู…ุณุชุฎุฏู… (max_length=None). -ู‚ูŠู…ุฉ False ุฃูˆ 'do_not_truncate': ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุฃูŠ ุชู‚ู„ูŠู…. ู‡ุฐุง ู‡ูˆ ุงู„ุณู„ูˆูƒ ุงู„ุงูุชุฑุงุถูŠ. ``

ูŠุญูƒู… ู…ุนุงู…ู„ max_length ุทูˆู„ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู…. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ุนุฏุฏ ุตุญูŠุญ ุฃูˆ NoneุŒ ูˆุนู†ุฏู‡ุง ูŠูุญุฏุฏ ุงูุชุฑุงุถูŠู‹ุง ุฅู„ู‰ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู…ูƒู† ุฃู† ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ. ุฅุฐุง ู„ู… ูŠูƒู† ู„ู„ู†ู…ูˆุฐุฌ ุทูˆู„ ุฅุฏุฎุงู„ ุฃู‚ุตู‰ ู…ุญุฏุฏุŒ ูŠุชู… ุฅู„ุบุงุก ุชู†ุดูŠุท ุงู„ุชู‚ู„ูŠู… ุฃูˆ ุงู„ุญุดูˆ ุฅู„ู‰ max_length.

ูŠู„ุฎู‘ุต ุงู„ุฌุฏูˆู„ ุงู„ุชุงู„ูŠ ุงู„ุทุฑูŠู‚ุฉ ุงู„ู…ููˆุตู‰ ุจู‡ุง ู„ุฅุนุฏุงุฏ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู…. ุฅุฐุง ูƒู†ุช ุชุณุชุฎุฏู… ุฃุฒูˆุงุฌ ุชุณู„ุณู„ุงุช ุงู„ุฅุฏุฎุงู„ ููŠ ุฃูŠ ู…ู† ุงู„ุฃู…ุซู„ุฉ ุงู„ุชุงู„ูŠุฉุŒ ููŠู…ูƒู†ูƒ ุงุณุชุจุฏุงู„ truncation=True ุจู€ STRATEGY ุงู„ู…ุญุฏุฏ ููŠ ['only_first'ุŒ 'only_second'ุŒ 'longest_first']ุŒ ุฃูŠ truncation='only_second' ุฃูˆ truncation='longest_first' ู„ู„ุชุญูƒู… ููŠ ูƒูŠููŠุฉ ุชู‚ู„ูŠู… ูƒู„ุง ุงู„ุชุณู„ุณู„ูŠู† ููŠ ุงู„ุฒูˆุฌ ูƒู…ุง ู‡ูˆ ู…ูˆุถู‘ุญ ุณุงุจู‚ู‹ุง.

ุญูŠู„ ุงู„ุชุฑู…ูŠุฒ

ู‡ู†ุงูƒ ุงู„ุนุฏูŠุฏ ู…ู† ุงู„ุงุณุชุฑุงุชูŠุฌูŠุงุช ู„ุชุฑู…ูŠุฒ ุฏูุนุงุช ุงู„ุฌู…ู„. ููŠู…ุง ูŠู„ูŠ ุจุนุถ ุงู„ุฃู…ุซู„ุฉ ุนู„ู‰ ุฐู„ูƒ.

ุงู„ุชุฑู…ูŠุฒ ุงู„ุญุดูˆ ุงู„ุชุนู„ูŠู…ุงุช
ู„ุง ุชุฑู…ูŠุฒ ู„ุง ุญุดูˆ tokenizer(batch_sentences)
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ tokenizer(batch_sentences, padding=True) ุฃูˆ
tokenizer(batch_sentences, padding='longest')
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ tokenizer(batch_sentences, padding='max_length')
ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ tokenizer(batch_sentences, padding='max_length', max_length=42)
ุงู„ุญุดูˆ ุฅู„ู‰ ู…ุถุงุนู ู„ู‚ูŠู…ุฉ ู…ุนูŠู†ุฉ tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8)
ุงู„ุชุฑู…ูŠุฒ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ ู„ุง ุญุดูˆ tokenizer(batch_sentences, truncation=True) ุฃูˆ
tokenizer(batch_sentences, truncation=STRATEGY)
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ tokenizer(batch_sentences, padding=True, truncation=True) ุฃูˆ
tokenizer(batch_sentences, padding=True, truncation=STRATEGY)
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ tokenizer(batch_sentences, padding='max_length', truncation=True) ุฃูˆ
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY)
ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ ุบูŠุฑ ู…ู…ูƒู†
ุงู„ุชุฑู…ูŠุฒ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ ู„ุง ุญุดูˆ tokenizer(batch_sentences, truncation=True, max_length=42) ุฃูˆ
tokenizer(batch_sentences, truncation=STRATEGY, max_length=42)
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ tokenizer(batch_sentences, padding=True, truncation=True, max_length=42) ุฃูˆ
tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42)
ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ ุบูŠุฑ ู…ู…ูƒู†
ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42) ุฃูˆ
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42)