File size: 8,726 Bytes
17c6d62
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
# ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู… 

ุบุงู„ุจู‹ุง ู…ุง ุชุฎุชู„ู ู…ุฏุฎู„ุงุช ุงู„ุฏููุนุงุช ููŠ ุงู„ุทูˆู„ุŒ ู„ุฐุง ู„ุง ูŠู…ูƒู† ุชุญูˆูŠู„ู‡ุง ุฅู„ู‰ ู…ุตููˆูุงุช ุฐุงุช ุญุฌู… ุซุงุจุช .ูŠูุนุฏู‘ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู… ู‡ู…ุง ุงุณุชุฑุงุชูŠุฌูŠุชุงู† ู„ู„ุชุนุงู…ู„ ู…ุน ู‡ุฐู‡ ุงู„ู…ุดูƒู„ุฉุŒ ู„ุฅู†ุดุงุก ู…ุตููˆูุงุช ู…ุณุชุทูŠู„ุฉ ู…ู† ู…ุฌู…ูˆุนุงุช ุฐุงุช ุฃุทูˆุงู„ ู…ุฎุชู„ูุฉ. ูˆูŠุถูŠู ุงู„ุญุดูˆ ุฑู…ุฒ **ุญุดูˆ** ุฎุงุต ู„ุถู…ุงู† ุฃู† ูŠูƒูˆู† ู„ู„ุชุณู„ุณู„ุงุช ุงู„ุฃู‚ุตุฑ ู†ูุณ ุทูˆู„ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ ุฃูˆ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ. ูˆูŠุนู…ู„ ุงู„ุชู‚ู„ูŠู… ุนูƒุณ ุฐู„ูƒ ุจุชู‚ู„ูŠู… ุงู„ุชุณู„ุณู„ุงุช ุงู„ุทูˆูŠู„ุฉ.

ููŠ ู…ุนุธู… ุงู„ุญุงู„ุงุชุŒ ูŠูŠูุนุฏู‘ ุญุดูˆ ุฏููุนุชูƒ ุฅู„ู‰ ุทูˆู„ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠู‡ุง ูˆุชู‚ู„ูŠู…ู‡ุง ุฅู„ู‰ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ู…ู‚ุจูˆู„ ู…ู† ุงู„ู†ู…ูˆุฐุฌ ุญู„ู‹ุง ูุนุงู„ู‹ุง. ูˆู…ุน ุฐู„ูƒุŒ ุชุฏุนู… ูˆุงุฌู‡ุฉ ุจุฑู…ุฌุฉ ุงู„ุชุทุจูŠู‚ุงุช ุงู„ู…ุฒูŠุฏ ู…ู† ุงู„ุงุณุชุฑุงุชูŠุฌูŠุงุช ุฅุฐุง ูƒู†ุช ุจุญุงุฌุฉ ุฅู„ูŠู‡ุง. ู‡ู†ุงูƒ ุซู„ุงุซุฉ ู…ุนุงู…๏ปปุช ุชุญุชุงุฌู‡ุง ู„ูู‡ู… ุขู„ูŠุฉ ุงู„ุนู…ู„: `padding`ุŒ ูˆ`truncation`ุŒ ูˆ`max_length`.

ูŠุญูƒู… ู…ุนุงู…ู„ `padding` ุนู…ู„ูŠุฉ ุงู„ุญุดูˆ. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ู‚ูŠู…ุฉ ู…ู†ุทู‚ูŠุฉ ุฃูˆ ู†ุตูŠุฉ:

  - `True` ุฃูˆ `'longest'`: ุงู„ุญุดูˆ ุฅู„ู‰ ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ (ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุงู„ุญุดูˆ ุนู†ุฏ ุชู‚ุฏูŠู… ุชุณู„ุณู„ ูˆุงุญุฏ ูู‚ุท).
  - `'max_length'`: ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ `max_length` ุฃูˆ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู‚ุจู„ู‡
    ุงู„ู†ู…ูˆุฐุฌ ุฅุฐุง ู„ู… ูŠุชู… ุชูˆููŠุฑ `max_length` (`max_length=None`). ุณูŠุธู„ ุงู„ุญุดูˆ ู…ุทุจู‚ู‹ุง ุฅุฐุง ู‚ุฏู…ุช ุชุณู„ุณู„ู‹ุง ูˆุงุญุฏู‹ุง ูู‚ุท.
  - `False` ุฃูˆ `'do_not_pad'`: ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุฃูŠ ุญุดูˆ. ู‡ุฐุง ู‡ูˆ ุงู„ุณู„ูˆูƒ ุงู„ุงูุชุฑุงุถูŠ.

ุชุญูƒู… ู…ุนุงู…ู„ `truncation` ุนู…ู„ูŠุฉ ุงู„ุชู‚ู„ูŠู…. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ู‚ูŠู…ุฉ ู…ู†ุทู‚ูŠุฉ ุฃูˆ ู†ุตูŠุฉ:

  -ู‚ูŠู…ุฉ `True` ุฃูˆ `'longest_first'` : ุชู‚ู„ูŠู… ุงู„ุชุณู„ุณู„ุงุช ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ูุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ `max_length`ุŒ ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ููŠ ุญุงู„ ุนุฏู… ุชุญุฏูŠุฏ ุทูˆู„ ู…ูุญุฏุฏ ู…ู† ู‚ุจู„ ุงู„ู…ุณุชุฎุฏู…  (`max_length=None`). ุณุชุชู… ุนู…ู„ูŠุฉ ุงู„ุชู‚ู„ูŠู… ุฅุฒุงู„ุฉ ุฑู…ุฒ ุชู„ูˆ ุงู„ุขุฎุฑุŒ ุจุฏุกู‹ุง ู…ู† ุฃุทูˆู„ ุชุณู„ุณู„ ููŠ ุงู„ุฒูˆุฌุŒ ุฅู„ู‰ ุฃู† ูŠุตู„ ุงู„ุทูˆู„ ุฅู„ู‰ ุงู„ู‚ูŠู…ุฉ ุงู„ู…ูุญุฏุฏุฉ. 
  -ู‚ูŠู…ุฉ `'only_second'`: ุงู‚ุทุน ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ุญุฏุฏ ุจูˆุงุณุทุฉ ู…ุนุงู…ู„ `max_length` ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ุฅุฐุง ู„ู… ูŠุชู… ุชูˆููŠุฑ `max_length` (`max_length=None`). ู‡ุฐุง ุณูŠู‚ู„ู… ูู‚ุท ุงู„ุฌู…ู„ุฉ ุงู„ุซุงู†ูŠุฉ ู…ู† ุงู„ุฒูˆุฌ ุฅุฐุง ุชู… ุชูˆููŠุฑ ุฒูˆุฌ ู…ู† ุงู„ุชุณู„ุณู„ุงุช (ุฃูˆ ุฏููุนุฉ ู…ู† ุฃุฒูˆุงุฌ ุงู„ุชุณู„ุณู„ุงุช).
  -ู‚ูŠู…ุฉ `'only_first'`: ุชู‚ู„ูŠู… ุงู„ุฌู…ู„ุฉ ุงู„ุฃูˆู„ู‰ ูู‚ุท ู…ู† ุงู„ุฒูˆุฌ ุนู†ุฏ ุชู‚ุฏูŠู… ุฒูˆุฌ ู…ู† ุงู„ุชุณู„ุณู„ุงุช (ุฃูˆ ุฏููุนุฉ ู…ู† ุฃุฒูˆุงุฌ ุงู„ุชุณู„ุณู„ุงุช) ุฅู„ู‰ ุทูˆู„ ุฃู‚ุตู‰ ู…ูุญุฏุฏ ุจูˆุงุณุทุฉ ุญุฌุฉ `max_length`ุŒ ุฃูˆ ุฃู‚ุตู‰ ุทูˆู„ ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ ููŠ ุญุงู„ ุนุฏู… ุชุญุฏูŠุฏ ุทูˆู„ ู…ูุญุฏุฏ ู…ู† ู‚ุจู„ ุงู„ู…ุณุชุฎุฏู…  (`max_length=None`). 
  -ู‚ูŠู…ุฉ `False` ุฃูˆ `'do_not_truncate'`: ู„ุง ูŠุชู… ุชุทุจูŠู‚ ุฃูŠ ุชู‚ู„ูŠู…. ู‡ุฐุง ู‡ูˆ ุงู„ุณู„ูˆูƒ ุงู„ุงูุชุฑุงุถูŠ.
``

ูŠุญูƒู… ู…ุนุงู…ู„  `max_length` ุทูˆู„ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู…. ูŠู…ูƒู† ุฃู† ูŠูƒูˆู† ุนุฏุฏ ุตุญูŠุญ ุฃูˆ `None`ุŒ ูˆุนู†ุฏู‡ุง ูŠูุญุฏุฏ ุงูุชุฑุงุถูŠู‹ุง ุฅู„ู‰ ุงู„ุทูˆู„ ุงู„ุฃู‚ุตู‰ ุงู„ุฐูŠ ูŠู…ูƒู† ุฃู† ูŠู‚ุจู„ู‡ ุงู„ู†ู…ูˆุฐุฌ. ุฅุฐุง ู„ู… ูŠูƒู† ู„ู„ู†ู…ูˆุฐุฌ ุทูˆู„ ุฅุฏุฎุงู„ ุฃู‚ุตู‰ ู…ุญุฏุฏุŒ ูŠุชู… ุฅู„ุบุงุก ุชู†ุดูŠุท ุงู„ุชู‚ู„ูŠู… ุฃูˆ ุงู„ุญุดูˆ ุฅู„ู‰ `max_length`.

ูŠู„ุฎู‘ุต ุงู„ุฌุฏูˆู„ ุงู„ุชุงู„ูŠ ุงู„ุทุฑูŠู‚ุฉ ุงู„ู…ููˆุตู‰ ุจู‡ุง ู„ุฅุนุฏุงุฏ ุงู„ุญุดูˆ ูˆุงู„ุชู‚ู„ูŠู…. ุฅุฐุง ูƒู†ุช ุชุณุชุฎุฏู… ุฃุฒูˆุงุฌ ุชุณู„ุณู„ุงุช ุงู„ุฅุฏุฎุงู„ ููŠ ุฃูŠ ู…ู† ุงู„ุฃู…ุซู„ุฉ ุงู„ุชุงู„ูŠุฉุŒ ููŠู…ูƒู†ูƒ ุงุณุชุจุฏุงู„ `truncation=True` ุจู€ `STRATEGY` ุงู„ู…ุญุฏุฏ ููŠ `['only_first'ุŒ 'only_second'ุŒ 'longest_first']`ุŒ ุฃูŠ `truncation='only_second'` ุฃูˆ `truncation='longest_first'` ู„ู„ุชุญูƒู… ููŠ ูƒูŠููŠุฉ ุชู‚ู„ูŠู… ูƒู„ุง ุงู„ุชุณู„ุณู„ูŠู† ููŠ ุงู„ุฒูˆุฌ ูƒู…ุง ู‡ูˆ ู…ูˆุถู‘ุญ ุณุงุจู‚ู‹ุง.
<!-- This file is automatically generated, do not modify manually. -->

# ุญูŠู„ ุงู„ุชุฑู…ูŠุฒ

ู‡ู†ุงูƒ ุงู„ุนุฏูŠุฏ ู…ู† ุงู„ุงุณุชุฑุงุชูŠุฌูŠุงุช ู„ุชุฑู…ูŠุฒ ุฏูุนุงุช ุงู„ุฌู…ู„. ููŠู…ุง ูŠู„ูŠ ุจุนุถ ุงู„ุฃู…ุซู„ุฉ ุนู„ู‰ ุฐู„ูƒ.

| ุงู„ุชุฑู…ูŠุฒ                           | ุงู„ุญุดูˆ                           | ุงู„ุชุนู„ูŠู…ุงุช                                                                                 |
|--------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------|
| ู„ุง ุชุฑู…ูŠุฒ                           | ู„ุง ุญุดูˆ                           | `tokenizer(batch_sentences)`                                                           |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ | `tokenizer(batch_sentences, padding=True)` ุฃูˆ                                          |
|                                      |                                   | `tokenizer(batch_sentences, padding='longest')`                                        |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ | `tokenizer(batch_sentences, padding='max_length')`                                     |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ                | `tokenizer(batch_sentences, padding='max_length', max_length=42)`                      |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ู…ุถุงุนู ู„ู‚ูŠู…ุฉ ู…ุนูŠู†ุฉ      | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8)`                        |
| ุงู„ุชุฑู…ูŠุฒ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ | ู„ุง ุญุดูˆ                           | `tokenizer(batch_sentences, truncation=True)` ุฃูˆ                                       |
|                                      |                                   | `tokenizer(batch_sentences, truncation=STRATEGY)`                                      |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ | `tokenizer(batch_sentences, padding=True, truncation=True)` ุฃูˆ                         |
|                                      |                                   | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY)`                        |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ | `tokenizer(batch_sentences, padding='max_length', truncation=True)` ุฃูˆ                 |
|                                      |                                   | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY)`                |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ                | ุบูŠุฑ ู…ู…ูƒู†                                                                                |
| ุงู„ุชุฑู…ูŠุฒ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ                | ู„ุง ุญุดูˆ                           | `tokenizer(batch_sentences, truncation=True, max_length=42)` ุฃูˆ                        |
|                                      |                                   | `tokenizer(batch_sentences, truncation=STRATEGY, max_length=42)`                       |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ู„ุชุณู„ุณู„ ููŠ ุงู„ุฏูุนุฉ | `tokenizer(batch_sentences, padding=True, truncation=True, max_length=42)` ุฃูˆ          |
|                                      |                                   | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42)`         |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุงู„ุญุฏ ุงู„ุฃู‚ุตู‰ ู„ุทูˆู„ ุฅุฏุฎุงู„ ุงู„ู†ู…ูˆุฐุฌ | ุบูŠุฑ ู…ู…ูƒู†                                                                                |
|                                      | ุงู„ุญุดูˆ ุฅู„ู‰ ุทูˆู„ ู…ุญุฏุฏ                | `tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42)` ุฃูˆ  |
|                                      |                                   | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42)` |