Buckets:

rtrm's picture
|
download
raw
836 Bytes

Tokenizer, coché !

Bon travail pour finir ce chapitre !

Après cette plongée en profondeur dans les tokenizers, vous devriez :

  • être capable d'entraîner un nouveau tokenizer en utilisant un ancien tokenizer comme modèle,
  • comprendre comment utiliser les offsets pour faire correspondre la position des tokens à l'étendue de texte d'origine,
  • connaître les différences entre BPE, WordPiece et Unigram,
  • être capable de combiner les blocs fournis par la bibliothèque 🤗 Tokenizers pour construire votre propre tokenizer,
  • être capable d'utiliser ce tokenizer dans la bibliothèque 🤗 Transformers.

Xet Storage Details

Size:
836 Bytes
·
Xet hash:
159b1ad531a3f1afafb10af7d723b4f31059f80405ada942ffcc45504a0ec36a

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.