Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / course /pr_1114 /fr /chapter6 /9.md

rtrm's picture

about 2 months ago

|

836 Bytes

Tokenizer, coché !

Bon travail pour finir ce chapitre !

Après cette plongée en profondeur dans les tokenizers, vous devriez :

être capable d'entraîner un nouveau tokenizer en utilisant un ancien tokenizer comme modèle,
comprendre comment utiliser les offsets pour faire correspondre la position des tokens à l'étendue de texte d'origine,
connaître les différences entre BPE, WordPiece et Unigram,
être capable de combiner les blocs fournis par la bibliothèque 🤗 Tokenizers pour construire votre propre tokenizer,
être capable d'utiliser ce tokenizer dans la bibliothèque 🤗 Transformers.

Xet Storage Details

Size:: 836 Bytes
Xet hash:: 159b1ad531a3f1afafb10af7d723b4f31059f80405ada942ffcc45504a0ec36a

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.