Buckets:

hf-doc-build
/

doc-dev

about 2 months ago

836 Bytes

	# <i>Tokenizer</i>, coché !

	<CourseFloatingBanner
	chapter={6}
	classNames="absolute z-10 right-0 top-0"
	/>

	Bon travail pour finir ce chapitre !

	Après cette plongée en profondeur dans les tokenizers, vous devriez :

	- être capable d'entraîner un nouveau tokenizer en utilisant un ancien tokenizer comme modèle,
	- comprendre comment utiliser les offsets pour faire correspondre la position des tokens à l'étendue de texte d'origine,
	- connaître les différences entre BPE, WordPiece et Unigram,
	- être capable de combiner les blocs fournis par la bibliothèque 🤗 Tokenizers pour construire votre propre tokenizer,
	- être capable d'utiliser ce tokenizer dans la bibliothèque 🤗 Transformers.


	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/fr/chapter6/9.mdx" />

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.