Buckets:

hf-doc-build
/

doc-dev

about 2 months ago

783 Bytes

	# Tokenizadores, listo![[tokenizers-check]]

	<CourseFloatingBanner
	chapter={6}
	classNames="absolute z-10 right-0 top-0"
	/>

	Gran trabajo terminando este capítulo!

	Luego de esta profundizacion en los tokenizadores, deberías:

	- Ser capaz de entrenar un nuevo tokenizador usando un existente como plantilla
	- Entender como usar los offsets para mapear las posiciones de los tokens a sus trozos de texto original
	- Conocer las diferencias entre BPE, WordPiece y Unigram
	- Ser capaz de mezclar y combinar los bloques provistos por la librería 🤗 Tokenizers para construir tu propio tokenizador
	- Ser capaz de usar el tokenizador dentro de la librería 🤗 Transformers.


	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/es/chapter6/9.mdx" />

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.