Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /fr /chapter6 /1.md

rtrm

about 2 months ago

preview code

download

raw

2.23 kB

	# Introduction

	<CourseFloatingBanner
	chapter={6}
	classNames="absolute z-10 right-0 top-0"
	/>

	Dans le [chapitre 3](/course/fr/chapter3), nous avons vu comment finetuner un modèle sur une tâche donnée. Pour ce faire, nous utilisons le même tokenizer que celui avec lequel le modèle a été pré-entraîné. Mais que faisons-nous lorsque nous voulons entraîner un modèle à partir de zéro ? Dans ces cas, l'utilisation d'un tokenizer qui a été pré-entraîné sur un corpus d'un autre domaine ou d'une autre langue est généralement sous-optimale. Par exemple, un tokenizer entraîné sur un corpus anglais sera peu performant sur un corpus de textes japonais car l'utilisation des espaces et de la ponctuation est très différente entre les deux langues.

	Dans ce chapitre, vous apprendrez à entraîner un tout nouveau tokenizer sur un corpus de textes afin qu'il puisse ensuite être utilisé pour pré-entraîner un modèle de langue. Tout cela se fera à l'aide de la bibliothèque [🤗 Tokenizers](https://github.com/huggingface/tokenizers), qui fournit les tokenizers « rapides » de la bibliothèque [🤗 Transformers](https://github.com/huggingface/transformers). Nous examinerons de près les fonctionnalités offertes par cette bibliothèque et nous étudierons comment les tokenizers rapides diffèrent des versions « lentes ».

	Les sujets que nous couvrirons comprennent :
	* comment entraîner sur un nouveau corpus de textes, un nouveau tokenizer similaire à celui utilisé par un checkpoint donné,
	* les caractéristiques spéciales des tokenizers rapides,
	* les différences entre les trois principaux algorithmes de tokénisation utilisés aujourd'hui en NLP,
	* comment construire un tokenizer à partir de zéro avec la bibliothèque 🤗 Tokenizers et l'entraîner sur des données.

	Les techniques présentées dans ce chapitre vous prépareront à la section du [chapitre 7](/course/fr/chapter7/6) où nous verrons comment créer un modèle de langue pour le langage Python. Commençons par examiner ce que signifie « entraîner » un tokenizer.

	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/fr/chapter6/1.mdx" />

Xet Storage Details

Size:: 2.23 kB
Xet hash:: f86bdbb86b99a165e53e2591d29d9c5864564f13de917be736a12ae627c9b445

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.