Buckets:

hf-doc-build
/

doc-dev

about 2 months ago

1.43 kB

	# Introduction

	<CourseFloatingBanner
	chapter={5}
	classNames="absolute z-10 right-0 top-0"
	/>

	Dans le [chapitre 3](/course/fr/chapter3) vous avez eu un premier aperçu de la bibliothèque 🤗 Datasets et des trois étapes principales pour finetuner un modèle :

	1. chargement d'un jeu de données à partir du Hub d’Hugging Face,
	2. prétraitement des données avec `Dataset.map()`,
	3. chargement et calcul des métriques.

	Mais ce n'est qu'effleurer la surface de ce que 🤗 Datasets peut faire ! Dans ce chapitre, nous allons plonger profondément dans cette bibliothèque. En cours de route, nous trouverons des réponses aux questions suivantes :

	* que faire lorsque votre jeu de données n'est pas sur le Hub ?
	* comment découper et trancher un jeu de données ? (Et si on a _vraiment_ besoin d'utiliser Pandas ?)
	* que faire lorsque votre jeu de données est énorme et va monopoliser la RAM de votre ordinateur portable ?
	* qu'est-ce que c'est que le « memory mapping » et Apache Arrow ?
	* comment créer votre propre jeu de données et le pousser sur le Hub ?

	Les techniques apprises dans ce chapitre vous prépareront aux tâches avancées de tokenisation du [chapitre 6](/course/fr/chapter6) et de finetuning du [chapitre 7](/course/fr/chapter7). Alors prenez un café et commençons !

	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/fr/chapter5/1.mdx" />

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.