Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /fr /chapter5 /1.md

rtrm

about 2 months ago

preview code

download

raw

1.43 kB

Introduction

Dans le chapitre 3 vous avez eu un premier aperçu de la bibliothèque 🤗 Datasets et des trois étapes principales pour finetuner un modèle :

chargement d'un jeu de données à partir du Hub d’Hugging Face,
prétraitement des données avec Dataset.map(),
chargement et calcul des métriques.

Mais ce n'est qu'effleurer la surface de ce que 🤗 Datasets peut faire ! Dans ce chapitre, nous allons plonger profondément dans cette bibliothèque. En cours de route, nous trouverons des réponses aux questions suivantes :

que faire lorsque votre jeu de données n'est pas sur le Hub ?
comment découper et trancher un jeu de données ? (Et si on a vraiment besoin d'utiliser Pandas ?)
que faire lorsque votre jeu de données est énorme et va monopoliser la RAM de votre ordinateur portable ?
qu'est-ce que c'est que le « memory mapping » et Apache Arrow ?
comment créer votre propre jeu de données et le pousser sur le Hub ?

Les techniques apprises dans ce chapitre vous prépareront aux tâches avancées de tokenisation du chapitre 6 et de finetuning du chapitre 7. Alors prenez un café et commençons !

Xet Storage Details

Size:: 1.43 kB
Xet hash:: 7f91b308484f4764c82bd2816bdc858a892cc610e50b021af1709a060e3e2c90

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.