Buckets:
| # Introduction | |
| <CourseFloatingBanner | |
| chapter={5} | |
| classNames="absolute z-10 right-0 top-0" | |
| /> | |
| Dans le [chapitre 3](/course/fr/chapter3) vous avez eu un premier aperçu de la bibliothèque 🤗 *Datasets* et des trois étapes principales pour *finetuner* un modèle : | |
| 1. chargement d'un jeu de données à partir du *Hub* d’Hugging Face, | |
| 2. prétraitement des données avec `Dataset.map()`, | |
| 3. chargement et calcul des métriques. | |
| Mais ce n'est qu'effleurer la surface de ce que 🤗 *Datasets* peut faire ! Dans ce chapitre, nous allons plonger profondément dans cette bibliothèque. En cours de route, nous trouverons des réponses aux questions suivantes : | |
| * que faire lorsque votre jeu de données n'est pas sur le *Hub* ? | |
| * comment découper et trancher un jeu de données ? (Et si on a _vraiment_ besoin d'utiliser Pandas ?) | |
| * que faire lorsque votre jeu de données est énorme et va monopoliser la RAM de votre ordinateur portable ? | |
| * qu'est-ce que c'est que le « *memory mapping* » et Apache Arrow ? | |
| * comment créer votre propre jeu de données et le pousser sur le *Hub* ? | |
| Les techniques apprises dans ce chapitre vous prépareront aux tâches avancées de tokenisation du [chapitre 6](/course/fr/chapter6) et de *finetuning* du [chapitre 7](/course/fr/chapter7). Alors prenez un café et commençons ! | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/fr/chapter5/1.mdx" /> |
Xet Storage Details
- Size:
- 1.43 kB
- Xet hash:
- 7f91b308484f4764c82bd2816bdc858a892cc610e50b021af1709a060e3e2c90
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.