Buckets:
| # Введение | |
| В [главе 3](../chapter3/1) вы поверхностно ознакомились с библиотекой 🤗 Datasets и увидели три главных шага для использования ее в процессе fine-tuning: | |
| 1. Загрузить датасет из Hugging Face Hub. | |
| 2. Произвести препроцессинг с помощью `Dataset.map()`. | |
| 3. Загрузить и вычислить метрики. | |
| Но это лишь малая часть того, на что способна 🤗 Datasets! В этой главе мы углубимся в библиотеку и попутно мы найдем ответы на следующие вопросы: | |
| * Что делать, когда нужного набора данных нет в Hub? | |
| * Как вы можете разделиить датасет? (Что если вам _действительно_ нужно использовать Pandas?) | |
| * Что делать, когда ваш набор данных огромен и «расплавит» оперативную память вашего ноутбука? | |
| * Что, черт возьми, такое «отображение памяти» (memory mapping) и Apache Arrow? | |
| * Как вы можете создать свой собственный датасет и отправить его в Hub? | |
| Принципы, которые вы изучите в этой главе, подготовят вас к более глубокому использованию токенизации и fine-tuning'а моделей в [главе 6](../chapter6) и [главе 7](../chapter7) – заваривайте кофе и мы начинаем! | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ru/chapter5/1.mdx" /> |
Xet Storage Details
- Size:
- 1.85 kB
- Xet hash:
- 60b4fc9e835e08a6031387e23cc183802dcc4695ba4880994d4fe545efc8ce0d
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.