Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /ru /chapter5 /1.md

rtrm

about 2 months ago

preview code

download

raw

1.85 kB

Введение

В главе 3 вы поверхностно ознакомились с библиотекой 🤗 Datasets и увидели три главных шага для использования ее в процессе fine-tuning:

Загрузить датасет из Hugging Face Hub.
Произвести препроцессинг с помощью Dataset.map().
Загрузить и вычислить метрики.

Но это лишь малая часть того, на что способна 🤗 Datasets! В этой главе мы углубимся в библиотеку и попутно мы найдем ответы на следующие вопросы:

Что делать, когда нужного набора данных нет в Hub?
Как вы можете разделиить датасет? (Что если вам действительно нужно использовать Pandas?)
Что делать, когда ваш набор данных огромен и «расплавит» оперативную память вашего ноутбука?
Что, черт возьми, такое «отображение памяти» (memory mapping) и Apache Arrow?
Как вы можете создать свой собственный датасет и отправить его в Hub?

Принципы, которые вы изучите в этой главе, подготовят вас к более глубокому использованию токенизации и fine-tuning'а моделей в главе 6 и главе 7 – заваривайте кофе и мы начинаем!

Xet Storage Details

Size:: 1.85 kB
Xet hash:: 60b4fc9e835e08a6031387e23cc183802dcc4695ba4880994d4fe545efc8ce0d

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.