Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / course /pr_1114 /ru /chapter5 /8.md

rtrm's picture

about 2 months ago

|

14.5 kB

Тест в конце главы[[end-of-chapter-quiz]]

Эта глава охватила много вопросов! Не волнуйтесь, если вы не поняли всех деталей; следующие главы помогут вам понять, как все работает внутри.

Однако, прежде чем двигаться дальше, давайте проверим то, что вы узнали в этой главе.

Из каких источников функция `load_dataset()` в 🤗 Datasets позволяет загружать наборы данных?

<Question choices={[ { text: "Локальных, то есть с моего компьютера", explain: "Правильно! Вы можете передать пути к локальным файлам в аргумент data_files функции load_dataset() для загрузки локальных наборов данных.", correct: true }, { text: "Hugging Face Hub", explain: "Правильно! Вы можете загружать наборы данных в Hub, указав идентификатор набора данных, например. load_dataset('emotion').", correct: true }, { text: "Удаленный сервер", explain: "Правильно! Вы можете передать URLs в аргумент data_files фунции load_dataset(). ", correct: true }, ]} />

2. Предположим, вы загружаете одну из задач GLUE следующим образом:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Какая из следующих команд создаст случайную выборку из 50 элементов из dataset?

<Question choices={[ { text: "dataset.sample(50)", explain: "Это неверно — нет метода Dataset.sample()." }, { text: "dataset.shuffle().select(range(50))", explain: "Правильный! Как вы видели в этой главе, вы сначала перемешиваете набор данных, а затем выбираете из него подмножества.", correct: true }, { text: "dataset.select(range(50)).shuffle()", explain: "Это неверно — хотя код запустится, он перемешает только первые 50 элементов в наборе данных." } ]} />

3. Предположим, у вас есть набор данных о домашних питомцах под названием `pets_dataset`, в котором есть столбец `name`, обозначающий имя каждого питомца. Какой из следующих подходов позволит вам отфильтровать набор данных для всех домашних животных, имена которых начинаются с буквы «L»?

<Question choices={[ { text: "pets_dataset.filter(lambda x : x['name'].startswith('L'))", explain: "Правильно! Использование лямбда-функции Python для этих быстрых фильтров — отличная идея. Можете ли вы придумать другое решение?", correct: true }, { text: "pets_dataset.filter(lambda x['name'].startswith('L'))", explain: "Это неверно — лямбда-функция принимает общую форму lambda arguments : expression, поэтому в этом случае вам необходимо предоставить аргументы." }, { text: "Create a function like def filter_names(x): return x['name'].startswith('L') and run pets_dataset.filter(filter_names).", explain: "Правильно! Как и в случае с Dataset.map(), вы можете передавать явные функции в Dataset.filter(). Это полезно, когда у вас есть сложная логика, которая не подходит для короткой лямбда-функции. Какое из других решений будет работать?", correct: true } ]} />

4. Что такое отображение в память?

<Question choices={[ { text: "Сопоставление между ЦП (CPU) и ОЗУ (RAM) графического процессора", explain: "Нет, попробуй еще раз!", }, { text: "Отображение между RAM и файловой системой компьютера", explain: "Правильно! 🤗 Datasets рассматриваtт каждый набор данных как файл с отображением в памяти. Это позволяет библиотеке получать доступ к элементам набора данных и работать с ними без необходимости полной загрузки его в память.", correct: true }, { text: "Сопоставление между двумя файлами в кэшэ 🤗 Datasets", explain: "Нет, попробуй еще раз!" } ]} />

5. Что из перечисленного ниже является основным преимуществом отображения памяти?

<Question choices={[ { text: "Доступ к файлам, отображенным в памяти, быстрее, чем чтение или запись на диск.", explain: "Правильно! Это позволяет 🤗 Datasets работать быстро. Однако это не единственное преимущество.", correct: true }, { text: "Приложения могут получать доступ к сегментам данных в очень большом файле без необходимости сначала считывать весь файл в ОЗУ.", explain: "Правильно! Это позволяет 🤗 Datasets загружать многогигабайтные наборы данных на ваш ноутбук, не нагружая ваш процессор. Какие еще преимущества предлагает сопоставление памяти?", correct: true }, { text: "Он потребляет меньше энергии, поэтому батарея работает дольше.", explain: "Это неправильно - попробуй еще раз!" } ]} />

6. Почему следующий код не работает?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

<Question choices={[ { text: "Он пытается передать набор данных, который слишком велик для размещения в ОЗУ.", explain: "Это неверно — потоковые наборы данных распаковываются на лету, и вы можете обрабатывать наборы данных размером в терабайт с очень небольшим объемом оперативной памяти!", }, { text: "Он пытается получить доступ к IterableDataset.", explain: "Правильно! IterableDataset — это генератор, а не контейнер, поэтому вы должны получить доступ к его элементам, используя next(iter(dataset)).", correct: true }, { text: "Набор данных allocine не имеет разделения train.", explain: "Это неверно — проверьте allocine карточку набора данных в Hub, чтобы увидеть, какие разбиения он содержит." } ]} />

7. Что из перечисленного является основными преимуществами создания карточки датасета?

<Question choices={[ { text: "Она предоставляет информацию о предполагаемом использовании и поддерживаемых задачах набора данных, чтобы другие участники сообщества могли принять обоснованное решение об его использовании.", explain: "Правильно! Недокументированные наборы данных могут использоваться для обучения моделей, которые могут не отражать намерения создателей наборов данных, или могут создавать модели с неясным юридическим статусом, если они обучены на данных, нарушающих конфиденциальность или лицензионные ограничения. Но это не единственный плюс!", correct : true }, { text: "Это помогает привлечь внимание к искажениям, присутствующим в корпусе.", explain: "Правильно! Почти все наборы данных имеют некоторую форму предвзятости, которая может привести к негативным последствиям в дальнейшем. Знание о них помогает разработчикам моделей понять, как устранять подобные искажения. В чем еще помогают карточки наборов данных?»", correct : true }, { text: "Это повышает шансы на то, что другие участники сообщества будут использовать мой набор данных.", explain: "Правильно! Хорошо написанная карточка набора данных, как правило, приведет к более активному использованию вашего драгоценного датасета. Какие еще могут быть преимущества?", correct: true }, ]} />

8. Что такое семантический поиск?

<Question choices={[ { text: "Способ поиска точных совпадений между словами в запросе и документами в корпусе", explain: "Это неверно — этот тип поиска называется *лексическим поиском*, и это то, что вы обычно видите в традиционных поисковых системах" }, { text: "Способ поиска совпадающих документов путем понимания контекстного значения запроса", explain: "Правильно! Семантический поиск использует вложенные векторы для представления запросов и документов и использует метрику подобия для измерения степени совпадения между ними. Как еще вы могли бы это описать?", correct: true }, { text: "Способ повысить точность поиска", explain: "Правильно! Семантические поисковые системы могут улавливать цель запроса намного лучше, чем сопоставление ключевых слов, и обычно извлекают документы с более высокой точностью. Но это не единственный правильный ответ - что еще дает семантический поиск?", correct: true } ]} />

9. Для асимметричного семантического поиска можно использовать:

<Question choices={[ { text: "Короткий запрос и более длинный абзац, отвечающий на запрос. ", explain: "Правильно!", correct : true }, { text: "Запросы и абзацы примерно одинаковой длины. ", explain: "Это пример симметричного семантического поиска – попробуй еще раз!" }, { text: "Длинный запрос и более короткий абзац, который отвечает на запрос.", explain: "Неправильно, попробуй еще раз!" } ]} />

10. Могу ли я использовать 🤗 Datasets для загрузки данных и решения задач в других областях, например для обработки речи?

<Question choices={[ { text: "Нет", explain: "Это неверно — 🤗 Datasets в настоящее время поддерживают табличные данные, аудио и компьютерное зрение. Ознакомьтесь с набором данных MNIST в Hub для примера компьютерного зрения." }, { text: "Да", explain: "Правильно! Ознакомьтесь с захватывающими разработками в области речи и зрения в библиотеке 🤗 Transformers, чтобы узнать, как 🤗 Datasets используются в этих областях.", correct : true }, ]} />

Xet Storage Details

Size:: 14.5 kB
Xet hash:: 0861a225805b41a60d3ea1561a77efc7e8bc196129eacfb8061058ed72864860

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.