Buckets:
Тест в конце главы[[end-of-chapter-quiz]]
Эта глава охватила много вопросов! Не волнуйтесь, если вы не поняли всех деталей; следующие главы помогут вам понять, как все работает внутри.
Однако, прежде чем двигаться дальше, давайте проверим то, что вы узнали в этой главе.
Из каких источников функция load_dataset() в 🤗 Datasets позволяет загружать наборы данных?
<Question
choices={[
{
text: "Локальных, то есть с моего компьютера",
explain: "Правильно! Вы можете передать пути к локальным файлам в аргумент data_files функции load_dataset() для загрузки локальных наборов данных.",
correct: true
},
{
text: "Hugging Face Hub",
explain: "Правильно! Вы можете загружать наборы данных в Hub, указав идентификатор набора данных, например. load_dataset('emotion').",
correct: true
},
{
text: "Удаленный сервер",
explain: "Правильно! Вы можете передать URLs в аргумент data_files фунции load_dataset(). ",
correct: true
},
]}
/>
2. Предположим, вы загружаете одну из задач GLUE следующим образом:
from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")
Какая из следующих команд создаст случайную выборку из 50 элементов из dataset?
<Question
choices={[
{
text: "dataset.sample(50)",
explain: "Это неверно — нет метода Dataset.sample()."
},
{
text: "dataset.shuffle().select(range(50))",
explain: "Правильный! Как вы видели в этой главе, вы сначала перемешиваете набор данных, а затем выбираете из него подмножества.",
correct: true
},
{
text: "dataset.select(range(50)).shuffle()",
explain: "Это неверно — хотя код запустится, он перемешает только первые 50 элементов в наборе данных."
}
]}
/>
3. Предположим, у вас есть набор данных о домашних питомцах под названием pets_dataset, в котором есть столбец name, обозначающий имя каждого питомца. Какой из следующих подходов позволит вам отфильтровать набор данных для всех домашних животных, имена которых начинаются с буквы «L»?
<Question
choices={[
{
text: "pets_dataset.filter(lambda x : x['name'].startswith('L'))",
explain: "Правильно! Использование лямбда-функции Python для этих быстрых фильтров — отличная идея. Можете ли вы придумать другое решение?",
correct: true
},
{
text: "pets_dataset.filter(lambda x['name'].startswith('L'))",
explain: "Это неверно — лямбда-функция принимает общую форму lambda arguments : expression, поэтому в этом случае вам необходимо предоставить аргументы."
},
{
text: "Create a function like def filter_names(x): return x['name'].startswith('L') and run pets_dataset.filter(filter_names).",
explain: "Правильно! Как и в случае с Dataset.map(), вы можете передавать явные функции в Dataset.filter(). Это полезно, когда у вас есть сложная логика, которая не подходит для короткой лямбда-функции. Какое из других решений будет работать?",
correct: true
}
]}
/>
4. Что такое отображение в память?
<Question choices={[ { text: "Сопоставление между ЦП (CPU) и ОЗУ (RAM) графического процессора", explain: "Нет, попробуй еще раз!", }, { text: "Отображение между RAM и файловой системой компьютера", explain: "Правильно! 🤗 Datasets рассматриваtт каждый набор данных как файл с отображением в памяти. Это позволяет библиотеке получать доступ к элементам набора данных и работать с ними без необходимости полной загрузки его в память.", correct: true }, { text: "Сопоставление между двумя файлами в кэшэ 🤗 Datasets", explain: "Нет, попробуй еще раз!" } ]} />
5. Что из перечисленного ниже является основным преимуществом отображения памяти?
<Question choices={[ { text: "Доступ к файлам, отображенным в памяти, быстрее, чем чтение или запись на диск.", explain: "Правильно! Это позволяет 🤗 Datasets работать быстро. Однако это не единственное преимущество.", correct: true }, { text: "Приложения могут получать доступ к сегментам данных в очень большом файле без необходимости сначала считывать весь файл в ОЗУ.", explain: "Правильно! Это позволяет 🤗 Datasets загружать многогигабайтные наборы данных на ваш ноутбук, не нагружая ваш процессор. Какие еще преимущества предлагает сопоставление памяти?", correct: true }, { text: "Он потребляет меньше энергии, поэтому батарея работает дольше.", explain: "Это неправильно - попробуй еще раз!" } ]} />
6. Почему следующий код не работает?
from datasets import load_dataset
dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]
<Question
choices={[
{
text: "Он пытается передать набор данных, который слишком велик для размещения в ОЗУ.",
explain: "Это неверно — потоковые наборы данных распаковываются на лету, и вы можете обрабатывать наборы данных размером в терабайт с очень небольшим объемом оперативной памяти!",
},
{
text: "Он пытается получить доступ к IterableDataset.",
explain: "Правильно! IterableDataset — это генератор, а не контейнер, поэтому вы должны получить доступ к его элементам, используя next(iter(dataset)).",
correct: true
},
{
text: "Набор данных allocine не имеет разделения train.",
explain: "Это неверно — проверьте allocine карточку набора данных в Hub, чтобы увидеть, какие разбиения он содержит."
}
]}
/>
7. Что из перечисленного является основными преимуществами создания карточки датасета?
<Question choices={[ { text: "Она предоставляет информацию о предполагаемом использовании и поддерживаемых задачах набора данных, чтобы другие участники сообщества могли принять обоснованное решение об его использовании.", explain: "Правильно! Недокументированные наборы данных могут использоваться для обучения моделей, которые могут не отражать намерения создателей наборов данных, или могут создавать модели с неясным юридическим статусом, если они обучены на данных, нарушающих конфиденциальность или лицензионные ограничения. Но это не единственный плюс!", correct : true }, { text: "Это помогает привлечь внимание к искажениям, присутствующим в корпусе.", explain: "Правильно! Почти все наборы данных имеют некоторую форму предвзятости, которая может привести к негативным последствиям в дальнейшем. Знание о них помогает разработчикам моделей понять, как устранять подобные искажения. В чем еще помогают карточки наборов данных?»", correct : true }, { text: "Это повышает шансы на то, что другие участники сообщества будут использовать мой набор данных.", explain: "Правильно! Хорошо написанная карточка набора данных, как правило, приведет к более активному использованию вашего драгоценного датасета. Какие еще могут быть преимущества?", correct: true }, ]} />
8. Что такое семантический поиск?
<Question choices={[ { text: "Способ поиска точных совпадений между словами в запросе и документами в корпусе", explain: "Это неверно — этот тип поиска называется *лексическим поиском*, и это то, что вы обычно видите в традиционных поисковых системах" }, { text: "Способ поиска совпадающих документов путем понимания контекстного значения запроса", explain: "Правильно! Семантический поиск использует вложенные векторы для представления запросов и документов и использует метрику подобия для измерения степени совпадения между ними. Как еще вы могли бы это описать?", correct: true }, { text: "Способ повысить точность поиска", explain: "Правильно! Семантические поисковые системы могут улавливать цель запроса намного лучше, чем сопоставление ключевых слов, и обычно извлекают документы с более высокой точностью. Но это не единственный правильный ответ - что еще дает семантический поиск?", correct: true } ]} />
9. Для асимметричного семантического поиска можно использовать:
<Question choices={[ { text: "Короткий запрос и более длинный абзац, отвечающий на запрос. ", explain: "Правильно!", correct : true }, { text: "Запросы и абзацы примерно одинаковой длины. ", explain: "Это пример симметричного семантического поиска – попробуй еще раз!" }, { text: "Длинный запрос и более короткий абзац, который отвечает на запрос.", explain: "Неправильно, попробуй еще раз!" } ]} />
10. Могу ли я использовать 🤗 Datasets для загрузки данных и решения задач в других областях, например для обработки речи?
<Question choices={[ { text: "Нет", explain: "Это неверно — 🤗 Datasets в настоящее время поддерживают табличные данные, аудио и компьютерное зрение. Ознакомьтесь с набором данных MNIST в Hub для примера компьютерного зрения." }, { text: "Да", explain: "Правильно! Ознакомьтесь с захватывающими разработками в области речи и зрения в библиотеке 🤗 Transformers, чтобы узнать, как 🤗 Datasets используются в этих областях.", correct : true }, ]} />
Xet Storage Details
- Size:
- 14.5 kB
- Xet hash:
- 0861a225805b41a60d3ea1561a77efc7e8bc196129eacfb8061058ed72864860
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.