Buckets:
| # Что делать, если моего датасета на нет на Hub? | |
| <DocNotebookDropdown | |
| classNames="absolute z-10 right-0 top-0" | |
| options={[ | |
| {label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"}, | |
| {label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"}, | |
| ]} /> | |
| Вы знаете, как использовать [Hugging Face Hub](https://huggingface.co/datasets) для скачивания датасетов, но часто складывается ситуация, когда нужные данные не хранятся у вас локально или на удаленном сервере. В этом разделе мы посмотрим, как библиотека 🤗 Datasets может быть использована для загрузки датасетов, которые не хранятся на Hugging Face Hub. | |
| <Youtube id="HyQgpJTkRdE"/> | |
| ## Работа с локальными и удаленными датасетами | |
| 🤗 Datasets предоставляет скрипты для загрузки собственных датасетов. Библиотека поддерживает несколько распространенных форматов: | |
| | Data format | Loading script | Example | | |
| | :----------------: | :------------: | :-----------------------------------------------------: | | |
| | CSV & TSV | `csv` | `load_dataset("csv", data_files="my_file.csv")` | | |
| | Text files | `text` | `load_dataset("text", data_files="my_file.txt")` | | |
| | JSON & JSON Lines | `json` | `load_dataset("json", data_files="my_file.jsonl")` | | |
| | Pickled DataFrames | `pandas` | `load_dataset("pandas", data_files="my_dataframe.pkl")` | | |
| Как показано в таблице, для каждого формата мы должны задать тип скрипта загрузки в функции `load_dataset()` вместе с аргументом `data_files`, который указывает путь к одному или нескольким файлам. Начнем с загрузки набора данных из локальных файлов; позже мы увидим, как сделать то же самое с файлами, расположены на удаленном сервере. | |
| ## Загрузка локального датасета | |
| Для этого примера мы будем использовать датасет [SQuAD-it dataset](https://github.com/crux82/squad-it/). Это большой датасет для задачи question answering на итальянском языке. | |
| Обучающая и тестовая часть расположены на GitHub, мы можем скачать файлы с помощью простой команды `wget`. | |
| ```python | |
| !wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz | |
| !wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz | |
| ``` | |
| Выполнение этих команд запустит процесс скачивания файлов *SQuAD_it-train.json.gz* и *SQuAD_it-test.json.gz*, которые мы можем распаковать с помощью Linux команды `gzip`: | |
| ```python | |
| !gzip -dkv SQuAD_it-*.json.gz | |
| ``` | |
| ```bash | |
| SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json | |
| SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json | |
| ``` | |
| После выполнения команд мы увидим, что архивы будут заменены файлами _SQuAD_it-train.json_ и _SQuAD_it-text.json_ в формате JSON. | |
| > [!TIP] | |
| > ✎ Причина, по которой в примере выше перед командами расположен `!` заключается в том, что мы выполняем их в Jupyter notebook. Если вы хотите запустить эти команды в терминале – просто удалите `!`. | |
| Для загрузки JSON файла с помощью функции `load_dataset()` необходимо знать, с каким типом JSON-файла мы имеем дело: обычный JSON (похожий на вложенный словарь) или JSON, сформированный построчно. Как и многие датасеты для задач question-answering, SQuAD-it использует формат обычного JSON'а с текстом, хранящимся в поле `data`. Это означает, что мы можем подгрузить датасет, задав аргумент `field` следующим образом: | |
| ```py | |
| from datasets import load_dataset | |
| squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data") | |
| ``` | |
| По умолчанию при загрузке локальных файлов создается объект `DatasetDict` с меткой `train`. Мы можем изучить объект `squad_it_dataset`: | |
| ```py | |
| squad_it_dataset | |
| ``` | |
| ```python out | |
| DatasetDict({ | |
| train: Dataset({ | |
| features: ['title', 'paragraphs'], | |
| num_rows: 442 | |
| }) | |
| }) | |
| ``` | |
| Выше распечатана информация об объекте: число строк и колонки обучающего датасета. Мы можем посмотреть на один объект, проиндексировав его как `train` следующим образом: | |
| ```py | |
| squad_it_dataset["train"][0] | |
| ``` | |
| ```python out | |
| { | |
| "title": "Terremoto del Sichuan del 2008", | |
| "paragraphs": [ | |
| { | |
| "context": "Il terremoto del Sichuan del 2008 o il terremoto...", | |
| "qas": [ | |
| { | |
| "answers": [{"answer_start": 29, "text": "2008"}], | |
| "id": "56cdca7862d2951400fa6826", | |
| "question": "In quale anno si è verificato il terremoto nel Sichuan?", | |
| }, | |
| ... | |
| ], | |
| }, | |
| ... | |
| ], | |
| } | |
| ``` | |
| Отлично! Мы загрузили наш первый датасет! Но пока мы это сделали только для обучающей части данных, хотя нам нужны и `train`, и `test` в одном `DatasetDict`, чтобы мы могли применить функцию `Dataset.map()` на оба подмножества сразу. Чтобы сделать это, мы можем передать в словарь в `data_files`. Сделать это можно так: | |
| ```py | |
| data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"} | |
| squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | |
| squad_it_dataset | |
| ``` | |
| ```python out | |
| DatasetDict({ | |
| train: Dataset({ | |
| features: ['title', 'paragraphs'], | |
| num_rows: 442 | |
| }) | |
| test: Dataset({ | |
| features: ['title', 'paragraphs'], | |
| num_rows: 48 | |
| }) | |
| }) | |
| ``` | |
| Это ровно то, чего мы хотели добиться! Далее мы можем применять различные приемы для препроцессинга данных: очистку, токенизацию и прочее. | |
| > [!TIP] | |
| > Аргумент `data_files` функции `load_dataset()` очень гибкий и может являться путем к файлу, списком путей файлов или словарем, в котором указаны названия сплитов (обучающего и тестового) и пути к соответствующим файлам. Вы также можете найти все подходящие файлы в директории с использованием маски по правилам Unix-консоли (т.е. указать путь к директории и указать `data_files="*.json"` для конкретного сплита). Более подробно это изложено в [документации](https://huggingface.co/docs/datasets/loading#local-and-remote-files) 🤗 Datasets. | |
| Скрипты загрузки 🤗 Datasets также поддерживают автоматическую распаковку входных файлов, поэтому мы можем пропустить команду `gzip` просто передав в аргумент `data_files` пути к архивам: | |
| ```py | |
| data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"} | |
| squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | |
| ``` | |
| Это может быть полезно, если вы не хотите вручную разархивировать GZIP файлы. Автоматическое разархивирование также поддерживает распространенные форматы вроде ZIP и TAR, так что вы можете передавать и пути к таким файлам. | |
| Теперь, когда вы знаете, как загрузить локально хранящиеся файлы, мы посмотрим, как подгрузить данные с удаленных серверов. | |
| ## Загрузка файлов с удаленного сервера | |
| Если вы работаете data scientist или программистом в компании, скорее всего ваши данные хранятся на сервере. К счастью, загрузка файлов с удаленных машин настолько же простая, насколько и загрузка их со локальной машины! Вместо пути к локальным файлам мы передаем аргументу `data_files` один или несколько URL, указывающих на нужные файлы. К примеру, датасет SQuAD-it расположен на GitHub, мы можем просто указать ссылку на файлы следующим образом: | |
| ```py | |
| url = "https://github.com/crux82/squad-it/raw/master/" | |
| data_files = { | |
| "train": url + "SQuAD_it-train.json.gz", | |
| "test": url + "SQuAD_it-test.json.gz", | |
| } | |
| squad_it_dataset = load_dataset("json", data_files=data_files, field="data") | |
| ``` | |
| Эта операция вернет такой же `DatasetDict`, какой мы получали ранее, но избавит нас от загрузки и разархивирования файлов _SQuAD_it-*.json.gz_ вручную. | |
| На этом мы завершаем наш обзор различных способов загрузки датасетов, которые не размещены на Hugging Face Hub. Теперь, когда у нас есть датасет, с которым можно поиграться, давайте погрузимся в различные методы обработки данных! | |
| > [!TIP] | |
| > ✏️ **Попробуйте!** Выберите другой датасет, расположенный на GitHub или в архиве [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php) и попробуйте загрузить его с локальной машины и с удаленного сервера. В качестве бонуса попробуйте загрузить датасет в формате CSV или обычного тектового файла (см. детали по поддерживаемым форматам в [документации](https://huggingface.co/docs/datasets/loading#local-and-remote-files)). | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/ru/chapter5/2.mdx" /> |
Xet Storage Details
- Size:
- 12.1 kB
- Xet hash:
- 70845804f06bc0e23de0269a060d02d3c58d25177d830ace950b47355ba49105
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.