Buckets:

rtrm's picture
download
raw
28.6 kB
import{s as Ie,o as je,n as ce}from"../chunks/scheduler.37c15a92.js";import{S as $e,i as Ce,g as M,s as a,r as J,A as ge,h as p,f as l,c as n,j as fe,u as T,x as U,k as me,y as he,a as s,v as o,d,t as u,w as y,m as _e,n as qe}from"../chunks/index.2bf4358c.js";import{T as Wt}from"../chunks/Tip.d39f0823.js";import{Y as be}from"../chunks/Youtube.1e50a667.js";import{C as f}from"../chunks/CodeBlock.4e987730.js";import{D as Qe}from"../chunks/DocNotebookDropdown.efc1fb7c.js";import{H as Vt,E as Re}from"../chunks/getInferenceSnippets.caba54ef.js";function Ae(m){let i;return{c(){i=_e("✎ Причина, по которой в примере выше перед командами расположен `!` заключается в том, что мы выполняем их в Jupyter notebook. Если вы хотите запустить эти команды в терминале – просто удалите `!`.")},l(w){i=qe(w,"✎ Причина, по которой в примере выше перед командами расположен `!` заключается в том, что мы выполняем их в Jupyter notebook. Если вы хотите запустить эти команды в терминале – просто удалите `!`.")},m(w,r){s(w,i,r)},d(w){w&&l(i)}}}function Xe(m){let i,w='Аргумент <code>data_files</code> функции <code>load_dataset()</code> очень гибкий и может являться путем к файлу, списком путей файлов или словарем, в котором указаны названия сплитов (обучающего и тестового) и пути к соответствующим файлам. Вы также можете найти все подходящие файлы в директории с использованием маски по правилам Unix-консоли (т.е. указать путь к директории и указать <code>data_files=&quot;*.json&quot;</code> для конкретного сплита). Более подробно это изложено в <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">документации</a> 🤗 Datasets.';return{c(){i=M("p"),i.innerHTML=w},l(r){i=p(r,"P",{"data-svelte-h":!0}),U(i)!=="svelte-1bgkiew"&&(i.innerHTML=w)},m(r,c){s(r,i,c)},p:ce,d(r){r&&l(i)}}}function xe(m){let i,w='✏️ <strong>Попробуйте!</strong> Выберите другой датасет, расположенный на GitHub или в архиве <a href="https://archive.ics.uci.edu/ml/index.php" rel="nofollow">UCI Machine Learning Repository</a> и попробуйте загрузить его с локальной машины и с удаленного сервера. В качестве бонуса попробуйте загрузить датасет в формате CSV или обычного тектового файла (см. детали по поддерживаемым форматам в <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">документации</a>).';return{c(){i=M("p"),i.innerHTML=w},l(r){i=p(r,"P",{"data-svelte-h":!0}),U(i)!=="svelte-1ey6kr9"&&(i.innerHTML=w)},m(r,c){s(r,i,c)},p:ce,d(r){r&&l(i)}}}function Be(m){let i,w,r,c,C,pt,g,Jt,h,Pt='Вы знаете, как использовать <a href="https://huggingface.co/datasets" rel="nofollow">Hugging Face Hub</a> для скачивания датасетов, но часто складывается ситуация, когда нужные данные не хранятся у вас локально или на удаленном сервере. В этом разделе мы посмотрим, как библиотека 🤗 Datasets может быть использована для загрузки датасетов, которые не хранятся на Hugging Face Hub.',Tt,_,ot,q,dt,b,Ot="🤗 Datasets предоставляет скрипты для загрузки собственных датасетов. Библиотека поддерживает несколько распространенных форматов:",ut,Q,Kt='<thead><tr><th align="center">Data format</th> <th align="center">Loading script</th> <th align="center">Example</th></tr></thead> <tbody><tr><td align="center">CSV &amp; TSV</td> <td align="center"><code>csv</code></td> <td align="center"><code>load_dataset(&quot;csv&quot;, data_files=&quot;my_file.csv&quot;)</code></td></tr> <tr><td align="center">Text files</td> <td align="center"><code>text</code></td> <td align="center"><code>load_dataset(&quot;text&quot;, data_files=&quot;my_file.txt&quot;)</code></td></tr> <tr><td align="center">JSON &amp; JSON Lines</td> <td align="center"><code>json</code></td> <td align="center"><code>load_dataset(&quot;json&quot;, data_files=&quot;my_file.jsonl&quot;)</code></td></tr> <tr><td align="center">Pickled DataFrames</td> <td align="center"><code>pandas</code></td> <td align="center"><code>load_dataset(&quot;pandas&quot;, data_files=&quot;my_dataframe.pkl&quot;)</code></td></tr></tbody>',yt,R,te="Как показано в таблице, для каждого формата мы должны задать тип скрипта загрузки в функции <code>load_dataset()</code> вместе с аргументом <code>data_files</code>, который указывает путь к одному или нескольким файлам. Начнем с загрузки набора данных из локальных файлов; позже мы увидим, как сделать то же самое с файлами, расположены на удаленном сервере.",Ut,A,rt,X,ee='Для этого примера мы будем использовать датасет <a href="https://github.com/crux82/squad-it/" rel="nofollow">SQuAD-it dataset</a>. Это большой датасет для задачи question answering на итальянском языке.',wt,x,le="Обучающая и тестовая часть расположены на GitHub, мы можем скачать файлы с помощью простой команды <code>wget</code>.",ft,B,mt,G,se="Выполнение этих команд запустит процесс скачивания файлов <em>SQuAD_it-train.json.gz</em> и <em>SQuAD_it-test.json.gz</em>, которые мы можем распаковать с помощью Linux команды <code>gzip</code>:",ct,v,It,Z,jt,N,ae="После выполнения команд мы увидим, что архивы будут заменены файлами <em>SQuAD_it-train.json</em> и <em>SQuAD_it-text.json</em> в формате JSON.",$t,I,Ct,k,ne="Для загрузки JSON файла с помощью функции <code>load_dataset()</code> необходимо знать, с каким типом JSON-файла мы имеем дело: обычный JSON (похожий на вложенный словарь) или JSON, сформированный построчно. Как и многие датасеты для задач question-answering, SQuAD-it использует формат обычного JSON’а с текстом, хранящимся в поле <code>data</code>. Это означает, что мы можем подгрузить датасет, задав аргумент <code>field</code> следующим образом:",gt,S,ht,E,ie="По умолчанию при загрузке локальных файлов создается объект <code>DatasetDict</code> с меткой <code>train</code>. Мы можем изучить объект <code>squad_it_dataset</code>:",_t,F,qt,z,bt,D,Me="Выше распечатана информация об объекте: число строк и колонки обучающего датасета. Мы можем посмотреть на один объект, проиндексировав его как <code>train</code> следующим образом:",Qt,H,Rt,Y,At,L,pe="Отлично! Мы загрузили наш первый датасет! Но пока мы это сделали только для обучающей части данных, хотя нам нужны и <code>train</code>, и <code>test</code> в одном <code>DatasetDict</code>, чтобы мы могли применить функцию <code>Dataset.map()</code> на оба подмножества сразу. Чтобы сделать это, мы можем передать в словарь в <code>data_files</code>. Сделать это можно так:",Xt,V,xt,W,Bt,P,Je="Это ровно то, чего мы хотели добиться! Далее мы можем применять различные приемы для препроцессинга данных: очистку, токенизацию и прочее.",Gt,j,vt,O,Te="Скрипты загрузки 🤗 Datasets также поддерживают автоматическую распаковку входных файлов, поэтому мы можем пропустить команду <code>gzip</code> просто передав в аргумент <code>data_files</code> пути к архивам:",Zt,K,Nt,tt,oe="Это может быть полезно, если вы не хотите вручную разархивировать GZIP файлы. Автоматическое разархивирование также поддерживает распространенные форматы вроде ZIP и TAR, так что вы можете передавать и пути к таким файлам.",kt,et,de="Теперь, когда вы знаете, как загрузить локально хранящиеся файлы, мы посмотрим, как подгрузить данные с удаленных серверов.",St,lt,Et,st,ue="Если вы работаете data scientist или программистом в компании, скорее всего ваши данные хранятся на сервере. К счастью, загрузка файлов с удаленных машин настолько же простая, насколько и загрузка их со локальной машины! Вместо пути к локальным файлам мы передаем аргументу <code>data_files</code> один или несколько URL, указывающих на нужные файлы. К примеру, датасет SQuAD-it расположен на GitHub, мы можем просто указать ссылку на файлы следующим образом:",Ft,at,zt,nt,ye=`Эта операция вернет такой же <code>DatasetDict</code>, какой мы получали ранее, но избавит нас от загрузки и разархивирования файлов <em>SQuAD_it-*.json.gz</em> вручную.
На этом мы завершаем наш обзор различных способов загрузки датасетов, которые не размещены на Hugging Face Hub. Теперь, когда у нас есть датасет, с которым можно поиграться, давайте погрузимся в различные методы обработки данных!`,Dt,$,Ht,it,Yt,Mt,Lt;return C=new Vt({props:{title:"Что делать, если моего датасета на нет на Hub?",local:"что-делать-если-моего-датасета-на-нет-на-hub",headingTag:"h1"}}),g=new Qe({props:{classNames:"absolute z-10 right-0 top-0",options:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/chapter5/section2.ipynb"}]}}),_=new be({props:{id:"HyQgpJTkRdE"}}),q=new Vt({props:{title:"Работа с локальными и удаленными датасетами",local:"работа-с-локальными-и-удаленными-датасетами",headingTag:"h2"}}),A=new Vt({props:{title:"Загрузка локального датасета",local:"загрузка-локального-датасета",headingTag:"h2"}}),B=new f({props:{code:"IXdnZXQlMjBodHRwcyUzQSUyRiUyRmdpdGh1Yi5jb20lMkZjcnV4ODIlMkZzcXVhZC1pdCUyRnJhdyUyRm1hc3RlciUyRlNRdUFEX2l0LXRyYWluLmpzb24uZ3olMEEhd2dldCUyMGh0dHBzJTNBJTJGJTJGZ2l0aHViLmNvbSUyRmNydXg4MiUyRnNxdWFkLWl0JTJGcmF3JTJGbWFzdGVyJTJGU1F1QURfaXQtdGVzdC5qc29uLmd6",highlighted:`!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz`,wrap:!1}}),v=new f({props:{code:"IWd6aXAlMjAtZGt2JTIwU1F1QURfaXQtKi5qc29uLmd6",highlighted:"!gzip -dkv SQuAD_it-*.json.gz",wrap:!1}}),Z=new f({props:{code:"U1F1QURfaXQtdGVzdC5qc29uLmd6JTNBJTA5JTIwJTIwJTIwODcuNCUyNSUyMC0tJTIwcmVwbGFjZWQlMjB3aXRoJTIwU1F1QURfaXQtdGVzdC5qc29uJTBBU1F1QURfaXQtdHJhaW4uanNvbi5neiUzQSUwOSUyMCUyMCUyMDgyLjIlMjUlMjAtLSUyMHJlcGxhY2VkJTIwd2l0aCUyMFNRdUFEX2l0LXRyYWluLmpzb24=",highlighted:`SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json
SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json`,wrap:!1}}),I=new Wt({props:{$$slots:{default:[Ae]},$$scope:{ctx:m}}}),S=new f({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBc3F1YWRfaXRfZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJqc29uJTIyJTJDJTIwZGF0YV9maWxlcyUzRCUyMlNRdUFEX2l0LXRyYWluLmpzb24lMjIlMkMlMjBmaWVsZCUzRCUyMmRhdGElMjIp",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=<span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),F=new f({props:{code:"c3F1YWRfaXRfZGF0YXNldA==",highlighted:"squad_it_dataset",wrap:!1}}),z=new f({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
})`,wrap:!1}}),H=new f({props:{code:"c3F1YWRfaXRfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RA==",highlighted:'squad_it_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>]',wrap:!1}}),Y=new f({props:{code:"JTdCJTBBJTIwJTIwJTIwJTIwJTIydGl0bGUlMjIlM0ElMjAlMjJUZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnBhcmFncmFwaHMlMjIlM0ElMjAlNUIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJjb250ZXh0JTIyJTNBJTIwJTIySWwlMjB0ZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMG8lMjBpbCUyMHRlcnJlbW90by4uLiUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnFhcyUyMiUzQSUyMCU1QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMmFuc3dlcnMlMjIlM0ElMjAlNUIlN0IlMjJhbnN3ZXJfc3RhcnQlMjIlM0ElMjAyOSUyQyUyMCUyMnRleHQlMjIlM0ElMjAlMjIyMDA4JTIyJTdEJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyaWQlMjIlM0ElMjAlMjI1NmNkY2E3ODYyZDI5NTE0MDBmYTY4MjYlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJxdWVzdGlvbiUyMiUzQSUyMCUyMkluJTIwcXVhbGUlMjBhbm5vJTIwc2klMjAlQzMlQTglMjB2ZXJpZmljYXRvJTIwaWwlMjB0ZXJyZW1vdG8lMjBuZWwlMjBTaWNodWFuJTNGJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTdE",highlighted:`{
<span class="hljs-string">&quot;title&quot;</span>: <span class="hljs-string">&quot;Terremoto del Sichuan del 2008&quot;</span>,
<span class="hljs-string">&quot;paragraphs&quot;</span>: [
{
<span class="hljs-string">&quot;context&quot;</span>: <span class="hljs-string">&quot;Il terremoto del Sichuan del 2008 o il terremoto...&quot;</span>,
<span class="hljs-string">&quot;qas&quot;</span>: [
{
<span class="hljs-string">&quot;answers&quot;</span>: [{<span class="hljs-string">&quot;answer_start&quot;</span>: <span class="hljs-number">29</span>, <span class="hljs-string">&quot;text&quot;</span>: <span class="hljs-string">&quot;2008&quot;</span>}],
<span class="hljs-string">&quot;id&quot;</span>: <span class="hljs-string">&quot;56cdca7862d2951400fa6826&quot;</span>,
<span class="hljs-string">&quot;question&quot;</span>: <span class="hljs-string">&quot;In quale anno si è verificato il terremoto nel Sichuan?&quot;</span>,
},
...
],
},
...
],
}`,wrap:!1}}),V=new f({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24lMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMiklMEFzcXVhZF9pdF9kYXRhc2V0",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)
squad_it_dataset`,wrap:!1}}),W=new f({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHRlc3QlM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDglMEElMjAlMjAlMjAlMjAlN0QpJTBBJTdEKQ==",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">48</span>
})
})`,wrap:!1}}),j=new Wt({props:{$$slots:{default:[Xe]},$$scope:{ctx:m}}}),K=new f({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbi5neiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24uZ3olMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMik=",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),lt=new Vt({props:{title:"Загрузка файлов с удаленного сервера",local:"загрузка-файлов-с-удаленного-сервера",headingTag:"h2"}}),at=new f({props:{code:"dXJsJTIwJTNEJTIwJTIyaHR0cHMlM0ElMkYlMkZnaXRodWIuY29tJTJGY3J1eDgyJTJGc3F1YWQtaXQlMkZyYXclMkZtYXN0ZXIlMkYlMjIlMEFkYXRhX2ZpbGVzJTIwJTNEJTIwJTdCJTBBJTIwJTIwJTIwJTIwJTIydHJhaW4lMjIlM0ElMjB1cmwlMjAlMkIlMjAlMjJTUXVBRF9pdC10cmFpbi5qc29uLmd6JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMHVybCUyMCUyQiUyMCUyMlNRdUFEX2l0LXRlc3QuanNvbi5neiUyMiUyQyUwQSU3RCUwQXNxdWFkX2l0X2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwZmllbGQlM0QlMjJkYXRhJTIyKQ==",highlighted:`url = <span class="hljs-string">&quot;https://github.com/crux82/squad-it/raw/master/&quot;</span>
data_files = {
<span class="hljs-string">&quot;train&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>,
<span class="hljs-string">&quot;test&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>,
}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),$=new Wt({props:{$$slots:{default:[xe]},$$scope:{ctx:m}}}),it=new Re({props:{source:"https://github.com/huggingface/course/blob/main/chapters/ru/chapter5/2.mdx"}}),{c(){i=M("meta"),w=a(),r=M("p"),c=a(),J(C.$$.fragment),pt=a(),J(g.$$.fragment),Jt=a(),h=M("p"),h.innerHTML=Pt,Tt=a(),J(_.$$.fragment),ot=a(),J(q.$$.fragment),dt=a(),b=M("p"),b.textContent=Ot,ut=a(),Q=M("table"),Q.innerHTML=Kt,yt=a(),R=M("p"),R.innerHTML=te,Ut=a(),J(A.$$.fragment),rt=a(),X=M("p"),X.innerHTML=ee,wt=a(),x=M("p"),x.innerHTML=le,ft=a(),J(B.$$.fragment),mt=a(),G=M("p"),G.innerHTML=se,ct=a(),J(v.$$.fragment),It=a(),J(Z.$$.fragment),jt=a(),N=M("p"),N.innerHTML=ae,$t=a(),J(I.$$.fragment),Ct=a(),k=M("p"),k.innerHTML=ne,gt=a(),J(S.$$.fragment),ht=a(),E=M("p"),E.innerHTML=ie,_t=a(),J(F.$$.fragment),qt=a(),J(z.$$.fragment),bt=a(),D=M("p"),D.innerHTML=Me,Qt=a(),J(H.$$.fragment),Rt=a(),J(Y.$$.fragment),At=a(),L=M("p"),L.innerHTML=pe,Xt=a(),J(V.$$.fragment),xt=a(),J(W.$$.fragment),Bt=a(),P=M("p"),P.textContent=Je,Gt=a(),J(j.$$.fragment),vt=a(),O=M("p"),O.innerHTML=Te,Zt=a(),J(K.$$.fragment),Nt=a(),tt=M("p"),tt.textContent=oe,kt=a(),et=M("p"),et.textContent=de,St=a(),J(lt.$$.fragment),Et=a(),st=M("p"),st.innerHTML=ue,Ft=a(),J(at.$$.fragment),zt=a(),nt=M("p"),nt.innerHTML=ye,Dt=a(),J($.$$.fragment),Ht=a(),J(it.$$.fragment),Yt=a(),Mt=M("p"),this.h()},l(t){const e=ge("svelte-u9bgzb",document.head);i=p(e,"META",{name:!0,content:!0}),e.forEach(l),w=n(t),r=p(t,"P",{}),fe(r).forEach(l),c=n(t),T(C.$$.fragment,t),pt=n(t),T(g.$$.fragment,t),Jt=n(t),h=p(t,"P",{"data-svelte-h":!0}),U(h)!=="svelte-4ioko0"&&(h.innerHTML=Pt),Tt=n(t),T(_.$$.fragment,t),ot=n(t),T(q.$$.fragment,t),dt=n(t),b=p(t,"P",{"data-svelte-h":!0}),U(b)!=="svelte-1xag2tf"&&(b.textContent=Ot),ut=n(t),Q=p(t,"TABLE",{"data-svelte-h":!0}),U(Q)!=="svelte-19mvbg5"&&(Q.innerHTML=Kt),yt=n(t),R=p(t,"P",{"data-svelte-h":!0}),U(R)!=="svelte-16cnmz8"&&(R.innerHTML=te),Ut=n(t),T(A.$$.fragment,t),rt=n(t),X=p(t,"P",{"data-svelte-h":!0}),U(X)!=="svelte-sek5ka"&&(X.innerHTML=ee),wt=n(t),x=p(t,"P",{"data-svelte-h":!0}),U(x)!=="svelte-yj3r67"&&(x.innerHTML=le),ft=n(t),T(B.$$.fragment,t),mt=n(t),G=p(t,"P",{"data-svelte-h":!0}),U(G)!=="svelte-15ediqe"&&(G.innerHTML=se),ct=n(t),T(v.$$.fragment,t),It=n(t),T(Z.$$.fragment,t),jt=n(t),N=p(t,"P",{"data-svelte-h":!0}),U(N)!=="svelte-8veuoo"&&(N.innerHTML=ae),$t=n(t),T(I.$$.fragment,t),Ct=n(t),k=p(t,"P",{"data-svelte-h":!0}),U(k)!=="svelte-ij7cuo"&&(k.innerHTML=ne),gt=n(t),T(S.$$.fragment,t),ht=n(t),E=p(t,"P",{"data-svelte-h":!0}),U(E)!=="svelte-1w6c0jj"&&(E.innerHTML=ie),_t=n(t),T(F.$$.fragment,t),qt=n(t),T(z.$$.fragment,t),bt=n(t),D=p(t,"P",{"data-svelte-h":!0}),U(D)!=="svelte-1wjvuiy"&&(D.innerHTML=Me),Qt=n(t),T(H.$$.fragment,t),Rt=n(t),T(Y.$$.fragment,t),At=n(t),L=p(t,"P",{"data-svelte-h":!0}),U(L)!=="svelte-1kmhpv2"&&(L.innerHTML=pe),Xt=n(t),T(V.$$.fragment,t),xt=n(t),T(W.$$.fragment,t),Bt=n(t),P=p(t,"P",{"data-svelte-h":!0}),U(P)!=="svelte-339xs7"&&(P.textContent=Je),Gt=n(t),T(j.$$.fragment,t),vt=n(t),O=p(t,"P",{"data-svelte-h":!0}),U(O)!=="svelte-10b0dzy"&&(O.innerHTML=Te),Zt=n(t),T(K.$$.fragment,t),Nt=n(t),tt=p(t,"P",{"data-svelte-h":!0}),U(tt)!=="svelte-1sd7tde"&&(tt.textContent=oe),kt=n(t),et=p(t,"P",{"data-svelte-h":!0}),U(et)!=="svelte-q9vpve"&&(et.textContent=de),St=n(t),T(lt.$$.fragment,t),Et=n(t),st=p(t,"P",{"data-svelte-h":!0}),U(st)!=="svelte-xbn2u8"&&(st.innerHTML=ue),Ft=n(t),T(at.$$.fragment,t),zt=n(t),nt=p(t,"P",{"data-svelte-h":!0}),U(nt)!=="svelte-1tgrl0y"&&(nt.innerHTML=ye),Dt=n(t),T($.$$.fragment,t),Ht=n(t),T(it.$$.fragment,t),Yt=n(t),Mt=p(t,"P",{}),fe(Mt).forEach(l),this.h()},h(){me(i,"name","hf:doc:metadata"),me(i,"content",Ge)},m(t,e){he(document.head,i),s(t,w,e),s(t,r,e),s(t,c,e),o(C,t,e),s(t,pt,e),o(g,t,e),s(t,Jt,e),s(t,h,e),s(t,Tt,e),o(_,t,e),s(t,ot,e),o(q,t,e),s(t,dt,e),s(t,b,e),s(t,ut,e),s(t,Q,e),s(t,yt,e),s(t,R,e),s(t,Ut,e),o(A,t,e),s(t,rt,e),s(t,X,e),s(t,wt,e),s(t,x,e),s(t,ft,e),o(B,t,e),s(t,mt,e),s(t,G,e),s(t,ct,e),o(v,t,e),s(t,It,e),o(Z,t,e),s(t,jt,e),s(t,N,e),s(t,$t,e),o(I,t,e),s(t,Ct,e),s(t,k,e),s(t,gt,e),o(S,t,e),s(t,ht,e),s(t,E,e),s(t,_t,e),o(F,t,e),s(t,qt,e),o(z,t,e),s(t,bt,e),s(t,D,e),s(t,Qt,e),o(H,t,e),s(t,Rt,e),o(Y,t,e),s(t,At,e),s(t,L,e),s(t,Xt,e),o(V,t,e),s(t,xt,e),o(W,t,e),s(t,Bt,e),s(t,P,e),s(t,Gt,e),o(j,t,e),s(t,vt,e),s(t,O,e),s(t,Zt,e),o(K,t,e),s(t,Nt,e),s(t,tt,e),s(t,kt,e),s(t,et,e),s(t,St,e),o(lt,t,e),s(t,Et,e),s(t,st,e),s(t,Ft,e),o(at,t,e),s(t,zt,e),s(t,nt,e),s(t,Dt,e),o($,t,e),s(t,Ht,e),o(it,t,e),s(t,Yt,e),s(t,Mt,e),Lt=!0},p(t,[e]){const Ue={};e&2&&(Ue.$$scope={dirty:e,ctx:t}),I.$set(Ue);const re={};e&2&&(re.$$scope={dirty:e,ctx:t}),j.$set(re);const we={};e&2&&(we.$$scope={dirty:e,ctx:t}),$.$set(we)},i(t){Lt||(d(C.$$.fragment,t),d(g.$$.fragment,t),d(_.$$.fragment,t),d(q.$$.fragment,t),d(A.$$.fragment,t),d(B.$$.fragment,t),d(v.$$.fragment,t),d(Z.$$.fragment,t),d(I.$$.fragment,t),d(S.$$.fragment,t),d(F.$$.fragment,t),d(z.$$.fragment,t),d(H.$$.fragment,t),d(Y.$$.fragment,t),d(V.$$.fragment,t),d(W.$$.fragment,t),d(j.$$.fragment,t),d(K.$$.fragment,t),d(lt.$$.fragment,t),d(at.$$.fragment,t),d($.$$.fragment,t),d(it.$$.fragment,t),Lt=!0)},o(t){u(C.$$.fragment,t),u(g.$$.fragment,t),u(_.$$.fragment,t),u(q.$$.fragment,t),u(A.$$.fragment,t),u(B.$$.fragment,t),u(v.$$.fragment,t),u(Z.$$.fragment,t),u(I.$$.fragment,t),u(S.$$.fragment,t),u(F.$$.fragment,t),u(z.$$.fragment,t),u(H.$$.fragment,t),u(Y.$$.fragment,t),u(V.$$.fragment,t),u(W.$$.fragment,t),u(j.$$.fragment,t),u(K.$$.fragment,t),u(lt.$$.fragment,t),u(at.$$.fragment,t),u($.$$.fragment,t),u(it.$$.fragment,t),Lt=!1},d(t){t&&(l(w),l(r),l(c),l(pt),l(Jt),l(h),l(Tt),l(ot),l(dt),l(b),l(ut),l(Q),l(yt),l(R),l(Ut),l(rt),l(X),l(wt),l(x),l(ft),l(mt),l(G),l(ct),l(It),l(jt),l(N),l($t),l(Ct),l(k),l(gt),l(ht),l(E),l(_t),l(qt),l(bt),l(D),l(Qt),l(Rt),l(At),l(L),l(Xt),l(xt),l(Bt),l(P),l(Gt),l(vt),l(O),l(Zt),l(Nt),l(tt),l(kt),l(et),l(St),l(Et),l(st),l(Ft),l(zt),l(nt),l(Dt),l(Ht),l(Yt),l(Mt)),l(i),y(C,t),y(g,t),y(_,t),y(q,t),y(A,t),y(B,t),y(v,t),y(Z,t),y(I,t),y(S,t),y(F,t),y(z,t),y(H,t),y(Y,t),y(V,t),y(W,t),y(j,t),y(K,t),y(lt,t),y(at,t),y($,t),y(it,t)}}}const Ge='{"title":"Что делать, если моего датасета на нет на Hub?","local":"что-делать-если-моего-датасета-на-нет-на-hub","sections":[{"title":"Работа с локальными и удаленными датасетами","local":"работа-с-локальными-и-удаленными-датасетами","sections":[],"depth":2},{"title":"Загрузка локального датасета","local":"загрузка-локального-датасета","sections":[],"depth":2},{"title":"Загрузка файлов с удаленного сервера","local":"загрузка-файлов-с-удаленного-сервера","sections":[],"depth":2}],"depth":1}';function ve(m){return je(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class De extends $e{constructor(i){super(),Ce(this,i,ve,Be,Ie,{})}}export{De as component};

Xet Storage Details

Size:
28.6 kB
·
Xet hash:
1754a30a26c369a2bcca8899b5a7e0986844657dc26533e31d8d9271245a9f3c

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.