Buckets:
| import{s as jt,o as gt,n as wt}from"../chunks/scheduler.37c15a92.js";import{S as It,i as Ct,g as i,s as o,r,A as ht,h as d,f as a,c as n,j as ft,u as m,x as J,k as Ut,y as $t,a as s,v as u,d as p,t as c,w as M,m as qt,n as bt}from"../chunks/index.2bf4358c.js";import{T as We}from"../chunks/Tip.363c041f.js";import{Y as vt}from"../chunks/Youtube.1e50a667.js";import{C as f}from"../chunks/CodeBlock.4e987730.js";import{C as _t}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as Ve,E as Qt}from"../chunks/getInferenceSnippets.8229e22a.js";function At(U){let l,y="✎ Se você está se perguntando por que há um <code>!</code> nos comandos shell acima, é porque estamos executando-os dentro de um Jupyter notebook. Basta remover o prefixo se você quiser baixar e descompactar o conjunto de dados dentro de um terminal.";return{c(){l=i("p"),l.innerHTML=y},l(T){l=d(T,"P",{"data-svelte-h":!0}),J(l)!=="svelte-1jtipdv"&&(l.innerHTML=y)},m(T,w){s(T,l,w)},p:wt,d(T){T&&a(l)}}}function xt(U){let l,y='O argumento <code>data_files</code> da função <code>load_dataset()</code> é bastante flexível e pode ser um único caminho de arquivo ou uma lista de caminhos de arquivo, ou um dicionário que mapeia nomes divididos para caminhos de arquivo. Você também pode incluir arquivos que correspondam a um padrão especificado de acordo com as regras utilizadas pela Unix shell (por exemplo, você pode adicionar todos os arquivos JSON em um diretório como uma única divisão, definindo <code>data_files="*.json"</code>). Consulte a <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">documentação</a> do 🤗 Datasets para obter mais detalhes.';return{c(){l=i("p"),l.innerHTML=y},l(T){l=d(T,"P",{"data-svelte-h":!0}),J(l)!=="svelte-137apr2"&&(l.innerHTML=y)},m(T,w){s(T,l,w)},p:wt,d(T){T&&a(l)}}}function Rt(U){let l;return{c(){l=qt("✏️ **Tente fazer isso!** Escolha outro conjunto de dados hospedado no GitHub ou no [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php) e tente carregá-lo tanto local como remotamente usando as técnicas introduzidas acima. Para pontos bônus, tente carregar um conjunto de dados que esteja armazenado em formato CSV ou texto (veja a [documentação](https://huggingface.co/docs/datasets/loading#local-and-remote-files) para mais informações sobre estes formatos).")},l(y){l=bt(y,"✏️ **Tente fazer isso!** Escolha outro conjunto de dados hospedado no GitHub ou no [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php) e tente carregá-lo tanto local como remotamente usando as técnicas introduzidas acima. Para pontos bônus, tente carregar um conjunto de dados que esteja armazenado em formato CSV ou texto (veja a [documentação](https://huggingface.co/docs/datasets/loading#local-and-remote-files) para mais informações sobre estes formatos).")},m(y,T){s(y,l,T)},d(y){y&&a(l)}}}function zt(U){let l,y,T,w,C,de,h,re,$,Pe='Você sabe como usar o <a href="https://huggingface.co/datasets" rel="nofollow">Hugging Face Hub</a> para baixar conjuntos de dados (<strong>datasets</strong>), mas muitas vezes você se encontrará trabalhando com dados que são armazenados em seu laptop ou em um servidor remoto. Nesta seção mostraremos como 🤗 Datasets podem ser usados para carregar conjuntos de dados que não estão disponíveis no Hugging Face Hub.',me,q,ue,b,pe,v,Oe="🤗 Datasets fornece scripts de carregamento para lidar com o carregamento de conjuntos de dados locais e remotos. Ele suporta vários formatos de dados comuns, como por exemplo:",ce,_,Ke='<thead><tr><th align="center">Formato do dato</th> <th align="center">script de carregamento</th> <th align="center">Exemplo</th></tr></thead> <tbody><tr><td align="center">CSV & TSV</td> <td align="center"><code>csv</code></td> <td align="center"><code>load_dataset("csv", data_files="my_file.csv")</code></td></tr> <tr><td align="center">Text files</td> <td align="center"><code>text</code></td> <td align="center"><code>load_dataset("text", data_files="my_file.txt")</code></td></tr> <tr><td align="center">JSON & JSON Lines</td> <td align="center"><code>json</code></td> <td align="center"><code>load_dataset("json", data_files="my_file.jsonl")</code></td></tr> <tr><td align="center">Pickled DataFrames</td> <td align="center"><code>pandas</code></td> <td align="center"><code>load_dataset("pandas", data_files="my_dataframe.pkl")</code></td></tr></tbody>',Me,Q,et="Como mostrado na tabela, para cada formato de dados só precisamos especificar o tipo de script de carregamento na função <code>load_dataset()</code>, junto com um argumento <code>data_files</code> que especifica o caminho para um ou mais arquivos. Vamos começar carregando um conjunto de dados de arquivos locais; mais tarde veremos como fazer o mesmo com arquivos remotos.",Je,A,Te,x,tt='Para este exemplo usaremos o [SQuAD-it dataset] (<a href="https://github.com/crux82/squad-it/" rel="nofollow">https://github.com/crux82/squad-it/</a>), que é um conjunto de dados em grande escala para resposta a perguntas em italiano.',ye,R,at="As divisões de treinamento e testes são hospedadas no GitHub, para que possamos baixá-las com um simples comando <code>wget</code>:",fe,z,Ue,X,st="Isto irá baixar dois arquivos compactados chamados <em>SQuAD_it-train.json.gz</em> e <em>SQuAD_it-test.json.gz</em>, que podemos descomprimir com o comando Linux <code>gzip</code>:",we,B,je,G,ge,S,ot="Podemos ver que os arquivos compactados foram substituídos por <em>SQuAD_it-train.json</em> e <em>SQuAD_it-text.json</em>, e que os dados são armazenados no formato JSON.",Ie,j,Ce,E,nt="Para carregar um arquivo JSON com a função <code>load_dataset()</code>, só precisamos saber se estamos lidando com o JSON comum (semelhante a um dicionário aninhado) ou Linhas JSON (JSON line-separated JSON). Como muitos conjuntos de dados que respondem a perguntas, o SQuAD utiliza o formato aninhado, com todo o texto armazenado em um campo <code>data</code>. Isto significa que podemos carregar o conjunto de dados especificando o argumento <code>field</code> da seguinte forma:",he,N,$e,Z,lt="Por padrão, o carregamento de arquivos locais cria um objeto <code>DatasetDict</code> com uma divisão de treino (train). Podemos ver isso inspecionando o objeto <code>squad_it_dataset</code>:",qe,k,be,F,ve,H,it="Isto nos mostra o número de linhas e os nomes das colunas associadas ao conjunto de treinamento. Podemos ver um dos exemplos, indexando na divisão de treino da seguinte forma:",_e,D,Qe,Y,Ae,L,dt="Ótimo, nós carregamos nosso primeiro conjunto de dados local! Mas enquanto isso funcionou para o conjunto de treinamento, o que realmente queremos é incluir tanto o conjunto de <code>treino</code> quanto o de <code>teste</code> divididos em um único objeto <code>DatasetDict</code> para que possamos aplicar as funções <code>Dataset.map()</code> em ambas as divisões de uma só vez. Para fazer isso, podemos fornecer um dicionário para o argumento <code>data_files</code> que mapeia cada nome de divisão para um arquivo associado a essa divisão:",xe,V,Re,W,ze,P,rt="Isto é exatamente o que queríamos. Agora, podemos aplicar várias técnicas de pré-processamento para limpar os dados, assinalar as revisões, e assim por diante.",Xe,g,Be,O,mt="Os scripts de carregamento em 🤗 Datasets realmente suportam a descompressão automática dos arquivos de entrada, então poderíamos ter pulado o uso do <code>gzip</code> ao apontar o argumento <code>data_files</code> diretamente para os arquivos compactados:",Ge,K,Se,ee,ut="Isto pode ser útil se você não quiser descomprimir manualmente muitos arquivos GZIP. A descompressão automática também se aplica a outros formatos comuns como ZIP e TAR, então você só precisa apontar <code>data_files</code> para os arquivos compactados e está pronto para seguir em frente!",Ee,te,pt="Agora que você sabe como carregar arquivos locais em seu laptop ou desktop, vamos dar uma olhada no carregamento de arquivos remotos.",Ne,ae,Ze,se,ct="Se você estiver trabalhando como cientista de dados ou programador em uma empresa, há uma boa chance de que os conjuntos de dados que você deseja analisar estejam armazenados em algum servidor remoto. Felizmente, o carregamento de arquivos remotos é tão simples quanto o carregamento de arquivos locais! Em vez de fornecer um caminho para arquivos locais, apontamos o argumento <code>data_files</code> de <code>load_dataset()</code> para uma ou mais URLs onde os arquivos remotos são armazenados. Por exemplo, para o conjunto de dados SQuAD-it hospedado no GitHub, podemos apenas apontar <code>data_files</code> para as URLs <em>SQuAD_it-*.json.gz</em> da seguinte maneira:",ke,oe,Fe,ne,Mt="Isto retorna o mesmo objeto <code>DatasetDict</code> obtido anteriormente, mas nos poupa o passo de baixar e descomprimir manualmente os arquivos <em>SQuAD_it-*.json.gz</em>. Isto envolve nas várias formas de carregar conjuntos de dados que não estão hospedados no Hugging Face Hub. Agora que temos um conjunto de dados para brincar, vamos sujar as mãos com várias técnicas de manipulação de dados!",He,I,De,le,Ye,ie,Le;return C=new Ve({props:{title:"E se o meu dataset não estiver no Hub?",local:"e-se-o-meu-dataset-não-estiver-no-hub",headingTag:"h1"}}),h=new _t({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/pt/chapter5/section2.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/pt/chapter5/section2.ipynb"}]}}),q=new vt({props:{id:"HyQgpJTkRdE"}}),b=new Ve({props:{title:"Trabalhando com datasets locais e remotos",local:"trabalhando-com-datasets-locais-e-remotos",headingTag:"h2"}}),A=new Ve({props:{title:"Carregando um conjunto de dados local",local:"carregando-um-conjunto-de-dados-local",headingTag:"h2"}}),z=new f({props:{code:"IXdnZXQlMjBodHRwcyUzQSUyRiUyRmdpdGh1Yi5jb20lMkZjcnV4ODIlMkZzcXVhZC1pdCUyRnJhdyUyRm1hc3RlciUyRlNRdUFEX2l0LXRyYWluLmpzb24uZ3olMEEhd2dldCUyMGh0dHBzJTNBJTJGJTJGZ2l0aHViLmNvbSUyRmNydXg4MiUyRnNxdWFkLWl0JTJGcmF3JTJGbWFzdGVyJTJGU1F1QURfaXQtdGVzdC5qc29uLmd6",highlighted:`!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz | |
| !wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz`,wrap:!1}}),B=new f({props:{code:"IWd6aXAlMjAtZGt2JTIwU1F1QURfaXQtKi5qc29uLmd6",highlighted:"!gzip -dkv SQuAD_it-*.json.gz",wrap:!1}}),G=new f({props:{code:"U1F1QURfaXQtdGVzdC5qc29uLmd6JTNBJTA5JTIwJTIwJTIwODcuNCUyNSUyMC0tJTIwcmVwbGFjZWQlMjB3aXRoJTIwU1F1QURfaXQtdGVzdC5qc29uJTBBU1F1QURfaXQtdHJhaW4uanNvbi5neiUzQSUwOSUyMCUyMCUyMDgyLjIlMjUlMjAtLSUyMHJlcGxhY2VkJTIwd2l0aCUyMFNRdUFEX2l0LXRyYWluLmpzb24=",highlighted:`SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json | |
| SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json`,wrap:!1}}),j=new We({props:{$$slots:{default:[At]},$$scope:{ctx:U}}}),N=new f({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBc3F1YWRfaXRfZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJqc29uJTIyJTJDJTIwZGF0YV9maWxlcyUzRCUyMlNRdUFEX2l0LXRyYWluLmpzb24lMjIlMkMlMjBmaWVsZCUzRCUyMmRhdGElMjIp",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| squad_it_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=<span class="hljs-string">"SQuAD_it-train.json"</span>, field=<span class="hljs-string">"data"</span>)`,wrap:!1}}),k=new f({props:{code:"c3F1YWRfaXRfZGF0YXNldA==",highlighted:"squad_it_dataset",wrap:!1}}),F=new f({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'title'</span>, <span class="hljs-string">'paragraphs'</span>], | |
| num_rows: <span class="hljs-number">442</span> | |
| }) | |
| })`,wrap:!1}}),D=new f({props:{code:"c3F1YWRfaXRfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RA==",highlighted:'squad_it_dataset[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>]',wrap:!1}}),Y=new f({props:{code:"JTdCJTBBJTIwJTIwJTIwJTIwJTIydGl0bGUlMjIlM0ElMjAlMjJUZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnBhcmFncmFwaHMlMjIlM0ElMjAlNUIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJjb250ZXh0JTIyJTNBJTIwJTIySWwlMjB0ZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMG8lMjBpbCUyMHRlcnJlbW90by4uLiUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnFhcyUyMiUzQSUyMCU1QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMmFuc3dlcnMlMjIlM0ElMjAlNUIlN0IlMjJhbnN3ZXJfc3RhcnQlMjIlM0ElMjAyOSUyQyUyMCUyMnRleHQlMjIlM0ElMjAlMjIyMDA4JTIyJTdEJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyaWQlMjIlM0ElMjAlMjI1NmNkY2E3ODYyZDI5NTE0MDBmYTY4MjYlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJxdWVzdGlvbiUyMiUzQSUyMCUyMkluJTIwcXVhbGUlMjBhbm5vJTIwc2klMjAlQzMlQTglMjB2ZXJpZmljYXRvJTIwaWwlMjB0ZXJyZW1vdG8lMjBuZWwlMjBTaWNodWFuJTNGJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTdE",highlighted:`{ | |
| <span class="hljs-string">"title"</span>: <span class="hljs-string">"Terremoto del Sichuan del 2008"</span>, | |
| <span class="hljs-string">"paragraphs"</span>: [ | |
| { | |
| <span class="hljs-string">"context"</span>: <span class="hljs-string">"Il terremoto del Sichuan del 2008 o il terremoto..."</span>, | |
| <span class="hljs-string">"qas"</span>: [ | |
| { | |
| <span class="hljs-string">"answers"</span>: [{<span class="hljs-string">"answer_start"</span>: <span class="hljs-number">29</span>, <span class="hljs-string">"text"</span>: <span class="hljs-string">"2008"</span>}], | |
| <span class="hljs-string">"id"</span>: <span class="hljs-string">"56cdca7862d2951400fa6826"</span>, | |
| <span class="hljs-string">"question"</span>: <span class="hljs-string">"In quale anno si è verificato il terremoto nel Sichuan?"</span>, | |
| }, | |
| ... | |
| ], | |
| }, | |
| ... | |
| ], | |
| }`,wrap:!1}}),V=new f({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24lMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMiklMEFzcXVhZF9pdF9kYXRhc2V0",highlighted:`data_files = {<span class="hljs-string">"train"</span>: <span class="hljs-string">"SQuAD_it-train.json"</span>, <span class="hljs-string">"test"</span>: <span class="hljs-string">"SQuAD_it-test.json"</span>} | |
| squad_it_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, field=<span class="hljs-string">"data"</span>) | |
| squad_it_dataset`,wrap:!1}}),W=new f({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHRlc3QlM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDglMEElMjAlMjAlMjAlMjAlN0QpJTBBJTdEKQ==",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'title'</span>, <span class="hljs-string">'paragraphs'</span>], | |
| num_rows: <span class="hljs-number">442</span> | |
| }) | |
| test: Dataset({ | |
| features: [<span class="hljs-string">'title'</span>, <span class="hljs-string">'paragraphs'</span>], | |
| num_rows: <span class="hljs-number">48</span> | |
| }) | |
| })`,wrap:!1}}),g=new We({props:{$$slots:{default:[xt]},$$scope:{ctx:U}}}),K=new f({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbi5neiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24uZ3olMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMik=",highlighted:`data_files = {<span class="hljs-string">"train"</span>: <span class="hljs-string">"SQuAD_it-train.json.gz"</span>, <span class="hljs-string">"test"</span>: <span class="hljs-string">"SQuAD_it-test.json.gz"</span>} | |
| squad_it_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, field=<span class="hljs-string">"data"</span>)`,wrap:!1}}),ae=new Ve({props:{title:"Carregando um dataset remoto",local:"carregando-um-dataset-remoto",headingTag:"h2"}}),oe=new f({props:{code:"dXJsJTIwJTNEJTIwJTIyaHR0cHMlM0ElMkYlMkZnaXRodWIuY29tJTJGY3J1eDgyJTJGc3F1YWQtaXQlMkZyYXclMkZtYXN0ZXIlMkYlMjIlMEFkYXRhX2ZpbGVzJTIwJTNEJTIwJTdCJTBBJTIwJTIwJTIwJTIwJTIydHJhaW4lMjIlM0ElMjB1cmwlMjAlMkIlMjAlMjJTUXVBRF9pdC10cmFpbi5qc29uLmd6JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMHVybCUyMCUyQiUyMCUyMlNRdUFEX2l0LXRlc3QuanNvbi5neiUyMiUyQyUwQSU3RCUwQXNxdWFkX2l0X2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwZmllbGQlM0QlMjJkYXRhJTIyKQ==",highlighted:`url = <span class="hljs-string">"https://github.com/crux82/squad-it/raw/master/"</span> | |
| data_files = { | |
| <span class="hljs-string">"train"</span>: url + <span class="hljs-string">"SQuAD_it-train.json.gz"</span>, | |
| <span class="hljs-string">"test"</span>: url + <span class="hljs-string">"SQuAD_it-test.json.gz"</span>, | |
| } | |
| squad_it_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, field=<span class="hljs-string">"data"</span>)`,wrap:!1}}),I=new We({props:{$$slots:{default:[Rt]},$$scope:{ctx:U}}}),le=new Qt({props:{source:"https://github.com/huggingface/course/blob/main/chapters/pt/chapter5/2.mdx"}}),{c(){l=i("meta"),y=o(),T=i("p"),w=o(),r(C.$$.fragment),de=o(),r(h.$$.fragment),re=o(),$=i("p"),$.innerHTML=Pe,me=o(),r(q.$$.fragment),ue=o(),r(b.$$.fragment),pe=o(),v=i("p"),v.textContent=Oe,ce=o(),_=i("table"),_.innerHTML=Ke,Me=o(),Q=i("p"),Q.innerHTML=et,Je=o(),r(A.$$.fragment),Te=o(),x=i("p"),x.innerHTML=tt,ye=o(),R=i("p"),R.innerHTML=at,fe=o(),r(z.$$.fragment),Ue=o(),X=i("p"),X.innerHTML=st,we=o(),r(B.$$.fragment),je=o(),r(G.$$.fragment),ge=o(),S=i("p"),S.innerHTML=ot,Ie=o(),r(j.$$.fragment),Ce=o(),E=i("p"),E.innerHTML=nt,he=o(),r(N.$$.fragment),$e=o(),Z=i("p"),Z.innerHTML=lt,qe=o(),r(k.$$.fragment),be=o(),r(F.$$.fragment),ve=o(),H=i("p"),H.textContent=it,_e=o(),r(D.$$.fragment),Qe=o(),r(Y.$$.fragment),Ae=o(),L=i("p"),L.innerHTML=dt,xe=o(),r(V.$$.fragment),Re=o(),r(W.$$.fragment),ze=o(),P=i("p"),P.textContent=rt,Xe=o(),r(g.$$.fragment),Be=o(),O=i("p"),O.innerHTML=mt,Ge=o(),r(K.$$.fragment),Se=o(),ee=i("p"),ee.innerHTML=ut,Ee=o(),te=i("p"),te.textContent=pt,Ne=o(),r(ae.$$.fragment),Ze=o(),se=i("p"),se.innerHTML=ct,ke=o(),r(oe.$$.fragment),Fe=o(),ne=i("p"),ne.innerHTML=Mt,He=o(),r(I.$$.fragment),De=o(),r(le.$$.fragment),Ye=o(),ie=i("p"),this.h()},l(e){const t=ht("svelte-u9bgzb",document.head);l=d(t,"META",{name:!0,content:!0}),t.forEach(a),y=n(e),T=d(e,"P",{}),ft(T).forEach(a),w=n(e),m(C.$$.fragment,e),de=n(e),m(h.$$.fragment,e),re=n(e),$=d(e,"P",{"data-svelte-h":!0}),J($)!=="svelte-i8ok83"&&($.innerHTML=Pe),me=n(e),m(q.$$.fragment,e),ue=n(e),m(b.$$.fragment,e),pe=n(e),v=d(e,"P",{"data-svelte-h":!0}),J(v)!=="svelte-1tmhvw5"&&(v.textContent=Oe),ce=n(e),_=d(e,"TABLE",{"data-svelte-h":!0}),J(_)!=="svelte-12iljyo"&&(_.innerHTML=Ke),Me=n(e),Q=d(e,"P",{"data-svelte-h":!0}),J(Q)!=="svelte-10y5xbt"&&(Q.innerHTML=et),Je=n(e),m(A.$$.fragment,e),Te=n(e),x=d(e,"P",{"data-svelte-h":!0}),J(x)!=="svelte-wmcfnt"&&(x.innerHTML=tt),ye=n(e),R=d(e,"P",{"data-svelte-h":!0}),J(R)!=="svelte-162auha"&&(R.innerHTML=at),fe=n(e),m(z.$$.fragment,e),Ue=n(e),X=d(e,"P",{"data-svelte-h":!0}),J(X)!=="svelte-1tzu8bk"&&(X.innerHTML=st),we=n(e),m(B.$$.fragment,e),je=n(e),m(G.$$.fragment,e),ge=n(e),S=d(e,"P",{"data-svelte-h":!0}),J(S)!=="svelte-mkfyhp"&&(S.innerHTML=ot),Ie=n(e),m(j.$$.fragment,e),Ce=n(e),E=d(e,"P",{"data-svelte-h":!0}),J(E)!=="svelte-1kjd3uh"&&(E.innerHTML=nt),he=n(e),m(N.$$.fragment,e),$e=n(e),Z=d(e,"P",{"data-svelte-h":!0}),J(Z)!=="svelte-n5bo8a"&&(Z.innerHTML=lt),qe=n(e),m(k.$$.fragment,e),be=n(e),m(F.$$.fragment,e),ve=n(e),H=d(e,"P",{"data-svelte-h":!0}),J(H)!=="svelte-1930m8e"&&(H.textContent=it),_e=n(e),m(D.$$.fragment,e),Qe=n(e),m(Y.$$.fragment,e),Ae=n(e),L=d(e,"P",{"data-svelte-h":!0}),J(L)!=="svelte-shkflt"&&(L.innerHTML=dt),xe=n(e),m(V.$$.fragment,e),Re=n(e),m(W.$$.fragment,e),ze=n(e),P=d(e,"P",{"data-svelte-h":!0}),J(P)!=="svelte-1m2ulav"&&(P.textContent=rt),Xe=n(e),m(g.$$.fragment,e),Be=n(e),O=d(e,"P",{"data-svelte-h":!0}),J(O)!=="svelte-15dslfj"&&(O.innerHTML=mt),Ge=n(e),m(K.$$.fragment,e),Se=n(e),ee=d(e,"P",{"data-svelte-h":!0}),J(ee)!=="svelte-lc8qak"&&(ee.innerHTML=ut),Ee=n(e),te=d(e,"P",{"data-svelte-h":!0}),J(te)!=="svelte-1prkvdh"&&(te.textContent=pt),Ne=n(e),m(ae.$$.fragment,e),Ze=n(e),se=d(e,"P",{"data-svelte-h":!0}),J(se)!=="svelte-h451po"&&(se.innerHTML=ct),ke=n(e),m(oe.$$.fragment,e),Fe=n(e),ne=d(e,"P",{"data-svelte-h":!0}),J(ne)!=="svelte-10u1img"&&(ne.innerHTML=Mt),He=n(e),m(I.$$.fragment,e),De=n(e),m(le.$$.fragment,e),Ye=n(e),ie=d(e,"P",{}),ft(ie).forEach(a),this.h()},h(){Ut(l,"name","hf:doc:metadata"),Ut(l,"content",Xt)},m(e,t){$t(document.head,l),s(e,y,t),s(e,T,t),s(e,w,t),u(C,e,t),s(e,de,t),u(h,e,t),s(e,re,t),s(e,$,t),s(e,me,t),u(q,e,t),s(e,ue,t),u(b,e,t),s(e,pe,t),s(e,v,t),s(e,ce,t),s(e,_,t),s(e,Me,t),s(e,Q,t),s(e,Je,t),u(A,e,t),s(e,Te,t),s(e,x,t),s(e,ye,t),s(e,R,t),s(e,fe,t),u(z,e,t),s(e,Ue,t),s(e,X,t),s(e,we,t),u(B,e,t),s(e,je,t),u(G,e,t),s(e,ge,t),s(e,S,t),s(e,Ie,t),u(j,e,t),s(e,Ce,t),s(e,E,t),s(e,he,t),u(N,e,t),s(e,$e,t),s(e,Z,t),s(e,qe,t),u(k,e,t),s(e,be,t),u(F,e,t),s(e,ve,t),s(e,H,t),s(e,_e,t),u(D,e,t),s(e,Qe,t),u(Y,e,t),s(e,Ae,t),s(e,L,t),s(e,xe,t),u(V,e,t),s(e,Re,t),u(W,e,t),s(e,ze,t),s(e,P,t),s(e,Xe,t),u(g,e,t),s(e,Be,t),s(e,O,t),s(e,Ge,t),u(K,e,t),s(e,Se,t),s(e,ee,t),s(e,Ee,t),s(e,te,t),s(e,Ne,t),u(ae,e,t),s(e,Ze,t),s(e,se,t),s(e,ke,t),u(oe,e,t),s(e,Fe,t),s(e,ne,t),s(e,He,t),u(I,e,t),s(e,De,t),u(le,e,t),s(e,Ye,t),s(e,ie,t),Le=!0},p(e,[t]){const Jt={};t&2&&(Jt.$$scope={dirty:t,ctx:e}),j.$set(Jt);const Tt={};t&2&&(Tt.$$scope={dirty:t,ctx:e}),g.$set(Tt);const yt={};t&2&&(yt.$$scope={dirty:t,ctx:e}),I.$set(yt)},i(e){Le||(p(C.$$.fragment,e),p(h.$$.fragment,e),p(q.$$.fragment,e),p(b.$$.fragment,e),p(A.$$.fragment,e),p(z.$$.fragment,e),p(B.$$.fragment,e),p(G.$$.fragment,e),p(j.$$.fragment,e),p(N.$$.fragment,e),p(k.$$.fragment,e),p(F.$$.fragment,e),p(D.$$.fragment,e),p(Y.$$.fragment,e),p(V.$$.fragment,e),p(W.$$.fragment,e),p(g.$$.fragment,e),p(K.$$.fragment,e),p(ae.$$.fragment,e),p(oe.$$.fragment,e),p(I.$$.fragment,e),p(le.$$.fragment,e),Le=!0)},o(e){c(C.$$.fragment,e),c(h.$$.fragment,e),c(q.$$.fragment,e),c(b.$$.fragment,e),c(A.$$.fragment,e),c(z.$$.fragment,e),c(B.$$.fragment,e),c(G.$$.fragment,e),c(j.$$.fragment,e),c(N.$$.fragment,e),c(k.$$.fragment,e),c(F.$$.fragment,e),c(D.$$.fragment,e),c(Y.$$.fragment,e),c(V.$$.fragment,e),c(W.$$.fragment,e),c(g.$$.fragment,e),c(K.$$.fragment,e),c(ae.$$.fragment,e),c(oe.$$.fragment,e),c(I.$$.fragment,e),c(le.$$.fragment,e),Le=!1},d(e){e&&(a(y),a(T),a(w),a(de),a(re),a($),a(me),a(ue),a(pe),a(v),a(ce),a(_),a(Me),a(Q),a(Je),a(Te),a(x),a(ye),a(R),a(fe),a(Ue),a(X),a(we),a(je),a(ge),a(S),a(Ie),a(Ce),a(E),a(he),a($e),a(Z),a(qe),a(be),a(ve),a(H),a(_e),a(Qe),a(Ae),a(L),a(xe),a(Re),a(ze),a(P),a(Xe),a(Be),a(O),a(Ge),a(Se),a(ee),a(Ee),a(te),a(Ne),a(Ze),a(se),a(ke),a(Fe),a(ne),a(He),a(De),a(Ye),a(ie)),a(l),M(C,e),M(h,e),M(q,e),M(b,e),M(A,e),M(z,e),M(B,e),M(G,e),M(j,e),M(N,e),M(k,e),M(F,e),M(D,e),M(Y,e),M(V,e),M(W,e),M(g,e),M(K,e),M(ae,e),M(oe,e),M(I,e),M(le,e)}}}const Xt='{"title":"E se o meu dataset não estiver no Hub?","local":"e-se-o-meu-dataset-não-estiver-no-hub","sections":[{"title":"Trabalhando com datasets locais e remotos","local":"trabalhando-com-datasets-locais-e-remotos","sections":[],"depth":2},{"title":"Carregando um conjunto de dados local","local":"carregando-um-conjunto-de-dados-local","sections":[],"depth":2},{"title":"Carregando um dataset remoto","local":"carregando-um-dataset-remoto","sections":[],"depth":2}],"depth":1}';function Bt(U){return gt(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Ht extends It{constructor(l){super(),Ct(this,l,Bt,zt,jt,{})}}export{Ht as component}; | |
Xet Storage Details
- Size:
- 25.7 kB
- Xet hash:
- fadb083bb391ea46a6f4c69d9ba90be67f925d80bf9dd246f3212c1b098ef04d
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.