Buckets:

rtrm's picture
download
raw
24.7 kB
import{s as gt,o as It,n as Pe}from"../chunks/scheduler.37c15a92.js";import{S as Ct,i as jt,g as o,s as i,r as p,A as $t,h as r,f as a,c as l,j as Ut,u as c,x as T,k as wt,y as ht,a as s,v as u,d as m,t as M,w as J}from"../chunks/index.2bf4358c.js";import{T as We}from"../chunks/Tip.363c041f.js";import{Y as bt}from"../chunks/Youtube.1e50a667.js";import{C as y}from"../chunks/CodeBlock.4e987730.js";import{C as qt}from"../chunks/CourseFloatingBanner.9ff4c771.js";import{H as Ve,E as _t}from"../chunks/getInferenceSnippets.8229e22a.js";function Qt(w){let n,f="✎ Se ti stai chiedendo perché c’è un <code>!</code> nei comandi di shell precedenti, è perché li stiamo eseguendo da un notebook Jupyter. Se vuoi scaricare e decomprimere i dataset da un terminale, non devi fare altro che rimuovere il prefisso.";return{c(){n=o("p"),n.innerHTML=f},l(d){n=r(d,"P",{"data-svelte-h":!0}),T(n)!=="svelte-1fh41tg"&&(n.innerHTML=f)},m(d,U){s(d,n,U)},p:Pe,d(d){d&&a(n)}}}function vt(w){let n,f='L’argomento <code>data_files</code> della funzione <code>load_dataset()</code> è molto flessibile, e può essere usato con un percorso file singolo, con una lista di percorsi file, o un dizionario che mappa i nomi delle sezioni ai percorsi file. È anche possibile usare comandi glob per recuperare tutti i file che soddisfano uno specifico pattern secondo le regole dello shell di Unix (ad esempio, è possibile recuperare tutti i file JSON presenti in una cartella usando il pattern <code>data_files=&quot;*.json&quot;</code>). Consulta la <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">documentazione</a> 🤗 Datasets per maggiori informazioni.';return{c(){n=o("p"),n.innerHTML=f},l(d){n=r(d,"P",{"data-svelte-h":!0}),T(n)!=="svelte-195yh1b"&&(n.innerHTML=f)},m(d,U){s(d,n,U)},p:Pe,d(d){d&&a(n)}}}function zt(w){let n,f='✏️ <strong>Prova tu!</strong> Scegli un altro dataset presente su GitHub o sulla <a href="https://archive.ics.uci.edu/ml/index.php" rel="nofollow">Repository di Machine Learning UCI</a> e cerca di caricare sia in locale che in remoto usando le tecniche introdotte in precedenza. Per punti extra, prova a caricare un dataset archiviato in formato CSV o testuale (vedi la <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">documentazione</a> per ulteriori informazioni su questi formati).';return{c(){n=o("p"),n.innerHTML=f},l(d){n=r(d,"P",{"data-svelte-h":!0}),T(n)!=="svelte-1lb0wbu"&&(n.innerHTML=f)},m(d,U){s(d,n,U)},p:Pe,d(d){d&&a(n)}}}function Rt(w){let n,f,d,U,j,re,$,de,h,Oe='Sai come usare l’<a href="https://huggingface.co/datasets" rel="nofollow">Hub Hugging Face</a> per scaricare i dataset, ma spessa dovrai lavorare con dati che si trovano sul tuo computer, o so un server remoto. In questa sezione vederemo come usare 🤗 Datasets per caricare dataset che non sono disponibile nell’Hub Hugging Face.',pe,b,ce,q,ue,_,Ke="🤗 Datasets mette a tua disposizione diversi script per caricare dataset in locale e in remoto. Sono supportati diversi formati di dati, tra cui:",me,Q,et='<thead><tr><th align="center">Formato dati</th> <th align="center">Script</th> <th align="center">Esempio</th></tr></thead> <tbody><tr><td align="center">CSV &amp; TSV</td> <td align="center"><code>csv</code></td> <td align="center"><code>load_dataset(&quot;csv&quot;, data_files=&quot;my_file.csv&quot;)</code></td></tr> <tr><td align="center">File di testo</td> <td align="center"><code>text</code></td> <td align="center"><code>load_dataset(&quot;text&quot;, data_files=&quot;my_file.txt&quot;)</code></td></tr> <tr><td align="center">JSON &amp; JSON Lines</td> <td align="center"><code>json</code></td> <td align="center"><code>load_dataset(&quot;json&quot;, data_files=&quot;my_file.jsonl&quot;)</code></td></tr> <tr><td align="center">DataFrame serializzati in Pickle</td> <td align="center"><code>pandas</code></td> <td align="center"><code>load_dataset(&quot;pandas&quot;, data_files=&quot;my_dataframe.pkl&quot;)</code></td></tr></tbody>',Me,v,tt="Come mostrato nella tabella, per ogni formato di dati abbiamo bisogno di specificare, all’interno della funzione <code>load_dataset()</code>, il tipo di script da utilizzare, assieme a <code>data_files</code>, che specifica il percorso verso uno o più file. Iniziamo a caricare un dataset proveniente da file locali; più tardi vederemo come fare la stessa cosa con file in remoto.",Je,z,Te,R,at='Per questo esempio useremo il <a href="https://github.com/crux82/squad-it/" rel="nofollow">dataset SQuAD-it</a>, un ampio dataset per il question answering in italiano',fe,A,st="Le sezioni di addestramento e di test si trovano su GitHub, quindi possiamo scaricarle con un semplice comando <code>wget</code>:",ye,X,Ue,B,it="Questo scaricherà due file compressi chiamati <em>SQuAD_it-train.json.gz</em> e <em>SQuAD_it-test.json.gz</em>, che possiamo decomprimere con il comandi Linux <code>gzip</code>:",we,G,ge,S,Ie,Z,lt="Vediamo che i dati compressi sono stati sostituiti da <em>SQuAD_it-train.json</em> e <em>SQuAD_it-text.json</em>, e che i dati sono archiviati in formato JSON.",Ce,g,je,x,nt="Per caricare un file JSON con la funzione <code>load_dataset()</code>, ci serve solo sapere se abbiamo a che fare con un normale JSON (simile a un dizionario annidato) o con un JSON Lines (JSON separato da righe). Come molti dataset per il question asnwring, SQuAD-it usa il formato annidato, con tutto il testo immagazzinato nel campo <code>data</code>. Questo significa che possiamo caricare il dataset specificando l’argomento <code>field</code> come segue:",$e,F,he,N,ot="Di default, caricare file locali create un oggetto <code>DatasetDict</code> con una sezione <code>train</code>. Possiamo vederlo ispezionando l’oggetto <code>squad_it_dataset</code>:",be,E,qe,L,_e,H,rt="Questo ci mostra il numero di righe e i nomi delle colonne associate con il set di addestraento. Possiamo vedere uno degli esempi indicizzando la sezione <code>train</code>, come segue:",Qe,k,ve,D,ze,Y,dt="Benissimo, abbiamo caricare il nostro primo dataset locale! Ma anche se questo ha funzionato per la sezione di addestramento, vogliamo includere entrambe le sezioni <code>train</code> e <code>test</code> in un unico oggetto <code>DatasetDict</code> così da poter applicare le funzioni <code>Dataset.map()</code> su entrambi i dataset simultaneamente. Per fare questo, possiamo dare un dizionaro all’argomento <code>data_files</code>, per mappare ogni sezione a un file associato con quella sezione:",Re,V,Ae,W,Xe,P,pt="Questo è proprio ciò che volevamo. Ora possiamo applicare diverse tecniche di preprocessamento per pulire i dati, tokenizzare le revisioni, e altro.",Be,I,Ge,O,ct="Gli script presenti in 🤗 Datasets supportano la decompressione atuomatica dei file in input, quindi possiamo saltare l’uso di <code>gzip</code> puntando <code>data_files</code> direttamente ai file compressi:",Se,K,Ze,ee,ut="Questo può essere utile se non vuoi decomprimere manualmente molti file GZIP. La decompressione automatica si applica inoltre ad altri formati comuni, come ZIP e TAR, basta solo puntare <code>data_files</code> ai file compressi ed è fatta!",xe,te,mt="Ora che sai come caricare i file locali dal tuo computer, guardiamo come caricare i file remoti.",Fe,ae,Ne,se,Mt="Se lavori come data scientist o come programmatore per un’azienda, ci sono buone probabilità che i dataset da analizzare sono archiaviati su un qualche server in remoto. Per fortuna, caricare file remoti è semplice come caricare quelli locali! Invece di dare un percorso a file locali, puntiamo l’argomento <code>data_files</code> di <code>load_dataset()</code> a uno o più URL dove si trovano i file in remoto. Ad esempio, per il dataset SQuAD-it presente su GitHub, possiamo puntare <code>data_files</code> agli URL <em>SQuAD_it-*.json.gz</em> come segue:",Ee,ie,Le,le,Jt="Questo codice restituisce lo stesso oggetto <code>DatasetDict</code> visto in precedenza, ma ci risparmia il passaggio manuale di scaricare e decomprimere i file <em>SQuAD_it-*.json.gz</em>. Questo conclude la nostra incursione nei diversi modi di caricare dataset che non sono presenti nell’Hub Hugging Face. Ora che abbiamo un dataset con cui giocare, sporchiamoci le mani con diverse tecniche di data-wrangling!",He,C,ke,ne,De,oe,Ye;return j=new Ve({props:{title:"E se il mio dataset non è sull’Hub?",local:"e-se-il-mio-dataset-non-è-sullhub",headingTag:"h1"}}),$=new qt({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/it/chapter5/section2.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/it/chapter5/section2.ipynb"}]}}),b=new bt({props:{id:"HyQgpJTkRdE"}}),q=new Ve({props:{title:"Lavorare con dataset locali e in remoto",local:"lavorare-con-dataset-locali-e-in-remoto",headingTag:"h2"}}),z=new Ve({props:{title:"Caricare un dataset locale",local:"caricare-un-dataset-locale",headingTag:"h2"}}),X=new y({props:{code:"IXdnZXQlMjBodHRwcyUzQSUyRiUyRmdpdGh1Yi5jb20lMkZjcnV4ODIlMkZzcXVhZC1pdCUyRnJhdyUyRm1hc3RlciUyRlNRdUFEX2l0LXRyYWluLmpzb24uZ3olMEEhd2dldCUyMGh0dHBzJTNBJTJGJTJGZ2l0aHViLmNvbSUyRmNydXg4MiUyRnNxdWFkLWl0JTJGcmF3JTJGbWFzdGVyJTJGU1F1QURfaXQtdGVzdC5qc29uLmd6",highlighted:`!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz`,wrap:!1}}),G=new y({props:{code:"IWd6aXAlMjAtZGt2JTIwU1F1QURfaXQtKi5qc29uLmd6",highlighted:"!gzip -dkv SQuAD_it-*.json.gz",wrap:!1}}),S=new y({props:{code:"U1F1QURfaXQtdGVzdC5qc29uLmd6JTNBJTA5JTIwJTIwJTIwODcuNCUyNSUyMC0tJTIwcmVwbGFjZWQlMjB3aXRoJTIwU1F1QURfaXQtdGVzdC5qc29uJTBBU1F1QURfaXQtdHJhaW4uanNvbi5neiUzQSUwOSUyMCUyMCUyMDgyLjIlMjUlMjAtLSUyMHJlcGxhY2VkJTIwd2l0aCUyMFNRdUFEX2l0LXRyYWluLmpzb24=",highlighted:`SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json
SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json`,wrap:!1}}),g=new We({props:{$$slots:{default:[Qt]},$$scope:{ctx:w}}}),F=new y({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBc3F1YWRfaXRfZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJqc29uJTIyJTJDJTIwZGF0YV9maWxlcyUzRCUyMlNRdUFEX2l0LXRyYWluLmpzb24lMjIlMkMlMjBmaWVsZCUzRCUyMmRhdGElMjIp",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=<span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),E=new y({props:{code:"c3F1YWRfaXRfZGF0YXNldA==",highlighted:"squad_it_dataset",wrap:!1}}),L=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
})`,wrap:!1}}),k=new y({props:{code:"c3F1YWRfaXRfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RA==",highlighted:'squad_it_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>]',wrap:!1}}),D=new y({props:{code:"JTdCJTBBJTIwJTIwJTIwJTIwJTIydGl0bGUlMjIlM0ElMjAlMjJUZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnBhcmFncmFwaHMlMjIlM0ElMjAlNUIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJjb250ZXh0JTIyJTNBJTIwJTIySWwlMjB0ZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMG8lMjBpbCUyMHRlcnJlbW90by4uLiUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnFhcyUyMiUzQSUyMCU1QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMmFuc3dlcnMlMjIlM0ElMjAlNUIlN0IlMjJhbnN3ZXJfc3RhcnQlMjIlM0ElMjAyOSUyQyUyMCUyMnRleHQlMjIlM0ElMjAlMjIyMDA4JTIyJTdEJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyaWQlMjIlM0ElMjAlMjI1NmNkY2E3ODYyZDI5NTE0MDBmYTY4MjYlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJxdWVzdGlvbiUyMiUzQSUyMCUyMkluJTIwcXVhbGUlMjBhbm5vJTIwc2klMjAlQzMlQTglMjB2ZXJpZmljYXRvJTIwaWwlMjB0ZXJyZW1vdG8lMjBuZWwlMjBTaWNodWFuJTNGJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTdE",highlighted:`{
<span class="hljs-string">&quot;title&quot;</span>: <span class="hljs-string">&quot;Terremoto del Sichuan del 2008&quot;</span>,
<span class="hljs-string">&quot;paragraphs&quot;</span>: [
{
<span class="hljs-string">&quot;context&quot;</span>: <span class="hljs-string">&quot;Il terremoto del Sichuan del 2008 o il terremoto...&quot;</span>,
<span class="hljs-string">&quot;qas&quot;</span>: [
{
<span class="hljs-string">&quot;answers&quot;</span>: [{<span class="hljs-string">&quot;answer_start&quot;</span>: <span class="hljs-number">29</span>, <span class="hljs-string">&quot;text&quot;</span>: <span class="hljs-string">&quot;2008&quot;</span>}],
<span class="hljs-string">&quot;id&quot;</span>: <span class="hljs-string">&quot;56cdca7862d2951400fa6826&quot;</span>,
<span class="hljs-string">&quot;question&quot;</span>: <span class="hljs-string">&quot;In quale anno si è verificato il terremoto nel Sichuan?&quot;</span>,
},
...
],
},
...
],
}`,wrap:!1}}),V=new y({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24lMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMiklMEFzcXVhZF9pdF9kYXRhc2V0",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)
squad_it_dataset`,wrap:!1}}),W=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHRlc3QlM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDglMEElMjAlMjAlMjAlMjAlN0QpJTBBJTdEKQ==",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">48</span>
})
})`,wrap:!1}}),I=new We({props:{$$slots:{default:[vt]},$$scope:{ctx:w}}}),K=new y({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbi5neiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24uZ3olMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMik=",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),ae=new Ve({props:{title:"Caricare un dataset in remoto",local:"caricare-un-dataset-in-remoto",headingTag:"h2"}}),ie=new y({props:{code:"dXJsJTIwJTNEJTIwJTIyaHR0cHMlM0ElMkYlMkZnaXRodWIuY29tJTJGY3J1eDgyJTJGc3F1YWQtaXQlMkZyYXclMkZtYXN0ZXIlMkYlMjIlMEFkYXRhX2ZpbGVzJTIwJTNEJTIwJTdCJTBBJTIwJTIwJTIwJTIwJTIydHJhaW4lMjIlM0ElMjB1cmwlMjAlMkIlMjAlMjJTUXVBRF9pdC10cmFpbi5qc29uLmd6JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMHVybCUyMCUyQiUyMCUyMlNRdUFEX2l0LXRlc3QuanNvbi5neiUyMiUyQyUwQSU3RCUwQXNxdWFkX2l0X2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwZmllbGQlM0QlMjJkYXRhJTIyKQ==",highlighted:`url = <span class="hljs-string">&quot;https://github.com/crux82/squad-it/raw/master/&quot;</span>
data_files = {
<span class="hljs-string">&quot;train&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>,
<span class="hljs-string">&quot;test&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>,
}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),C=new We({props:{$$slots:{default:[zt]},$$scope:{ctx:w}}}),ne=new _t({props:{source:"https://github.com/huggingface/course/blob/main/chapters/it/chapter5/2.mdx"}}),{c(){n=o("meta"),f=i(),d=o("p"),U=i(),p(j.$$.fragment),re=i(),p($.$$.fragment),de=i(),h=o("p"),h.innerHTML=Oe,pe=i(),p(b.$$.fragment),ce=i(),p(q.$$.fragment),ue=i(),_=o("p"),_.textContent=Ke,me=i(),Q=o("table"),Q.innerHTML=et,Me=i(),v=o("p"),v.innerHTML=tt,Je=i(),p(z.$$.fragment),Te=i(),R=o("p"),R.innerHTML=at,fe=i(),A=o("p"),A.innerHTML=st,ye=i(),p(X.$$.fragment),Ue=i(),B=o("p"),B.innerHTML=it,we=i(),p(G.$$.fragment),ge=i(),p(S.$$.fragment),Ie=i(),Z=o("p"),Z.innerHTML=lt,Ce=i(),p(g.$$.fragment),je=i(),x=o("p"),x.innerHTML=nt,$e=i(),p(F.$$.fragment),he=i(),N=o("p"),N.innerHTML=ot,be=i(),p(E.$$.fragment),qe=i(),p(L.$$.fragment),_e=i(),H=o("p"),H.innerHTML=rt,Qe=i(),p(k.$$.fragment),ve=i(),p(D.$$.fragment),ze=i(),Y=o("p"),Y.innerHTML=dt,Re=i(),p(V.$$.fragment),Ae=i(),p(W.$$.fragment),Xe=i(),P=o("p"),P.textContent=pt,Be=i(),p(I.$$.fragment),Ge=i(),O=o("p"),O.innerHTML=ct,Se=i(),p(K.$$.fragment),Ze=i(),ee=o("p"),ee.innerHTML=ut,xe=i(),te=o("p"),te.textContent=mt,Fe=i(),p(ae.$$.fragment),Ne=i(),se=o("p"),se.innerHTML=Mt,Ee=i(),p(ie.$$.fragment),Le=i(),le=o("p"),le.innerHTML=Jt,He=i(),p(C.$$.fragment),ke=i(),p(ne.$$.fragment),De=i(),oe=o("p"),this.h()},l(e){const t=$t("svelte-u9bgzb",document.head);n=r(t,"META",{name:!0,content:!0}),t.forEach(a),f=l(e),d=r(e,"P",{}),Ut(d).forEach(a),U=l(e),c(j.$$.fragment,e),re=l(e),c($.$$.fragment,e),de=l(e),h=r(e,"P",{"data-svelte-h":!0}),T(h)!=="svelte-7vedzp"&&(h.innerHTML=Oe),pe=l(e),c(b.$$.fragment,e),ce=l(e),c(q.$$.fragment,e),ue=l(e),_=r(e,"P",{"data-svelte-h":!0}),T(_)!=="svelte-1kyche8"&&(_.textContent=Ke),me=l(e),Q=r(e,"TABLE",{"data-svelte-h":!0}),T(Q)!=="svelte-1e2lrap"&&(Q.innerHTML=et),Me=l(e),v=r(e,"P",{"data-svelte-h":!0}),T(v)!=="svelte-tqr4uo"&&(v.innerHTML=tt),Je=l(e),c(z.$$.fragment,e),Te=l(e),R=r(e,"P",{"data-svelte-h":!0}),T(R)!=="svelte-faauwd"&&(R.innerHTML=at),fe=l(e),A=r(e,"P",{"data-svelte-h":!0}),T(A)!=="svelte-110ae4k"&&(A.innerHTML=st),ye=l(e),c(X.$$.fragment,e),Ue=l(e),B=r(e,"P",{"data-svelte-h":!0}),T(B)!=="svelte-176fml9"&&(B.innerHTML=it),we=l(e),c(G.$$.fragment,e),ge=l(e),c(S.$$.fragment,e),Ie=l(e),Z=r(e,"P",{"data-svelte-h":!0}),T(Z)!=="svelte-515z3r"&&(Z.innerHTML=lt),Ce=l(e),c(g.$$.fragment,e),je=l(e),x=r(e,"P",{"data-svelte-h":!0}),T(x)!=="svelte-kwrvai"&&(x.innerHTML=nt),$e=l(e),c(F.$$.fragment,e),he=l(e),N=r(e,"P",{"data-svelte-h":!0}),T(N)!=="svelte-1iwujy6"&&(N.innerHTML=ot),be=l(e),c(E.$$.fragment,e),qe=l(e),c(L.$$.fragment,e),_e=l(e),H=r(e,"P",{"data-svelte-h":!0}),T(H)!=="svelte-bq384j"&&(H.innerHTML=rt),Qe=l(e),c(k.$$.fragment,e),ve=l(e),c(D.$$.fragment,e),ze=l(e),Y=r(e,"P",{"data-svelte-h":!0}),T(Y)!=="svelte-c1ij8q"&&(Y.innerHTML=dt),Re=l(e),c(V.$$.fragment,e),Ae=l(e),c(W.$$.fragment,e),Xe=l(e),P=r(e,"P",{"data-svelte-h":!0}),T(P)!=="svelte-1npofc2"&&(P.textContent=pt),Be=l(e),c(I.$$.fragment,e),Ge=l(e),O=r(e,"P",{"data-svelte-h":!0}),T(O)!=="svelte-55sf0d"&&(O.innerHTML=ct),Se=l(e),c(K.$$.fragment,e),Ze=l(e),ee=r(e,"P",{"data-svelte-h":!0}),T(ee)!=="svelte-eh8wmw"&&(ee.innerHTML=ut),xe=l(e),te=r(e,"P",{"data-svelte-h":!0}),T(te)!=="svelte-10ljf46"&&(te.textContent=mt),Fe=l(e),c(ae.$$.fragment,e),Ne=l(e),se=r(e,"P",{"data-svelte-h":!0}),T(se)!=="svelte-i8cfll"&&(se.innerHTML=Mt),Ee=l(e),c(ie.$$.fragment,e),Le=l(e),le=r(e,"P",{"data-svelte-h":!0}),T(le)!=="svelte-p536r"&&(le.innerHTML=Jt),He=l(e),c(C.$$.fragment,e),ke=l(e),c(ne.$$.fragment,e),De=l(e),oe=r(e,"P",{}),Ut(oe).forEach(a),this.h()},h(){wt(n,"name","hf:doc:metadata"),wt(n,"content",At)},m(e,t){ht(document.head,n),s(e,f,t),s(e,d,t),s(e,U,t),u(j,e,t),s(e,re,t),u($,e,t),s(e,de,t),s(e,h,t),s(e,pe,t),u(b,e,t),s(e,ce,t),u(q,e,t),s(e,ue,t),s(e,_,t),s(e,me,t),s(e,Q,t),s(e,Me,t),s(e,v,t),s(e,Je,t),u(z,e,t),s(e,Te,t),s(e,R,t),s(e,fe,t),s(e,A,t),s(e,ye,t),u(X,e,t),s(e,Ue,t),s(e,B,t),s(e,we,t),u(G,e,t),s(e,ge,t),u(S,e,t),s(e,Ie,t),s(e,Z,t),s(e,Ce,t),u(g,e,t),s(e,je,t),s(e,x,t),s(e,$e,t),u(F,e,t),s(e,he,t),s(e,N,t),s(e,be,t),u(E,e,t),s(e,qe,t),u(L,e,t),s(e,_e,t),s(e,H,t),s(e,Qe,t),u(k,e,t),s(e,ve,t),u(D,e,t),s(e,ze,t),s(e,Y,t),s(e,Re,t),u(V,e,t),s(e,Ae,t),u(W,e,t),s(e,Xe,t),s(e,P,t),s(e,Be,t),u(I,e,t),s(e,Ge,t),s(e,O,t),s(e,Se,t),u(K,e,t),s(e,Ze,t),s(e,ee,t),s(e,xe,t),s(e,te,t),s(e,Fe,t),u(ae,e,t),s(e,Ne,t),s(e,se,t),s(e,Ee,t),u(ie,e,t),s(e,Le,t),s(e,le,t),s(e,He,t),u(C,e,t),s(e,ke,t),u(ne,e,t),s(e,De,t),s(e,oe,t),Ye=!0},p(e,[t]){const Tt={};t&2&&(Tt.$$scope={dirty:t,ctx:e}),g.$set(Tt);const ft={};t&2&&(ft.$$scope={dirty:t,ctx:e}),I.$set(ft);const yt={};t&2&&(yt.$$scope={dirty:t,ctx:e}),C.$set(yt)},i(e){Ye||(m(j.$$.fragment,e),m($.$$.fragment,e),m(b.$$.fragment,e),m(q.$$.fragment,e),m(z.$$.fragment,e),m(X.$$.fragment,e),m(G.$$.fragment,e),m(S.$$.fragment,e),m(g.$$.fragment,e),m(F.$$.fragment,e),m(E.$$.fragment,e),m(L.$$.fragment,e),m(k.$$.fragment,e),m(D.$$.fragment,e),m(V.$$.fragment,e),m(W.$$.fragment,e),m(I.$$.fragment,e),m(K.$$.fragment,e),m(ae.$$.fragment,e),m(ie.$$.fragment,e),m(C.$$.fragment,e),m(ne.$$.fragment,e),Ye=!0)},o(e){M(j.$$.fragment,e),M($.$$.fragment,e),M(b.$$.fragment,e),M(q.$$.fragment,e),M(z.$$.fragment,e),M(X.$$.fragment,e),M(G.$$.fragment,e),M(S.$$.fragment,e),M(g.$$.fragment,e),M(F.$$.fragment,e),M(E.$$.fragment,e),M(L.$$.fragment,e),M(k.$$.fragment,e),M(D.$$.fragment,e),M(V.$$.fragment,e),M(W.$$.fragment,e),M(I.$$.fragment,e),M(K.$$.fragment,e),M(ae.$$.fragment,e),M(ie.$$.fragment,e),M(C.$$.fragment,e),M(ne.$$.fragment,e),Ye=!1},d(e){e&&(a(f),a(d),a(U),a(re),a(de),a(h),a(pe),a(ce),a(ue),a(_),a(me),a(Q),a(Me),a(v),a(Je),a(Te),a(R),a(fe),a(A),a(ye),a(Ue),a(B),a(we),a(ge),a(Ie),a(Z),a(Ce),a(je),a(x),a($e),a(he),a(N),a(be),a(qe),a(_e),a(H),a(Qe),a(ve),a(ze),a(Y),a(Re),a(Ae),a(Xe),a(P),a(Be),a(Ge),a(O),a(Se),a(Ze),a(ee),a(xe),a(te),a(Fe),a(Ne),a(se),a(Ee),a(Le),a(le),a(He),a(ke),a(De),a(oe)),a(n),J(j,e),J($,e),J(b,e),J(q,e),J(z,e),J(X,e),J(G,e),J(S,e),J(g,e),J(F,e),J(E,e),J(L,e),J(k,e),J(D,e),J(V,e),J(W,e),J(I,e),J(K,e),J(ae,e),J(ie,e),J(C,e),J(ne,e)}}}const At='{"title":"E se il mio dataset non è sull’Hub?","local":"e-se-il-mio-dataset-non-è-sullhub","sections":[{"title":"Lavorare con dataset locali e in remoto","local":"lavorare-con-dataset-locali-e-in-remoto","sections":[],"depth":2},{"title":"Caricare un dataset locale","local":"caricare-un-dataset-locale","sections":[],"depth":2},{"title":"Caricare un dataset in remoto","local":"caricare-un-dataset-in-remoto","sections":[],"depth":2}],"depth":1}';function Xt(w){return It(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Et extends Ct{constructor(n){super(),jt(this,n,Xt,Rt,gt,{})}}export{Et as component};

Xet Storage Details

Size:
24.7 kB
·
Xet hash:
ded3c9afb854c04a23d6d9a4647148619f8828faf88771c34d8e471fc3d52845

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.