Buckets:

rtrm's picture
download
raw
26.5 kB
import{s as fn,o as In,n as Pt}from"../chunks/scheduler.37c15a92.js";import{S as Cn,i as jn,g as c,s,r as u,A as $n,h,f as e,c as a,j as Un,u as M,x as J,k as wn,y as bn,a as l,v as d,d as o,t as y,w as T}from"../chunks/index.2bf4358c.js";import{T as Wt}from"../chunks/Tip.363c041f.js";import{Y as vn}from"../chunks/Youtube.1e50a667.js";import{C as m}from"../chunks/CodeBlock.4e987730.js";import{C as _n}from"../chunks/CourseFloatingBanner.9ff4c771.js";import{H as Vt,E as qn}from"../chunks/getInferenceSnippets.24b50994.js";function xn(U){let i,g="✎ Nếu bạn đang thắc mắc tại sao lại có ký tự<code>!</code> trong các lệnh trên, đó là bởi vì chúng ta đang chạy chúng trong một sổ ghi chép Jupyter. Chỉ cần xóa tiền tố này nếu bạn muốn tải xuống và giải nén tập dữ liệu trên terminal.";return{c(){i=c("p"),i.innerHTML=g},l(p){i=h(p,"P",{"data-svelte-h":!0}),J(i)!=="svelte-twhq3c"&&(i.innerHTML=g)},m(p,r){l(p,i,r)},p:Pt,d(p){p&&e(i)}}}function Qn(U){let i,g='Tham số <code>data_files</code> của hàm <code>load_dataset()</code> khá linh hoạt và có thể là một đường dẫn tệp duy nhất, danh sách các đường dẫn tệp hoặc từ điển ánh xạ các tên tách thành đường dẫn tệp. Bạn cũng có thể tập hợp các tệp phù hợp với một mẫu được chỉ định theo các quy tắc được sử dụng bởi Unix shell (ví dụ: bạn có thể tổng hợp tất cả các tệp JSON trong một thư mục dưới dạng một lần tách duy nhất bằng cách đặt <code>data_files=&quot;*.json&quot;</code>). Xem <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">tài liệu</a> 🤗 Datasets để biết thêm chi tiết.';return{c(){i=c("p"),i.innerHTML=g},l(p){i=h(p,"P",{"data-svelte-h":!0}),J(i)!=="svelte-159jx4x"&&(i.innerHTML=g)},m(p,r){l(p,i,r)},p:Pt,d(p){p&&e(i)}}}function Rn(U){let i,g='✏️ <strong>Thử nghiệm thôi!</strong> Chọn một tập dữ liệu khác được lưu trữ trên GitHub hoặc <a href="https://archive.ics.uci.edu/ml/index.php" rel="nofollow">Kho lưu trữ Học Máy UCI</a> và thử tải nó cả cục bộ và từ xa bằng cách sử dụng các kỹ thuật đã giới thiệu ở trên. Để có điểm thưởng, hãy thử tải tập dữ liệu được lưu trữ ở định dạng CSV hoặc dạng văn bản (xem <a href="https://huggingface.co/docs/datasets/loading#local-and-remote-files" rel="nofollow">tài liệu</a> để biết thêm thông tin trên các định dạng này).';return{c(){i=c("p"),i.innerHTML=g},l(p){i=h(p,"P",{"data-svelte-h":!0}),J(i)!=="svelte-7rnnc"&&(i.innerHTML=g)},m(p,r){l(p,i,r)},p:Pt,d(p){p&&e(i)}}}function An(U){let i,g,p,r,C,ht,j,pt,$,Ot='Bạn biết cách sử dụng <a href="https://huggingface.co/datasets" rel="nofollow">Hugging Face Hub</a> để tải xuống bộ dữ liệu, nhưng bạn sẽ thấy mình thường làm việc với dữ liệu được lưu trữ trên máy tính xách tay hoặc trên máy chủ từ xa. Trong phần này, chúng tôi sẽ chỉ cho bạn cách 🤗 Datasets có thể được sử dụng để tải các tập dữ liệu không có sẵn trên Hugging Face Hub.',ut,b,Mt,v,dt,_,Kt="🤗 Datasets cung cấp các tập lệnh để xử lý việc tải các tập dữ liệu cục bộ và từ xa. Nó hỗ trợ một số định dạng dữ liệu phổ biến, chẳng hạn như:",ot,q,tn=`| Định dạng dữ liệu |
Tập lệnh | Ví dụ |
| :----------------: | :------------: | :-----------------------------------------------------: |
| CSV &amp; TSV | <code>csv</code> | <code>load_dataset(&quot;csv&quot;, data_files=&quot;my_file.csv&quot;)</code> |
| Text files | <code>text</code> | <code>load_dataset(&quot;text&quot;, data_files=&quot;my_file.txt&quot;)</code> |
| JSON &amp; JSON Lines | <code>json</code> | <code>load_dataset(&quot;json&quot;, data_files=&quot;my_file.jsonl&quot;)</code> |
| Pickled DataFrames | <code>pandas</code> | <code>load_dataset(&quot;pandas&quot;, data_files=&quot;my_dataframe.pkl&quot;)</code> |`,yt,x,nn="Như được hiển thị trong bảng, đối với mỗi định dạng dữ liệu, chúng ta chỉ cần chỉ định loại tập lệnh tải dữ liệu trong hàm <code>load_dataset()</code>, cùng với tham số <code>data_files</code> chỉ định đường dẫn đến một hoặc nhiều tệp. Hãy bắt đầu bằng cách tải một tập dữ liệu từ các tệp cục bộ; Sau đó, chúng ta sẽ xem cách thực hiện tương tự với các tệp từ xa.",Tt,Q,Jt,R,en='Đối với ví dụ này, chúng ta sẽ sử dụng <a href="https://github.com/crux82/squad-it/" rel="nofollow">bộ dữ liệu SQuAD-it</a>, là một tập dữ liệu quy mô lớn cho tác vụ hỏi đáp bằng tiếng Ý.',gt,A,ln="Phần dữ liệu huấn luyện và kiểm thử được lưu trữ trên GitHub, vì vậy chúng tôi có thể tải chúng xuống bằng lệnh <code>wget</code> đơn giản:",mt,k,rt,X,sn="Thao tác này sẽ tải xuống hai tệp nén có tên <em>SQuAD_it-train.json.gz</em> và <em>SQuAD_it-test.json.gz</em>, chúng ta có thể giải nén bằng lệnh Linux <code>gzip</code>:",Ut,B,wt,G,ft,N,an="Chúng ta có thể thấy rằng các tệp nén đã được thay thế bằng <em>SQuAD_it-train.json</em> và <em>SQuAD_it-text.json</em>, và dữ liệu được lưu trữ ở định dạng JSON.",It,w,Ct,Z,cn="Để tải tệp JSON bằng hàm <code>load_dataset()</code>, chúng ta chỉ cần biết liệu chúng ta đang xử lý JSON thông thường (tương tự như từ điển lồng nhau) hay JSON dòng (JSON được phân tách bằng dòng). Giống như nhiều bộ dữ liệu hỏi đáp, SQuAD-it sử dụng định dạng lồng nhau, với tất cả văn bản được lưu trữ trong trường <code>data</code>. Điều này có nghĩa là chúng ta có thể tải tập dữ liệu bằng cách chỉ định tham số <code>field</code> như sau:",jt,S,$t,H,hn="Theo mặc định, việc tải các tệp cục bộ sẽ tạo ra một đối tượng <code>DatasetDict</code> với sự phân chia của <code>train</code>. Chúng ta có thể thấy điều này bằng cách kiểm tra đối tượng <code>squad_it_dataset</code>:",bt,F,vt,z,_t,E,pn="Điều này cho chúng ta thấy số hàng và cột được liên kết với tập huấn luyện. Chúng ta có thể xem một trong các ví dụ bằng cách lập chỉ mục vào phần tập <code>train</code> như sau:",qt,L,xt,D,Qt,Y,un="Tuyệt, chúng ta đã tải tập dữ liệu cục bộ đầu tiên của mình! Nhưng trong khi điều này hoạt động cho tập huấn luyện, những gì chúng tôi thực sự muốn là bao gồm cả hai tập <code>train</code> và <code>test</code> trong một đối tượng <code>DatasetDict</code> duy nhất để ta có thể áp dụng <code>Dataset.map()</code> trên cả hai phần dữ liệu cùng một lúc. Để thực hiện việc này, chúng ta có thể cung cấp một từ điển cho tham số <code>data_files</code> ánh xạ từng tên phần dữ liệu với một tệp được liên kết với các phần đó:",Rt,V,At,W,kt,P,Mn="Đây chính xác là những gì chúng ta muốn. Giờ đây, ta có thể áp dụng nhiều kỹ thuật tiền xử lý khác nhau để làm sạch dữ liệu, mã hóa các bài đánh giá, v.v.",Xt,f,Bt,O,dn="Các tập lệnh tải trong 🤗 Datasets thực sự hỗ trợ giải nén tự động các tệp đầu vào, vì vậy chúng ta có thể bỏ qua việc sử dụng <code>gzip</code> bằng cách trỏ trực tiếp tham số <code>data_files</code> vào các tệp nén:",Gt,K,Nt,tt,on="Điều này có thể hữu ích nếu bạn không muốn giải nén nhiều tệp GZIP theo cách thủ công. Tính năng giải nén tự động cũng áp dụng cho các định dạng phổ biến khác như ZIP và TAR, vì vậy bạn chỉ cần trỏ <code>data_files</code> đến các tệp nén và bạn đã sẵn sàng rồi!",Zt,nt,yn="Bây giờ bạn đã biết cách tải các tệp cục bộ trên máy tính xách tay hoặc máy tính để bàn của mình, hãy cùng xem cách tải các tệp từ xa.",St,et,Ht,lt,Tn="Nếu bạn đang làm việc với tư cách là nhà khoa học dữ liệu hoặc lập trình viên trong một công ty, thì rất có thể các bộ dữ liệu bạn muốn phân tích được lưu trữ trên một máy chủ từ xa nào đó. May mắn thay, việc tải các tệp từ xa cũng đơn giản như tải các tệp cục bộ! Thay vì cung cấp một đường dẫn đến các tệp cục bộ, chúng ta trỏ tham số <code>data_files</code> của <code>load_dataset()</code> đến một hoặc nhiều URL nơi các tệp từ xa được lưu trữ. Ví dụ: đối với tập dữ liệu SQuAD-it được lưu trữ trên GitHub, chúng ta chỉ cần trỏ <code>data_files</code> đến các URL <em>SQuAD_it-*.json.gz</em> như sau:",Ft,st,zt,at,Jn="Điều này trả về cùng một đối tượng <code>DatasetDict</code> như ở trên, nhưng giúp ta tiết kiệm bước tải xuống và giải nén thủ công các tệp <em>SQuAD_it-*.json.gz</em>. Điều này tổng kết bước đột phá của chúng ta vào các cách khác nhau để tải các tập dữ liệu không được lưu trữ trên Hugging Face Hub. Giờ ta đã có một tập dữ liệu để nghịch, hãy bắt tay vào các kỹ thuật sắp xếp dữ liệu khác nhau thôi!",Et,I,Lt,it,Dt,ct,Yt;return C=new Vt({props:{title:"Nếu như dữ liệu của ta không trên Hub thì sao?",local:"nếu-như-dữ-liệu-của-ta-không-trên-hub-thì-sao",headingTag:"h1"}}),j=new _n({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/vi/chapter5/section2.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/vi/chapter5/section2.ipynb"}]}}),b=new vn({props:{id:"HyQgpJTkRdE"}}),v=new Vt({props:{title:"Làm việc với bộ dữ liệu cục bộ và từ xa",local:"làm-việc-với-bộ-dữ-liệu-cục-bộ-và-từ-xa",headingTag:"h2"}}),Q=new Vt({props:{title:"Tải tập dữ liệu cục bộ",local:"tải-tập-dữ-liệu-cục-bộ",headingTag:"h2"}}),k=new m({props:{code:"IXdnZXQlMjBodHRwcyUzQSUyRiUyRmdpdGh1Yi5jb20lMkZjcnV4ODIlMkZzcXVhZC1pdCUyRnJhdyUyRm1hc3RlciUyRlNRdUFEX2l0LXRyYWluLmpzb24uZ3olMEEhd2dldCUyMGh0dHBzJTNBJTJGJTJGZ2l0aHViLmNvbSUyRmNydXg4MiUyRnNxdWFkLWl0JTJGcmF3JTJGbWFzdGVyJTJGU1F1QURfaXQtdGVzdC5qc29uLmd6",highlighted:`!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz`,wrap:!1}}),B=new m({props:{code:"IWd6aXAlMjAtZGt2JTIwU1F1QURfaXQtKi5qc29uLmd6",highlighted:"!gzip -dkv SQuAD_it-*.json.gz",wrap:!1}}),G=new m({props:{code:"U1F1QURfaXQtdGVzdC5qc29uLmd6JTNBJTA5JTIwJTIwJTIwODcuNCUyNSUyMC0tJTIwcmVwbGFjZWQlMjB3aXRoJTIwU1F1QURfaXQtdGVzdC5qc29uJTBBU1F1QURfaXQtdHJhaW4uanNvbi5neiUzQSUwOSUyMCUyMCUyMDgyLjIlMjUlMjAtLSUyMHJlcGxhY2VkJTIwd2l0aCUyMFNRdUFEX2l0LXRyYWluLmpzb24=",highlighted:`SQuAD_it-test.json.gz: 87.4% -- replaced with SQuAD_it-test.json
SQuAD_it-train.json.gz: 82.2% -- replaced with SQuAD_it-train.json`,wrap:!1}}),w=new Wt({props:{$$slots:{default:[xn]},$$scope:{ctx:U}}}),S=new m({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBc3F1YWRfaXRfZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJqc29uJTIyJTJDJTIwZGF0YV9maWxlcyUzRCUyMlNRdUFEX2l0LXRyYWluLmpzb24lMjIlMkMlMjBmaWVsZCUzRCUyMmRhdGElMjIp",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=<span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),F=new m({props:{code:"c3F1YWRfaXRfZGF0YXNldA==",highlighted:"squad_it_dataset",wrap:!1}}),z=new m({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
})`,wrap:!1}}),L=new m({props:{code:"c3F1YWRfaXRfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RA==",highlighted:'squad_it_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>]',wrap:!1}}),D=new m({props:{code:"JTdCJTBBJTIwJTIwJTIwJTIwJTIydGl0bGUlMjIlM0ElMjAlMjJUZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnBhcmFncmFwaHMlMjIlM0ElMjAlNUIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJjb250ZXh0JTIyJTNBJTIwJTIySWwlMjB0ZXJyZW1vdG8lMjBkZWwlMjBTaWNodWFuJTIwZGVsJTIwMjAwOCUyMG8lMjBpbCUyMHRlcnJlbW90by4uLiUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnFhcyUyMiUzQSUyMCU1QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMmFuc3dlcnMlMjIlM0ElMjAlNUIlN0IlMjJhbnN3ZXJfc3RhcnQlMjIlM0ElMjAyOSUyQyUyMCUyMnRleHQlMjIlM0ElMjAlMjIyMDA4JTIyJTdEJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyaWQlMjIlM0ElMjAlMjI1NmNkY2E3ODYyZDI5NTE0MDBmYTY4MjYlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjJxdWVzdGlvbiUyMiUzQSUyMCUyMkluJTIwcXVhbGUlMjBhbm5vJTIwc2klMjAlQzMlQTglMjB2ZXJpZmljYXRvJTIwaWwlMjB0ZXJyZW1vdG8lMjBuZWwlMjBTaWNodWFuJTNGJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwLi4uJTBBJTIwJTIwJTIwJTIwJTVEJTJDJTBBJTdE",highlighted:`{
<span class="hljs-string">&quot;title&quot;</span>: <span class="hljs-string">&quot;Terremoto del Sichuan del 2008&quot;</span>,
<span class="hljs-string">&quot;paragraphs&quot;</span>: [
{
<span class="hljs-string">&quot;context&quot;</span>: <span class="hljs-string">&quot;Il terremoto del Sichuan del 2008 o il terremoto...&quot;</span>,
<span class="hljs-string">&quot;qas&quot;</span>: [
{
<span class="hljs-string">&quot;answers&quot;</span>: [{<span class="hljs-string">&quot;answer_start&quot;</span>: <span class="hljs-number">29</span>, <span class="hljs-string">&quot;text&quot;</span>: <span class="hljs-string">&quot;2008&quot;</span>}],
<span class="hljs-string">&quot;id&quot;</span>: <span class="hljs-string">&quot;56cdca7862d2951400fa6826&quot;</span>,
<span class="hljs-string">&quot;question&quot;</span>: <span class="hljs-string">&quot;In quale anno si è verificato il terremoto nel Sichuan?&quot;</span>,
},
...
],
},
...
],
}`,wrap:!1}}),V=new m({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24lMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMiklMEFzcXVhZF9pdF9kYXRhc2V0",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)
squad_it_dataset`,wrap:!1}}),W=new m({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDQyJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHRlc3QlM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3RpdGxlJyUyQyUyMCdwYXJhZ3JhcGhzJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNDglMEElMjAlMjAlMjAlMjAlN0QpJTBBJTdEKQ==",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">442</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;title&#x27;</span>, <span class="hljs-string">&#x27;paragraphs&#x27;</span>],
num_rows: <span class="hljs-number">48</span>
})
})`,wrap:!1}}),f=new Wt({props:{$$slots:{default:[Qn]},$$scope:{ctx:U}}}),K=new m({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyU1F1QURfaXQtdHJhaW4uanNvbi5neiUyMiUyQyUyMCUyMnRlc3QlMjIlM0ElMjAlMjJTUXVBRF9pdC10ZXN0Lmpzb24uZ3olMjIlN0QlMEFzcXVhZF9pdF9kYXRhc2V0JTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyUyQyUyMGZpZWxkJTNEJTIyZGF0YSUyMik=",highlighted:`data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),et=new Vt({props:{title:"Tải tập dữ liệu từ xa",local:"tải-tập-dữ-liệu-từ-xa",headingTag:"h2"}}),st=new m({props:{code:"dXJsJTIwJTNEJTIwJTIyaHR0cHMlM0ElMkYlMkZnaXRodWIuY29tJTJGY3J1eDgyJTJGc3F1YWQtaXQlMkZyYXclMkZtYXN0ZXIlMkYlMjIlMEFkYXRhX2ZpbGVzJTIwJTNEJTIwJTdCJTBBJTIwJTIwJTIwJTIwJTIydHJhaW4lMjIlM0ElMjB1cmwlMjAlMkIlMjAlMjJTUXVBRF9pdC10cmFpbi5qc29uLmd6JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMHVybCUyMCUyQiUyMCUyMlNRdUFEX2l0LXRlc3QuanNvbi5neiUyMiUyQyUwQSU3RCUwQXNxdWFkX2l0X2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwZmllbGQlM0QlMjJkYXRhJTIyKQ==",highlighted:`url = <span class="hljs-string">&quot;https://github.com/crux82/squad-it/raw/master/&quot;</span>
data_files = {
<span class="hljs-string">&quot;train&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-train.json.gz&quot;</span>,
<span class="hljs-string">&quot;test&quot;</span>: url + <span class="hljs-string">&quot;SQuAD_it-test.json.gz&quot;</span>,
}
squad_it_dataset = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files, field=<span class="hljs-string">&quot;data&quot;</span>)`,wrap:!1}}),I=new Wt({props:{$$slots:{default:[Rn]},$$scope:{ctx:U}}}),it=new qn({props:{source:"https://github.com/huggingface/course/blob/main/chapters/vi/chapter5/2.mdx"}}),{c(){i=c("meta"),g=s(),p=c("p"),r=s(),u(C.$$.fragment),ht=s(),u(j.$$.fragment),pt=s(),$=c("p"),$.innerHTML=Ot,ut=s(),u(b.$$.fragment),Mt=s(),u(v.$$.fragment),dt=s(),_=c("p"),_.textContent=Kt,ot=s(),q=c("p"),q.innerHTML=tn,yt=s(),x=c("p"),x.innerHTML=nn,Tt=s(),u(Q.$$.fragment),Jt=s(),R=c("p"),R.innerHTML=en,gt=s(),A=c("p"),A.innerHTML=ln,mt=s(),u(k.$$.fragment),rt=s(),X=c("p"),X.innerHTML=sn,Ut=s(),u(B.$$.fragment),wt=s(),u(G.$$.fragment),ft=s(),N=c("p"),N.innerHTML=an,It=s(),u(w.$$.fragment),Ct=s(),Z=c("p"),Z.innerHTML=cn,jt=s(),u(S.$$.fragment),$t=s(),H=c("p"),H.innerHTML=hn,bt=s(),u(F.$$.fragment),vt=s(),u(z.$$.fragment),_t=s(),E=c("p"),E.innerHTML=pn,qt=s(),u(L.$$.fragment),xt=s(),u(D.$$.fragment),Qt=s(),Y=c("p"),Y.innerHTML=un,Rt=s(),u(V.$$.fragment),At=s(),u(W.$$.fragment),kt=s(),P=c("p"),P.textContent=Mn,Xt=s(),u(f.$$.fragment),Bt=s(),O=c("p"),O.innerHTML=dn,Gt=s(),u(K.$$.fragment),Nt=s(),tt=c("p"),tt.innerHTML=on,Zt=s(),nt=c("p"),nt.textContent=yn,St=s(),u(et.$$.fragment),Ht=s(),lt=c("p"),lt.innerHTML=Tn,Ft=s(),u(st.$$.fragment),zt=s(),at=c("p"),at.innerHTML=Jn,Et=s(),u(I.$$.fragment),Lt=s(),u(it.$$.fragment),Dt=s(),ct=c("p"),this.h()},l(t){const n=$n("svelte-u9bgzb",document.head);i=h(n,"META",{name:!0,content:!0}),n.forEach(e),g=a(t),p=h(t,"P",{}),Un(p).forEach(e),r=a(t),M(C.$$.fragment,t),ht=a(t),M(j.$$.fragment,t),pt=a(t),$=h(t,"P",{"data-svelte-h":!0}),J($)!=="svelte-m1k9ex"&&($.innerHTML=Ot),ut=a(t),M(b.$$.fragment,t),Mt=a(t),M(v.$$.fragment,t),dt=a(t),_=h(t,"P",{"data-svelte-h":!0}),J(_)!=="svelte-fzpodj"&&(_.textContent=Kt),ot=a(t),q=h(t,"P",{"data-svelte-h":!0}),J(q)!=="svelte-1fepyq6"&&(q.innerHTML=tn),yt=a(t),x=h(t,"P",{"data-svelte-h":!0}),J(x)!=="svelte-14iynun"&&(x.innerHTML=nn),Tt=a(t),M(Q.$$.fragment,t),Jt=a(t),R=h(t,"P",{"data-svelte-h":!0}),J(R)!=="svelte-6itpip"&&(R.innerHTML=en),gt=a(t),A=h(t,"P",{"data-svelte-h":!0}),J(A)!=="svelte-14pzq7u"&&(A.innerHTML=ln),mt=a(t),M(k.$$.fragment,t),rt=a(t),X=h(t,"P",{"data-svelte-h":!0}),J(X)!=="svelte-1pmn2gr"&&(X.innerHTML=sn),Ut=a(t),M(B.$$.fragment,t),wt=a(t),M(G.$$.fragment,t),ft=a(t),N=h(t,"P",{"data-svelte-h":!0}),J(N)!=="svelte-sftote"&&(N.innerHTML=an),It=a(t),M(w.$$.fragment,t),Ct=a(t),Z=h(t,"P",{"data-svelte-h":!0}),J(Z)!=="svelte-8ubhen"&&(Z.innerHTML=cn),jt=a(t),M(S.$$.fragment,t),$t=a(t),H=h(t,"P",{"data-svelte-h":!0}),J(H)!=="svelte-ls7t76"&&(H.innerHTML=hn),bt=a(t),M(F.$$.fragment,t),vt=a(t),M(z.$$.fragment,t),_t=a(t),E=h(t,"P",{"data-svelte-h":!0}),J(E)!=="svelte-4qtmil"&&(E.innerHTML=pn),qt=a(t),M(L.$$.fragment,t),xt=a(t),M(D.$$.fragment,t),Qt=a(t),Y=h(t,"P",{"data-svelte-h":!0}),J(Y)!=="svelte-1itrtgm"&&(Y.innerHTML=un),Rt=a(t),M(V.$$.fragment,t),At=a(t),M(W.$$.fragment,t),kt=a(t),P=h(t,"P",{"data-svelte-h":!0}),J(P)!=="svelte-1arubf3"&&(P.textContent=Mn),Xt=a(t),M(f.$$.fragment,t),Bt=a(t),O=h(t,"P",{"data-svelte-h":!0}),J(O)!=="svelte-sf8qup"&&(O.innerHTML=dn),Gt=a(t),M(K.$$.fragment,t),Nt=a(t),tt=h(t,"P",{"data-svelte-h":!0}),J(tt)!=="svelte-186tntb"&&(tt.innerHTML=on),Zt=a(t),nt=h(t,"P",{"data-svelte-h":!0}),J(nt)!=="svelte-rcdep"&&(nt.textContent=yn),St=a(t),M(et.$$.fragment,t),Ht=a(t),lt=h(t,"P",{"data-svelte-h":!0}),J(lt)!=="svelte-n1mj0h"&&(lt.innerHTML=Tn),Ft=a(t),M(st.$$.fragment,t),zt=a(t),at=h(t,"P",{"data-svelte-h":!0}),J(at)!=="svelte-bm4mqm"&&(at.innerHTML=Jn),Et=a(t),M(I.$$.fragment,t),Lt=a(t),M(it.$$.fragment,t),Dt=a(t),ct=h(t,"P",{}),Un(ct).forEach(e),this.h()},h(){wn(i,"name","hf:doc:metadata"),wn(i,"content",kn)},m(t,n){bn(document.head,i),l(t,g,n),l(t,p,n),l(t,r,n),d(C,t,n),l(t,ht,n),d(j,t,n),l(t,pt,n),l(t,$,n),l(t,ut,n),d(b,t,n),l(t,Mt,n),d(v,t,n),l(t,dt,n),l(t,_,n),l(t,ot,n),l(t,q,n),l(t,yt,n),l(t,x,n),l(t,Tt,n),d(Q,t,n),l(t,Jt,n),l(t,R,n),l(t,gt,n),l(t,A,n),l(t,mt,n),d(k,t,n),l(t,rt,n),l(t,X,n),l(t,Ut,n),d(B,t,n),l(t,wt,n),d(G,t,n),l(t,ft,n),l(t,N,n),l(t,It,n),d(w,t,n),l(t,Ct,n),l(t,Z,n),l(t,jt,n),d(S,t,n),l(t,$t,n),l(t,H,n),l(t,bt,n),d(F,t,n),l(t,vt,n),d(z,t,n),l(t,_t,n),l(t,E,n),l(t,qt,n),d(L,t,n),l(t,xt,n),d(D,t,n),l(t,Qt,n),l(t,Y,n),l(t,Rt,n),d(V,t,n),l(t,At,n),d(W,t,n),l(t,kt,n),l(t,P,n),l(t,Xt,n),d(f,t,n),l(t,Bt,n),l(t,O,n),l(t,Gt,n),d(K,t,n),l(t,Nt,n),l(t,tt,n),l(t,Zt,n),l(t,nt,n),l(t,St,n),d(et,t,n),l(t,Ht,n),l(t,lt,n),l(t,Ft,n),d(st,t,n),l(t,zt,n),l(t,at,n),l(t,Et,n),d(I,t,n),l(t,Lt,n),d(it,t,n),l(t,Dt,n),l(t,ct,n),Yt=!0},p(t,[n]){const gn={};n&2&&(gn.$$scope={dirty:n,ctx:t}),w.$set(gn);const mn={};n&2&&(mn.$$scope={dirty:n,ctx:t}),f.$set(mn);const rn={};n&2&&(rn.$$scope={dirty:n,ctx:t}),I.$set(rn)},i(t){Yt||(o(C.$$.fragment,t),o(j.$$.fragment,t),o(b.$$.fragment,t),o(v.$$.fragment,t),o(Q.$$.fragment,t),o(k.$$.fragment,t),o(B.$$.fragment,t),o(G.$$.fragment,t),o(w.$$.fragment,t),o(S.$$.fragment,t),o(F.$$.fragment,t),o(z.$$.fragment,t),o(L.$$.fragment,t),o(D.$$.fragment,t),o(V.$$.fragment,t),o(W.$$.fragment,t),o(f.$$.fragment,t),o(K.$$.fragment,t),o(et.$$.fragment,t),o(st.$$.fragment,t),o(I.$$.fragment,t),o(it.$$.fragment,t),Yt=!0)},o(t){y(C.$$.fragment,t),y(j.$$.fragment,t),y(b.$$.fragment,t),y(v.$$.fragment,t),y(Q.$$.fragment,t),y(k.$$.fragment,t),y(B.$$.fragment,t),y(G.$$.fragment,t),y(w.$$.fragment,t),y(S.$$.fragment,t),y(F.$$.fragment,t),y(z.$$.fragment,t),y(L.$$.fragment,t),y(D.$$.fragment,t),y(V.$$.fragment,t),y(W.$$.fragment,t),y(f.$$.fragment,t),y(K.$$.fragment,t),y(et.$$.fragment,t),y(st.$$.fragment,t),y(I.$$.fragment,t),y(it.$$.fragment,t),Yt=!1},d(t){t&&(e(g),e(p),e(r),e(ht),e(pt),e($),e(ut),e(Mt),e(dt),e(_),e(ot),e(q),e(yt),e(x),e(Tt),e(Jt),e(R),e(gt),e(A),e(mt),e(rt),e(X),e(Ut),e(wt),e(ft),e(N),e(It),e(Ct),e(Z),e(jt),e($t),e(H),e(bt),e(vt),e(_t),e(E),e(qt),e(xt),e(Qt),e(Y),e(Rt),e(At),e(kt),e(P),e(Xt),e(Bt),e(O),e(Gt),e(Nt),e(tt),e(Zt),e(nt),e(St),e(Ht),e(lt),e(Ft),e(zt),e(at),e(Et),e(Lt),e(Dt),e(ct)),e(i),T(C,t),T(j,t),T(b,t),T(v,t),T(Q,t),T(k,t),T(B,t),T(G,t),T(w,t),T(S,t),T(F,t),T(z,t),T(L,t),T(D,t),T(V,t),T(W,t),T(f,t),T(K,t),T(et,t),T(st,t),T(I,t),T(it,t)}}}const kn='{"title":"Nếu như dữ liệu của ta không trên Hub thì sao?","local":"nếu-như-dữ-liệu-của-ta-không-trên-hub-thì-sao","sections":[{"title":"Làm việc với bộ dữ liệu cục bộ và từ xa","local":"làm-việc-với-bộ-dữ-liệu-cục-bộ-và-từ-xa","sections":[],"depth":2},{"title":"Tải tập dữ liệu cục bộ","local":"tải-tập-dữ-liệu-cục-bộ","sections":[],"depth":2},{"title":"Tải tập dữ liệu từ xa","local":"tải-tập-dữ-liệu-từ-xa","sections":[],"depth":2}],"depth":1}';function Xn(U){return In(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class zn extends Cn{constructor(i){super(),jn(this,i,Xn,An,fn,{})}}export{zn as component};

Xet Storage Details

Size:
26.5 kB
·
Xet hash:
44ee7eac7cffe638fa58e311bbd1ae8de44527353e0066ea0329dd7a241fcf0a

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.