Buckets:

rtrm's picture
download
raw
18.4 kB
import{s as je,n as De,o as Pe}from"../chunks/scheduler.37c15a92.js";import{S as Re,i as Ge,g as k,s as r,r as c,A as Ie,h as B,f as a,c as n,j as qe,u as s,x as we,k as Me,y as Fe,a as i,v as u,d as l,t as p,w as m}from"../chunks/index.2bf4358c.js";import{C as Je}from"../chunks/CodeBlock.4e987730.js";import{C as He}from"../chunks/CourseFloatingBanner.6add7356.js";import{Q as d}from"../chunks/Question.e61af2ef.js";import{H as o,E as Le}from"../chunks/getInferenceSnippets.ebf8be91.js";function Ze(_e){let f,X,Y,Q,$,W,g,S,x,Ue="Acest capitol a acoperit o mulțime de subiecte! Nu vă faceți griji dacă nu ați înțeles toate detaliile; capitolele următoare vă vor ajuta să înțelegeți cum funcționează lucrurile mai aprofundat.",V,b,Ae="Înainte de a trece mai departe, totuși trebuie să testăm ce ați învățat în acest capitol.",O,v,K,C,ee,z,te,h,ae,y,Te="Care dintre următoarele comenzi va produce un exemplu aleatoriu de 50 de elemente din <code>dataset</code>?",ie,w,re,_,ne,U,ce,A,se,T,ue,q,le,M,pe,J,me,j,oe,D,de,P,fe,R,$e,G,ge,I,xe,F,be,H,ve,L,Ce,Z,ze,N,he,E,ye;return $=new o({props:{title:"Quiz de final de capitol",local:"end-of-chapter-quiz",headingTag:"h1"}}),g=new He({props:{chapter:5,classNames:"absolute z-10 right-0 top-0"}}),v=new o({props:{title:"1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?",local:"1-funcția-loaddataset-din--datasets-vă-permite-să-încărcați-un-dataset-din-care-dintre-următoarele-locații",headingTag:"h3"}}),C=new d({props:{choices:[{text:"Local, de exemplu pe laptop",explain:"Corect! Puteți trece path-urile fișierelor locale ca argument al `data_files` al `load_dataset()` pentru a încărca dataseturi locale.",correct:!0},{text:"Hugging Face Hub",explain:"Corect! Puteți încărca dataseturi de pe Hub furnizând ID-ul datasetului, de exemplu <code>load_dataset('emotion')</code>.",correct:!0},{text:"Un server remote",explain:"Corect! Puteți trece URL-uri ca argument al `data_files` al `load_dataset()` pentru a încărca fișiere remote.",correct:!0}]}}),z=new o({props:{title:"2. Presupunem că încărcați una dintre sarcinile GLUE astfel:",local:"2-presupunem-că-încărcați-una-dintre-sarcinile-glue-astfel",headingTag:"h3"}}),h=new Je({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJnbHVlJTIyJTJDJTIwJTIybXJwYyUyMiUyQyUyMHNwbGl0JTNEJTIydHJhaW4lMjIp",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
dataset = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mrpc&quot;</span>, split=<span class="hljs-string">&quot;train&quot;</span>)`,wrap:!1}}),w=new d({props:{choices:[{text:"<code>dataset.sample(50)</code>",explain:"Acest lucru este incorect -- nu există o metodă `Dataset.sample()`."},{text:"<code>dataset.shuffle().select(range(50))</code>",explain:"Corect! Așa cum ați văzut în acest capitol, mai întâi faceți shuffle datasetului și apoi selectați exemplele din el.",correct:!0},{text:"<code>dataset.select(range(50)).shuffle()</code>",explain:"Acest lucru este incorect -- deși codul va rula, va amesteca doar primele 50 de elemente din setul de date."}]}}),_=new o({props:{title:"3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?",local:"3-presupunem-că-aveți-un-set-de-date-despre-animale-de-companie-numit-petsdataset--care-are-o-coloană-name-care-denotă-numele-fiecărui-animal-de-companie-care-dintre-următoarele-abordări-v-ar-permite-să-filtrați-setul-de-date-pentru-toate-animalele-de-companie-ale-căror-nume-încep-cu-litera-l",headingTag:"h3"}}),U=new d({props:{choices:[{text:"<code>pets_dataset.filter(lambda x : x['name'].startswith('L'))</code>",explain:"Corect! Utilizarea unei funcții lambda python pentru aceste filtre rapide este o idee grozavă. Vă puteți gândi și la o altă soluție?",correct:!0},{text:"<code>pets_dataset.filter(lambda x['name'].startswith('L'))</code>",explain:"Acest lucru este incorect -- o funcție lambda are forma generală <code>lambda *arguments* : *expression*</code>, deci trebuie să furnizați argumente în acest caz."},{text:"Creați o funcție ca <code>def filter_names(x): return x['name'].startswith('L')</code> și rulați <code>pets_dataset.filter(filter_names)</code>.",explain:"Corect! La fel ca și cu <code>Dataset.map()</code>, puteți trece funcții explicite la <code>Dataset.filter()</code>. Acest lucru este util atunci când aveți o logică complexă care nu este potrivită pentru o funcție lambda. Care dintre celelalte soluții ar mai funcționa?",correct:!0}]}}),A=new o({props:{title:"4. Ce este memory mapping?",local:"4-ce-este-memory-mapping",headingTag:"h3"}}),T=new d({props:{choices:[{text:"Mappingul între CPU și GPU RAM",explain:"Acest lucru nu este corect -- încearcă din nou!"},{text:"Mapping între RAM și stocarea sistemului de fișiere",explain:"Corect! 🤗 Datasets tratează fiecare dataset ca pe un fișier memory-mapped. Acest lucru permite bibliotecii să acceseze și să opereze pe elemente ale datasetului fără să fie nevoie să îl încarce complet în memorie.",correct:!0},{text:"Mapping între două fișiere din cache-ul 🤗 Datasets",explain:"Acest lucru nu este corect -- încearcă din nou!"}]}}),q=new o({props:{title:"5. Care sunt principalele beneficii ale memory-mapping?",local:"5-care-sunt-principalele-beneficii-ale-memory-mapping",headingTag:"h3"}}),M=new d({props:{choices:[{text:"Accesarea fișierelor memory-mapped este mai rapid decât citirea de pe disc sau scrierea pe disc.",explain:"Corect! Acest lucru permite 🤗 Datasets să fie extrem de rapid. Acesta însă nu este singurul beneficiu.",correct:!0},{text:"Aplicațiile pot accesa segmente de date dintr-un fișier extrem de mare fără a fi necesar să citească întregul fișier în RAM mai întâi.",explain:"Corect! Acest lucru permite 🤗 Datasets să încarce dataseturi de câțiva gigabytes pe laptopul tău fără a fi nevoie să supraîncărcați CPU-ul. Ce alt avantaj oferă memory-mapping?",correct:!0},{text:"Acesta consumă mai puțină energie, astfel încât bateria ta ține mai mult.",explain:"Acest lucru nu este corect -- încearcă din nou!"}]}}),J=new o({props:{title:"6. De ce codul următor eșuează?",local:"6-de-ce-codul-următor-eșuează",headingTag:"h3"}}),j=new Je({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJhbGxvY2luZSUyMiUyQyUyMHN0cmVhbWluZyUzRFRydWUlMkMlMjBzcGxpdCUzRCUyMnRyYWluJTIyKSUwQWRhdGFzZXQlNUIwJTVE",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
dataset = load_dataset(<span class="hljs-string">&quot;allocine&quot;</span>, streaming=<span class="hljs-literal">True</span>, split=<span class="hljs-string">&quot;train&quot;</span>)
dataset[<span class="hljs-number">0</span>]`,wrap:!1}}),D=new d({props:{choices:[{text:"Încearcă să facă streaming unui dataset prea mare pentru a încăpea în RAM.",explain:"Acest lucru nu este corect -- streaming datasets sunt decomprimate pe loc, și puteți prelucra dataseturi de terabytes cu foarte puțin RAM!"},{text:"Încearcă să acceseze un <code>IterableDataset</code>.",explain:"Corect! Un <code>IterableDataset</code> este un generator, nu un container, deci ar trebui să accesați elementele sale utilizând <code>next(iter(dataset))</code>.",correct:!0},{text:"Datasetul <code>allocine</code> nu are o un split <code>train</code>.",explain:"Acest lucru este incorect -- consultați cardul datasetului <code>allocine</code> de pe Hub pentru a vedea ce splituri conține."}]}}),P=new o({props:{title:"7. Care sunt principalele beneficii ale creării unui dataset card?",local:"7-care-sunt-principalele-beneficii-ale-creării-unui-dataset-card",headingTag:"h3"}}),R=new d({props:{choices:[{text:"Oferă informații despre utilizarea intenționată și sarcinile susținute ale datasetului, astfel încât ceilalți din comunitate să poată lua o decizie cu privire la utilizarea acestuia.",explain:"Corect! Dataseturile nedocumentate pot fi utilizate pentru a antrena modele care pot să nu reflecte intențiile creatorilor sau pot produce modele a căror statut juridic este incert dacă sunt antrenate pe date care încalcă confidențialitatea sau restricțiile de licențiere. Acesta nu este singurul beneficiu, totuși!",correct:!0},{text:"Ajută la sublinierea biasurilor prezente într-un corpus.",explain:"Corect! Aproape toate dataseturile au o formă de bias, ceea ce poate produce consecințe negative. A fi conștient de ele ajută creatorii de modele să înțeleagă cum să abordeze biasurile indispensabile. Cu ce altceva vă pot ajuta dataset cardurile?",correct:!0},{text:"Îmbunătățește șansele ca ceilalți din comunitate să utilizeze datasetul meu.",explain:"Corect! Un dataset card bine scris va avea tendința de a duce la o utilizare mai mare a prețiosului tău dataset. Ce beneficiu mai oferă?",correct:!0}]}}),G=new o({props:{title:"8. Ce este căutarea semantică?",local:"8-ce-este-căutarea-semantică",headingTag:"h3"}}),I=new d({props:{choices:[{text:"Un mod de a căuta pentru a găsi potriviri exacte între cuvintele dintr-un query și documentele dintr-un corpus",explain:"Acest lucru este incorect -- acest tip de căutare se numește *căutare lexicală*, și este ceea ce vedeți de obicei cu motoarele de căutare tradiționale."},{text:"Un mod de a căuta documente care se potrivesc prin înțelegerea sensului contextual al unui query",explain:"Corect! Căutarea semantică utilizează embedding vectors pentru a reprezenta queries și documente și utilizează o metrică de similaritate pentru a măsura cantitatea de suprapunere între ele. Cum altfel ați putea descrie-o?",correct:!0},{text:"Un mod de a îmbunătăți acuratețea căutării",explain:"Corect! Motoarele de căutare semantice pot captura intenția unui query mult mai bine decât potrivirea de cuvinte cheie și de obicei preia documente cu o precizie mai mare. Dar acesta nu este singurul răspuns corect -- ce alt beneficiu oferă căutarea semantică?",correct:!0}]}}),F=new o({props:{title:"9. Pentru căutarea semantică asimetrică, de obicei aveți:",local:"9-pentru-căutarea-semantică-asimetrică-de-obicei-aveți",headingTag:"h3"}}),H=new d({props:{choices:[{text:"Un query scurt și un paragraf mai lung care răspunde la query",explain:"Corect!",correct:!0},{text:"Queries și paragrafe care sunt de aproximativ aceeași lungime",explain:"Acest lucru este de fapt un exemplu de căutare semantică simetrică -- încercați din nou!"},{text:"Un query lung și un paragraf mai scurt care răspunde la query",explain:"Acest lucru este incorect -- încercați din nou!"}]}}),L=new o({props:{title:"10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?",local:"10-pot-utiliza--datasets-pentru-a-încărca-date-pentru-utilizare-în-alte-domenii-cum-ar-fi-speech-processing",headingTag:"h3"}}),Z=new d({props:{choices:[{text:"Nu",explain:"Acest lucru este incorect -- 🤗 Datasets acceptă în prezent date tabulare, audio și imagini. Consultați datasetul <a href='https://huggingface.co/datasets/mnist'>MNIST</a> de pe Hub pentru a vedea un exemplu de computer vision."},{text:"Da",explain:"Corect! Consultați dezvoltările interesante cu privire la speech și vision în biblioteca 🤗 Transformers pentru a vedea cum 🤗 Datasets este utilizat în aceste domenii.",correct:!0}]}}),N=new Le({props:{source:"https://github.com/huggingface/course/blob/main/chapters/rum/chapter5/8.mdx"}}),{c(){f=k("meta"),X=r(),Y=k("p"),Q=r(),c($.$$.fragment),W=r(),c(g.$$.fragment),S=r(),x=k("p"),x.textContent=Ue,V=r(),b=k("p"),b.textContent=Ae,O=r(),c(v.$$.fragment),K=r(),c(C.$$.fragment),ee=r(),c(z.$$.fragment),te=r(),c(h.$$.fragment),ae=r(),y=k("p"),y.innerHTML=Te,ie=r(),c(w.$$.fragment),re=r(),c(_.$$.fragment),ne=r(),c(U.$$.fragment),ce=r(),c(A.$$.fragment),se=r(),c(T.$$.fragment),ue=r(),c(q.$$.fragment),le=r(),c(M.$$.fragment),pe=r(),c(J.$$.fragment),me=r(),c(j.$$.fragment),oe=r(),c(D.$$.fragment),de=r(),c(P.$$.fragment),fe=r(),c(R.$$.fragment),$e=r(),c(G.$$.fragment),ge=r(),c(I.$$.fragment),xe=r(),c(F.$$.fragment),be=r(),c(H.$$.fragment),ve=r(),c(L.$$.fragment),Ce=r(),c(Z.$$.fragment),ze=r(),c(N.$$.fragment),he=r(),E=k("p"),this.h()},l(e){const t=Ie("svelte-u9bgzb",document.head);f=B(t,"META",{name:!0,content:!0}),t.forEach(a),X=n(e),Y=B(e,"P",{}),qe(Y).forEach(a),Q=n(e),s($.$$.fragment,e),W=n(e),s(g.$$.fragment,e),S=n(e),x=B(e,"P",{"data-svelte-h":!0}),we(x)!=="svelte-qchcas"&&(x.textContent=Ue),V=n(e),b=B(e,"P",{"data-svelte-h":!0}),we(b)!=="svelte-f0coti"&&(b.textContent=Ae),O=n(e),s(v.$$.fragment,e),K=n(e),s(C.$$.fragment,e),ee=n(e),s(z.$$.fragment,e),te=n(e),s(h.$$.fragment,e),ae=n(e),y=B(e,"P",{"data-svelte-h":!0}),we(y)!=="svelte-8shrzi"&&(y.innerHTML=Te),ie=n(e),s(w.$$.fragment,e),re=n(e),s(_.$$.fragment,e),ne=n(e),s(U.$$.fragment,e),ce=n(e),s(A.$$.fragment,e),se=n(e),s(T.$$.fragment,e),ue=n(e),s(q.$$.fragment,e),le=n(e),s(M.$$.fragment,e),pe=n(e),s(J.$$.fragment,e),me=n(e),s(j.$$.fragment,e),oe=n(e),s(D.$$.fragment,e),de=n(e),s(P.$$.fragment,e),fe=n(e),s(R.$$.fragment,e),$e=n(e),s(G.$$.fragment,e),ge=n(e),s(I.$$.fragment,e),xe=n(e),s(F.$$.fragment,e),be=n(e),s(H.$$.fragment,e),ve=n(e),s(L.$$.fragment,e),Ce=n(e),s(Z.$$.fragment,e),ze=n(e),s(N.$$.fragment,e),he=n(e),E=B(e,"P",{}),qe(E).forEach(a),this.h()},h(){Me(f,"name","hf:doc:metadata"),Me(f,"content",Ne)},m(e,t){Fe(document.head,f),i(e,X,t),i(e,Y,t),i(e,Q,t),u($,e,t),i(e,W,t),u(g,e,t),i(e,S,t),i(e,x,t),i(e,V,t),i(e,b,t),i(e,O,t),u(v,e,t),i(e,K,t),u(C,e,t),i(e,ee,t),u(z,e,t),i(e,te,t),u(h,e,t),i(e,ae,t),i(e,y,t),i(e,ie,t),u(w,e,t),i(e,re,t),u(_,e,t),i(e,ne,t),u(U,e,t),i(e,ce,t),u(A,e,t),i(e,se,t),u(T,e,t),i(e,ue,t),u(q,e,t),i(e,le,t),u(M,e,t),i(e,pe,t),u(J,e,t),i(e,me,t),u(j,e,t),i(e,oe,t),u(D,e,t),i(e,de,t),u(P,e,t),i(e,fe,t),u(R,e,t),i(e,$e,t),u(G,e,t),i(e,ge,t),u(I,e,t),i(e,xe,t),u(F,e,t),i(e,be,t),u(H,e,t),i(e,ve,t),u(L,e,t),i(e,Ce,t),u(Z,e,t),i(e,ze,t),u(N,e,t),i(e,he,t),i(e,E,t),ye=!0},p:De,i(e){ye||(l($.$$.fragment,e),l(g.$$.fragment,e),l(v.$$.fragment,e),l(C.$$.fragment,e),l(z.$$.fragment,e),l(h.$$.fragment,e),l(w.$$.fragment,e),l(_.$$.fragment,e),l(U.$$.fragment,e),l(A.$$.fragment,e),l(T.$$.fragment,e),l(q.$$.fragment,e),l(M.$$.fragment,e),l(J.$$.fragment,e),l(j.$$.fragment,e),l(D.$$.fragment,e),l(P.$$.fragment,e),l(R.$$.fragment,e),l(G.$$.fragment,e),l(I.$$.fragment,e),l(F.$$.fragment,e),l(H.$$.fragment,e),l(L.$$.fragment,e),l(Z.$$.fragment,e),l(N.$$.fragment,e),ye=!0)},o(e){p($.$$.fragment,e),p(g.$$.fragment,e),p(v.$$.fragment,e),p(C.$$.fragment,e),p(z.$$.fragment,e),p(h.$$.fragment,e),p(w.$$.fragment,e),p(_.$$.fragment,e),p(U.$$.fragment,e),p(A.$$.fragment,e),p(T.$$.fragment,e),p(q.$$.fragment,e),p(M.$$.fragment,e),p(J.$$.fragment,e),p(j.$$.fragment,e),p(D.$$.fragment,e),p(P.$$.fragment,e),p(R.$$.fragment,e),p(G.$$.fragment,e),p(I.$$.fragment,e),p(F.$$.fragment,e),p(H.$$.fragment,e),p(L.$$.fragment,e),p(Z.$$.fragment,e),p(N.$$.fragment,e),ye=!1},d(e){e&&(a(X),a(Y),a(Q),a(W),a(S),a(x),a(V),a(b),a(O),a(K),a(ee),a(te),a(ae),a(y),a(ie),a(re),a(ne),a(ce),a(se),a(ue),a(le),a(pe),a(me),a(oe),a(de),a(fe),a($e),a(ge),a(xe),a(be),a(ve),a(Ce),a(ze),a(he),a(E)),a(f),m($,e),m(g,e),m(v,e),m(C,e),m(z,e),m(h,e),m(w,e),m(_,e),m(U,e),m(A,e),m(T,e),m(q,e),m(M,e),m(J,e),m(j,e),m(D,e),m(P,e),m(R,e),m(G,e),m(I,e),m(F,e),m(H,e),m(L,e),m(Z,e),m(N,e)}}}const Ne='{"title":"Quiz de final de capitol","local":"end-of-chapter-quiz","sections":[{"title":"1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?","local":"1-funcția-loaddataset-din--datasets-vă-permite-să-încărcați-un-dataset-din-care-dintre-următoarele-locații","sections":[],"depth":3},{"title":"2. Presupunem că încărcați una dintre sarcinile GLUE astfel:","local":"2-presupunem-că-încărcați-una-dintre-sarcinile-glue-astfel","sections":[],"depth":3},{"title":"3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?","local":"3-presupunem-că-aveți-un-set-de-date-despre-animale-de-companie-numit-petsdataset--care-are-o-coloană-name-care-denotă-numele-fiecărui-animal-de-companie-care-dintre-următoarele-abordări-v-ar-permite-să-filtrați-setul-de-date-pentru-toate-animalele-de-companie-ale-căror-nume-încep-cu-litera-l","sections":[],"depth":3},{"title":"4. Ce este memory mapping?","local":"4-ce-este-memory-mapping","sections":[],"depth":3},{"title":"5. Care sunt principalele beneficii ale memory-mapping?","local":"5-care-sunt-principalele-beneficii-ale-memory-mapping","sections":[],"depth":3},{"title":"6. De ce codul următor eșuează?","local":"6-de-ce-codul-următor-eșuează","sections":[],"depth":3},{"title":"7. Care sunt principalele beneficii ale creării unui dataset card?","local":"7-care-sunt-principalele-beneficii-ale-creării-unui-dataset-card","sections":[],"depth":3},{"title":"8. Ce este căutarea semantică?","local":"8-ce-este-căutarea-semantică","sections":[],"depth":3},{"title":"9. Pentru căutarea semantică asimetrică, de obicei aveți:","local":"9-pentru-căutarea-semantică-asimetrică-de-obicei-aveți","sections":[],"depth":3},{"title":"10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?","local":"10-pot-utiliza--datasets-pentru-a-încărca-date-pentru-utilizare-în-alte-domenii-cum-ar-fi-speech-processing","sections":[],"depth":3}],"depth":1}';function ke(_e){return Pe(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Se extends Re{constructor(f){super(),Ge(this,f,ke,Ze,je,{})}}export{Se as component};

Xet Storage Details

Size:
18.4 kB
·
Xet hash:
d7b66b003611903e3a2f879a660a8227a24e5643d9cfd497686e0454cc7aab57

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.