Buckets:
| import{s as Oe,f as xe,n as Ke,o as et}from"../chunks/scheduler.37c15a92.js";import{S as tt,i as at,g as n,s,r as p,A as lt,h as r,f as a,c as i,j as _e,u as c,x as u,k as J,y as st,a as l,v as o,d as m,t as d,w as M}from"../chunks/index.2bf4358c.js";import{C as P}from"../chunks/CodeBlock.4e987730.js";import{C as it}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as Re,E as nt}from"../chunks/getInferenceSnippets.24b50994.js";function rt(Ze){let T,V,Y,D,g,O,y,K,w,ke='În funcție de sarcina NLP cu care lucrați și cazul de utilizare sau aplicația specifică, datele dvs. și sarcina de adnotare vor arăta diferit. Pentru această secțiune a cursului, vom folosi <a href="https://huggingface.co/datasets/SetFit/ag_news" rel="nofollow">un set de date care colectează știri</a> pentru a completa două sarcini: o clasificare de text asupra subiectului fiecărui text și o clasificare de token-uri pentru a identifica entitățile numite menționate.',ee,f,Ae,te,U,qe="Este posibil să importați seturi de date din Hub folosind direct interfața Argilla, dar vom folosi SDK-ul pentru a învăța cum putem face editări suplimentare la date dacă este necesar.",ae,h,le,C,Qe="Primul pas este să ne conectăm la instanța Argilla așa cum am făcut în secțiunea anterioară:",se,j,ie,b,Be="Acum putem gândi la setările setului nostru de date în Argilla. Acestea reprezintă sarcina de adnotare pe care o vom face asupra datelor noastre. Mai întâi, putem încărca setul de date din Hub și să inspectăm caracteristicile acestuia, astfel încât să ne asigurăm că configurăm setul de date corect.",ne,I,re,$,Se="Acestea sunt caracteristicile setului nostru de date:",ue,v,pe,x,ze="Conține un <code>text</code> și de asemenea câteva etichete inițiale pentru clasificarea textului. Le vom adăuga la setările setului nostru de date împreună cu o întrebare <code>spans</code> pentru entitățile numite:",ce,_,oe,R,Ee="Să aprofundăm puțin ce înseamnă aceste setări. Mai întâi, am definit <strong>fields</strong> (câmpuri), acestea includ informațiile pe care le vom anota. În acest caz, avem doar un câmp și vine sub forma unui text, așa că am ales un <code>TextField</code>.",me,Z,Ge="Apoi, definim <strong>questions</strong> (întrebări) care reprezintă sarcinile pe care vrem să le efectuăm asupra datelor noastre:",de,k,Xe="<li>Pentru sarcina de clasificare de text am ales o <code>LabelQuestion</code> și am folosit valorile unice ale coloanei <code>label_text</code> ca etichetele noastre, pentru a ne asigura că întrebarea este compatibilă cu etichetele care există deja în setul de date.</li> <li>Pentru sarcina de clasificare de token-uri, vom avea nevoie de o <code>SpanQuestion</code>. Am definit un set de etichete pe care le vom folosi pentru acea sarcină, plus câmpul pe care vom desena intervalele.</li>",Me,A,Fe='Pentru a afla mai multe despre toate tipurile disponibile de câmpuri și întrebări și alte setări avansate, precum metadatele și vectorii, mergeți la <a href="https://docs.argilla.io/latest/how_to_guides/dataset/#define-dataset-settings" rel="nofollow">documentația Argilla</a>.',fe,q,Je,Q,We="Acum că am definit câteva setări, putem crea setul de date:",Te,B,ge,S,He="Setul de date apare acum în instanța noastră Argilla, dar veți vedea că este gol:",ye,z,Ne,we,E,Pe="Acum trebuie să adăugăm înregistrările pe care le vom anota, adică rândurile din setul nostru de date. Pentru a face asta, va trebui pur și simplu să înregistrăm datele ca înregistrări și să oferim o mapare pentru acele elemente care nu au același nume în seturile de date din hub și Argilla:",Ue,G,he,X,Ye="În maparea noastră, am specificat că coloana <code>label_text</code> din setul de date ar trebui mapată la întrebarea cu numele <code>label</code>. În acest fel, vom folosi etichetele existente din setul de date ca pre-adnotări astfel încât să putem anota mai rapid.",Ce,F,Le="În timp ce înregistrările continuă să se înregistreze, puteți începe deja să lucrați cu setul de date în interfața Argilla. În acest moment, ar trebui să arate așa:",je,W,Ve,be,H,De="Acum setul nostru de date este gata să începem adnotarea!",Ie,N,$e,L,ve;return g=new Re({props:{title:"Încărcați setul de date în Argilla",local:"încărcați-setul-de-date-în-argilla",headingTag:"h1"}}),y=new it({props:{chapter:10,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter10/section3.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter10/section3.ipynb"}]}}),h=new Re({props:{title:"Configurați setul de date",local:"configurați-setul-de-date",headingTag:"h2"}}),j=new P({props:{code:"aW1wb3J0JTIwYXJnaWxsYSUyMGFzJTIwcmclMEElMEFIRl9UT0tFTiUyMCUzRCUyMCUyMi4uLiUyMiUyMCUyMCUyMyUyMGRvYXIlMjBwZW50cnUlMjBzcGFjZS11cmklMjBwcml2YXRlJTBBJTBBY2xpZW50JTIwJTNEJTIwcmcuQXJnaWxsYSglMEElMjAlMjAlMjAlMjBhcGlfdXJsJTNEJTIyLi4uJTIyJTJDJTBBJTIwJTIwJTIwJTIwYXBpX2tleSUzRCUyMi4uLiUyMiUyQyUwQSUyMCUyMCUyMCUyMGhlYWRlcnMlM0QlN0IlMjJBdXRob3JpemF0aW9uJTIyJTNBJTIwZiUyMkJlYXJlciUyMCU3QkhGX1RPS0VOJTdEJTIyJTdEJTJDJTIwJTIwJTIzJTIwZG9hciUyMHBlbnRydSUyMHNwYWNlLXVyaSUyMHByaXZhdGUlMEEp",highlighted:`<span class="hljs-keyword">import</span> argilla <span class="hljs-keyword">as</span> rg | |
| HF_TOKEN = <span class="hljs-string">"..."</span> <span class="hljs-comment"># doar pentru space-uri private</span> | |
| client = rg.Argilla( | |
| api_url=<span class="hljs-string">"..."</span>, | |
| api_key=<span class="hljs-string">"..."</span>, | |
| headers={<span class="hljs-string">"Authorization"</span>: <span class="hljs-string">f"Bearer <span class="hljs-subst">{HF_TOKEN}</span>"</span>}, <span class="hljs-comment"># doar pentru space-uri private</span> | |
| )`,wrap:!1}}),I=new P({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBZGF0YSUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJTZXRGaXQlMkZhZ19uZXdzJTIyJTJDJTIwc3BsaXQlM0QlMjJ0cmFpbiUyMiklMEFkYXRhLmZlYXR1cmVz",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| data = load_dataset(<span class="hljs-string">"SetFit/ag_news"</span>, split=<span class="hljs-string">"train"</span>) | |
| data.features`,wrap:!1}}),v=new P({props:{code:"JTdCJ3RleHQnJTNBJTIwVmFsdWUoZHR5cGUlM0Qnc3RyaW5nJyUyQyUyMGlkJTNETm9uZSklMkMlMEElMjAnbGFiZWwnJTNBJTIwVmFsdWUoZHR5cGUlM0QnaW50NjQnJTJDJTIwaWQlM0ROb25lKSUyQyUwQSUyMCdsYWJlbF90ZXh0JyUzQSUyMFZhbHVlKGR0eXBlJTNEJ3N0cmluZyclMkMlMjBpZCUzRE5vbmUpJTdE",highlighted:`{<span class="hljs-string">'text'</span>: Value(dtype=<span class="hljs-string">'string'</span>, <span class="hljs-built_in">id</span>=<span class="hljs-literal">None</span>), | |
| <span class="hljs-string">'label'</span>: Value(dtype=<span class="hljs-string">'int64'</span>, <span class="hljs-built_in">id</span>=<span class="hljs-literal">None</span>), | |
| <span class="hljs-string">'label_text'</span>: Value(dtype=<span class="hljs-string">'string'</span>, <span class="hljs-built_in">id</span>=<span class="hljs-literal">None</span>)}`,wrap:!1}}),_=new P({props:{code:"c2V0dGluZ3MlMjAlM0QlMjByZy5TZXR0aW5ncyglMEElMjAlMjAlMjAlMjBmaWVsZHMlM0QlNUJyZy5UZXh0RmllbGQobmFtZSUzRCUyMnRleHQlMjIpJTVEJTJDJTBBJTIwJTIwJTIwJTIwcXVlc3Rpb25zJTNEJTVCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwcmcuTGFiZWxRdWVzdGlvbiglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBuYW1lJTNEJTIybGFiZWwlMjIlMkMlMjB0aXRsZSUzRCUyMkNsYXNpZmljYSVDOCU5QmklMjB0ZXh0dWwlM0ElMjIlMkMlMjBsYWJlbHMlM0RkYXRhLnVuaXF1ZSglMjJsYWJlbF90ZXh0JTIyKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCklMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZy5TcGFuUXVlc3Rpb24oJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbmFtZSUzRCUyMmVudGl0aWVzJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwdGl0bGUlM0QlMjJFdmlkZW4lQzglOUJpYSVDOCU5QmklMjB0b2F0ZSUyMGVudGl0JUM0JTgzJUM4JTlCaWxlJTIwZGluJTIwdGV4dCUzQSUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGxhYmVscyUzRCU1QiUyMlBFUlNPTiUyMiUyQyUyMCUyMk9SRyUyMiUyQyUyMCUyMkxPQyUyMiUyQyUyMCUyMkVWRU5UJTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZmllbGQlM0QlMjJ0ZXh0JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwKSUyQyUwQSUyMCUyMCUyMCUyMCU1RCUyQyUwQSk=",highlighted:`settings = rg.Settings( | |
| fields=[rg.TextField(name=<span class="hljs-string">"text"</span>)], | |
| questions=[ | |
| rg.LabelQuestion( | |
| name=<span class="hljs-string">"label"</span>, title=<span class="hljs-string">"Clasificați textul:"</span>, labels=data.unique(<span class="hljs-string">"label_text"</span>) | |
| ), | |
| rg.SpanQuestion( | |
| name=<span class="hljs-string">"entities"</span>, | |
| title=<span class="hljs-string">"Evidențiați toate entitățile din text:"</span>, | |
| labels=[<span class="hljs-string">"PERSON"</span>, <span class="hljs-string">"ORG"</span>, <span class="hljs-string">"LOC"</span>, <span class="hljs-string">"EVENT"</span>], | |
| field=<span class="hljs-string">"text"</span>, | |
| ), | |
| ], | |
| )`,wrap:!1}}),q=new Re({props:{title:"Încărcați setul de date",local:"încărcați-setul-de-date",headingTag:"h2"}}),B=new P({props:{code:"ZGF0YXNldCUyMCUzRCUyMHJnLkRhdGFzZXQobmFtZSUzRCUyMmFnX25ld3MlMjIlMkMlMjBzZXR0aW5ncyUzRHNldHRpbmdzKSUwQSUwQWRhdGFzZXQuY3JlYXRlKCk=",highlighted:`dataset = rg.Dataset(name=<span class="hljs-string">"ag_news"</span>, settings=settings) | |
| dataset.create()`,wrap:!1}}),G=new P({props:{code:"ZGF0YXNldC5yZWNvcmRzLmxvZyhkYXRhJTJDJTIwbWFwcGluZyUzRCU3QiUyMmxhYmVsX3RleHQlMjIlM0ElMjAlMjJsYWJlbCUyMiU3RCk=",highlighted:'dataset.records.log(data, mapping={<span class="hljs-string">"label_text"</span>: <span class="hljs-string">"label"</span>})',wrap:!1}}),N=new nt({props:{source:"https://github.com/huggingface/course/blob/main/chapters/rum/chapter10/3.mdx"}}),{c(){T=n("meta"),V=s(),Y=n("p"),D=s(),p(g.$$.fragment),O=s(),p(y.$$.fragment),K=s(),w=n("p"),w.innerHTML=ke,ee=s(),f=n("iframe"),te=s(),U=n("p"),U.textContent=qe,ae=s(),p(h.$$.fragment),le=s(),C=n("p"),C.textContent=Qe,se=s(),p(j.$$.fragment),ie=s(),b=n("p"),b.textContent=Be,ne=s(),p(I.$$.fragment),re=s(),$=n("p"),$.textContent=Se,ue=s(),p(v.$$.fragment),pe=s(),x=n("p"),x.innerHTML=ze,ce=s(),p(_.$$.fragment),oe=s(),R=n("p"),R.innerHTML=Ee,me=s(),Z=n("p"),Z.innerHTML=Ge,de=s(),k=n("ul"),k.innerHTML=Xe,Me=s(),A=n("p"),A.innerHTML=Fe,fe=s(),p(q.$$.fragment),Je=s(),Q=n("p"),Q.textContent=We,Te=s(),p(B.$$.fragment),ge=s(),S=n("p"),S.textContent=He,ye=s(),z=n("img"),we=s(),E=n("p"),E.textContent=Pe,Ue=s(),p(G.$$.fragment),he=s(),X=n("p"),X.innerHTML=Ye,Ce=s(),F=n("p"),F.textContent=Le,je=s(),W=n("img"),be=s(),H=n("p"),H.textContent=De,Ie=s(),p(N.$$.fragment),$e=s(),L=n("p"),this.h()},l(e){const t=lt("svelte-u9bgzb",document.head);T=r(t,"META",{name:!0,content:!0}),t.forEach(a),V=i(e),Y=r(e,"P",{}),_e(Y).forEach(a),D=i(e),c(g.$$.fragment,e),O=i(e),c(y.$$.fragment,e),K=i(e),w=r(e,"P",{"data-svelte-h":!0}),u(w)!=="svelte-1i0olvk"&&(w.innerHTML=ke),ee=i(e),f=r(e,"IFRAME",{src:!0,frameborder:!0,width:!0,height:!0}),_e(f).forEach(a),te=i(e),U=r(e,"P",{"data-svelte-h":!0}),u(U)!=="svelte-1etuk73"&&(U.textContent=qe),ae=i(e),c(h.$$.fragment,e),le=i(e),C=r(e,"P",{"data-svelte-h":!0}),u(C)!=="svelte-vihwuy"&&(C.textContent=Qe),se=i(e),c(j.$$.fragment,e),ie=i(e),b=r(e,"P",{"data-svelte-h":!0}),u(b)!=="svelte-x3h3cx"&&(b.textContent=Be),ne=i(e),c(I.$$.fragment,e),re=i(e),$=r(e,"P",{"data-svelte-h":!0}),u($)!=="svelte-137zgeo"&&($.textContent=Se),ue=i(e),c(v.$$.fragment,e),pe=i(e),x=r(e,"P",{"data-svelte-h":!0}),u(x)!=="svelte-1rgrn08"&&(x.innerHTML=ze),ce=i(e),c(_.$$.fragment,e),oe=i(e),R=r(e,"P",{"data-svelte-h":!0}),u(R)!=="svelte-x0f6zd"&&(R.innerHTML=Ee),me=i(e),Z=r(e,"P",{"data-svelte-h":!0}),u(Z)!=="svelte-1d5tsbw"&&(Z.innerHTML=Ge),de=i(e),k=r(e,"UL",{"data-svelte-h":!0}),u(k)!=="svelte-bsfyy2"&&(k.innerHTML=Xe),Me=i(e),A=r(e,"P",{"data-svelte-h":!0}),u(A)!=="svelte-dsyqbi"&&(A.innerHTML=Fe),fe=i(e),c(q.$$.fragment,e),Je=i(e),Q=r(e,"P",{"data-svelte-h":!0}),u(Q)!=="svelte-1skg88q"&&(Q.textContent=We),Te=i(e),c(B.$$.fragment,e),ge=i(e),S=r(e,"P",{"data-svelte-h":!0}),u(S)!=="svelte-13zpv1e"&&(S.textContent=He),ye=i(e),z=r(e,"IMG",{src:!0,alt:!0}),we=i(e),E=r(e,"P",{"data-svelte-h":!0}),u(E)!=="svelte-1j7ehro"&&(E.textContent=Pe),Ue=i(e),c(G.$$.fragment,e),he=i(e),X=r(e,"P",{"data-svelte-h":!0}),u(X)!=="svelte-d0fcfp"&&(X.innerHTML=Ye),Ce=i(e),F=r(e,"P",{"data-svelte-h":!0}),u(F)!=="svelte-1v48tzt"&&(F.textContent=Le),je=i(e),W=r(e,"IMG",{src:!0,alt:!0}),be=i(e),H=r(e,"P",{"data-svelte-h":!0}),u(H)!=="svelte-5q3jw9"&&(H.textContent=De),Ie=i(e),c(N.$$.fragment,e),$e=i(e),L=r(e,"P",{}),_e(L).forEach(a),this.h()},h(){J(T,"name","hf:doc:metadata"),J(T,"content",ut),xe(f.src,Ae="https://huggingface.co/datasets/SetFit/ag_news/embed/viewer/default/train")||J(f,"src",Ae),J(f,"frameborder","0"),J(f,"width","100%"),J(f,"height","560px"),xe(z.src,Ne="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter10/empty_dataset.png")||J(z,"src",Ne),J(z,"alt","Captură de ecran cu setul de date gol."),xe(W.src,Ve="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter10/argilla_initial_dataset.png")||J(W,"src",Ve),J(W,"alt","Captură de ecran cu setul de date în Argilla.")},m(e,t){st(document.head,T),l(e,V,t),l(e,Y,t),l(e,D,t),o(g,e,t),l(e,O,t),o(y,e,t),l(e,K,t),l(e,w,t),l(e,ee,t),l(e,f,t),l(e,te,t),l(e,U,t),l(e,ae,t),o(h,e,t),l(e,le,t),l(e,C,t),l(e,se,t),o(j,e,t),l(e,ie,t),l(e,b,t),l(e,ne,t),o(I,e,t),l(e,re,t),l(e,$,t),l(e,ue,t),o(v,e,t),l(e,pe,t),l(e,x,t),l(e,ce,t),o(_,e,t),l(e,oe,t),l(e,R,t),l(e,me,t),l(e,Z,t),l(e,de,t),l(e,k,t),l(e,Me,t),l(e,A,t),l(e,fe,t),o(q,e,t),l(e,Je,t),l(e,Q,t),l(e,Te,t),o(B,e,t),l(e,ge,t),l(e,S,t),l(e,ye,t),l(e,z,t),l(e,we,t),l(e,E,t),l(e,Ue,t),o(G,e,t),l(e,he,t),l(e,X,t),l(e,Ce,t),l(e,F,t),l(e,je,t),l(e,W,t),l(e,be,t),l(e,H,t),l(e,Ie,t),o(N,e,t),l(e,$e,t),l(e,L,t),ve=!0},p:Ke,i(e){ve||(m(g.$$.fragment,e),m(y.$$.fragment,e),m(h.$$.fragment,e),m(j.$$.fragment,e),m(I.$$.fragment,e),m(v.$$.fragment,e),m(_.$$.fragment,e),m(q.$$.fragment,e),m(B.$$.fragment,e),m(G.$$.fragment,e),m(N.$$.fragment,e),ve=!0)},o(e){d(g.$$.fragment,e),d(y.$$.fragment,e),d(h.$$.fragment,e),d(j.$$.fragment,e),d(I.$$.fragment,e),d(v.$$.fragment,e),d(_.$$.fragment,e),d(q.$$.fragment,e),d(B.$$.fragment,e),d(G.$$.fragment,e),d(N.$$.fragment,e),ve=!1},d(e){e&&(a(V),a(Y),a(D),a(O),a(K),a(w),a(ee),a(f),a(te),a(U),a(ae),a(le),a(C),a(se),a(ie),a(b),a(ne),a(re),a($),a(ue),a(pe),a(x),a(ce),a(oe),a(R),a(me),a(Z),a(de),a(k),a(Me),a(A),a(fe),a(Je),a(Q),a(Te),a(ge),a(S),a(ye),a(z),a(we),a(E),a(Ue),a(he),a(X),a(Ce),a(F),a(je),a(W),a(be),a(H),a(Ie),a($e),a(L)),a(T),M(g,e),M(y,e),M(h,e),M(j,e),M(I,e),M(v,e),M(_,e),M(q,e),M(B,e),M(G,e),M(N,e)}}}const ut='{"title":"Încărcați setul de date în Argilla","local":"încărcați-setul-de-date-în-argilla","sections":[{"title":"Configurați setul de date","local":"configurați-setul-de-date","sections":[],"depth":2},{"title":"Încărcați setul de date","local":"încărcați-setul-de-date","sections":[],"depth":2}],"depth":1}';function pt(Ze){return et(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class ft extends tt{constructor(T){super(),at(this,T,pt,rt,Oe,{})}}export{ft as component}; | |
Xet Storage Details
- Size:
- 15.7 kB
- Xet hash:
- 16557518bff1626ba90521ed1d22b1dca063620673bfbaeb9e39d75862115e3c
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.