Buckets:
| import{s as ar,o as lr,n as Ua}from"../chunks/scheduler.37c15a92.js";import{S as sr,i as nr,g as i,s,r as c,m as Un,A as ir,h as r,f as a,c as n,j as tr,u,x as p,n as jn,k as fa,y as rr,a as l,v as d,d as m,t as o,w as M}from"../chunks/index.2bf4358c.js";import{T as wa}from"../chunks/Tip.363c041f.js";import{Y as hn}from"../chunks/Youtube.1e50a667.js";import{C as J}from"../chunks/CodeBlock.4e987730.js";import{C as pr}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as Ta,E as cr}from"../chunks/getInferenceSnippets.80a69898.js";function ur(U){let y,f="✏️ <strong>Încearcă!</strong> Folosiți funcția <code>Dataset.unique()</code> pentru a găsi numărul de medicamente și condiții unice în seturile de antrenare și testare.";return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-lssxh7"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function dr(U){let y,f="🙋 O alternativă la adăugarea unei noi coloane într-un dataset este funcția <code>Dataset.add_column()</code>. Aceasta permite să oferiți coloana ca o listă Python sau array NumPy și poate fi utilă în situații în care <code>Dataset.map()</code> nu este bine adaptat pentru analiza dumneavoastră.";return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-1semtlt"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function mr(U){let y,f='✏️ <strong>Încercați!</strong> Folosiți funcția <code>Dataset.sort()</code> pentru a inspecta recenziile cu cele mai mari numere de cuvinte. Vezi <a href="https://huggingface.co/docs/datasets/package_reference/main_classes#datasets.Dataset.sort" rel="nofollow">documentația</a> pentru a vedea ce argument trebuie să folosești pentru a sorta recenziile în ordine descrescătoare.';return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-p7s962"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function or(U){let y,f="✏️ <strong>Încercați!</strong> Executați aceeași instrucție cu și fără <code>batched=True</code>, apoi încercați-o cu un tokenizer lent (adaugați <code>use_fast=False</code> în metoda <code>AutoTokenizer.from_pretrained()</code>), astfel să puteți vedea ce numere obțineți pe hardwareul vostru.";return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-jovz77"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function Mr(U){let y,f="🚨 În spatele scenei, <code>Dataset.set_format()</code> schimbă formatul returnat pentru <code>__getitem__()</code> dunder method a datasetului. Asta înseamnă că atunci când dorim să creăm un nou obiect ca <code>train_df</code> dintr-un <code>Dataset</code> în formatul <code>"pandas"</code>, trebuie să tăiem întreg datasetul pentru a obține un <code>pandas.DataFrame</code>. Puteți verifica voi înşivă că tipul lui <code>drug_dataset["train"]</code> este <code>Dataset</code>, indiferent de output format.";return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-1rhle3k"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function Jr(U){let y,f="✏️ <strong>Încercați!</strong> Calculați media ratingului per medicament și salvați rezultatul într-un nou <code>Dataset</code>.";return{c(){y=i("p"),y.innerHTML=f},l(T){y=r(T,"P",{"data-svelte-h":!0}),p(y)!=="svelte-2cs7rl"&&(y.innerHTML=f)},m(T,w){l(T,y,w)},p:Ua,d(T){T&&a(y)}}}function yr(U){let y,f,T,w,v,ha,Z,ba,k,bn="În cea mai mare parte, datele cu care lucrezi nu vor fi perfect pregătite pentru antrenarea modelelor. În această secțiune vom explora features variate pe care 🤗 Datasets le oferă pentru curățirea dataseturilor.",ga,V,$a,G,Ca,_,gn='Asemenea Pandas, 🤗 Datasets oferă mai multe funcții pentru a manipula conținutul obiectelor <code>Dataset</code> și <code>DatasetDict</code>. Am întâlnit deja metoda <code>Dataset.map()</code> în <a href="/course/chapter3">Capitolul 3</a>, iar în această secțiune vom explora alte funcții de care dispunem.',xa,X,$n='În acest exemplu, vom folosi <a href="https://archive.ics.uci.edu/ml/datasets/Drug+Review+Dataset+%28Drugs.com%29" rel="nofollow">Drug Review Dataset</a> găzduit pe <a href="https://archive.ics.uci.edu/ml/index.php" rel="nofollow">UC Irvine Machine Learning Repository</a>, care conține reviewurile pacienților privind diverse medicamente, alături de bolile care sunt tratate și o evaluare de 10 stele a satisfacției pacientului.',Ia,z,Cn="În primul rând trebuie să descărcăm și să extragem datele, ceea ce se poate de făcut cu comenzile <code>wget</code> și <code>unzip</code>:",va,W,Za,B,xn="Deoarece TSV este o variantă a CSV care folosește taburi în loc de virgulă ca separator, putem încărca aceste fișiere prin folosirea scriptului de încărcare <code>csv</code> și specificarea argumentului <code>delimiter</code> în funcția <code>load_dataset()</code> astfel:",ka,Q,Va,R,In="O practică bună atunci când faceți orice fel de analiză a datelor este să vă luați un mic random sample pentru a înțelege cu ce tip de date lucrați. În 🤗 Datasets, putem crea o colecție aleatorie prin legarea funcțiilor <code>Dataset.shuffle()</code> și <code>Dataset.select()</code>:",Ga,N,_a,H,Xa,A,vn="Atrageți atenția că am fixat seedul în <code>Dataset.shuffle()</code> pentru posibilitatea de reproducere. <code>Dataset.select()</code> se așteaptă la un iterabil cu indices, deci noi am scris <code>range(1000)</code> pentru a primi primele 1000 de exemple din datasetul amestecat. Din acest sample putem vedea câteva ciudățenii în datasetul nostru:",za,D,Zn="<li>Coloana <code>Unnamed: 0</code> are un aspect neobișnuit, care sugerează că este un anonymized ID a fiecărui pacient.</li> <li>Coloana <code>condition</code> conține labeluri majuscule și minuscule.</li> <li>Recenziile au lungimi variate și conțin caractere Python precum <code>\\r\\n</code> şi caractere HTML ca <code>&\\#039;</code>.</li>",Wa,Y,kn="Hai să vedem cum putem folosi 🤗 Datasets pentru a face față fiecărei dintre aceste probleme. Pentru a testa ipoteza identificării pacientului pentru coloana <code>Unnamed: 0</code>, putem folosi funcția <code>Dataset.unique()</code> pentru a verifica dacă numărul de ID-uri corespunde cu numărul de rânduri în fiecare split:",Ba,F,Qa,E,Vn="Aceasta pare să confirme ipoteza, deci putem curăța datasetul puțin, redenumind coloana <code>Unnamed: 0</code> pentru a-i da un nume mai interpretabil. Putem folosi funcția <code>DatasetDict.rename_column()</code> pentru a renumea coloana în același timp în ambele splituri:",Ra,S,Na,q,Ha,b,Aa,L,Gn='În continuare, vom normaliza toate <code>condition</code> labels folosind <code>Dataset.map()</code>. La fel cum am făcut cu tokenizarea în <a href="/course/chapter3">Capitolul 3</a>, putem defini o funcție simplă care poate fi aplicată pe toate rândurile fiecărui split din <code>drug_dataset</code>:',Da,P,Ya,O,Fa,K,_n="Oh no, am întâmpinat o problemă cu funcția map! Din eroarea noastră se poate deduce că unele intrări din coloana <code>condition</code> sunt <code>None</code>, care nu pot fi convertite la caracterul mic pentru că nu sunt string-uri. Vom elimina aceste rânduri folosind <code>Dataset.filter()</code>, care funcționează în mod similar cu <code>Dataset.map()</code> și se așteaptă o funcție care primește un exemplu al datasetului.",Ea,ee,Xn="În loc de a scrie o funcție explicită ca:",Sa,te,qa,ae,zn="și apoi să rulăm <code>drug_dataset.filter(filter_nones)</code>, putem face acest lucru într-o linie folosind o <em>funcție lambda</em>. În Python, funcțiile lambda sunt funcții mici care pot fi definite fără a le numi. Ele au forma generală:",La,le,Pa,se,Wn='unde <code>lambda</code> este unul dintre <a href="https://docs.python.org/3/reference/lexical_analysis.html#keywords" rel="nofollow">cuvintele cheie</a> Python, <code><argumente></code> reprezintă o listă/set de valori separate prin virgulă care definesc inputurile funcției și <code><expresie></code> reprezintă operațiile pe care dorim să le executăm. De exemplu, putem defini o funcție lambda care ridică un număr la pătrat:',Oa,ne,Ka,ie,Bn="Pentru a aplica această funcție la un input, trebuie să îi facem wrap și pe să punem inputul în paranteze:",el,re,tl,pe,al,ce,Qn="La fel, putem defini funcții lambda cu mai multe argumente prin separarea acestora prin virgulă. De exemplu, putem calcula suprafața unui triunghi ca:",ll,ue,sl,de,nl,me,Rn='Funcțiile lambda sunt utile atunci când dorim să definim funcții mici, pentru o singură folosire (pentru mai multe informații despre ele, recomandăm citirea excelentului <a href="https://realpython.com/python-lambda/" rel="nofollow">Real Python tutorial</a> scris de Andre Burgaud). În contextul 🤗 Datasets, putem utiliza funcțiile lambda pentru a defini operații simple de map și filter, astfel încât să eliminăm intrările <code>None</code> din datasetul nostru:',il,oe,rl,Me,Nn="Cu intrările <code>None</code> eliminate, putem normaliza coloana <code>condition</code>:",pl,Je,cl,ye,ul,Te,Hn="Funcționează! Acum că am curățat labelurile, să vedem cum putem curăți și recenziile.",dl,fe,ml,we,An="Atunci când lucrați cu recenziile clienților, o practică bună este să verificați numărul de cuvinte în fiecare recenzie. O recenzie poate fi doar un singur cuvânt, cum ar fi “Excelent!” sau un eseu complet care are sute de cuvinte și depinde de cazul pe care îl aveți la vedere, aici trebuie să vă asigurați că faceți față acestor extreme diferit. Pentru a calcula numărul de cuvinte în fiecare recenzie, vom folosi un heuristic aproximativ bazat pe splittingul textului prin spații.",ol,Ue,Dn="Vom defini o funcție simplă care numără numărul de cuvinte din fiecare recenzie:",Ml,je,Jl,he,Yn="Spre deosebire de funcția <code>lowercase_condition()</code>, <code>compute_review_length()</code> returnează un dicționar ale cărui key nu corespund uneia dintre numele coloanelor din dataset. În acest caz, atunci când <code>compute_review_length()</code> este transmis în <code>Dataset.map()</code>, el va fi aplicat pe toate rândurile din dataset pentru a crea o nouă coloană <code>review_length</code>:",yl,be,Tl,ge,fl,$e,Fn="Așa cum era de așteptat, putem vedea o nouă coloană <code>review_length</code> adăugată la setul de antrenare. Putem sorta această nouă coloană cu <code>Dataset.sort()</code> pentru a vedea cum valorile extreme arată:",wl,Ce,Ul,xe,jl,Ie,En="Precum am presupus, unele recenii conțin doar un singur cuvânt, ceea ce, deși ar putea fi OK pentru analiza sentimentului, nu ar fi informativ dacă vrem să prezicem condiției.",hl,g,bl,ve,Sn="Hai să folosim funcția <code>Dataset.filter()</code> pentru a elimina recenziile care conțin mai puțin de 30 de cuvinte. Similar cum am făcut în cazul coloanei <code>condition</code>, putem elimina recenziile foarte scurte cerând ca recenziile să aibă o lungime mai mare decât acest prag:",gl,Ze,$l,ke,Cl,Ve,qn="După cum vedeți, aceasta a eliminat aproximativ 15% din recenziile noastrem, din seturile originale de antrenare și testare.",xl,$,Il,Ge,Ln="Ultima chestie de care trebuie să ne ocupăm este prezența caracterelor HTML în recenziile noastre. Putem folosi modulul <code>html</code> din Python pentru a face unescape acestor caractere:",vl,_e,Zl,Xe,kl,ze,Pn="Vom folosi <code>Dataset.map()</code> pentru a face unescape toate caracterele HTML din corpus:",Vl,We,Gl,Be,On="În mod evident, metoda <code>Dataset.map()</code> este foarte utilă pentru procesarea datelor – și nu am abordat decât o mică parte din ceea ce poate face!",_l,Qe,Xl,Re,Kn="Metoda <code>Dataset.map()</code> acceptă un argument <code>batched</code> care, dacă este setat pe <code>True</code>, cauzează ca ea să trimită un batch de exemple la funcția map în același timp (dimensiunea batchului poate fi configurată dar defaultul este 1.000). De exemplu, anterior am folosit o funcție map care a făcut unescaped toate caracterele HTML din recenziile noastre și i-a luat câteva secunde să execute (puteți citi timpul pe progress bars). Putem accelera acest lucru prin procesarea mai multor elemente în același timp folosind list comprehension.",zl,Ne,ei="Când specificați <code>batched=True</code> funcția primește un dicționar cu câmpurile datasetului, dar fiecare valoare este acum <em>list of values</em> și nu doar o singură valoare. Valoarea de return a <code>Dataset.map()</code> ar trebui să fie la fel: un dicționar cu câmpurile pe care dorim să le actualizăm sau adăugăm în datasetul nostru, și o listă de valori. De exemplu, mai jos este alt mod de a face unescape tuturor caracterelor HTML din recenziile noastre, folosind <code>batched=True</code>:",Wl,He,Bl,Ae,ti="Dacă executați acest cod într-un notebook, veți vedea că această comandă se execută mult mai rapid decât cea anterioră. Și nu pentru că recenziile noastre au fost deja HTML-unescaped – dacă reexecutați instrucția precedentă (fără <code>batched=True</code>), ea va lua același timp ca înainte. Acest lucru se datorează faptului că list comprehension sunt mai rapide decât executarea aceluiași cod într-un <code>for</code> loop, și am câștigat, de asemenea, puțină performanțp accesând multe elemente în același timp, în loc unul câte unul.",Ql,De,ai='Folosirea <code>Dataset.map()</code> cu <code>batched=True</code> este esențială pentru a obține viteza “rapidă” a tokenizerilor pe care îi vom întâlni în <a href="/course/chapter6">Capitolul 6</a>, care pot repede să tokenizeze listelor mari de texte. De exemplu, pentru tokenizarea tuturor recenziilor medicamentelor cu un tokenizer rapid, putem folosi o funcție ca aceasta:',Rl,Ye,Nl,Fe,li='Așa cum am văzut în <a href="/course/chapter3">Capitolul 3</a>, putem transmite un singur sau câteva exemple către tokenizer, așadar putem folosi această funcție cu sau fără <code>batched=True</code>. Hai să ne folosim de această oportunitate și să comparăm performanța diferitelor opțiuni. Într-un notebook puteți măsura timpul unei instrucțiie de o line prin adăugarea <code>%time</code> înaintea acelei linii de cod pe care doriți să o măsurați:',Hl,Ee,Al,Se,si="Puteți și să măsurați un întreg cell prin scrierea <code>%%time</code> la începutul celulei. În hardware-ul pe care l-am executat, acest lucru a arătat 10.8s pentru această instrucție (este numărul scris după “Wall time”).",Dl,C,Yl,qe,ni="Aici sunt rezultatele pe care le-am obținut cu și fără batching, folosind un tokenizer rapid și lent:",Fl,Le,ii='<thead><tr><th align="center">Options</th> <th align="center">Fast tokenizer</th> <th align="center">Slow tokenizer</th></tr></thead> <tbody><tr><td align="center"><code>batched=True</code></td> <td align="center">10.8s</td> <td align="center">4min41s</td></tr> <tr><td align="center"><code>batched=False</code></td> <td align="center">59.2s</td> <td align="center">5min3s</td></tr></tbody>',El,Pe,ri="Aceasta înseamnă că utilizarea unui tokenizer rapid cu opțiunea <code>batched=True</code> este de 30 de ori mai rapidă decât varianta lentă fără batching - acest lucru este pur și simplu uimitor! Acesta este motivul principal pentru care tokenizerii rapizi sunt setați implicit când se utilizează <code>AutoTokenizer</code> (și de ce sunt numiți “rapizi”). Ei pot atinge o asemenea accelerație datorită faptului că codul de tokenizare este executat în Rust, care este un limbaj care facilitează paralelizarea execuției.",Sl,Oe,pi="Parallelization este și motivul pentru care tokenizerul rapid realizează o accelerare de aproape 6 ori cu batching: nu puteți paraleliza o singură operație de tokenizare, dar atunci când doriți să tokenizați multe texte în același timp, puteți să faceți split execuției pe mai multe procese, fiecare răspunzând pentru propriile texte.",ql,Ke,ci="<code>Dataset.map()</code> are și o capacitate de parallelization proprie. Deoarece nu sunt susținute de Rust, nu pot să le ofere aceeași accelerație tokenizerilori înceți ca tokenizerilor rapizi, dar pot încă fi utili (în special dacă utilizați un tokenizer care nu are o variantă rapidă). Pentru a activa multiprocessingul, folosiți argumentul <code>num_proc</code> și specificați numărul de procese să fie utilizate în apelul <code>Dataset.map()</code>:",Ll,et,Pl,tt,ui="Puteți experimenta puțin cu timpii pentru a determina numărul de procese optime; în cazul nostru 8 s-a dovedit a produce cea mai mare accelerație. Aici sunt rezultatele pe care le-am obținut cu și fără multiprocessing:",Ol,at,di='<thead><tr><th align="center">Options</th> <th align="center">Fast tokenizer</th> <th align="center">Slow tokenizer</th></tr></thead> <tbody><tr><td align="center"><code>batched=True</code></td> <td align="center">10.8s</td> <td align="center">4min41s</td></tr> <tr><td align="center"><code>batched=False</code></td> <td align="center">59.2s</td> <td align="center">5min3s</td></tr> <tr><td align="center"><code>batched=True</code>, <code>num_proc=8</code></td> <td align="center">6.52s</td> <td align="center">41.3s</td></tr> <tr><td align="center"><code>batched=False</code>, <code>num_proc=8</code></td> <td align="center">9.49s</td> <td align="center">45.2s</td></tr></tbody>',Kl,lt,mi="Aceste rezultate sunt mult mai bune pentru tokenizerul lent, dar și performanța tokenizerului rapid a fost semnificativ îmbunătățită. Cu toate acestea, trebuie să reamintim că aceasta nu va fi întotdeauna cazul - testele noastre au arătat că este mai rapid să utilizați <code>batched=True</code> fără acest argument în cazurile în care valoarea lui <code>num_proc</code> diferă de 8. În general, nu vă recomandăm utilizarea multiplicării proceselor pentru tokenizorii rapizi cu <code>batched=True</code>.",es,st,oi="Utilizarea <code>num_proc</code> pentru a accelera procesarea este de obicei o idee excelentă, atâta timp cât funcția pe care o utilizați nu utilizează deja multiprocessing.",ts,nt,Mi='Toate aceste funcționalități condensate într-o singură metodă este foarte impresionant, dar asta nu e totul! Cu <code>Dataset.map()</code> și <code>batched=True</code> puteți modifica numărul de elemente din datasetul dumneavoastră. Acesta este extrem de util în numeroase situații în care doriți să creați mai multe caracteristici de antrenare dintr-un singur exemplu, și vom avea nevoie de acest lucru ca parte a preprocesării pentru câteva dintre sarcinile NLP pe care le vom discuta în <a href="/course/chapter7">Capitolul 7</a>.',as,it,Ji="💡 În machine learning, un <em>exemplu</em> este de obicei definit ca fiind un set de <em>features</em> care se oferă modelului. În unele contexte, acestea vor fi seturile de coloane dintr-un <code>Dataset</code>, dar în altele (ca și aici și pentru răspunderea la întrebări) mai multe caracteristici pot fi extrase dintr-un singur exemplu și să aparțină unei singure coloane.",ls,rt,yi="Hai să vedem cum funcționează! Aici vom tokeniza exemplele și le vom face truncatela lungimea maximă de 128, dar vom cere tokenizerului să returneze <em>toate</em> chunkurile de text în loc de prima. Acest lucru poate fi făcut cu <code>return_overflowing_tokens=True</code>:",ss,pt,ns,ct,Ti="Hai să testăm acest lucru pe un exemplu înainte de a folosi <code>Dataset.map()</code> pentru întreg datasetul:",is,ut,rs,dt,ps,mt,fi="Așadar, primul nostru exemplu din setul de antrenare a devenit două features pentru că a fost tokenizat mai mult decât lungimea maximă de tokenuri pe care am specificat-o: prima cu lungimea 128 și a doua cu lungimea 49. Acum trebuie să facem acest lucru pentru toate elementele din dataset!",cs,ot,us,Mt,ds,Jt,wi='Oh no! Acesta nu a funcționat! De ce? Citind eroarea vom afla motivul: existența unei incompatibilități în lungimea uneia dintre coloane - una cu o lungime de 1,463 și alta de 1,000. Dacă ați privit <a href="https://huggingface.co/docs/datasets/package_reference/main_classes#datasets.Dataset.map" rel="nofollow">documentația</a> Dataset.map(), puteți să vă reamintiți că este numărul de sampleuri care sunt oferite funcției pe care noi le facem mapping; aici aceste 1,000 exemplare creează 1,463 features noi, ceea ce duce la un shape error.',ms,yt,Ui="Problema este că încercăm să amestecăm două dataseturi cu mărimi diferite: coloanele <code>drug_dataset</code> vor avea un număr determinat de exemple (cele 1,000 din eroare), dar <code>tokenized_dataset</code> pe care îl construim va fi mai mare (cel cu 1,463 din eroare; el este mai mare decât 1,000 pentru că tokenizăm reviewrile lungi în mai multe exemple folosind <code>return_overflowing_tokens=True</code>). Acest lucru nu funcționează pentru un <code>Dataset</code>, așadar trebuie să eliminăm sau să modificămm coloanele din datasetul vechi pentru a se potrivi dimensiunea cu cea din noul dataset. Putem face ultima din cele două opțiuni folosind argumentul <code>remove_columns</code>:",os,Tt,Ms,ft,ji="Acum acest lucru funcționează fără erori. Putem verifica că noul dataset are mai multe elemente decât datasetul original prin compararea lungimilor:",Js,wt,ys,Ut,Ts,jt,hi="Am menționat că putem rezolva problema lungimilor diferite are coloanelor prin schimbarea vechilor coloane la aceeași dimensiune cu cele noi. Pentru aceasta, vom avea nevoie de câmpul <code>overflow_to_sample_mapping</code> returnat de tokenizer atunci când setăm <code>return_overflowing_tokens=True</code>. El ne oferă un mapping de la un nou feature index la indicele sampleului din care a provenit. Prin intermediul acesta, putem asocia fiecărei key prezentă în datasetul original cu o listă de valori de dimensiune corectă prin repetarea valorilor fiecărui exemplu atâta timp cât produce caracteristici noi:",fs,ht,ws,bt,bi="Putem observa că funcționează cu <code>Dataset.map()</code> fără ca noi să avem nevoie să eliminăm coloanele vechi:",Us,gt,js,$t,hs,Ct,gi="Obținem același număr de features training ca și înainte, dar acum am păstrat toate câmpurile vechi. Dacă ai nevoie de ele pentru post-procesare după aplicarea modelului, ar fi util să folosiți această abordare.",bs,xt,$i=`Acum ați învățat cum pot fi utilizate 🤗 Datasets pentru preprocesarea datelor prin metode diferite. Deși funcțiile de preprocesare ale 🤗 Datasets vor acoperi majoritatea nevoilor de antrenare a modelului, | |
| există momente în care veți avea nevoie să treceți la Pandas pentru accesul la caracteristici mai puternice, cum ar fi <code>DataFrame.groupby()</code> sau high-level APIs pentru vizualizare. Din fericire, 🤗 Dataset a fost proiectat astfel încât să fie interoperabil cu biblioteci precum Pandas, NumPy, PyTorch, TensorFlow și JAX. Hai să vedem cum se face acest lucru.`,gs,It,$s,vt,Cs,Zt,Ci="Pentru a permite conversia între diferite biblioteci, 🤗 Datasets oferă o funcția <code>Dataset.set_format()</code>. Această funcție schimbă doar <em>output format</em> al datasetului, deci puteți ușor să treceți la un alt format fără a afecta <em>data format</em> de bază, care este Apache Arrow. Formatarea se face direct. Pentru a demonstra acest lucru, hai să convertim datasetul nostru în Pandas:",xs,kt,Is,Vt,xi="Acum, atunci când accesăm elementele din dataset, obținem <code>pandas.DataFrame</code> în loc de un dicționar:",vs,Gt,Zs,j,Ii='<thead><tr style="text-align: right;"><th></th> <th>patient_id</th> <th>drugName</th> <th>condition</th> <th>review</th> <th>rating</th> <th>date</th> <th>usefulCount</th> <th>review_length</th></tr></thead> <tbody><tr><th>0</th> <td>95260</td> <td>Guanfacine</td> <td>adhd</td> <td>"My son is halfway through his fourth week of Intuniv..."</td> <td>8.0</td> <td>April 27, 2010</td> <td>192</td> <td>141</td></tr> <tr><th>1</th> <td>92703</td> <td>Lybrel</td> <td>birth control</td> <td>"I used to take another oral contraceptive, which had 21 pill cycle, and was very happy- very light periods, max 5 days, no other side effects..."</td> <td>5.0</td> <td>December 14, 2009</td> <td>17</td> <td>134</td></tr> <tr><th>2</th> <td>138000</td> <td>Ortho Evra</td> <td>birth control</td> <td>"This is my first time using any form of birth control..."</td> <td>8.0</td> <td>November 3, 2015</td> <td>10</td> <td>89</td></tr></tbody>',ks,_t,vi="În continuare, vom crea un <code>pandas.DataFrame</code> pentru întregul set de antrenare prin selectarea tuturor elementelor din <code>drug_dataset["train"]</code>:",Vs,Xt,Gs,x,_s,zt,Zi="Acum putem utiliza toate funcționalitățile Pandas pe care le dorim. De exemplu, putem face fancy chaining pentru a calcula distribuția clasei printre intrările <code>condition</code>:",Xs,Wt,zs,h,ki='<thead><tr style="text-align: right;"><th></th> <th>condition</th> <th>frequency</th></tr></thead> <tbody><tr><th>0</th> <td>birth control</td> <td>27655</td></tr> <tr><th>1</th> <td>depression</td> <td>8023</td></tr> <tr><th>2</th> <td>acne</td> <td>5209</td></tr> <tr><th>3</th> <td>anxiety</td> <td>4991</td></tr> <tr><th>4</th> <td>pain</td> <td>4744</td></tr></tbody>',Ws,Bt,Vi="Și odată ce suntem gata cu analiza noastră Pandas, putem crea întotdeauna un nou obiect <code>Dataset</code> prin utilizarea funcției <code>Dataset.from_pandas()</code>:",Bs,Qt,Qs,I,Rs,Rt,Gi="Acest lucru completează turul nostru de tehnici de preprocesare disponibile în 🤗 Datasets. Pentru a finisa secțiunea, vom crea un set de validare pentru a pregăti datasetul pentru antrenarea unui clasificator. Înainte de a face asta, noi vom reseta output formatul <code>drug_dataset</code> de la <code>"pandas"</code> la `“arrow” :",Ns,Nt,Hs,Ht,As,At,_i="Deși avem deja un set de testare pe care îl putem folosi pentru evaluare, este o bună practică să lăsăm setul de test neschimbat și să creăm un set de validare în timpul developmentului. Odată ce sunteți fericiți cu performanța modelului pe setul de validare, puteți face o verificare finală a setului de test. Acest proces ajută la reducerea riscului ca să vă adaptați prea mult setul de test și să depuneți un model care poate eșua analizând date reale.",Ds,Dt,Xi="🤗 Datasets oferă o funcție <code>Dataset.train_test_split()</code> bazată pe funcționalitatea celebră din <code>scikit-learn</code>. O vom folosi pentru a împărți setul nostru de antrenare în split-uri de <code>train</code> și <code>validation</code> (setăm argumentul <code>seed</code> pentru reproductabilitate):",Ys,Yt,Fs,Ft,Es,Et,zi='Foarte bine, am pregătit acum un dataset care este gata pentru antrenarea unor modele! În <a href="/course/chapter5/5">Secțiunea 5</a> vom arăta cum puteți încărca seturile de date în Hugging Face Hub, dar în acest moment hai să punem capăt analizei noastre prin examinarea a câteva modalități de salvare a seturilor de date pe dispozitivele locale.',Ss,St,qs,qt,Ls,Lt,Wi="Deși 🤗 Datasets va face cache fiecărui dataset și a operațiilor efectuate asupra acestuia, există momente în care veți dori să salvați un dataset pe disc (de exemplu, în cazul în care cache-ul se șterge). După cum vedeți în tabelul de mai jos, 🤗 Datasets oferă trei funcții principale pentru salvarea datelor în formate diferite:",Ps,Pt,Bi='<thead><tr><th align="center">Format de date</th> <th align="center">Funcție</th></tr></thead> <tbody><tr><td align="center">Arrow</td> <td align="center"><code>Dataset.save_to_disk()</code></td></tr> <tr><td align="center">CSV</td> <td align="center"><code>Dataset.to_csv()</code></td></tr> <tr><td align="center">JSON</td> <td align="center"><code>Dataset.to_json()</code></td></tr></tbody>',Os,Ot,Qi="Spre exemplu, hai să salvăm datasetul nostru curățat în formatul Arrow:",Ks,Kt,en,ea,Ri="Acest lucru va crea un folder cu următoarea structură:",tn,ta,an,aa,Ni="unde se poate vedea că fiecare split este asociat cu propriul său tabel <code>dataset.arrow</code>, iar unele metadate în <code>dataset_info.json</code> și <code>state.json</code>. Poți să te gândești la formatul Arrow ca fiind un tabel fancy de coloane și rânduri, optimizat pentru construirea aplicațiilor high-performance care procesează și transportă dataseturi mari.",ln,la,Hi="Odată ce setul de date este salvat, putem încărca-o folosind funcția <code>load_from_disk()</code> următoarea:",sn,sa,nn,na,rn,ia,Ai="Pentru formatele CSV și JSON, trebuie să stocați fiecare split într-un fișier separat. Un mod de a face acest lucru estw iterarea asupra cheilor și valorilor obiectului <code>DatasetDict</code>:",pn,ra,cn,pa,Di='Acesta salvează fiecare split în <a href="https://jsonlines.org" rel="nofollow">JSON Lines format</a>, unde fiecare rând din setul de date este stocat ca o singură linie JSON. Aici puteți vedea cum arată primul exemplu:',un,ca,dn,ua,mn,da,Yi='Putem apoi folosi tehnicile de la <a href="/course/chapter5/2">Secțiunea 2</a> pentru încărcarea fișierelor JSON:',on,ma,Mn,oa,Fi="Și ăsta este finalul excursiei noastre în lumea manipulării datelor cu 🤗 Datasets! Acum că avem un dataset curat, pregătit pentru antrenarea unui model, aici sunt câteva idei pe care le puteți încerca:",Jn,Ma,Ei='<li>Folosiți tehnicile din <a href="/course/chapter3">Capitolul 3</a> pentru a antrena un classifier care poate prezice starea pacientului pe baza recenziei medicamentului.</li> <li>Folosiți pipelineul <code>summarization</code> din <a href="/course/chapter1">Capitolul 1</a> pentru a genera rezumate ale recenziilor.</li>',yn,Ja,Si="În următoarea secțiune, vom vedea cum 🤗 Datasets vă permite să lucrați cu dataseturi mari fără ca laptopul tău să explodeze :)!",Tn,ya,fn,ja,wn;return v=new Ta({props:{title:"E timpul să tăiem și să analizăm datele",local:"time-to-slice-and-dice",headingTag:"h1"}}),Z=new pr({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter5/section3.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter5/section3.ipynb"}]}}),V=new hn({props:{id:"tqfSFcPMgOI"}}),G=new Ta({props:{title:"Slicing și dicing asupra datelor",local:"slicing-and-dicing-our-data",headingTag:"h2"}}),W=new J({props:{code:"IXdnZXQlMjAlMjJodHRwcyUzQSUyRiUyRmFyY2hpdmUuaWNzLnVjaS5lZHUlMkZtbCUyRm1hY2hpbmUtbGVhcm5pbmctZGF0YWJhc2VzJTJGMDA0NjIlMkZkcnVnc0NvbV9yYXcuemlwJTIyJTBBIXVuemlwJTIwZHJ1Z3NDb21fcmF3LnppcA==",highlighted:`!wget <span class="hljs-string">"https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip"</span> | |
| !unzip drugsCom_raw.<span class="hljs-built_in">zip</span>`,wrap:!1}}),Q=new J({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyZHJ1Z3NDb21UcmFpbl9yYXcudHN2JTIyJTJDJTIwJTIydGVzdCUyMiUzQSUyMCUyMmRydWdzQ29tVGVzdF9yYXcudHN2JTIyJTdEJTBBJTIzJTIwJTVDdCUyMGVzdGUlMjBjYXJhY3RlcnVsJTIwdGFiJTIwZGUlMjBQeXRob24lMEFkcnVnX2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyY3N2JTIyJTJDJTIwZGF0YV9maWxlcyUzRGRhdGFfZmlsZXMlMkMlMjBkZWxpbWl0ZXIlM0QlMjIlNUN0JTIyKQ==",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| data_files = {<span class="hljs-string">"train"</span>: <span class="hljs-string">"drugsComTrain_raw.tsv"</span>, <span class="hljs-string">"test"</span>: <span class="hljs-string">"drugsComTest_raw.tsv"</span>} | |
| <span class="hljs-comment"># \\t este caracterul tab de Python</span> | |
| drug_dataset = load_dataset(<span class="hljs-string">"csv"</span>, data_files=data_files, delimiter=<span class="hljs-string">"\\t"</span>)`,wrap:!1}}),N=new J({props:{code:"ZHJ1Z19zYW1wbGUlMjAlM0QlMjBkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RC5zaHVmZmxlKHNlZWQlM0Q0Mikuc2VsZWN0KHJhbmdlKDEwMDApKSUwQSUyMyUyMFZpenVhbGl6YSVDOCU5QmklMjBwcmltZWxlJTIwYyVDMyVBMnRldmElMjBleGVtcGxlJTBBZHJ1Z19zYW1wbGUlNUIlM0EzJTVE",highlighted:`drug_sample = drug_dataset[<span class="hljs-string">"train"</span>].shuffle(seed=<span class="hljs-number">42</span>).select(<span class="hljs-built_in">range</span>(<span class="hljs-number">1000</span>)) | |
| <span class="hljs-comment"># Vizualizați primele câteva exemple</span> | |
| drug_sample[:<span class="hljs-number">3</span>]`,wrap:!1}}),H=new J({props:{code:"JTdCJ1VubmFtZWQlM0ElMjAwJyUzQSUyMCU1Qjg3NTcxJTJDJTIwMTc4MDQ1JTJDJTIwODA0ODIlNUQlMkMlMEElMjAnZHJ1Z05hbWUnJTNBJTIwJTVCJ05hcHJveGVuJyUyQyUyMCdEdWxveGV0aW5lJyUyQyUyMCdNb2JpYyclNUQlMkMlMEElMjAnY29uZGl0aW9uJyUzQSUyMCU1QidHb3V0JTJDJTIwQWN1dGUnJTJDJTIwJ2licm9teWFsZ2lhJyUyQyUyMCdJbmZsYW1tYXRvcnklMjBDb25kaXRpb25zJyU1RCUyQyUwQSUyMCdyZXZpZXcnJTNBJTIwJTVCJyUyMmxpa2UlMjB0aGUlMjBwcmV2aW91cyUyMHBlcnNvbiUyMG1lbnRpb24lMkMlMjBJJTI2JTIzMDM5JTNCbSUyMGElMjBzdHJvbmclMjBiZWxpZXZlciUyMG9mJTIwYWxldmUlMkMlMjBpdCUyMHdvcmtzJTIwZmFzdGVyJTIwZm9yJTIwbXklMjBnb3V0JTIwdGhhbiUyMHRoZSUyMHByZXNjcmlwdGlvbiUyMG1lZHMlMjBJJTIwdGFrZS4lMjBObyUyMG1vcmUlMjBnb2luZyUyMHRvJTIwdGhlJTIwZG9jdG9yJTIwZm9yJTIwcmVmaWxscy4uLi4uQWxldmUlMjB3b3JrcyElMjInJTJDJTBBJTIwJTIwJyUyMkklMjBoYXZlJTIwdGFrZW4lMjBDeW1iYWx0YSUyMGZvciUyMGFib3V0JTIwYSUyMHllYXIlMjBhbmQlMjBhJTIwaGFsZiUyMGZvciUyMGZpYnJvbXlhbGdpYSUyMHBhaW4uJTIwSXQlMjBpcyUyMGdyZWF0JTVDciU1Q25hcyUyMGElMjBwYWluJTIwcmVkdWNlciUyMGFuZCUyMGFuJTIwYW50aS1kZXByZXNzYW50JTJDJTIwaG93ZXZlciUyQyUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzJTIwb3V0d2VpZ2hlZCUyMCU1Q3IlNUNuYW55JTIwYmVuZWZpdCUyMEklMjBnb3QlMjBmcm9tJTIwaXQuJTIwSSUyMGhhZCUyMHRyb3VibGUlMjB3aXRoJTIwcmVzdGxlc3NuZXNzJTJDJTIwYmVpbmclMjB0aXJlZCUyMGNvbnN0YW50bHklMkMlNUNyJTVDbmRpenppbmVzcyUyQyUyMGRyeSUyMG1vdXRoJTJDJTIwbnVtYm5lc3MlMjBhbmQlMjB0aW5nbGluZyUyMGluJTIwbXklMjBmZWV0JTJDJTIwYW5kJTIwaG9ycmlibGUlMjBzd2VhdGluZy4lMjBJJTIwYW0lNUNyJTVDbmJlaW5nJTIwd2VhbmVkJTIwb2ZmJTIwb2YlMjBpdCUyMG5vdy4lMjBXZW50JTIwZnJvbSUyMDYwJTIwbWclMjB0byUyMDMwbWclMjBhbmQlMjBub3clMjB0byUyMDE1JTIwbWcuJTIwSSUyMHdpbGwlMjBiZSU1Q3IlNUNub2ZmJTIwY29tcGxldGVseSUyMGluJTIwYWJvdXQlMjBhJTIwd2Vlay4lMjBUaGUlMjBmaWJybyUyMHBhaW4lMjBpcyUyMGNvbWluZyUyMGJhY2slMkMlMjBidXQlMjBJJTIwd291bGQlMjByYXRoZXIlMjBkZWFsJTIwd2l0aCUyMGl0JTIwdGhhbiUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzLiUyMiclMkMlMEElMjAlMjAnJTIySSUyMGhhdmUlMjBiZWVuJTIwdGFraW5nJTIwTW9iaWMlMjBmb3IlMjBvdmVyJTIwYSUyMHllYXIlMjB3aXRoJTIwbm8lMjBzaWRlJTIwZWZmZWN0cyUyMG90aGVyJTIwdGhhbiUyMGFuJTIwZWxldmF0ZWQlMjBibG9vZCUyMHByZXNzdXJlLiUyMCUyMEklMjBoYWQlMjBzZXZlcmUlMjBrbmVlJTIwYW5kJTIwYW5rbGUlMjBwYWluJTIwd2hpY2glMjBjb21wbGV0ZWx5JTIwd2VudCUyMGF3YXklMjBhZnRlciUyMHRha2luZyUyME1vYmljLiUyMCUyMEklMjBhdHRlbXB0ZWQlMjB0byUyMHN0b3AlMjB0aGUlMjBtZWRpY2F0aW9uJTIwaG93ZXZlciUyMHBhaW4lMjByZXR1cm5lZCUyMGFmdGVyJTIwYSUyMGZldyUyMGRheXMuJTIyJyU1RCUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwJTVCOS4wJTJDJTIwMy4wJTJDJTIwMTAuMCU1RCUyQyUwQSUyMCdkYXRlJyUzQSUyMCU1QidTZXB0ZW1iZXIlMjAyJTJDJTIwMjAxNSclMkMlMjAnTm92ZW1iZXIlMjA3JTJDJTIwMjAxMSclMkMlMjAnSnVuZSUyMDUlMkMlMjAyMDEzJyU1RCUyQyUwQSUyMCd1c2VmdWxDb3VudCclM0ElMjAlNUIzNiUyQyUyMDEzJTJDJTIwMTI4JTVEJTdE",highlighted:`{<span class="hljs-string">'Unnamed: 0'</span>: [<span class="hljs-number">87571</span>, <span class="hljs-number">178045</span>, <span class="hljs-number">80482</span>], | |
| <span class="hljs-string">'drugName'</span>: [<span class="hljs-string">'Naproxen'</span>, <span class="hljs-string">'Duloxetine'</span>, <span class="hljs-string">'Mobic'</span>], | |
| <span class="hljs-string">'condition'</span>: [<span class="hljs-string">'Gout, Acute'</span>, <span class="hljs-string">'ibromyalgia'</span>, <span class="hljs-string">'Inflammatory Conditions'</span>], | |
| <span class="hljs-string">'review'</span>: [<span class="hljs-string">'"like the previous person mention, I&#039;m a strong believer of aleve, it works faster for my gout than the prescription meds I take. No more going to the doctor for refills.....Aleve works!"'</span>, | |
| <span class="hljs-string">'"I have taken Cymbalta for about a year and a half for fibromyalgia pain. It is great\\r\\nas a pain reducer and an anti-depressant, however, the side effects outweighed \\r\\nany benefit I got from it. I had trouble with restlessness, being tired constantly,\\r\\ndizziness, dry mouth, numbness and tingling in my feet, and horrible sweating. I am\\r\\nbeing weaned off of it now. Went from 60 mg to 30mg and now to 15 mg. I will be\\r\\noff completely in about a week. The fibro pain is coming back, but I would rather deal with it than the side effects."'</span>, | |
| <span class="hljs-string">'"I have been taking Mobic for over a year with no side effects other than an elevated blood pressure. I had severe knee and ankle pain which completely went away after taking Mobic. I attempted to stop the medication however pain returned after a few days."'</span>], | |
| <span class="hljs-string">'rating'</span>: [<span class="hljs-number">9.0</span>, <span class="hljs-number">3.0</span>, <span class="hljs-number">10.0</span>], | |
| <span class="hljs-string">'date'</span>: [<span class="hljs-string">'September 2, 2015'</span>, <span class="hljs-string">'November 7, 2011'</span>, <span class="hljs-string">'June 5, 2013'</span>], | |
| <span class="hljs-string">'usefulCount'</span>: [<span class="hljs-number">36</span>, <span class="hljs-number">13</span>, <span class="hljs-number">128</span>]}`,wrap:!1}}),F=new J({props:{code:"Zm9yJTIwc3BsaXQlMjBpbiUyMGRydWdfZGF0YXNldC5rZXlzKCklM0ElMEElMjAlMjAlMjAlMjBhc3NlcnQlMjBsZW4oZHJ1Z19kYXRhc2V0JTVCc3BsaXQlNUQpJTIwJTNEJTNEJTIwbGVuKGRydWdfZGF0YXNldCU1QnNwbGl0JTVELnVuaXF1ZSglMjJVbm5hbWVkJTNBJTIwMCUyMikp",highlighted:`<span class="hljs-keyword">for</span> split <span class="hljs-keyword">in</span> drug_dataset.keys(): | |
| <span class="hljs-keyword">assert</span> <span class="hljs-built_in">len</span>(drug_dataset[split]) == <span class="hljs-built_in">len</span>(drug_dataset[split].unique(<span class="hljs-string">"Unnamed: 0"</span>))`,wrap:!1}}),S=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LnJlbmFtZV9jb2x1bW4oJTBBJTIwJTIwJTIwJTIwb3JpZ2luYWxfY29sdW1uX25hbWUlM0QlMjJVbm5hbWVkJTNBJTIwMCUyMiUyQyUyMG5ld19jb2x1bW5fbmFtZSUzRCUyMnBhdGllbnRfaWQlMjIlMEEpJTBBZHJ1Z19kYXRhc2V0",highlighted:`drug_dataset = drug_dataset.rename_column( | |
| original_column_name=<span class="hljs-string">"Unnamed: 0"</span>, new_column_name=<span class="hljs-string">"patient_id"</span> | |
| ) | |
| drug_dataset`,wrap:!1}}),q=new J({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDE2MTI5NyUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB0ZXN0JTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA1Mzc2NiUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>], | |
| num_rows: <span class="hljs-number">161297</span> | |
| }) | |
| test: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>], | |
| num_rows: <span class="hljs-number">53766</span> | |
| }) | |
| })`,wrap:!1}}),b=new wa({props:{$$slots:{default:[ur]},$$scope:{ctx:U}}}),P=new J({props:{code:"ZGVmJTIwbG93ZXJjYXNlX2NvbmRpdGlvbihleGFtcGxlKSUzQSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMCU3QiUyMmNvbmRpdGlvbiUyMiUzQSUyMGV4YW1wbGUlNUIlMjJjb25kaXRpb24lMjIlNUQubG93ZXIoKSU3RCUwQSUwQSUwQWRydWdfZGF0YXNldC5tYXAobG93ZXJjYXNlX2NvbmRpdGlvbik=",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">lowercase_condition</span>(<span class="hljs-params">example</span>): | |
| <span class="hljs-keyword">return</span> {<span class="hljs-string">"condition"</span>: example[<span class="hljs-string">"condition"</span>].lower()} | |
| drug_dataset.<span class="hljs-built_in">map</span>(lowercase_condition)`,wrap:!1}}),O=new J({props:{code:"QXR0cmlidXRlRXJyb3IlM0ElMjAnTm9uZVR5cGUnJTIwb2JqZWN0JTIwaGFzJTIwbm8lMjBhdHRyaWJ1dGUlMjAnbG93ZXIn",highlighted:'AttributeError: <span class="hljs-string">'NoneType'</span> <span class="hljs-built_in">object</span> has no attribute <span class="hljs-string">'lower'</span>',wrap:!1}}),te=new J({props:{code:"ZGVmJTIwZmlsdGVyX25vbmVzKHgpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIweCU1QiUyMmNvbmRpdGlvbiUyMiU1RCUyMGlzJTIwbm90JTIwTm9uZQ==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">filter_nones</span>(<span class="hljs-params">x</span>): | |
| <span class="hljs-keyword">return</span> x[<span class="hljs-string">"condition"</span>] <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>`,wrap:!1}}),le=new J({props:{code:"bGFtYmRhJTIwJTNDYXJndW1lbnRlJTNFJTIwJTNBJTIwJTNDZXhwcmVzaWUlM0U=",highlighted:'lambda <span class="hljs-tag"><<span class="hljs-name">argumente</span>></span> : <span class="hljs-tag"><<span class="hljs-name">expresie</span>></span>',wrap:!1}}),ne=new J({props:{code:"bGFtYmRhJTIweCUzQSUyMHglMjAqJTIweA==",highlighted:'<span class="hljs-keyword">lambda</span> x: x * x',wrap:!1}}),re=new J({props:{code:"KGxhbWJkYSUyMHglM0ElMjB4JTIwKiUyMHgpKDMp",highlighted:'(<span class="hljs-keyword">lambda</span> x: x * x)(<span class="hljs-number">3</span>)',wrap:!1}}),pe=new J({props:{code:"OQ==",highlighted:'<span class="hljs-number">9</span>',wrap:!1}}),ue=new J({props:{code:"KGxhbWJkYSUyMGJhc2UlMkMlMjBoZWlnaHQlM0ElMjAwLjUlMjAqJTIwYmFzZSUyMColMjBoZWlnaHQpKDQlMkMlMjA4KQ==",highlighted:'(<span class="hljs-keyword">lambda</span> base, height: <span class="hljs-number">0.5</span> * base * height)(<span class="hljs-number">4</span>, <span class="hljs-number">8</span>)',wrap:!1}}),de=new J({props:{code:"MTYuMA==",highlighted:'<span class="hljs-number">16.0</span>',wrap:!1}}),oe=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LmZpbHRlcihsYW1iZGElMjB4JTNBJTIweCU1QiUyMmNvbmRpdGlvbiUyMiU1RCUyMGlzJTIwbm90JTIwTm9uZSk=",highlighted:'drug_dataset = drug_dataset.<span class="hljs-built_in">filter</span>(<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">"condition"</span>] <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>)',wrap:!1}}),Je=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChsb3dlcmNhc2VfY29uZGl0aW9uKSUwQSUyMyUyMFZlcmlmaWMlQzQlODNtJTIwZGFjJUM0JTgzJTIwbG93ZXJjYXNpbmclMjBhJTIwZnVuYyVDOCU5QmlvbmF0JTBBZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlNUIlMjJjb25kaXRpb24lMjIlNUQlNUIlM0EzJTVE",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(lowercase_condition) | |
| <span class="hljs-comment"># Verificăm dacă lowercasing a funcționat</span> | |
| drug_dataset[<span class="hljs-string">"train"</span>][<span class="hljs-string">"condition"</span>][:<span class="hljs-number">3</span>]`,wrap:!1}}),ye=new J({props:{code:"JTVCJ2xlZnQlMjB2ZW50cmljdWxhciUyMGR5c2Z1bmN0aW9uJyUyQyUyMCdhZGhkJyUyQyUyMCdiaXJ0aCUyMGNvbnRyb2wnJTVE",highlighted:'[<span class="hljs-string">'left ventricular dysfunction'</span>, <span class="hljs-string">'adhd'</span>, <span class="hljs-string">'birth control'</span>]',wrap:!1}}),fe=new Ta({props:{title:"Crearea de noi coloane",local:"creating-new-columns",headingTag:"h2"}}),je=new J({props:{code:"ZGVmJTIwY29tcHV0ZV9yZXZpZXdfbGVuZ3RoKGV4YW1wbGUpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwJTdCJTIycmV2aWV3X2xlbmd0aCUyMiUzQSUyMGxlbihleGFtcGxlJTVCJTIycmV2aWV3JTIyJTVELnNwbGl0KCkpJTdE",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_review_length</span>(<span class="hljs-params">example</span>): | |
| <span class="hljs-keyword">return</span> {<span class="hljs-string">"review_length"</span>: <span class="hljs-built_in">len</span>(example[<span class="hljs-string">"review"</span>].split())}`,wrap:!1}}),be=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChjb21wdXRlX3Jldmlld19sZW5ndGgpJTBBJTIzJTIwSW5zcGVjdCVDNCU4M20lMjBwcmltdWwlMjBleGVtcGx1JTIwZGUlMjB0cmFpbmluZyUwQWRydWdfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RA==",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(compute_review_length) | |
| <span class="hljs-comment"># Inspectăm primul exemplu de training</span> | |
| drug_dataset[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>]`,wrap:!1}}),ge=new J({props:{code:"JTdCJ3BhdGllbnRfaWQnJTNBJTIwMjA2NDYxJTJDJTBBJTIwJ2RydWdOYW1lJyUzQSUyMCdWYWxzYXJ0YW4nJTJDJTBBJTIwJ2NvbmRpdGlvbiclM0ElMjAnbGVmdCUyMHZlbnRyaWN1bGFyJTIwZHlzZnVuY3Rpb24nJTJDJTBBJTIwJ3JldmlldyclM0ElMjAnJTIySXQlMjBoYXMlMjBubyUyMHNpZGUlMjBlZmZlY3QlMkMlMjBJJTIwdGFrZSUyMGl0JTIwaW4lMjBjb21iaW5hdGlvbiUyMG9mJTIwQnlzdG9saWMlMjA1JTIwTWclMjBhbmQlMjBGaXNoJTIwT2lsJTIyJyUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwOS4wJTJDJTBBJTIwJ2RhdGUnJTNBJTIwJ01heSUyMDIwJTJDJTIwMjAxMiclMkMlMEElMjAndXNlZnVsQ291bnQnJTNBJTIwMjclMkMlMEElMjAncmV2aWV3X2xlbmd0aCclM0ElMjAxNyU3RA==",highlighted:`{<span class="hljs-string">'patient_id'</span>: <span class="hljs-number">206461</span>, | |
| <span class="hljs-string">'drugName'</span>: <span class="hljs-string">'Valsartan'</span>, | |
| <span class="hljs-string">'condition'</span>: <span class="hljs-string">'left ventricular dysfunction'</span>, | |
| <span class="hljs-string">'review'</span>: <span class="hljs-string">'"It has no side effect, I take it in combination of Bystolic 5 Mg and Fish Oil"'</span>, | |
| <span class="hljs-string">'rating'</span>: <span class="hljs-number">9.0</span>, | |
| <span class="hljs-string">'date'</span>: <span class="hljs-string">'May 20, 2012'</span>, | |
| <span class="hljs-string">'usefulCount'</span>: <span class="hljs-number">27</span>, | |
| <span class="hljs-string">'review_length'</span>: <span class="hljs-number">17</span>}`,wrap:!1}}),Ce=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQuc29ydCglMjJyZXZpZXdfbGVuZ3RoJTIyKSU1QiUzQTMlNUQ=",highlighted:'drug_dataset[<span class="hljs-string">"train"</span>].sort(<span class="hljs-string">"review_length"</span>)[:<span class="hljs-number">3</span>]',wrap:!1}}),xe=new J({props:{code:"JTdCJ3BhdGllbnRfaWQnJTNBJTIwJTVCMTAzNDg4JTJDJTIwMjM2MjclMkMlMjAyMDU1OCU1RCUyQyUwQSUyMCdkcnVnTmFtZSclM0ElMjAlNUInTG9lc3RyaW4lMjAyMSUyMDElMjAlMkYlMjAyMCclMkMlMjAnQ2hsb3J6b3hhem9uZSclMkMlMjAnTnVjeW50YSclNUQlMkMlMEElMjAnY29uZGl0aW9uJyUzQSUyMCU1QidiaXJ0aCUyMGNvbnRyb2wnJTJDJTIwJ211c2NsZSUyMHNwYXNtJyUyQyUyMCdwYWluJyU1RCUyQyUwQSUyMCdyZXZpZXcnJTNBJTIwJTVCJyUyMkV4Y2VsbGVudC4lMjInJTJDJTIwJyUyMnVzZWxlc3MlMjInJTJDJTIwJyUyMm9rJTIyJyU1RCUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwJTVCMTAuMCUyQyUyMDEuMCUyQyUyMDYuMCU1RCUyQyUwQSUyMCdkYXRlJyUzQSUyMCU1QidOb3ZlbWJlciUyMDQlMkMlMjAyMDA4JyUyQyUyMCdNYXJjaCUyMDI0JTJDJTIwMjAxNyclMkMlMjAnQXVndXN0JTIwMjAlMkMlMjAyMDE2JyU1RCUyQyUwQSUyMCd1c2VmdWxDb3VudCclM0ElMjAlNUI1JTJDJTIwMiUyQyUyMDEwJTVEJTJDJTBBJTIwJ3Jldmlld19sZW5ndGgnJTNBJTIwJTVCMSUyQyUyMDElMkMlMjAxJTVEJTdE",highlighted:`{<span class="hljs-string">'patient_id'</span>: [<span class="hljs-number">103488</span>, <span class="hljs-number">23627</span>, <span class="hljs-number">20558</span>], | |
| <span class="hljs-string">'drugName'</span>: [<span class="hljs-string">'Loestrin 21 1 / 20'</span>, <span class="hljs-string">'Chlorzoxazone'</span>, <span class="hljs-string">'Nucynta'</span>], | |
| <span class="hljs-string">'condition'</span>: [<span class="hljs-string">'birth control'</span>, <span class="hljs-string">'muscle spasm'</span>, <span class="hljs-string">'pain'</span>], | |
| <span class="hljs-string">'review'</span>: [<span class="hljs-string">'"Excellent."'</span>, <span class="hljs-string">'"useless"'</span>, <span class="hljs-string">'"ok"'</span>], | |
| <span class="hljs-string">'rating'</span>: [<span class="hljs-number">10.0</span>, <span class="hljs-number">1.0</span>, <span class="hljs-number">6.0</span>], | |
| <span class="hljs-string">'date'</span>: [<span class="hljs-string">'November 4, 2008'</span>, <span class="hljs-string">'March 24, 2017'</span>, <span class="hljs-string">'August 20, 2016'</span>], | |
| <span class="hljs-string">'usefulCount'</span>: [<span class="hljs-number">5</span>, <span class="hljs-number">2</span>, <span class="hljs-number">10</span>], | |
| <span class="hljs-string">'review_length'</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>]}`,wrap:!1}}),g=new wa({props:{$$slots:{default:[dr]},$$scope:{ctx:U}}}),Ze=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LmZpbHRlcihsYW1iZGElMjB4JTNBJTIweCU1QiUyMnJldmlld19sZW5ndGglMjIlNUQlMjAlM0UlMjAzMCklMEFwcmludChkcnVnX2RhdGFzZXQubnVtX3Jvd3Mp",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">filter</span>(<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">"review_length"</span>] > <span class="hljs-number">30</span>) | |
| <span class="hljs-built_in">print</span>(drug_dataset.num_rows)`,wrap:!1}}),ke=new J({props:{code:"JTdCJ3RyYWluJyUzQSUyMDEzODUxNCUyQyUyMCd0ZXN0JyUzQSUyMDQ2MTA4JTdE",highlighted:'{<span class="hljs-string">'train'</span>: <span class="hljs-number">138514</span>, <span class="hljs-string">'test'</span>: <span class="hljs-number">46108</span>}',wrap:!1}}),$=new wa({props:{$$slots:{default:[mr]},$$scope:{ctx:U}}}),_e=new J({props:{code:"aW1wb3J0JTIwaHRtbCUwQSUwQXRleHQlMjAlM0QlMjAlMjJJJTI2JTIzMDM5JTNCbSUyMGElMjB0cmFuc2Zvcm1lciUyMGNhbGxlZCUyMEJFUlQlMjIlMEFodG1sLnVuZXNjYXBlKHRleHQp",highlighted:`<span class="hljs-keyword">import</span> html | |
| text = <span class="hljs-string">"I&#039;m a transformer called BERT"</span> | |
| html.unescape(text)`,wrap:!1}}),Xe=new J({props:{code:"JTIySSdtJTIwYSUyMHRyYW5zZm9ybWVyJTIwY2FsbGVkJTIwQkVSVCUyMg==",highlighted:'<span class="hljs-string">"I'm a transformer called BERT"</span>',wrap:!1}}),We=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChsYW1iZGElMjB4JTNBJTIwJTdCJTIycmV2aWV3JTIyJTNBJTIwaHRtbC51bmVzY2FwZSh4JTVCJTIycmV2aWV3JTIyJTVEKSU3RCk=",highlighted:'drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(<span class="hljs-keyword">lambda</span> x: {<span class="hljs-string">"review"</span>: html.unescape(x[<span class="hljs-string">"review"</span>])})',wrap:!1}}),Qe=new Ta({props:{title:"Superputerile metodei map()",local:"the-map-methods-superpowers",headingTag:"h2"}}),He=new J({props:{code:"bmV3X2RydWdfZGF0YXNldCUyMCUzRCUyMGRydWdfZGF0YXNldC5tYXAoJTBBJTIwJTIwJTIwJTIwbGFtYmRhJTIweCUzQSUyMCU3QiUyMnJldmlldyUyMiUzQSUyMCU1Qmh0bWwudW5lc2NhcGUobyklMjBmb3IlMjBvJTIwaW4lMjB4JTVCJTIycmV2aWV3JTIyJTVEJTVEJTdEJTJDJTIwYmF0Y2hlZCUzRFRydWUlMEEp",highlighted:`new_drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>( | |
| <span class="hljs-keyword">lambda</span> x: {<span class="hljs-string">"review"</span>: [html.unescape(o) <span class="hljs-keyword">for</span> o <span class="hljs-keyword">in</span> x[<span class="hljs-string">"review"</span>]]}, batched=<span class="hljs-literal">True</span> | |
| )`,wrap:!1}}),Ye=new J({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMEElMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJiZXJ0LWJhc2UtY2FzZWQlMjIpJTBBJTBBJTBBZGVmJTIwdG9rZW5pemVfZnVuY3Rpb24oZXhhbXBsZXMpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwdG9rZW5pemVyKGV4YW1wbGVzJTVCJTIycmV2aWV3JTIyJTVEJTJDJTIwdHJ1bmNhdGlvbiUzRFRydWUp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">"bert-base-cased"</span>) | |
| <span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_function</span>(<span class="hljs-params">examples</span>): | |
| <span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">"review"</span>], truncation=<span class="hljs-literal">True</span>)`,wrap:!1}}),Ee=new J({props:{code:"JTI1dGltZSUyMHRva2VuaXplZF9kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcCh0b2tlbml6ZV9mdW5jdGlvbiUyQyUyMGJhdGNoZWQlM0RUcnVlKQ==",highlighted:'%time tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_function, batched=<span class="hljs-literal">True</span>)',wrap:!1}}),C=new wa({props:{$$slots:{default:[or]},$$scope:{ctx:U}}}),et=new J({props:{code:"c2xvd190b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJiZXJ0LWJhc2UtY2FzZWQlMjIlMkMlMjB1c2VfZmFzdCUzREZhbHNlKSUwQSUwQSUwQWRlZiUyMHNsb3dfdG9rZW5pemVfZnVuY3Rpb24oZXhhbXBsZXMpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwc2xvd190b2tlbml6ZXIoZXhhbXBsZXMlNUIlMjJyZXZpZXclMjIlNUQlMkMlMjB0cnVuY2F0aW9uJTNEVHJ1ZSklMEElMEElMEF0b2tlbml6ZWRfZGF0YXNldCUyMCUzRCUyMGRydWdfZGF0YXNldC5tYXAoc2xvd190b2tlbml6ZV9mdW5jdGlvbiUyQyUyMGJhdGNoZWQlM0RUcnVlJTJDJTIwbnVtX3Byb2MlM0Q4KQ==",highlighted:`slow_tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">"bert-base-cased"</span>, use_fast=<span class="hljs-literal">False</span>) | |
| <span class="hljs-keyword">def</span> <span class="hljs-title function_">slow_tokenize_function</span>(<span class="hljs-params">examples</span>): | |
| <span class="hljs-keyword">return</span> slow_tokenizer(examples[<span class="hljs-string">"review"</span>], truncation=<span class="hljs-literal">True</span>) | |
| tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(slow_tokenize_function, batched=<span class="hljs-literal">True</span>, num_proc=<span class="hljs-number">8</span>)`,wrap:!1}}),pt=new J({props:{code:"ZGVmJTIwdG9rZW5pemVfYW5kX3NwbGl0KGV4YW1wbGVzKSUzQSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMHRva2VuaXplciglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBleGFtcGxlcyU1QiUyMnJldmlldyUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHRydW5jYXRpb24lM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbWF4X2xlbmd0aCUzRDEyOCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJldHVybl9vdmVyZmxvd2luZ190b2tlbnMlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwKQ==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_and_split</span>(<span class="hljs-params">examples</span>): | |
| <span class="hljs-keyword">return</span> tokenizer( | |
| examples[<span class="hljs-string">"review"</span>], | |
| truncation=<span class="hljs-literal">True</span>, | |
| max_length=<span class="hljs-number">128</span>, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| )`,wrap:!1}}),ut=new J({props:{code:"cmVzdWx0JTIwJTNEJTIwdG9rZW5pemVfYW5kX3NwbGl0KGRydWdfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RCklMEElNUJsZW4oaW5wKSUyMGZvciUyMGlucCUyMGluJTIwcmVzdWx0JTVCJTIyaW5wdXRfaWRzJTIyJTVEJTVE",highlighted:`result = tokenize_and_split(drug_dataset[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>]) | |
| [<span class="hljs-built_in">len</span>(inp) <span class="hljs-keyword">for</span> inp <span class="hljs-keyword">in</span> result[<span class="hljs-string">"input_ids"</span>]]`,wrap:!1}}),dt=new J({props:{code:"JTVCMTI4JTJDJTIwNDklNUQ=",highlighted:'[<span class="hljs-number">128</span>, <span class="hljs-number">49</span>]',wrap:!1}}),ot=new J({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlKQ==",highlighted:'tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_and_split, batched=<span class="hljs-literal">True</span>)',wrap:!1}}),Mt=new J({props:{code:"QXJyb3dJbnZhbGlkJTNBJTIwQ29sdW1uJTIwMSUyMG5hbWVkJTIwY29uZGl0aW9uJTIwZXhwZWN0ZWQlMjBsZW5ndGglMjAxNDYzJTIwYnV0JTIwZ290JTIwbGVuZ3RoJTIwMTAwMA==",highlighted:'ArrowInvalid: Column <span class="hljs-number">1</span> named condition expected length <span class="hljs-number">1463</span> but got length <span class="hljs-number">1000</span>',wrap:!1}}),Tt=new J({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKCUwQSUyMCUyMCUyMCUyMHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlJTJDJTIwcmVtb3ZlX2NvbHVtbnMlM0RkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RC5jb2x1bW5fbmFtZXMlMEEp",highlighted:`tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>( | |
| tokenize_and_split, batched=<span class="hljs-literal">True</span>, remove_columns=drug_dataset[<span class="hljs-string">"train"</span>].column_names | |
| )`,wrap:!1}}),wt=new J({props:{code:"bGVuKHRva2VuaXplZF9kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQpJTJDJTIwbGVuKGRydWdfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEKQ==",highlighted:'<span class="hljs-built_in">len</span>(tokenized_dataset[<span class="hljs-string">"train"</span>]), <span class="hljs-built_in">len</span>(drug_dataset[<span class="hljs-string">"train"</span>])',wrap:!1}}),Ut=new J({props:{code:"KDIwNjc3MiUyQyUyMDEzODUxNCk=",highlighted:'(<span class="hljs-number">206772</span>, <span class="hljs-number">138514</span>)',wrap:!1}}),ht=new J({props:{code:"ZGVmJTIwdG9rZW5pemVfYW5kX3NwbGl0KGV4YW1wbGVzKSUzQSUwQSUyMCUyMCUyMCUyMHJlc3VsdCUyMCUzRCUyMHRva2VuaXplciglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBleGFtcGxlcyU1QiUyMnJldmlldyUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHRydW5jYXRpb24lM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbWF4X2xlbmd0aCUzRDEyOCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJldHVybl9vdmVyZmxvd2luZ190b2tlbnMlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwKSUwQSUyMCUyMCUyMCUyMCUyMyUyMEV4dHJhZ2VtJTIwbWFwYXJlYSUyMCVDMyVBRW50cmUlMjBub3VsJTIwJUM4JTk5aSUyMHZlY2hpdWwlMjBpbmRpY2UlMEElMjAlMjAlMjAlMjBzYW1wbGVfbWFwJTIwJTNEJTIwcmVzdWx0LnBvcCglMjJvdmVyZmxvd190b19zYW1wbGVfbWFwcGluZyUyMiklMEElMjAlMjAlMjAlMjBmb3IlMjBrZXklMkMlMjB2YWx1ZXMlMjBpbiUyMGV4YW1wbGVzLml0ZW1zKCklM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXN1bHQlNUJrZXklNUQlMjAlM0QlMjAlNUJ2YWx1ZXMlNUJpJTVEJTIwZm9yJTIwaSUyMGluJTIwc2FtcGxlX21hcCU1RCUwQSUyMCUyMCUyMCUyMHJldHVybiUyMHJlc3VsdA==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_and_split</span>(<span class="hljs-params">examples</span>): | |
| result = tokenizer( | |
| examples[<span class="hljs-string">"review"</span>], | |
| truncation=<span class="hljs-literal">True</span>, | |
| max_length=<span class="hljs-number">128</span>, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| ) | |
| <span class="hljs-comment"># Extragem maparea între noul și vechiul indice</span> | |
| sample_map = result.pop(<span class="hljs-string">"overflow_to_sample_mapping"</span>) | |
| <span class="hljs-keyword">for</span> key, values <span class="hljs-keyword">in</span> examples.items(): | |
| result[key] = [values[i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> sample_map] | |
| <span class="hljs-keyword">return</span> result`,wrap:!1}}),gt=new J({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlKSUwQXRva2VuaXplZF9kYXRhc2V0",highlighted:`tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_and_split, batched=<span class="hljs-literal">True</span>) | |
| tokenized_dataset`,wrap:!1}}),$t=new J({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ2F0dGVudGlvbl9tYXNrJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ2RhdGUnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdpbnB1dF9pZHMnJTJDJTIwJ3BhdGllbnRfaWQnJTJDJTIwJ3JhdGluZyclMkMlMjAncmV2aWV3JyUyQyUyMCdyZXZpZXdfbGVuZ3RoJyUyQyUyMCd0b2tlbl90eXBlX2lkcyclMkMlMjAndXNlZnVsQ291bnQnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjAyMDY3NzIlMEElMjAlMjAlMjAlMjAlN0QpJTBBJTIwJTIwJTIwJTIwdGVzdCUzQSUyMERhdGFzZXQoJTdCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZmVhdHVyZXMlM0ElMjAlNUInYXR0ZW50aW9uX21hc2snJTJDJTIwJ2NvbmRpdGlvbiclMkMlMjAnZGF0ZSclMkMlMjAnZHJ1Z05hbWUnJTJDJTIwJ2lucHV0X2lkcyclMkMlMjAncGF0aWVudF9pZCclMkMlMjAncmF0aW5nJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTJDJTIwJ3Rva2VuX3R5cGVfaWRzJyUyQyUyMCd1c2VmdWxDb3VudCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDY4ODc2JTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'attention_mask'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'input_ids'</span>, <span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'review_length'</span>, <span class="hljs-string">'token_type_ids'</span>, <span class="hljs-string">'usefulCount'</span>], | |
| num_rows: <span class="hljs-number">206772</span> | |
| }) | |
| test: Dataset({ | |
| features: [<span class="hljs-string">'attention_mask'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'input_ids'</span>, <span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'review_length'</span>, <span class="hljs-string">'token_type_ids'</span>, <span class="hljs-string">'usefulCount'</span>], | |
| num_rows: <span class="hljs-number">68876</span> | |
| }) | |
| })`,wrap:!1}}),It=new Ta({props:{title:"De la Dataset s la DataFrame s și înapoi",local:"from-datasets-to-dataframes-and-back",headingTag:"h2"}}),vt=new hn({props:{id:"tfcY1067A5Q"}}),kt=new J({props:{code:"ZHJ1Z19kYXRhc2V0LnNldF9mb3JtYXQoJTIycGFuZGFzJTIyKQ==",highlighted:'drug_dataset.set_format(<span class="hljs-string">"pandas"</span>)',wrap:!1}}),Gt=new J({props:{code:"ZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlNUIlM0EzJTVE",highlighted:'drug_dataset[<span class="hljs-string">"train"</span>][:<span class="hljs-number">3</span>]',wrap:!1}}),Xt=new J({props:{code:"dHJhaW5fZGYlMjAlM0QlMjBkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RCU1QiUzQSU1RA==",highlighted:'train_df = drug_dataset[<span class="hljs-string">"train"</span>][:]',wrap:!1}}),x=new wa({props:{$$slots:{default:[Mr]},$$scope:{ctx:U}}}),Wt=new J({props:{code:"ZnJlcXVlbmNpZXMlMjAlM0QlMjAoJTBBJTIwJTIwJTIwJTIwdHJhaW5fZGYlNUIlMjJjb25kaXRpb24lMjIlNUQlMEElMjAlMjAlMjAlMjAudmFsdWVfY291bnRzKCklMEElMjAlMjAlMjAlMjAudG9fZnJhbWUoKSUwQSUyMCUyMCUyMCUyMC5yZXNldF9pbmRleCgpJTBBJTIwJTIwJTIwJTIwLnJlbmFtZShjb2x1bW5zJTNEJTdCJTIyaW5kZXglMjIlM0ElMjAlMjJjb25kaXRpb24lMjIlMkMlMjAlMjJjb25kaXRpb24lMjIlM0ElMjAlMjJmcmVxdWVuY3klMjIlN0QpJTBBKSUwQWZyZXF1ZW5jaWVzLmhlYWQoKQ==",highlighted:`frequencies = ( | |
| train_df[<span class="hljs-string">"condition"</span>] | |
| .value_counts() | |
| .to_frame() | |
| .reset_index() | |
| .rename(columns={<span class="hljs-string">"index"</span>: <span class="hljs-string">"condition"</span>, <span class="hljs-string">"condition"</span>: <span class="hljs-string">"frequency"</span>}) | |
| ) | |
| frequencies.head()`,wrap:!1}}),Qt=new J({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwRGF0YXNldCUwQSUwQWZyZXFfZGF0YXNldCUyMCUzRCUyMERhdGFzZXQuZnJvbV9wYW5kYXMoZnJlcXVlbmNpZXMpJTBBZnJlcV9kYXRhc2V0",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> Dataset | |
| freq_dataset = Dataset.from_pandas(frequencies) | |
| freq_dataset`,wrap:!1}}),I=new wa({props:{$$slots:{default:[Jr]},$$scope:{ctx:U}}}),Nt=new J({props:{code:"ZHJ1Z19kYXRhc2V0LnJlc2V0X2Zvcm1hdCgp",highlighted:"drug_dataset.reset_format()",wrap:!1}}),Ht=new Ta({props:{title:"Crearea unui set de validare",local:"creating-a-validation-set",headingTag:"h2"}}),Yt=new J({props:{code:"ZHJ1Z19kYXRhc2V0X2NsZWFuJTIwJTNEJTIwZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQudHJhaW5fdGVzdF9zcGxpdCh0cmFpbl9zaXplJTNEMC44JTJDJTIwc2VlZCUzRDQyKSUwQSUyMyUyMFJlbnVtZSVDOCU5OXRlJTIwaW1wbGljaXQlMjAlMjJ0ZXN0JTIyJTIwc3BsaXQtdWwlMjBsYSUyMCUyMnZhbGlkZSUyMiUwQWRydWdfZGF0YXNldF9jbGVhbiU1QiUyMnZhbGlkYXRpb24lMjIlNUQlMjAlM0QlMjBkcnVnX2RhdGFzZXRfY2xlYW4ucG9wKCUyMnRlc3QlMjIpJTBBJTIzJTIwQWRhdWclQzQlODMlMjBzZXR1bCUyMGRlJTIwdGVzdCUyMCVDMyVBRW4lMjAlNjBEYXRhc2V0RGljdCU2MCUwQWRydWdfZGF0YXNldF9jbGVhbiU1QiUyMnRlc3QlMjIlNUQlMjAlM0QlMjBkcnVnX2RhdGFzZXQlNUIlMjJ0ZXN0JTIyJTVEJTBBZHJ1Z19kYXRhc2V0X2NsZWFu",highlighted:`drug_dataset_clean = drug_dataset[<span class="hljs-string">"train"</span>].train_test_split(train_size=<span class="hljs-number">0.8</span>, seed=<span class="hljs-number">42</span>) | |
| <span class="hljs-comment"># Renumește implicit "test" split-ul la "valide"</span> | |
| drug_dataset_clean[<span class="hljs-string">"validation"</span>] = drug_dataset_clean.pop(<span class="hljs-string">"test"</span>) | |
| <span class="hljs-comment"># Adaugă setul de test în \`DatasetDict\`</span> | |
| drug_dataset_clean[<span class="hljs-string">"test"</span>] = drug_dataset[<span class="hljs-string">"test"</span>] | |
| drug_dataset_clean`,wrap:!1}}),Ft=new J({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclMkMlMjAncmV2aWV3X2NsZWFuJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwMTEwODExJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHZhbGlkYXRpb24lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclMkMlMjAncmV2aWV3X2NsZWFuJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwMjc3MDMlMEElMjAlMjAlMjAlMjAlN0QpJTBBJTIwJTIwJTIwJTIwdGVzdCUzQSUyMERhdGFzZXQoJTdCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZmVhdHVyZXMlM0ElMjAlNUIncGF0aWVudF9pZCclMkMlMjAnZHJ1Z05hbWUnJTJDJTIwJ2NvbmRpdGlvbiclMkMlMjAncmV2aWV3JyUyQyUyMCdyYXRpbmcnJTJDJTIwJ2RhdGUnJTJDJTIwJ3VzZWZ1bENvdW50JyUyQyUyMCdyZXZpZXdfbGVuZ3RoJyUyQyUyMCdyZXZpZXdfY2xlYW4nJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA0NjEwOCUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>, <span class="hljs-string">'review_clean'</span>], | |
| num_rows: <span class="hljs-number">110811</span> | |
| }) | |
| validation: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>, <span class="hljs-string">'review_clean'</span>], | |
| num_rows: <span class="hljs-number">27703</span> | |
| }) | |
| test: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>, <span class="hljs-string">'review_clean'</span>], | |
| num_rows: <span class="hljs-number">46108</span> | |
| }) | |
| })`,wrap:!1}}),St=new Ta({props:{title:"Salvarea unui dataset",local:"saving-a-dataset",headingTag:"h2"}}),qt=new hn({props:{id:"blF9uxYcKHo"}}),Kt=new J({props:{code:"ZHJ1Z19kYXRhc2V0X2NsZWFuLnNhdmVfdG9fZGlzayglMjJkcnVnLXJldmlld3MlMjIp",highlighted:'drug_dataset_clean.save_to_disk(<span class="hljs-string">"drug-reviews"</span>)',wrap:!1}}),ta=new J({props:{code:"ZHJ1Zy1yZXZpZXdzJTJGJTBBJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldF9kaWN0Lmpzb24lMEElRTIlOTQlOUMlRTIlOTQlODAlRTIlOTQlODAlMjB0ZXN0JTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTk0JUUyJTk0JTgwJUUyJTk0JTgwJTIwc3RhdGUuanNvbiUwQSVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMHRyYWluJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwaW5kaWNlcy5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5NCVFMiU5NCU4MCVFMiU5NCU4MCUyMHN0YXRlLmpzb24lMEElRTIlOTQlOTQlRTIlOTQlODAlRTIlOTQlODAlMjB2YWxpZGF0aW9uJTBBJTIwJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSUyMCUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJTIwJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwaW5kaWNlcy5hcnJvdyUwQSUyMCUyMCUyMCUyMCVFMiU5NCU5NCVFMiU5NCU4MCVFMiU5NCU4MCUyMHN0YXRlLmpzb24=",highlighted:`drug-reviews/ | |
| ├── dataset_dict.json | |
| ├── test | |
| │ ├── dataset.arrow | |
| │ ├── dataset_info.json | |
| │ └── <span class="hljs-keyword">state</span>.json | |
| ├── train | |
| │ ├── dataset.arrow | |
| │ ├── dataset_info.json | |
| │ ├── indices.arrow | |
| │ └── <span class="hljs-keyword">state</span>.json | |
| └── validation | |
| ├── dataset.arrow | |
| ├── dataset_info.json | |
| ├── indices.arrow | |
| └── <span class="hljs-keyword">state</span>.json`,wrap:!1}}),sa=new J({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9mcm9tX2Rpc2slMEElMEFkcnVnX2RhdGFzZXRfcmVsb2FkZWQlMjAlM0QlMjBsb2FkX2Zyb21fZGlzayglMjJkcnVnLXJldmlld3MlMjIpJTBBZHJ1Z19kYXRhc2V0X3JlbG9hZGVk",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_from_disk | |
| drug_dataset_reloaded = load_from_disk(<span class="hljs-string">"drug-reviews"</span>) | |
| drug_dataset_reloaded`,wrap:!1}}),na=new J({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDExMDgxMSUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB2YWxpZGF0aW9uJTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjAyNzcwMyUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB0ZXN0JTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA0NjEwOCUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>], | |
| num_rows: <span class="hljs-number">110811</span> | |
| }) | |
| validation: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>], | |
| num_rows: <span class="hljs-number">27703</span> | |
| }) | |
| test: Dataset({ | |
| features: [<span class="hljs-string">'patient_id'</span>, <span class="hljs-string">'drugName'</span>, <span class="hljs-string">'condition'</span>, <span class="hljs-string">'review'</span>, <span class="hljs-string">'rating'</span>, <span class="hljs-string">'date'</span>, <span class="hljs-string">'usefulCount'</span>, <span class="hljs-string">'review_length'</span>], | |
| num_rows: <span class="hljs-number">46108</span> | |
| }) | |
| })`,wrap:!1}}),ra=new J({props:{code:"Zm9yJTIwc3BsaXQlMkMlMjBkYXRhc2V0JTIwaW4lMjBkcnVnX2RhdGFzZXRfY2xlYW4uaXRlbXMoKSUzQSUwQSUyMCUyMCUyMCUyMGRhdGFzZXQudG9fanNvbihmJTIyZHJ1Zy1yZXZpZXdzLSU3QnNwbGl0JTdELmpzb25sJTIyKQ==",highlighted:`<span class="hljs-keyword">for</span> split, dataset <span class="hljs-keyword">in</span> drug_dataset_clean.items(): | |
| dataset.to_json(<span class="hljs-string">f"drug-reviews-<span class="hljs-subst">{split}</span>.jsonl"</span>)`,wrap:!1}}),ca=new J({props:{code:"IWhlYWQlMjAtbiUyMDElMjBkcnVnLXJldmlld3MtdHJhaW4uanNvbmw=",highlighted:'!<span class="hljs-built_in">head</span> -n 1 drug-reviews-train.jsonl',wrap:!1}}),ua=new J({props:{code:"JTdCJTIycGF0aWVudF9pZCUyMiUzQTE0MTc4MCUyQyUyMmRydWdOYW1lJTIyJTNBJTIyRXNjaXRhbG9wcmFtJTIyJTJDJTIyY29uZGl0aW9uJTIyJTNBJTIyZGVwcmVzc2lvbiUyMiUyQyUyMnJldmlldyUyMiUzQSUyMiU1QyUyMkklMjBzZWVtZWQlMjB0byUyMGV4cGVyaWVuY2UlMjB0aGUlMjByZWd1bGFyJTIwc2lkZSUyMGVmZmVjdHMlMjBvZiUyMExFWEFQUk8lMkMlMjBpbnNvbW5pYSUyQyUyMGxvdyUyMHNleCUyMGRyaXZlJTJDJTIwc2xlZXBpbmVzcyUyMGR1cmluZyUyMHRoZSUyMGRheS4lMjBJJTIwYW0lMjB0YWtpbmclMjBpdCUyMGF0JTIwbmlnaHQlMjBiZWNhdXNlJTIwbXklMjBkb2N0b3IlMjBzYWlkJTIwaWYlMjBpdCUyMG1hZGUlMjBtZSUyMHRpcmVkJTIwdG8lMjB0YWtlJTIwaXQlMjBhdCUyMG5pZ2h0LiUyMEklMjBhc3N1bWVkJTIwaXQlMjB3b3VsZCUyMGFuZCUyMHN0YXJ0ZWQlMjBvdXQlMjB0YWtpbmclMjBpdCUyMGF0JTIwbmlnaHQuJTIwU3RyYW5nZSUyMGRyZWFtcyUyQyUyMHNvbWUlMjBwbGVhc2FudC4lMjBJJTIwd2FzJTIwZGlhZ25vc2VkJTIwd2l0aCUyMGZpYnJvbXlhbGdpYS4lMjBTZWVtcyUyMHRvJTIwYmUlMjBoZWxwaW5nJTIwd2l0aCUyMHRoZSUyMHBhaW4uJTIwSGF2ZSUyMGhhZCUyMGFueGlldHklMjBhbmQlMjBkZXByZXNzaW9uJTIwaW4lMjBteSUyMGZhbWlseSUyQyUyMGFuZCUyMGhhdmUlMjB0cmllZCUyMHF1aXRlJTIwYSUyMGZldyUyMG90aGVyJTIwbWVkaWNhdGlvbnMlMjB0aGF0JTIwaGF2ZW4ndCUyMHdvcmtlZC4lMjBPbmx5JTIwaGF2ZSUyMGJlZW4lMjBvbiUyMGl0JTIwZm9yJTIwdHdvJTIwd2Vla3MlMjBidXQlMjBmZWVsJTIwbW9yZSUyMHBvc2l0aXZlJTIwaW4lMjBteSUyMG1pbmQlMkMlMjB3YW50JTIwdG8lMjBhY2NvbXBsaXNoJTIwbW9yZSUyMGluJTIwbXklMjBsaWZlLiUyMEhvcGVmdWxseSUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzJTIwd2lsbCUyMGR3aW5kbGUlMjBhd2F5JTJDJTIwd29ydGglMjBpdCUyMHRvJTIwc3RpY2slMjB3aXRoJTIwaXQlMjBmcm9tJTIwaGVhcmluZyUyMG90aGVycyUyMHJlc3BvbnNlcy4lMjBHcmVhdCUyMG1lZGljYXRpb24uJTVDJTIyJTIyJTJDJTIycmF0aW5nJTIyJTNBOS4wJTJDJTIyZGF0ZSUyMiUzQSUyMk1heSUyMDI5JTJDJTIwMjAxMSUyMiUyQyUyMnVzZWZ1bENvdW50JTIyJTNBMTAlMkMlMjJyZXZpZXdfbGVuZ3RoJTIyJTNBMTI1JTdE",highlighted:'{<span class="hljs-string">"patient_id"</span>:<span class="hljs-number">141780</span>,<span class="hljs-string">"drugName"</span>:<span class="hljs-string">"Escitalopram"</span>,<span class="hljs-string">"condition"</span>:<span class="hljs-string">"depression"</span>,<span class="hljs-string">"review"</span>:<span class="hljs-string">"\\"I seemed to experience the regular side effects of LEXAPRO, insomnia, low sex drive, sleepiness during the day. I am taking it at night because my doctor said if it made me tired to take it at night. I assumed it would and started out taking it at night. Strange dreams, some pleasant. I was diagnosed with fibromyalgia. Seems to be helping with the pain. Have had anxiety and depression in my family, and have tried quite a few other medications that haven't worked. Only have been on it for two weeks but feel more positive in my mind, want to accomplish more in my life. Hopefully the side effects will dwindle away, worth it to stick with it from hearing others responses. Great medication.\\""</span>,<span class="hljs-string">"rating"</span>:<span class="hljs-number">9.0</span>,<span class="hljs-string">"date"</span>:<span class="hljs-string">"May 29, 2011"</span>,<span class="hljs-string">"usefulCount"</span>:<span class="hljs-number">10</span>,<span class="hljs-string">"review_length"</span>:<span class="hljs-number">125</span>}',wrap:!1}}),ma=new J({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMnRyYWluJTIyJTNBJTIwJTIyZHJ1Zy1yZXZpZXdzLXRyYWluLmpzb25sJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydmFsaWRhdGlvbiUyMiUzQSUyMCUyMmRydWctcmV2aWV3cy12YWxpZGF0aW9uLmpzb25sJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMCUyMmRydWctcmV2aWV3cy10ZXN0Lmpzb25sJTIyJTJDJTBBJTdEJTBBZHJ1Z19kYXRhc2V0X3JlbG9hZGVkJTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyk=",highlighted:`data_files = { | |
| <span class="hljs-string">"train"</span>: <span class="hljs-string">"drug-reviews-train.jsonl"</span>, | |
| <span class="hljs-string">"validation"</span>: <span class="hljs-string">"drug-reviews-validation.jsonl"</span>, | |
| <span class="hljs-string">"test"</span>: <span class="hljs-string">"drug-reviews-test.jsonl"</span>, | |
| } | |
| drug_dataset_reloaded = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files)`,wrap:!1}}),ya=new cr({props:{source:"https://github.com/huggingface/course/blob/main/chapters/rum/chapter5/3.mdx"}}),{c(){y=i("meta"),f=s(),T=i("p"),w=s(),c(v.$$.fragment),ha=s(),c(Z.$$.fragment),ba=s(),k=i("p"),k.textContent=bn,ga=s(),c(V.$$.fragment),$a=s(),c(G.$$.fragment),Ca=s(),_=i("p"),_.innerHTML=gn,xa=s(),X=i("p"),X.innerHTML=$n,Ia=s(),z=i("p"),z.innerHTML=Cn,va=s(),c(W.$$.fragment),Za=s(),B=i("p"),B.innerHTML=xn,ka=s(),c(Q.$$.fragment),Va=s(),R=i("p"),R.innerHTML=In,Ga=s(),c(N.$$.fragment),_a=s(),c(H.$$.fragment),Xa=s(),A=i("p"),A.innerHTML=vn,za=s(),D=i("ul"),D.innerHTML=Zn,Wa=s(),Y=i("p"),Y.innerHTML=kn,Ba=s(),c(F.$$.fragment),Qa=s(),E=i("p"),E.innerHTML=Vn,Ra=s(),c(S.$$.fragment),Na=s(),c(q.$$.fragment),Ha=s(),c(b.$$.fragment),Aa=s(),L=i("p"),L.innerHTML=Gn,Da=s(),c(P.$$.fragment),Ya=s(),c(O.$$.fragment),Fa=s(),K=i("p"),K.innerHTML=_n,Ea=s(),ee=i("p"),ee.textContent=Xn,Sa=s(),c(te.$$.fragment),qa=s(),ae=i("p"),ae.innerHTML=zn,La=s(),c(le.$$.fragment),Pa=s(),se=i("p"),se.innerHTML=Wn,Oa=s(),c(ne.$$.fragment),Ka=s(),ie=i("p"),ie.textContent=Bn,el=s(),c(re.$$.fragment),tl=s(),c(pe.$$.fragment),al=s(),ce=i("p"),ce.textContent=Qn,ll=s(),c(ue.$$.fragment),sl=s(),c(de.$$.fragment),nl=s(),me=i("p"),me.innerHTML=Rn,il=s(),c(oe.$$.fragment),rl=s(),Me=i("p"),Me.innerHTML=Nn,pl=s(),c(Je.$$.fragment),cl=s(),c(ye.$$.fragment),ul=s(),Te=i("p"),Te.textContent=Hn,dl=s(),c(fe.$$.fragment),ml=s(),we=i("p"),we.textContent=An,ol=s(),Ue=i("p"),Ue.textContent=Dn,Ml=s(),c(je.$$.fragment),Jl=s(),he=i("p"),he.innerHTML=Yn,yl=s(),c(be.$$.fragment),Tl=s(),c(ge.$$.fragment),fl=s(),$e=i("p"),$e.innerHTML=Fn,wl=s(),c(Ce.$$.fragment),Ul=s(),c(xe.$$.fragment),jl=s(),Ie=i("p"),Ie.textContent=En,hl=s(),c(g.$$.fragment),bl=s(),ve=i("p"),ve.innerHTML=Sn,gl=s(),c(Ze.$$.fragment),$l=s(),c(ke.$$.fragment),Cl=s(),Ve=i("p"),Ve.textContent=qn,xl=s(),c($.$$.fragment),Il=s(),Ge=i("p"),Ge.innerHTML=Ln,vl=s(),c(_e.$$.fragment),Zl=s(),c(Xe.$$.fragment),kl=s(),ze=i("p"),ze.innerHTML=Pn,Vl=s(),c(We.$$.fragment),Gl=s(),Be=i("p"),Be.innerHTML=On,_l=s(),c(Qe.$$.fragment),Xl=s(),Re=i("p"),Re.innerHTML=Kn,zl=s(),Ne=i("p"),Ne.innerHTML=ei,Wl=s(),c(He.$$.fragment),Bl=s(),Ae=i("p"),Ae.innerHTML=ti,Ql=s(),De=i("p"),De.innerHTML=ai,Rl=s(),c(Ye.$$.fragment),Nl=s(),Fe=i("p"),Fe.innerHTML=li,Hl=s(),c(Ee.$$.fragment),Al=s(),Se=i("p"),Se.innerHTML=si,Dl=s(),c(C.$$.fragment),Yl=s(),qe=i("p"),qe.textContent=ni,Fl=s(),Le=i("table"),Le.innerHTML=ii,El=s(),Pe=i("p"),Pe.innerHTML=ri,Sl=s(),Oe=i("p"),Oe.textContent=pi,ql=s(),Ke=i("p"),Ke.innerHTML=ci,Ll=s(),c(et.$$.fragment),Pl=s(),tt=i("p"),tt.textContent=ui,Ol=s(),at=i("table"),at.innerHTML=di,Kl=s(),lt=i("p"),lt.innerHTML=mi,es=Un(` | |
| <tip> | |
| `),st=i("p"),st.innerHTML=oi,ts=Un(` | |
| </tip> | |
| `),nt=i("p"),nt.innerHTML=Mi,as=Un(` | |
| <tip> | |
| `),it=i("p"),it.innerHTML=Ji,ls=Un(` | |
| </tip> | |
| `),rt=i("p"),rt.innerHTML=yi,ss=s(),c(pt.$$.fragment),ns=s(),ct=i("p"),ct.innerHTML=Ti,is=s(),c(ut.$$.fragment),rs=s(),c(dt.$$.fragment),ps=s(),mt=i("p"),mt.textContent=fi,cs=s(),c(ot.$$.fragment),us=s(),c(Mt.$$.fragment),ds=s(),Jt=i("p"),Jt.innerHTML=wi,ms=s(),yt=i("p"),yt.innerHTML=Ui,os=s(),c(Tt.$$.fragment),Ms=s(),ft=i("p"),ft.textContent=ji,Js=s(),c(wt.$$.fragment),ys=s(),c(Ut.$$.fragment),Ts=s(),jt=i("p"),jt.innerHTML=hi,fs=s(),c(ht.$$.fragment),ws=s(),bt=i("p"),bt.innerHTML=bi,Us=s(),c(gt.$$.fragment),js=s(),c($t.$$.fragment),hs=s(),Ct=i("p"),Ct.textContent=gi,bs=s(),xt=i("p"),xt.innerHTML=$i,gs=s(),c(It.$$.fragment),$s=s(),c(vt.$$.fragment),Cs=s(),Zt=i("p"),Zt.innerHTML=Ci,xs=s(),c(kt.$$.fragment),Is=s(),Vt=i("p"),Vt.innerHTML=xi,vs=s(),c(Gt.$$.fragment),Zs=s(),j=i("table"),j.innerHTML=Ii,ks=s(),_t=i("p"),_t.innerHTML=vi,Vs=s(),c(Xt.$$.fragment),Gs=s(),c(x.$$.fragment),_s=s(),zt=i("p"),zt.innerHTML=Zi,Xs=s(),c(Wt.$$.fragment),zs=s(),h=i("table"),h.innerHTML=ki,Ws=s(),Bt=i("p"),Bt.innerHTML=Vi,Bs=s(),c(Qt.$$.fragment),Qs=s(),c(I.$$.fragment),Rs=s(),Rt=i("p"),Rt.innerHTML=Gi,Ns=s(),c(Nt.$$.fragment),Hs=s(),c(Ht.$$.fragment),As=s(),At=i("p"),At.textContent=_i,Ds=s(),Dt=i("p"),Dt.innerHTML=Xi,Ys=s(),c(Yt.$$.fragment),Fs=s(),c(Ft.$$.fragment),Es=s(),Et=i("p"),Et.innerHTML=zi,Ss=s(),c(St.$$.fragment),qs=s(),c(qt.$$.fragment),Ls=s(),Lt=i("p"),Lt.textContent=Wi,Ps=s(),Pt=i("table"),Pt.innerHTML=Bi,Os=s(),Ot=i("p"),Ot.textContent=Qi,Ks=s(),c(Kt.$$.fragment),en=s(),ea=i("p"),ea.textContent=Ri,tn=s(),c(ta.$$.fragment),an=s(),aa=i("p"),aa.innerHTML=Ni,ln=s(),la=i("p"),la.innerHTML=Hi,sn=s(),c(sa.$$.fragment),nn=s(),c(na.$$.fragment),rn=s(),ia=i("p"),ia.innerHTML=Ai,pn=s(),c(ra.$$.fragment),cn=s(),pa=i("p"),pa.innerHTML=Di,un=s(),c(ca.$$.fragment),dn=s(),c(ua.$$.fragment),mn=s(),da=i("p"),da.innerHTML=Yi,on=s(),c(ma.$$.fragment),Mn=s(),oa=i("p"),oa.textContent=Fi,Jn=s(),Ma=i("ol"),Ma.innerHTML=Ei,yn=s(),Ja=i("p"),Ja.textContent=Si,Tn=s(),c(ya.$$.fragment),fn=s(),ja=i("p"),this.h()},l(e){const t=ir("svelte-u9bgzb",document.head);y=r(t,"META",{name:!0,content:!0}),t.forEach(a),f=n(e),T=r(e,"P",{}),tr(T).forEach(a),w=n(e),u(v.$$.fragment,e),ha=n(e),u(Z.$$.fragment,e),ba=n(e),k=r(e,"P",{"data-svelte-h":!0}),p(k)!=="svelte-sewg2j"&&(k.textContent=bn),ga=n(e),u(V.$$.fragment,e),$a=n(e),u(G.$$.fragment,e),Ca=n(e),_=r(e,"P",{"data-svelte-h":!0}),p(_)!=="svelte-1xl2zo7"&&(_.innerHTML=gn),xa=n(e),X=r(e,"P",{"data-svelte-h":!0}),p(X)!=="svelte-5gpsle"&&(X.innerHTML=$n),Ia=n(e),z=r(e,"P",{"data-svelte-h":!0}),p(z)!=="svelte-xgnj40"&&(z.innerHTML=Cn),va=n(e),u(W.$$.fragment,e),Za=n(e),B=r(e,"P",{"data-svelte-h":!0}),p(B)!=="svelte-bdqfzx"&&(B.innerHTML=xn),ka=n(e),u(Q.$$.fragment,e),Va=n(e),R=r(e,"P",{"data-svelte-h":!0}),p(R)!=="svelte-cjs3w1"&&(R.innerHTML=In),Ga=n(e),u(N.$$.fragment,e),_a=n(e),u(H.$$.fragment,e),Xa=n(e),A=r(e,"P",{"data-svelte-h":!0}),p(A)!=="svelte-1y2h1sd"&&(A.innerHTML=vn),za=n(e),D=r(e,"UL",{"data-svelte-h":!0}),p(D)!=="svelte-1y4uj6q"&&(D.innerHTML=Zn),Wa=n(e),Y=r(e,"P",{"data-svelte-h":!0}),p(Y)!=="svelte-cjk57f"&&(Y.innerHTML=kn),Ba=n(e),u(F.$$.fragment,e),Qa=n(e),E=r(e,"P",{"data-svelte-h":!0}),p(E)!=="svelte-17fdtaj"&&(E.innerHTML=Vn),Ra=n(e),u(S.$$.fragment,e),Na=n(e),u(q.$$.fragment,e),Ha=n(e),u(b.$$.fragment,e),Aa=n(e),L=r(e,"P",{"data-svelte-h":!0}),p(L)!=="svelte-pd2p4"&&(L.innerHTML=Gn),Da=n(e),u(P.$$.fragment,e),Ya=n(e),u(O.$$.fragment,e),Fa=n(e),K=r(e,"P",{"data-svelte-h":!0}),p(K)!=="svelte-1x8u13k"&&(K.innerHTML=_n),Ea=n(e),ee=r(e,"P",{"data-svelte-h":!0}),p(ee)!=="svelte-19ai4mf"&&(ee.textContent=Xn),Sa=n(e),u(te.$$.fragment,e),qa=n(e),ae=r(e,"P",{"data-svelte-h":!0}),p(ae)!=="svelte-3ge3af"&&(ae.innerHTML=zn),La=n(e),u(le.$$.fragment,e),Pa=n(e),se=r(e,"P",{"data-svelte-h":!0}),p(se)!=="svelte-gj227"&&(se.innerHTML=Wn),Oa=n(e),u(ne.$$.fragment,e),Ka=n(e),ie=r(e,"P",{"data-svelte-h":!0}),p(ie)!=="svelte-cd06uu"&&(ie.textContent=Bn),el=n(e),u(re.$$.fragment,e),tl=n(e),u(pe.$$.fragment,e),al=n(e),ce=r(e,"P",{"data-svelte-h":!0}),p(ce)!=="svelte-kjfe02"&&(ce.textContent=Qn),ll=n(e),u(ue.$$.fragment,e),sl=n(e),u(de.$$.fragment,e),nl=n(e),me=r(e,"P",{"data-svelte-h":!0}),p(me)!=="svelte-1r7kth3"&&(me.innerHTML=Rn),il=n(e),u(oe.$$.fragment,e),rl=n(e),Me=r(e,"P",{"data-svelte-h":!0}),p(Me)!=="svelte-15lbmt0"&&(Me.innerHTML=Nn),pl=n(e),u(Je.$$.fragment,e),cl=n(e),u(ye.$$.fragment,e),ul=n(e),Te=r(e,"P",{"data-svelte-h":!0}),p(Te)!=="svelte-cgo7ol"&&(Te.textContent=Hn),dl=n(e),u(fe.$$.fragment,e),ml=n(e),we=r(e,"P",{"data-svelte-h":!0}),p(we)!=="svelte-19jx9nw"&&(we.textContent=An),ol=n(e),Ue=r(e,"P",{"data-svelte-h":!0}),p(Ue)!=="svelte-dyh8y2"&&(Ue.textContent=Dn),Ml=n(e),u(je.$$.fragment,e),Jl=n(e),he=r(e,"P",{"data-svelte-h":!0}),p(he)!=="svelte-1i2n8ik"&&(he.innerHTML=Yn),yl=n(e),u(be.$$.fragment,e),Tl=n(e),u(ge.$$.fragment,e),fl=n(e),$e=r(e,"P",{"data-svelte-h":!0}),p($e)!=="svelte-40mcwr"&&($e.innerHTML=Fn),wl=n(e),u(Ce.$$.fragment,e),Ul=n(e),u(xe.$$.fragment,e),jl=n(e),Ie=r(e,"P",{"data-svelte-h":!0}),p(Ie)!=="svelte-1d39a3h"&&(Ie.textContent=En),hl=n(e),u(g.$$.fragment,e),bl=n(e),ve=r(e,"P",{"data-svelte-h":!0}),p(ve)!=="svelte-c37gpo"&&(ve.innerHTML=Sn),gl=n(e),u(Ze.$$.fragment,e),$l=n(e),u(ke.$$.fragment,e),Cl=n(e),Ve=r(e,"P",{"data-svelte-h":!0}),p(Ve)!=="svelte-1xc2lar"&&(Ve.textContent=qn),xl=n(e),u($.$$.fragment,e),Il=n(e),Ge=r(e,"P",{"data-svelte-h":!0}),p(Ge)!=="svelte-uwcez1"&&(Ge.innerHTML=Ln),vl=n(e),u(_e.$$.fragment,e),Zl=n(e),u(Xe.$$.fragment,e),kl=n(e),ze=r(e,"P",{"data-svelte-h":!0}),p(ze)!=="svelte-1m40o5q"&&(ze.innerHTML=Pn),Vl=n(e),u(We.$$.fragment,e),Gl=n(e),Be=r(e,"P",{"data-svelte-h":!0}),p(Be)!=="svelte-109ojpq"&&(Be.innerHTML=On),_l=n(e),u(Qe.$$.fragment,e),Xl=n(e),Re=r(e,"P",{"data-svelte-h":!0}),p(Re)!=="svelte-1eaizkt"&&(Re.innerHTML=Kn),zl=n(e),Ne=r(e,"P",{"data-svelte-h":!0}),p(Ne)!=="svelte-1jyn6bb"&&(Ne.innerHTML=ei),Wl=n(e),u(He.$$.fragment,e),Bl=n(e),Ae=r(e,"P",{"data-svelte-h":!0}),p(Ae)!=="svelte-1hor784"&&(Ae.innerHTML=ti),Ql=n(e),De=r(e,"P",{"data-svelte-h":!0}),p(De)!=="svelte-1abep"&&(De.innerHTML=ai),Rl=n(e),u(Ye.$$.fragment,e),Nl=n(e),Fe=r(e,"P",{"data-svelte-h":!0}),p(Fe)!=="svelte-1ig6wuk"&&(Fe.innerHTML=li),Hl=n(e),u(Ee.$$.fragment,e),Al=n(e),Se=r(e,"P",{"data-svelte-h":!0}),p(Se)!=="svelte-1t2xvef"&&(Se.innerHTML=si),Dl=n(e),u(C.$$.fragment,e),Yl=n(e),qe=r(e,"P",{"data-svelte-h":!0}),p(qe)!=="svelte-l159d6"&&(qe.textContent=ni),Fl=n(e),Le=r(e,"TABLE",{"data-svelte-h":!0}),p(Le)!=="svelte-1yr1fn7"&&(Le.innerHTML=ii),El=n(e),Pe=r(e,"P",{"data-svelte-h":!0}),p(Pe)!=="svelte-1r6cmuf"&&(Pe.innerHTML=ri),Sl=n(e),Oe=r(e,"P",{"data-svelte-h":!0}),p(Oe)!=="svelte-1lpoqru"&&(Oe.textContent=pi),ql=n(e),Ke=r(e,"P",{"data-svelte-h":!0}),p(Ke)!=="svelte-2bc81k"&&(Ke.innerHTML=ci),Ll=n(e),u(et.$$.fragment,e),Pl=n(e),tt=r(e,"P",{"data-svelte-h":!0}),p(tt)!=="svelte-si3nzq"&&(tt.textContent=ui),Ol=n(e),at=r(e,"TABLE",{"data-svelte-h":!0}),p(at)!=="svelte-psfvtk"&&(at.innerHTML=di),Kl=n(e),lt=r(e,"P",{"data-svelte-h":!0}),p(lt)!=="svelte-1m2zfu7"&&(lt.innerHTML=mi),es=jn(e,` | |
| <tip> | |
| `),st=r(e,"P",{"data-svelte-h":!0}),p(st)!=="svelte-am1598"&&(st.innerHTML=oi),ts=jn(e,` | |
| </tip> | |
| `),nt=r(e,"P",{"data-svelte-h":!0}),p(nt)!=="svelte-1rmaxz5"&&(nt.innerHTML=Mi),as=jn(e,` | |
| <tip> | |
| `),it=r(e,"P",{"data-svelte-h":!0}),p(it)!=="svelte-1kcgyqp"&&(it.innerHTML=Ji),ls=jn(e,` | |
| </tip> | |
| `),rt=r(e,"P",{"data-svelte-h":!0}),p(rt)!=="svelte-9o5y6p"&&(rt.innerHTML=yi),ss=n(e),u(pt.$$.fragment,e),ns=n(e),ct=r(e,"P",{"data-svelte-h":!0}),p(ct)!=="svelte-vpi1n5"&&(ct.innerHTML=Ti),is=n(e),u(ut.$$.fragment,e),rs=n(e),u(dt.$$.fragment,e),ps=n(e),mt=r(e,"P",{"data-svelte-h":!0}),p(mt)!=="svelte-1quxdft"&&(mt.textContent=fi),cs=n(e),u(ot.$$.fragment,e),us=n(e),u(Mt.$$.fragment,e),ds=n(e),Jt=r(e,"P",{"data-svelte-h":!0}),p(Jt)!=="svelte-s29zhy"&&(Jt.innerHTML=wi),ms=n(e),yt=r(e,"P",{"data-svelte-h":!0}),p(yt)!=="svelte-spela0"&&(yt.innerHTML=Ui),os=n(e),u(Tt.$$.fragment,e),Ms=n(e),ft=r(e,"P",{"data-svelte-h":!0}),p(ft)!=="svelte-jy8c1f"&&(ft.textContent=ji),Js=n(e),u(wt.$$.fragment,e),ys=n(e),u(Ut.$$.fragment,e),Ts=n(e),jt=r(e,"P",{"data-svelte-h":!0}),p(jt)!=="svelte-41jew6"&&(jt.innerHTML=hi),fs=n(e),u(ht.$$.fragment,e),ws=n(e),bt=r(e,"P",{"data-svelte-h":!0}),p(bt)!=="svelte-122etuf"&&(bt.innerHTML=bi),Us=n(e),u(gt.$$.fragment,e),js=n(e),u($t.$$.fragment,e),hs=n(e),Ct=r(e,"P",{"data-svelte-h":!0}),p(Ct)!=="svelte-m3cuij"&&(Ct.textContent=gi),bs=n(e),xt=r(e,"P",{"data-svelte-h":!0}),p(xt)!=="svelte-1mi7z13"&&(xt.innerHTML=$i),gs=n(e),u(It.$$.fragment,e),$s=n(e),u(vt.$$.fragment,e),Cs=n(e),Zt=r(e,"P",{"data-svelte-h":!0}),p(Zt)!=="svelte-8sz5vr"&&(Zt.innerHTML=Ci),xs=n(e),u(kt.$$.fragment,e),Is=n(e),Vt=r(e,"P",{"data-svelte-h":!0}),p(Vt)!=="svelte-gbtz7f"&&(Vt.innerHTML=xi),vs=n(e),u(Gt.$$.fragment,e),Zs=n(e),j=r(e,"TABLE",{border:!0,class:!0,"data-svelte-h":!0}),p(j)!=="svelte-fhhlil"&&(j.innerHTML=Ii),ks=n(e),_t=r(e,"P",{"data-svelte-h":!0}),p(_t)!=="svelte-2peda1"&&(_t.innerHTML=vi),Vs=n(e),u(Xt.$$.fragment,e),Gs=n(e),u(x.$$.fragment,e),_s=n(e),zt=r(e,"P",{"data-svelte-h":!0}),p(zt)!=="svelte-ol2325"&&(zt.innerHTML=Zi),Xs=n(e),u(Wt.$$.fragment,e),zs=n(e),h=r(e,"TABLE",{border:!0,class:!0,"data-svelte-h":!0}),p(h)!=="svelte-10crns6"&&(h.innerHTML=ki),Ws=n(e),Bt=r(e,"P",{"data-svelte-h":!0}),p(Bt)!=="svelte-h1627a"&&(Bt.innerHTML=Vi),Bs=n(e),u(Qt.$$.fragment,e),Qs=n(e),u(I.$$.fragment,e),Rs=n(e),Rt=r(e,"P",{"data-svelte-h":!0}),p(Rt)!=="svelte-1cdruhh"&&(Rt.innerHTML=Gi),Ns=n(e),u(Nt.$$.fragment,e),Hs=n(e),u(Ht.$$.fragment,e),As=n(e),At=r(e,"P",{"data-svelte-h":!0}),p(At)!=="svelte-199ity8"&&(At.textContent=_i),Ds=n(e),Dt=r(e,"P",{"data-svelte-h":!0}),p(Dt)!=="svelte-2gp8v1"&&(Dt.innerHTML=Xi),Ys=n(e),u(Yt.$$.fragment,e),Fs=n(e),u(Ft.$$.fragment,e),Es=n(e),Et=r(e,"P",{"data-svelte-h":!0}),p(Et)!=="svelte-1ox57rc"&&(Et.innerHTML=zi),Ss=n(e),u(St.$$.fragment,e),qs=n(e),u(qt.$$.fragment,e),Ls=n(e),Lt=r(e,"P",{"data-svelte-h":!0}),p(Lt)!=="svelte-qdzuye"&&(Lt.textContent=Wi),Ps=n(e),Pt=r(e,"TABLE",{"data-svelte-h":!0}),p(Pt)!=="svelte-1j3m9gn"&&(Pt.innerHTML=Bi),Os=n(e),Ot=r(e,"P",{"data-svelte-h":!0}),p(Ot)!=="svelte-1wk2y8c"&&(Ot.textContent=Qi),Ks=n(e),u(Kt.$$.fragment,e),en=n(e),ea=r(e,"P",{"data-svelte-h":!0}),p(ea)!=="svelte-trwwcu"&&(ea.textContent=Ri),tn=n(e),u(ta.$$.fragment,e),an=n(e),aa=r(e,"P",{"data-svelte-h":!0}),p(aa)!=="svelte-5chec0"&&(aa.innerHTML=Ni),ln=n(e),la=r(e,"P",{"data-svelte-h":!0}),p(la)!=="svelte-1n0zf0n"&&(la.innerHTML=Hi),sn=n(e),u(sa.$$.fragment,e),nn=n(e),u(na.$$.fragment,e),rn=n(e),ia=r(e,"P",{"data-svelte-h":!0}),p(ia)!=="svelte-yveygn"&&(ia.innerHTML=Ai),pn=n(e),u(ra.$$.fragment,e),cn=n(e),pa=r(e,"P",{"data-svelte-h":!0}),p(pa)!=="svelte-b8dbym"&&(pa.innerHTML=Di),un=n(e),u(ca.$$.fragment,e),dn=n(e),u(ua.$$.fragment,e),mn=n(e),da=r(e,"P",{"data-svelte-h":!0}),p(da)!=="svelte-17wzcsg"&&(da.innerHTML=Yi),on=n(e),u(ma.$$.fragment,e),Mn=n(e),oa=r(e,"P",{"data-svelte-h":!0}),p(oa)!=="svelte-1qbtyzp"&&(oa.textContent=Fi),Jn=n(e),Ma=r(e,"OL",{"data-svelte-h":!0}),p(Ma)!=="svelte-1cvrjqs"&&(Ma.innerHTML=Ei),yn=n(e),Ja=r(e,"P",{"data-svelte-h":!0}),p(Ja)!=="svelte-10dek8g"&&(Ja.textContent=Si),Tn=n(e),u(ya.$$.fragment,e),fn=n(e),ja=r(e,"P",{}),tr(ja).forEach(a),this.h()},h(){fa(y,"name","hf:doc:metadata"),fa(y,"content",Tr),fa(j,"border","1"),fa(j,"class","dataframe"),fa(h,"border","1"),fa(h,"class","dataframe")},m(e,t){rr(document.head,y),l(e,f,t),l(e,T,t),l(e,w,t),d(v,e,t),l(e,ha,t),d(Z,e,t),l(e,ba,t),l(e,k,t),l(e,ga,t),d(V,e,t),l(e,$a,t),d(G,e,t),l(e,Ca,t),l(e,_,t),l(e,xa,t),l(e,X,t),l(e,Ia,t),l(e,z,t),l(e,va,t),d(W,e,t),l(e,Za,t),l(e,B,t),l(e,ka,t),d(Q,e,t),l(e,Va,t),l(e,R,t),l(e,Ga,t),d(N,e,t),l(e,_a,t),d(H,e,t),l(e,Xa,t),l(e,A,t),l(e,za,t),l(e,D,t),l(e,Wa,t),l(e,Y,t),l(e,Ba,t),d(F,e,t),l(e,Qa,t),l(e,E,t),l(e,Ra,t),d(S,e,t),l(e,Na,t),d(q,e,t),l(e,Ha,t),d(b,e,t),l(e,Aa,t),l(e,L,t),l(e,Da,t),d(P,e,t),l(e,Ya,t),d(O,e,t),l(e,Fa,t),l(e,K,t),l(e,Ea,t),l(e,ee,t),l(e,Sa,t),d(te,e,t),l(e,qa,t),l(e,ae,t),l(e,La,t),d(le,e,t),l(e,Pa,t),l(e,se,t),l(e,Oa,t),d(ne,e,t),l(e,Ka,t),l(e,ie,t),l(e,el,t),d(re,e,t),l(e,tl,t),d(pe,e,t),l(e,al,t),l(e,ce,t),l(e,ll,t),d(ue,e,t),l(e,sl,t),d(de,e,t),l(e,nl,t),l(e,me,t),l(e,il,t),d(oe,e,t),l(e,rl,t),l(e,Me,t),l(e,pl,t),d(Je,e,t),l(e,cl,t),d(ye,e,t),l(e,ul,t),l(e,Te,t),l(e,dl,t),d(fe,e,t),l(e,ml,t),l(e,we,t),l(e,ol,t),l(e,Ue,t),l(e,Ml,t),d(je,e,t),l(e,Jl,t),l(e,he,t),l(e,yl,t),d(be,e,t),l(e,Tl,t),d(ge,e,t),l(e,fl,t),l(e,$e,t),l(e,wl,t),d(Ce,e,t),l(e,Ul,t),d(xe,e,t),l(e,jl,t),l(e,Ie,t),l(e,hl,t),d(g,e,t),l(e,bl,t),l(e,ve,t),l(e,gl,t),d(Ze,e,t),l(e,$l,t),d(ke,e,t),l(e,Cl,t),l(e,Ve,t),l(e,xl,t),d($,e,t),l(e,Il,t),l(e,Ge,t),l(e,vl,t),d(_e,e,t),l(e,Zl,t),d(Xe,e,t),l(e,kl,t),l(e,ze,t),l(e,Vl,t),d(We,e,t),l(e,Gl,t),l(e,Be,t),l(e,_l,t),d(Qe,e,t),l(e,Xl,t),l(e,Re,t),l(e,zl,t),l(e,Ne,t),l(e,Wl,t),d(He,e,t),l(e,Bl,t),l(e,Ae,t),l(e,Ql,t),l(e,De,t),l(e,Rl,t),d(Ye,e,t),l(e,Nl,t),l(e,Fe,t),l(e,Hl,t),d(Ee,e,t),l(e,Al,t),l(e,Se,t),l(e,Dl,t),d(C,e,t),l(e,Yl,t),l(e,qe,t),l(e,Fl,t),l(e,Le,t),l(e,El,t),l(e,Pe,t),l(e,Sl,t),l(e,Oe,t),l(e,ql,t),l(e,Ke,t),l(e,Ll,t),d(et,e,t),l(e,Pl,t),l(e,tt,t),l(e,Ol,t),l(e,at,t),l(e,Kl,t),l(e,lt,t),l(e,es,t),l(e,st,t),l(e,ts,t),l(e,nt,t),l(e,as,t),l(e,it,t),l(e,ls,t),l(e,rt,t),l(e,ss,t),d(pt,e,t),l(e,ns,t),l(e,ct,t),l(e,is,t),d(ut,e,t),l(e,rs,t),d(dt,e,t),l(e,ps,t),l(e,mt,t),l(e,cs,t),d(ot,e,t),l(e,us,t),d(Mt,e,t),l(e,ds,t),l(e,Jt,t),l(e,ms,t),l(e,yt,t),l(e,os,t),d(Tt,e,t),l(e,Ms,t),l(e,ft,t),l(e,Js,t),d(wt,e,t),l(e,ys,t),d(Ut,e,t),l(e,Ts,t),l(e,jt,t),l(e,fs,t),d(ht,e,t),l(e,ws,t),l(e,bt,t),l(e,Us,t),d(gt,e,t),l(e,js,t),d($t,e,t),l(e,hs,t),l(e,Ct,t),l(e,bs,t),l(e,xt,t),l(e,gs,t),d(It,e,t),l(e,$s,t),d(vt,e,t),l(e,Cs,t),l(e,Zt,t),l(e,xs,t),d(kt,e,t),l(e,Is,t),l(e,Vt,t),l(e,vs,t),d(Gt,e,t),l(e,Zs,t),l(e,j,t),l(e,ks,t),l(e,_t,t),l(e,Vs,t),d(Xt,e,t),l(e,Gs,t),d(x,e,t),l(e,_s,t),l(e,zt,t),l(e,Xs,t),d(Wt,e,t),l(e,zs,t),l(e,h,t),l(e,Ws,t),l(e,Bt,t),l(e,Bs,t),d(Qt,e,t),l(e,Qs,t),d(I,e,t),l(e,Rs,t),l(e,Rt,t),l(e,Ns,t),d(Nt,e,t),l(e,Hs,t),d(Ht,e,t),l(e,As,t),l(e,At,t),l(e,Ds,t),l(e,Dt,t),l(e,Ys,t),d(Yt,e,t),l(e,Fs,t),d(Ft,e,t),l(e,Es,t),l(e,Et,t),l(e,Ss,t),d(St,e,t),l(e,qs,t),d(qt,e,t),l(e,Ls,t),l(e,Lt,t),l(e,Ps,t),l(e,Pt,t),l(e,Os,t),l(e,Ot,t),l(e,Ks,t),d(Kt,e,t),l(e,en,t),l(e,ea,t),l(e,tn,t),d(ta,e,t),l(e,an,t),l(e,aa,t),l(e,ln,t),l(e,la,t),l(e,sn,t),d(sa,e,t),l(e,nn,t),d(na,e,t),l(e,rn,t),l(e,ia,t),l(e,pn,t),d(ra,e,t),l(e,cn,t),l(e,pa,t),l(e,un,t),d(ca,e,t),l(e,dn,t),d(ua,e,t),l(e,mn,t),l(e,da,t),l(e,on,t),d(ma,e,t),l(e,Mn,t),l(e,oa,t),l(e,Jn,t),l(e,Ma,t),l(e,yn,t),l(e,Ja,t),l(e,Tn,t),d(ya,e,t),l(e,fn,t),l(e,ja,t),wn=!0},p(e,[t]){const qi={};t&2&&(qi.$$scope={dirty:t,ctx:e}),b.$set(qi);const Li={};t&2&&(Li.$$scope={dirty:t,ctx:e}),g.$set(Li);const Pi={};t&2&&(Pi.$$scope={dirty:t,ctx:e}),$.$set(Pi);const Oi={};t&2&&(Oi.$$scope={dirty:t,ctx:e}),C.$set(Oi);const Ki={};t&2&&(Ki.$$scope={dirty:t,ctx:e}),x.$set(Ki);const er={};t&2&&(er.$$scope={dirty:t,ctx:e}),I.$set(er)},i(e){wn||(m(v.$$.fragment,e),m(Z.$$.fragment,e),m(V.$$.fragment,e),m(G.$$.fragment,e),m(W.$$.fragment,e),m(Q.$$.fragment,e),m(N.$$.fragment,e),m(H.$$.fragment,e),m(F.$$.fragment,e),m(S.$$.fragment,e),m(q.$$.fragment,e),m(b.$$.fragment,e),m(P.$$.fragment,e),m(O.$$.fragment,e),m(te.$$.fragment,e),m(le.$$.fragment,e),m(ne.$$.fragment,e),m(re.$$.fragment,e),m(pe.$$.fragment,e),m(ue.$$.fragment,e),m(de.$$.fragment,e),m(oe.$$.fragment,e),m(Je.$$.fragment,e),m(ye.$$.fragment,e),m(fe.$$.fragment,e),m(je.$$.fragment,e),m(be.$$.fragment,e),m(ge.$$.fragment,e),m(Ce.$$.fragment,e),m(xe.$$.fragment,e),m(g.$$.fragment,e),m(Ze.$$.fragment,e),m(ke.$$.fragment,e),m($.$$.fragment,e),m(_e.$$.fragment,e),m(Xe.$$.fragment,e),m(We.$$.fragment,e),m(Qe.$$.fragment,e),m(He.$$.fragment,e),m(Ye.$$.fragment,e),m(Ee.$$.fragment,e),m(C.$$.fragment,e),m(et.$$.fragment,e),m(pt.$$.fragment,e),m(ut.$$.fragment,e),m(dt.$$.fragment,e),m(ot.$$.fragment,e),m(Mt.$$.fragment,e),m(Tt.$$.fragment,e),m(wt.$$.fragment,e),m(Ut.$$.fragment,e),m(ht.$$.fragment,e),m(gt.$$.fragment,e),m($t.$$.fragment,e),m(It.$$.fragment,e),m(vt.$$.fragment,e),m(kt.$$.fragment,e),m(Gt.$$.fragment,e),m(Xt.$$.fragment,e),m(x.$$.fragment,e),m(Wt.$$.fragment,e),m(Qt.$$.fragment,e),m(I.$$.fragment,e),m(Nt.$$.fragment,e),m(Ht.$$.fragment,e),m(Yt.$$.fragment,e),m(Ft.$$.fragment,e),m(St.$$.fragment,e),m(qt.$$.fragment,e),m(Kt.$$.fragment,e),m(ta.$$.fragment,e),m(sa.$$.fragment,e),m(na.$$.fragment,e),m(ra.$$.fragment,e),m(ca.$$.fragment,e),m(ua.$$.fragment,e),m(ma.$$.fragment,e),m(ya.$$.fragment,e),wn=!0)},o(e){o(v.$$.fragment,e),o(Z.$$.fragment,e),o(V.$$.fragment,e),o(G.$$.fragment,e),o(W.$$.fragment,e),o(Q.$$.fragment,e),o(N.$$.fragment,e),o(H.$$.fragment,e),o(F.$$.fragment,e),o(S.$$.fragment,e),o(q.$$.fragment,e),o(b.$$.fragment,e),o(P.$$.fragment,e),o(O.$$.fragment,e),o(te.$$.fragment,e),o(le.$$.fragment,e),o(ne.$$.fragment,e),o(re.$$.fragment,e),o(pe.$$.fragment,e),o(ue.$$.fragment,e),o(de.$$.fragment,e),o(oe.$$.fragment,e),o(Je.$$.fragment,e),o(ye.$$.fragment,e),o(fe.$$.fragment,e),o(je.$$.fragment,e),o(be.$$.fragment,e),o(ge.$$.fragment,e),o(Ce.$$.fragment,e),o(xe.$$.fragment,e),o(g.$$.fragment,e),o(Ze.$$.fragment,e),o(ke.$$.fragment,e),o($.$$.fragment,e),o(_e.$$.fragment,e),o(Xe.$$.fragment,e),o(We.$$.fragment,e),o(Qe.$$.fragment,e),o(He.$$.fragment,e),o(Ye.$$.fragment,e),o(Ee.$$.fragment,e),o(C.$$.fragment,e),o(et.$$.fragment,e),o(pt.$$.fragment,e),o(ut.$$.fragment,e),o(dt.$$.fragment,e),o(ot.$$.fragment,e),o(Mt.$$.fragment,e),o(Tt.$$.fragment,e),o(wt.$$.fragment,e),o(Ut.$$.fragment,e),o(ht.$$.fragment,e),o(gt.$$.fragment,e),o($t.$$.fragment,e),o(It.$$.fragment,e),o(vt.$$.fragment,e),o(kt.$$.fragment,e),o(Gt.$$.fragment,e),o(Xt.$$.fragment,e),o(x.$$.fragment,e),o(Wt.$$.fragment,e),o(Qt.$$.fragment,e),o(I.$$.fragment,e),o(Nt.$$.fragment,e),o(Ht.$$.fragment,e),o(Yt.$$.fragment,e),o(Ft.$$.fragment,e),o(St.$$.fragment,e),o(qt.$$.fragment,e),o(Kt.$$.fragment,e),o(ta.$$.fragment,e),o(sa.$$.fragment,e),o(na.$$.fragment,e),o(ra.$$.fragment,e),o(ca.$$.fragment,e),o(ua.$$.fragment,e),o(ma.$$.fragment,e),o(ya.$$.fragment,e),wn=!1},d(e){e&&(a(f),a(T),a(w),a(ha),a(ba),a(k),a(ga),a($a),a(Ca),a(_),a(xa),a(X),a(Ia),a(z),a(va),a(Za),a(B),a(ka),a(Va),a(R),a(Ga),a(_a),a(Xa),a(A),a(za),a(D),a(Wa),a(Y),a(Ba),a(Qa),a(E),a(Ra),a(Na),a(Ha),a(Aa),a(L),a(Da),a(Ya),a(Fa),a(K),a(Ea),a(ee),a(Sa),a(qa),a(ae),a(La),a(Pa),a(se),a(Oa),a(Ka),a(ie),a(el),a(tl),a(al),a(ce),a(ll),a(sl),a(nl),a(me),a(il),a(rl),a(Me),a(pl),a(cl),a(ul),a(Te),a(dl),a(ml),a(we),a(ol),a(Ue),a(Ml),a(Jl),a(he),a(yl),a(Tl),a(fl),a($e),a(wl),a(Ul),a(jl),a(Ie),a(hl),a(bl),a(ve),a(gl),a($l),a(Cl),a(Ve),a(xl),a(Il),a(Ge),a(vl),a(Zl),a(kl),a(ze),a(Vl),a(Gl),a(Be),a(_l),a(Xl),a(Re),a(zl),a(Ne),a(Wl),a(Bl),a(Ae),a(Ql),a(De),a(Rl),a(Nl),a(Fe),a(Hl),a(Al),a(Se),a(Dl),a(Yl),a(qe),a(Fl),a(Le),a(El),a(Pe),a(Sl),a(Oe),a(ql),a(Ke),a(Ll),a(Pl),a(tt),a(Ol),a(at),a(Kl),a(lt),a(es),a(st),a(ts),a(nt),a(as),a(it),a(ls),a(rt),a(ss),a(ns),a(ct),a(is),a(rs),a(ps),a(mt),a(cs),a(us),a(ds),a(Jt),a(ms),a(yt),a(os),a(Ms),a(ft),a(Js),a(ys),a(Ts),a(jt),a(fs),a(ws),a(bt),a(Us),a(js),a(hs),a(Ct),a(bs),a(xt),a(gs),a($s),a(Cs),a(Zt),a(xs),a(Is),a(Vt),a(vs),a(Zs),a(j),a(ks),a(_t),a(Vs),a(Gs),a(_s),a(zt),a(Xs),a(zs),a(h),a(Ws),a(Bt),a(Bs),a(Qs),a(Rs),a(Rt),a(Ns),a(Hs),a(As),a(At),a(Ds),a(Dt),a(Ys),a(Fs),a(Es),a(Et),a(Ss),a(qs),a(Ls),a(Lt),a(Ps),a(Pt),a(Os),a(Ot),a(Ks),a(en),a(ea),a(tn),a(an),a(aa),a(ln),a(la),a(sn),a(nn),a(rn),a(ia),a(pn),a(cn),a(pa),a(un),a(dn),a(mn),a(da),a(on),a(Mn),a(oa),a(Jn),a(Ma),a(yn),a(Ja),a(Tn),a(fn),a(ja)),a(y),M(v,e),M(Z,e),M(V,e),M(G,e),M(W,e),M(Q,e),M(N,e),M(H,e),M(F,e),M(S,e),M(q,e),M(b,e),M(P,e),M(O,e),M(te,e),M(le,e),M(ne,e),M(re,e),M(pe,e),M(ue,e),M(de,e),M(oe,e),M(Je,e),M(ye,e),M(fe,e),M(je,e),M(be,e),M(ge,e),M(Ce,e),M(xe,e),M(g,e),M(Ze,e),M(ke,e),M($,e),M(_e,e),M(Xe,e),M(We,e),M(Qe,e),M(He,e),M(Ye,e),M(Ee,e),M(C,e),M(et,e),M(pt,e),M(ut,e),M(dt,e),M(ot,e),M(Mt,e),M(Tt,e),M(wt,e),M(Ut,e),M(ht,e),M(gt,e),M($t,e),M(It,e),M(vt,e),M(kt,e),M(Gt,e),M(Xt,e),M(x,e),M(Wt,e),M(Qt,e),M(I,e),M(Nt,e),M(Ht,e),M(Yt,e),M(Ft,e),M(St,e),M(qt,e),M(Kt,e),M(ta,e),M(sa,e),M(na,e),M(ra,e),M(ca,e),M(ua,e),M(ma,e),M(ya,e)}}}const Tr='{"title":"E timpul să tăiem și să analizăm datele","local":"time-to-slice-and-dice","sections":[{"title":"Slicing și dicing asupra datelor","local":"slicing-and-dicing-our-data","sections":[],"depth":2},{"title":"Crearea de noi coloane","local":"creating-new-columns","sections":[],"depth":2},{"title":"Superputerile metodei map()","local":"the-map-methods-superpowers","sections":[],"depth":2},{"title":"De la Dataset s la DataFrame s și înapoi","local":"from-datasets-to-dataframes-and-back","sections":[],"depth":2},{"title":"Crearea unui set de validare","local":"creating-a-validation-set","sections":[],"depth":2},{"title":"Salvarea unui dataset","local":"saving-a-dataset","sections":[],"depth":2}],"depth":1}';function fr(U){return lr(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Cr extends sr{constructor(y){super(),nr(this,y,fr,yr,ar,{})}}export{Cr as component}; | |
Xet Storage Details
- Size:
- 104 kB
- Xet hash:
- e3d3808e69614e3cfcd8b815ef895cc5a0225994902cbbb2e4e33b81a8869dc2
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.