Buckets:

rtrm's picture
download
raw
105 kB
import{s as er,o as sr,n as V}from"../chunks/scheduler.37c15a92.js";import{S as ar,i as tr,g as o,s as l,r as i,A as lr,h as r,f as a,c as n,j as Ko,u as p,x as d,k as Ua,y as nr,a as t,v as m,d as c,t as u,w as M}from"../chunks/index.2bf4358c.js";import{T as k}from"../chunks/Tip.363c041f.js";import{Y as Un}from"../chunks/Youtube.1e50a667.js";import{C as y}from"../chunks/CodeBlock.4e987730.js";import{C as or}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as fa,E as rr}from"../chunks/getInferenceSnippets.8b9eb92a.js";function dr(U){let J,j="✏️ <strong>Experimente!</strong> Use a função <code>Dataset.unique()</code> para encontrar o número de medicamentos e condições exclusivos nos conjuntos de treinamento e teste.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-1pffztg"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function ir(U){let J,j="🙋 Uma forma alternativa de adicionar novas colunas a um conjunto de dados é com a função <code>Dataset.add_column()</code>. Isso permite que você forneça a coluna como uma lista Python ou array NumPy e pode ser útil em situações em que <code>Dataset.map()</code> não é adequado para sua análise.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-78ir64"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function pr(U){let J,j='✏️ <strong>Experimente!</strong> Use a função <code>Dataset.sort()</code> para inspecionar as resenhas com o maior número de palavras. Consulte a <a href="https://huggingface.co/docs/datasets/package_reference/main_classes#datasets.Dataset.sort" rel="nofollow">documentação</a> para ver qual argumento você precisa usar para classificar as avaliações por tamanho em ordem decrescente.';return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-qrl1m4"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function mr(U){let J,j="✏️ <strong>Experimente!</strong> Execute a mesma instrução com e sem <code>batched=True</code>, então tente com um tokenizer lento (adicione <code>use_fast=False</code> no método <code>AutoTokenizer.from_pretrained()</code>) para que você possa veja quais números você obtém em seu hardware.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-gywcho"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function cr(U){let J,j="Usar <code>num_proc</code> para acelerar seu processamento geralmente é uma ótima idéia, desde que a função que você está usando não esteja fazendo algum tipo de multiprocessamento próprio.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-13nk81s"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function ur(U){let J,j="💡 No aprendizado de máquina, um <em>exemplo</em> geralmente é definido como o conjunto de <em>recursos</em> que alimentamos o modelo. Em alguns contextos, esses recursos serão o conjunto de colunas em um <code>Dataset</code>, mas em outros (como aqui e para resposta a perguntas), vários recursos podem ser extraídos de um único exemplo e pertencer a uma única coluna.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-nerah8"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function Mr(U){let J,j="🚨 <code>Dataset.set_format()</code> altera o formato de retorno para o método dunder <code>__getitem__()</code> do conjunto de dados. Isso significa que quando queremos criar um novo objeto como <code>train_df</code> a partir de um <code>Dataset</code> no formato <code>&quot;pandas&quot;</code>, precisamos dividir todo o conjunto de dados para obter um <code>pandas.DataFrame</code>. Você pode verificar por si mesmo que o tipo de <code>drug_dataset[&quot;train&quot;]</code> é <code>Dataset</code>, independentemente do formato de saída.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-1b7aewk"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function Jr(U){let J,j="✏️ <strong>Experimente!</strong> Calcule a classificação média por medicamento e armazene o resultado em um novo <code>Dataset</code>.";return{c(){J=o("p"),J.innerHTML=j},l(T){J=r(T,"P",{"data-svelte-h":!0}),d(J)!=="svelte-kjtof3"&&(J.innerHTML=j)},m(T,f){t(T,J,f)},p:V,d(T){T&&a(J)}}}function yr(U){let J,j,T,f,G,ha,_,ba,X,wn="Na maioria das vezes, os dados com os quais você trabalha não estarão perfeitamente preparados para treinamento de modelos. Nesta seção vamos explorar as várias características que o 🤗 Datasets fornece para limpar seus conjuntos de dados.",ga,B,$a,Q,va,W,hn='Semelhante ao Pandas, 🤗 Datasets fornece várias funções para manipular o conteúdo dos objetos <code>Dataset</code> e <code>DatasetDict</code>. Já encontramos o método <code>Dataset.map()</code> no <a href="/course/chapter3">Capítulo 3</a>, e nesta seção vamos explorar algumas das outras funções à nossa disposição.',Ca,R,bn='Para este exemplo, usaremos o <a href="https://archive.ics.uci.edu/ml/datasets/Drug+Review+Dataset+%28Drugs.com%29" rel="nofollow">Drug Review Dataset</a> que está hospedado na <a href="https://archive.ics.uci.edu/ml/index.php" rel="nofollow">UC Irvine Machine Learning Repository</a>, que contém avaliações de pacientes sobre vários medicamentos, juntamente com a condição a ser tratada e uma classificação de 10 estrelas da satisfação do paciente.',xa,N,gn="Primeiro precisamos baixar e extrair os dados, o que pode ser feito com os comandos <code>wget</code> e <code>unzip</code>:",Ia,q,Za,z,$n="Como o TSV é apenas uma variante do CSV que usa tabulações em vez de vírgulas como separador, podemos carregar esses arquivos usando o script de carregamento <code>csv</code> e especificando o argumento <code>delimiter</code> na função <code>load_dataset()</code> da seguinte forma:",ka,H,Va,A,vn="Uma boa prática ao fazer qualquer tipo de análise de dados é pegar uma pequena amostra aleatória para ter uma ideia rápida do tipo de dados com os quais você está trabalhando. Em 🤗 Datasets, podemos criar uma amostra aleatória encadeando as funções <code>Dataset.shuffle()</code> e <code>Dataset.select()</code> juntas:",Ga,Y,_a,E,Xa,D,Cn="Observe que corrigimos a seed em <code>Dataset.shuffle()</code> para fins de reprodutibilidade. <code>Dataset.select()</code> espera um iterável de índices, então passamos <code>range(1000)</code> para pegar os primeiros 1.000 exemplos do conjunto de dados embaralhado. A partir desta amostra já podemos ver algumas peculiaridades em nosso conjunto de dados:",Ba,F,xn="<li>A coluna <code>Unnamed: 0</code> se parece com um ID anônimo para cada paciente.</li> <li>A coluna <code>condition</code> inclui uma combinação de rótulos em maiúsculas e minúsculas.</li> <li>As revisões são de tamanho variável e contêm uma mistura de separadores de linha Python (<code>\\r\\n</code>), bem como códigos de caracteres HTML como <code>&amp;\\#039;</code>.</li>",Qa,S,In="Vamos ver como podemos usar 🤗 Datasets para lidar com cada um desses problemas. Para testar a hipótese de ID do paciente para a coluna <code>Unnamed: 0</code>, podemos usar a função <code>Dataset.unique()</code> para verificar se o número de IDs corresponde ao número de linhas em cada divisão:",Wa,L,Ra,P,Zn="Isso parece confirmar nossa hipótese, então vamos limpar um pouco o conjunto de dados renomeando a coluna <code>Unnamed: 0</code> para algo um pouco mais interpretável. Podemos usar a função <code>DatasetDict.rename_column()</code> para renomear a coluna em ambas as divisões de uma só vez:",Na,O,qa,K,za,b,Ha,ee,kn='Em seguida, vamos normalizar todos os rótulos <code>condition</code> usando <code>Dataset.map()</code>. Como fizemos com a tokenização no <a href="/course/chapter3">Capítulo 3</a>, podemos definir uma função simples que pode ser aplicada em todas as linhas de cada divisão em <code>drug_dataset</code>:',Aa,se,Ya,ae,Ea,te,Vn="Oh não, tivemos um problema com nossa função de mapa! A partir do erro, podemos inferir que algumas das entradas na coluna <code>condition</code> são <code>None</code>, que não podem ser minúsculas, pois não são strings. Vamos eliminar essas linhas usando <code>Dataset.filter()</code>, que funciona de maneira semelhante a <code>Dataset.map()</code> e espera uma função que receba um único exemplo do conjunto de dados. Em vez de escrever uma função explícita como:",Da,le,Fa,ne,Gn="e então executando <code>drug_dataset.filter(filter_nones)</code>, podemos fazer isso em uma linha usando uma <em>função lambda</em>. Em Python, funções lambda são pequenas funções que você pode definir sem nomeá-las explicitamente. Eles assumem a forma geral:",Sa,oe,La,re,_n='onde <code>lambda</code> é uma das [palavras-chave] especiais do Python (<a href="https://docs.python.org/3/reference/lexical_analysis.html#keywords" rel="nofollow">https://docs.python.org/3/reference/lexical_analysis.html#keywords</a>), <code>&lt;arguments&gt;</code> é uma lista/conjunto de valores separados por vírgula que defina as entradas para a função, e <code>&lt;expressão&gt;</code> representa as operações que você deseja executar. Por exemplo, podemos definir uma função lambda simples que eleva um número ao quadrado da seguinte forma:',Pa,de,Oa,ie,Xn="Para aplicar esta função a uma entrada, precisamos envolvê-la e a entrada entre parênteses:",Ka,pe,et,me,st,ce,Bn="Da mesma forma, podemos definir funções lambda com vários argumentos, separando-os com vírgulas. Por exemplo, podemos calcular a área de um triângulo da seguinte forma:",at,ue,tt,Me,lt,Je,Qn='As funções lambda são úteis quando você deseja definir funções pequenas e de uso único (para obter mais informações sobre elas, recomendamos a leitura do excelente <a href="https://realpython.com/python-lambda/" rel="nofollow">tutorial do Real Python</a> de Andre Burgaud). No contexto 🤗 Datasets, podemos usar funções lambda para definir operações simples de mapa e filtro, então vamos usar este truque para eliminar as entradas <code>None</code> em nosso conjunto de dados:',nt,ye,ot,Te,Wn="Com as entradas <code>None</code> removidas, podemos normalizar nossa coluna <code>condition</code>:",rt,je,dt,fe,it,Ue,Rn="Funciona! Agora que limpamos os rótulos, vamos dar uma olhada na limpeza dos próprios comentários.",pt,we,mt,he,Nn="Sempre que estiver lidando com avaliações de clientes, uma boa prática é verificar o número de palavras em cada avaliação. Uma avaliação pode ser apenas uma única palavra como “Ótimo!” ou um ensaio completo com milhares de palavras e, dependendo do caso de uso, você precisará lidar com esses extremos de maneira diferente. Para calcular o número de palavras em cada revisão, usaremos uma heurística aproximada baseada na divisão de cada texto por espaços em branco.",ct,be,qn="Vamos definir uma função simples que conta o número de palavras em cada revisão:",ut,ge,Mt,$e,zn="Ao contrário de nossa função <code>lowercase_condition()</code>, <code>compute_review_length()</code> retorna um dicionário cuja chave não corresponde a um dos nomes de coluna no conjunto de dados. Nesse caso, quando <code>compute_review_length()</code> for passado para <code>Dataset.map()</code>, ele será aplicado a todas as linhas do conjunto de dados para criar uma nova coluna <code>review_length</code>:",Jt,ve,yt,Ce,Tt,xe,Hn="Como esperado, podemos ver que uma coluna <code>review_length</code> foi adicionada ao nosso conjunto de treinamento. Podemos classificar essa nova coluna com <code>Dataset.sort()</code> para ver como são os valores extremos:",jt,Ie,ft,Ze,Ut,ke,An="Como suspeitávamos, algumas revisões contêm apenas uma única palavra, que, embora possa ser boa para análise de sentimentos, não seria informativa se quisermos prever a condição.",wt,g,ht,Ve,Yn="Vamos usar a função <code>Dataset.filter()</code> para remover comentários que contenham menos de 30 palavras. Da mesma forma que fizemos com a coluna “condição”, podemos filtrar as reviews muito curtas exigindo que as reviews tenham um comprimento acima desse limite.",bt,Ge,gt,_e,$t,Xe,En="Como você pode ver, isso removeu cerca de 15% das avaliações de nossos conjuntos de treinamento e teste originais.",vt,$,Ct,Be,Dn="A última coisa com a qual precisamos lidar é a presença de códigos de caracteres HTML em nossas análises. Podemos usar o módulo <code>html</code> do Python para liberar esses caracteres, assim:",xt,Qe,It,We,Zt,Re,Fn="Usaremos <code>Dataset.map()</code> para liberar todos os caracteres HTML em nosso corpus:",kt,Ne,Vt,qe,Sn="Como você pode ver, o método <code>Dataset.map()</code> é bastante útil para o processamento de dados — e ainda nem arranhamos a superfície de tudo o que ele pode fazer!",Gt,ze,_t,He,Ln="O método <code>Dataset.map()</code> recebe um argumento <code>batched</code> que, se definido como <code>True</code>, faz com que ele envie um batch de exemplos para a função map de uma só vez (o tamanho do batch é configurável, mas o padrão é 1.000). Por exemplo, a função map anterior que não escapou de todo o HTML demorou um pouco para ser executada (você pode ler o tempo gasto nas barras de progresso). Podemos acelerar isso processando vários elementos ao mesmo tempo usando uma compreensão de lista.",Xt,Ae,Pn="Quando você especifica <code>batched=True</code> a função recebe um dicionário com os campos do conjunto de dados, mas cada valor agora é uma <em>lista de valores</em>, e não apenas um valor único. O valor de retorno de <code>Dataset.map()</code> deve ser o mesmo: um dicionário com os campos que queremos atualizar ou adicionar ao nosso conjunto de dados e uma lista de valores. Por exemplo, aqui está outra maneira de fazer o scape de todos os caracteres HTML, mas usando <code>batched=True</code>:",Bt,Ye,Qt,Ee,On="Se você estiver executando esse código em um jupyter notebook, verá que esse comando é executado muito mais rápido que o anterior. E não é porque nossas revisões já foram sem escape em HTML — se você reexecutar a instrução da seção anterior (sem <code>batched=True</code>), levará o mesmo tempo que antes. Isso ocorre porque as compreensões de lista geralmente são mais rápidas do que executar o mesmo código em um loop <code>for</code>, e também ganhamos algum desempenho acessando muitos elementos ao mesmo tempo em vez de um por um.",Wt,De,Kn='Usar <code>Dataset.map()</code> com <code>batched=True</code> será essencial para desbloquear a velocidade dos tokenizers “rápidos” que encontraremos no <a href="/course/chapter6">Capítulo 6</a>, que podem rapidamente tokenizar grandes listas de textos. Por exemplo, para tokenizar todas as análises de medicamentos com um tokenizer rápido, poderíamos usar uma função como esta:',Rt,Fe,Nt,Se,eo='Como você viu no <a href="/course/chapter3">Capítulo 3</a>, podemos passar um ou vários exemplos para o tokenizer, então podemos usar esta função com ou sem <code>batched=True</code>. Vamos aproveitar esta oportunidade para comparar o desempenho das diferentes opções. Em um notebook, você pode cronometrar uma instrução de uma linha adicionando <code>%time</code> antes da linha de código que deseja medir:',qt,Le,zt,Pe,so="Você também pode cronometrar uma célula inteira colocando <code>%%time</code> no início da célula. No hardware em que executamos isso, ele mostrava 10,8s para esta instrução (é o número escrito depois de “Wall time”).",Ht,v,At,Oe,ao="Aqui estão os resultados que obtivemos com e sem batching, com um tokenizer rápido e lento:",Yt,Ke,to='<thead><tr><th align="center">Opções</th> <th align="center">Tokenizador rápido</th> <th align="center">Tokenizador lento</th></tr></thead> <tbody><tr><td align="center"><code>batched=True</code></td> <td align="center">10.8s</td> <td align="center">4min41s</td></tr> <tr><td align="center"><code>batched=False</code></td> <td align="center">59.2s</td> <td align="center">5min3s</td></tr></tbody>',Et,es,lo="Isso significa que usar um tokenizer rápido com a opção <code>batched=True</code> é 30 vezes mais rápido do que seu equivalente lento sem batching — isso é realmente incrível! Essa é a principal razão pela qual os tokenizers rápidos são o padrão ao usar o <code>AutoTokenizer</code> (e porque eles são chamados de “rápidos”). Eles são capazes de alcançar essa aceleração porque nos bastidores o código de tokenização é executado em Rust, que é uma linguagem que facilita a execução de código paralelizado.",Dt,ss,no="A paralelização também é a razão para a aceleração de quase 6x que o tokenizer rápido alcança com o batching: você não pode paralelizar uma única operação de tokenização, mas quando você deseja tokenizar muitos textos ao mesmo tempo, você pode simplesmente dividir a execução em vários processos, cada um responsável por seus próprios textos.",Ft,as,oo="<code>Dataset.map()</code> também possui alguns recursos de paralelização próprios. Como eles não são suportados pelo Rust, eles não permitem que um tokenizer lento alcance um rápido, mas ainda podem ser úteis (especialmente se você estiver usando um tokenizer que não possui uma versão rápida). Para ativar o multiprocessamento, use o argumento <code>num_proc</code> e especifique o número de processos a serem usados ​​em sua chamada para <code>Dataset.map()</code>:",St,ts,Lt,ls,ro="Você pode experimentar um pouco o tempo para determinar o número ideal de processos a serem usados; no nosso caso, 8 pareceu produzir o melhor ganho de velocidade. Aqui estão os números que obtivemos com e sem multiprocessamento:",Pt,ns,io='<thead><tr><th align="center">Opções</th> <th align="center">Tokenizador rápido</th> <th align="center">Tokenizador lento</th></tr></thead> <tbody><tr><td align="center"><code>batched=True</code></td> <td align="center">10.8s</td> <td align="center">4min41s</td></tr> <tr><td align="center"><code>batched=False</code></td> <td align="center">59.2s</td> <td align="center">5min3s</td></tr> <tr><td align="center"><code>batched=True</code>, <code>num_proc=8</code></td> <td align="center">6.52s</td> <td align="center">41.3s</td></tr> <tr><td align="center"><code>batched=False</code>, <code>num_proc=8</code></td> <td align="center">9.49s</td> <td align="center">45.2s</td></tr></tbody>',Ot,os,po="Esses são resultados muito mais razoáveis ​​para o tokenizer lento, mas o desempenho do tokenizer rápido também foi substancialmente melhorado. Observe, no entanto, que nem sempre será o caso — para valores de <code>num_proc</code> diferentes de 8, nossos testes mostraram que era mais rápido usar <code>batched=True</code> sem essa opção. Em geral, não recomendamos o uso de multiprocessamento Python para tokenizers rápidos com <code>batched=True</code>.",Kt,C,el,rs,mo='Toda essa funcionalidade condensada em um único método já é incrível, mas tem mais! Com <code>Dataset.map()</code> e <code>batched=True</code> você pode alterar o número de elementos em seu conjunto de dados. Isso é super útil em muitas situações em que você deseja criar vários recursos de treinamento a partir de um exemplo, e precisaremos fazer isso como parte do pré-processamento de várias das tarefas de PNL que realizaremos no <a href="/course/chapter7">Capítulo 7</a>.',sl,x,al,ds,co="Vamos dar uma olhada em como funciona! Aqui vamos tokenizar nossos exemplos e truncá-los para um comprimento máximo de 128, mas pediremos ao tokenizer para retornar <em>todos</em> os pedaços dos textos em vez de apenas o primeiro. Isso pode ser feito com <code>return_overflowing_tokens=True</code>:",tl,is,ll,ps,uo="Vamos testar isso em um exemplo antes de usar <code>Dataset.map()</code> em todo o conjunto de dados:",nl,ms,ol,cs,rl,us,Mo="Assim, nosso primeiro exemplo no conjunto de treinamento se tornou dois recursos porque foi tokenizado para mais do que o número máximo de tokens que especificamos: o primeiro de comprimento 128 e o segundo de comprimento 49. Agora vamos fazer isso para todos os elementos do conjunto de dados!",dl,Ms,il,Js,pl,ys,Jo='Oh não! Isso não funcionou! Por que não? Observar a mensagem de erro nos dará uma pista: há uma incompatibilidade nos comprimentos de uma das colunas, sendo uma de comprimento 1.463 e a outra de comprimento 1.000. Se você consultou a [documentação] do <code>Dataset.map()</code> (<a href="https://huggingface.co/docs/datasets/package_reference/main_classes#datasets.Dataset.map" rel="nofollow">https://huggingface.co/docs/datasets/package_reference/main_classes#datasets.Dataset.map</a>), você deve se lembrar de que é o número de amostras passadas para a função que estamos mapeando; aqui, esses 1.000 exemplos forneceram 1.463 novos recursos, resultando em um erro de forma.',ml,Ts,yo="O problema é que estamos tentando misturar dois conjuntos de dados diferentes de tamanhos diferentes: as colunas <code>drug_dataset</code> terão um certo número de exemplos (os 1.000 em nosso erro), mas o <code>tokenized_dataset</code> que estamos construindo terá mais (o 1.463 na mensagem de erro). Isso não funciona para um <code>Dataset</code>, portanto, precisamos remover as colunas do conjunto de dados antigo ou torná-las do mesmo tamanho do novo conjunto de dados. Podemos fazer o primeiro com o argumento <code>remove_columns</code>:",cl,js,ul,fs,To="Agora isso funciona sem erro. Podemos verificar que nosso novo conjunto de dados tem muito mais elementos do que o conjunto de dados original comparando os comprimentos:",Ml,Us,Jl,ws,yl,hs,jo="Mencionamos que também podemos lidar com o problema de comprimento incompatível tornando as colunas antigas do mesmo tamanho das novas. Para fazer isso, precisaremos do campo <code>overflow_to_sample_mapping</code> que o tokenizer retorna quando configuramos <code>return_overflowing_tokens=True</code>. Ele nos fornece um mapeamento de um novo índice de recurso para o índice da amostra da qual ele se originou. Usando isso, podemos associar cada chave presente em nosso conjunto de dados original a uma lista de valores do tamanho certo, repetindo os valores de cada exemplo quantas vezes ele gerar novos recursos:",Tl,bs,jl,gs,fo="Podemos ver que funciona com <code>Dataset.map()</code> sem precisarmos remover as colunas antigas:",fl,$s,Ul,vs,wl,Cs,Uo="Obtemos o mesmo número de recursos de treinamento de antes, mas aqui mantivemos todos os campos antigos. Se você precisar deles para algum pós-processamento após aplicar seu modelo, convém usar essa abordagem.",hl,xs,wo="Agora você viu como 🤗 Datasets podem ser usados ​​para pré-processar um conjunto de dados de várias maneiras. Embora as funções de processamento de 🤗 Datasets cubram a maioria das suas necessidades de treinamento de modelo, pode haver momentos em que você precisará mudar para o Pandas para acessar recursos mais poderosos, como <code>DataFrame.groupby()</code> ou APIs de alto nível para visualização. Felizmente, 🤗 Datasets foi projetado para ser interoperável com bibliotecas como Pandas, NumPy, PyTorch, TensorFlow e JAX. Vamos dar uma olhada em como isso funciona.",bl,Is,gl,Zs,$l,ks,ho="Para habilitar a conversão entre várias bibliotecas de terceiros, 🤗 Datasets fornece uma função <code>Dataset.set_format()</code>. Essa função altera apenas o <em>formato de saída</em> do conjunto de dados, para que você possa alternar facilmente para outro formato sem afetar o <em>formato de dados</em> subjacente, que é o Apache Arrow. A formatação é feita no local. Para demonstrar, vamos converter nosso conjunto de dados para Pandas:",vl,Vs,Cl,Gs,bo="Agora, quando acessamos os elementos do dataset, obtemos um <code>pandas.DataFrame</code> em vez de um dicionário:",xl,_s,Il,w,go='<thead><tr style="text-align: right;"><th></th> <th>patient_id</th> <th>drugName</th> <th>condition</th> <th>review</th> <th>rating</th> <th>date</th> <th>usefulCount</th> <th>review_length</th></tr></thead> <tbody><tr><th>0</th> <td>95260</td> <td>Guanfacine</td> <td>adhd</td> <td>&quot;My son is halfway through his fourth week of Intuniv...&quot;</td> <td>8.0</td> <td>April 27, 2010</td> <td>192</td> <td>141</td></tr> <tr><th>1</th> <td>92703</td> <td>Lybrel</td> <td>birth control</td> <td>&quot;I used to take another oral contraceptive, which had 21 pill cycle, and was very happy- very light periods, max 5 days, no other side effects...&quot;</td> <td>5.0</td> <td>December 14, 2009</td> <td>17</td> <td>134</td></tr> <tr><th>2</th> <td>138000</td> <td>Ortho Evra</td> <td>birth control</td> <td>&quot;This is my first time using any form of birth control...&quot;</td> <td>8.0</td> <td>November 3, 2015</td> <td>10</td> <td>89</td></tr></tbody>',Zl,Xs,$o="Vamos criar um <code>pandas.DataFrame</code> para todo o conjunto de treinamento selecionando todos os elementos de <code>drug_dataset[&quot;train&quot;]</code>:",kl,Bs,Vl,I,Gl,Qs,vo="A partir daqui, podemos usar todas as funcionalidades do Pandas que queremos. Por exemplo, podemos fazer um encadeamento sofisticado para calcular a distribuição de classes entre as entradas <code>condition</code>:",_l,Ws,Xl,h,Co='<thead><tr style="text-align: right;"><th></th> <th>condition</th> <th>frequency</th></tr></thead> <tbody><tr><th>0</th> <td>birth control</td> <td>27655</td></tr> <tr><th>1</th> <td>depression</td> <td>8023</td></tr> <tr><th>2</th> <td>acne</td> <td>5209</td></tr> <tr><th>3</th> <td>anxiety</td> <td>4991</td></tr> <tr><th>4</th> <td>pain</td> <td>4744</td></tr></tbody>',Bl,Rs,xo="E uma vez que terminamos nossa análise de Pandas, sempre podemos criar um novo objeto <code>Dataset</code> usando a função <code>Dataset.from_pandas()</code> da seguinte forma:",Ql,Ns,Wl,qs,Rl,Z,Nl,zs,Io="Isso encerra nosso tour pelas várias técnicas de pré-processamento disponíveis em 🤗 Datasets. Para completar a seção, vamos criar um conjunto de validação para preparar o conjunto de dados para treinar um classificador. Antes de fazer isso, vamos redefinir o formato de saída de <code>drug_dataset</code> de <code>&quot;pandas&quot;</code> para <code>&quot;arrow&quot;</code>:",ql,Hs,zl,As,Hl,Ys,Zo="Embora tenhamos um conjunto de teste que poderíamos usar para avaliação, é uma boa prática deixar o conjunto de teste intocado e criar um conjunto de validação separado durante o desenvolvimento. Quando estiver satisfeito com o desempenho de seus modelos no conjunto de validação, você poderá fazer uma verificação final de sanidade no conjunto de teste. Esse processo ajuda a mitigar o risco de você se ajustar demais ao conjunto de teste e implantar um modelo que falha em dados do mundo real.",Al,Es,ko="🤗 Datasets fornece uma função <code>Dataset.train_test_split()</code> que é baseada na famosa funcionalidade do <code>scikit-learn</code>. Vamos usá-lo para dividir nosso conjunto de treinamento em divisões <code>train</code> e <code>validation</code> (definimos o argumento <code>seed</code> para reprodutibilidade):",Yl,Ds,El,Fs,Dl,Ss,Vo='Ótimo, agora preparamos um conjunto de dados pronto para treinar alguns modelos! Na <a href="/course/chapter5/5">seção 5</a>, mostraremos como fazer upload de conjuntos de dados para o Hugging Face Hub, mas, por enquanto, vamos encerrar nossa análise analisando algumas maneiras de salvar conjuntos de dados em sua máquina local .',Fl,Ls,Sl,Ps,Ll,Os,Go="Embora 🤗 Datasets armazene em cache todos os conjuntos de dados baixados e as operações realizadas nele, há momentos em que você deseja salvar um conjunto de dados em disco (por exemplo, caso o cache seja excluído). Conforme mostrado na tabela abaixo, 🤗 Datasets fornece três funções principais para salvar seu conjunto de dados em diferentes formatos:",Pl,Ks,_o='<thead><tr><th align="center">Formato dos dados</th> <th align="center">Função</th></tr></thead> <tbody><tr><td align="center">Arrow</td> <td align="center"><code>Dataset.save_to_disk()</code></td></tr> <tr><td align="center">CSV</td> <td align="center"><code>Dataset.to_csv()</code></td></tr> <tr><td align="center">JSON</td> <td align="center"><code>Dataset.to_json()</code></td></tr></tbody>',Ol,ea,Xo="Por exemplo, vamos salvar nosso conjunto de dados limpo no formato Arrow:",Kl,sa,en,aa,Bo="Isso criará um diretório com a seguinte estrutura:",sn,ta,an,la,Qo="onde podemos ver que cada divisão está associada a sua própria tabela <em>dataset.arrow</em> e alguns metadados em <em>dataset_info.json</em> e <em>state.json</em>. Você pode pensar no formato Arrow como uma tabela sofisticada de colunas e linhas otimizada para criar aplicativos de alto desempenho que processam e transportam grandes conjuntos de dados.",tn,na,Wo="Uma vez que o conjunto de dados é salvo, podemos carregá-lo usando a função <code>load_from_disk()</code> da seguinte forma:",ln,oa,nn,ra,on,da,Ro="Para os formatos CSV e JSON, temos que armazenar cada divisão como um arquivo separado. Uma maneira de fazer isso é iterando as chaves e os valores no objeto <code>DatasetDict</code>:",rn,ia,dn,pa,No='Isso salva cada divisão em <a href="https://jsonlines.org" rel="nofollow">formato de linhas JSON</a>, em que cada linha no conjunto de dados é armazenada como uma única linha de JSON. Veja como é o primeiro exemplo:',pn,ma,mn,ca,cn,ua,qo='Podemos então usar as técnicas da <a href="/course/chapter5/2">seção 2</a> para carregar os arquivos JSON da seguinte forma:',un,Ma,Mn,Ja,zo="E é isso para nossa excursão em dados com 🤗 Datasets! Agora que temos um conjunto de dados limpo para treinar um modelo, aqui estão algumas ideias que você pode experimentar:",Jn,ya,Ho='<li>Use as técnicas do <a href="/course/chapter3">Capítulo 3</a> para treinar um classificador que possa prever a condição do paciente com base na revisão do medicamento.</li> <li>Use o pipeline <code>summarization</code> do <a href="/course/chapter1">Capítulo 1</a> para gerar resumos das revisões.</li>',yn,Ta,Ao="A seguir, veremos como 🤗 Datasets pode permitir que você trabalhe com grandes conjuntos de dados sem explodir seu laptop!",Tn,ja,jn,wa,fn;return G=new fa({props:{title:"Hora de fatiar e dividir os dados",local:"hora-de-fatiar-e-dividir-os-dados",headingTag:"h1"}}),_=new or({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/pt/chapter5/section3.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/pt/chapter5/section3.ipynb"}]}}),B=new Un({props:{id:"tqfSFcPMgOI"}}),Q=new fa({props:{title:"Slicing and dicing our data",local:"slicing-and-dicing-our-data",headingTag:"h2"}}),q=new y({props:{code:"IXdnZXQlMjAlMjJodHRwcyUzQSUyRiUyRmFyY2hpdmUuaWNzLnVjaS5lZHUlMkZtbCUyRm1hY2hpbmUtbGVhcm5pbmctZGF0YWJhc2VzJTJGMDA0NjIlMkZkcnVnc0NvbV9yYXcuemlwJTIyJTBBIXVuemlwJTIwZHJ1Z3NDb21fcmF3LnppcA==",highlighted:`!wget <span class="hljs-string">&quot;https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip&quot;</span>
!unzip drugsCom_raw.<span class="hljs-built_in">zip</span>`,wrap:!1}}),H=new y({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUyMnRyYWluJTIyJTNBJTIwJTIyZHJ1Z3NDb21UcmFpbl9yYXcudHN2JTIyJTJDJTIwJTIydGVzdCUyMiUzQSUyMCUyMmRydWdzQ29tVGVzdF9yYXcudHN2JTIyJTdEJTBBJTIzJTIwJTVDdCUyMGlzJTIwdGhlJTIwdGFiJTIwY2hhcmFjdGVyJTIwaW4lMjBQeXRob24lMEFkcnVnX2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyY3N2JTIyJTJDJTIwZGF0YV9maWxlcyUzRGRhdGFfZmlsZXMlMkMlMjBkZWxpbWl0ZXIlM0QlMjIlNUN0JTIyKQ==",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
data_files = {<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;drugsComTrain_raw.tsv&quot;</span>, <span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;drugsComTest_raw.tsv&quot;</span>}
<span class="hljs-comment"># \\t is the tab character in Python</span>
drug_dataset = load_dataset(<span class="hljs-string">&quot;csv&quot;</span>, data_files=data_files, delimiter=<span class="hljs-string">&quot;\\t&quot;</span>)`,wrap:!1}}),Y=new y({props:{code:"ZHJ1Z19zYW1wbGUlMjAlM0QlMjBkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RC5zaHVmZmxlKHNlZWQlM0Q0Mikuc2VsZWN0KHJhbmdlKDEwMDApKSUwQSUyMyUyMFBlZWslMjBhdCUyMHRoZSUyMGZpcnN0JTIwZmV3JTIwZXhhbXBsZXMlMEFkcnVnX3NhbXBsZSU1QiUzQTMlNUQ=",highlighted:`drug_sample = drug_dataset[<span class="hljs-string">&quot;train&quot;</span>].shuffle(seed=<span class="hljs-number">42</span>).select(<span class="hljs-built_in">range</span>(<span class="hljs-number">1000</span>))
<span class="hljs-comment"># Peek at the first few examples</span>
drug_sample[:<span class="hljs-number">3</span>]`,wrap:!1}}),E=new y({props:{code:"JTdCJ1VubmFtZWQlM0ElMjAwJyUzQSUyMCU1Qjg3NTcxJTJDJTIwMTc4MDQ1JTJDJTIwODA0ODIlNUQlMkMlMEElMjAnZHJ1Z05hbWUnJTNBJTIwJTVCJ05hcHJveGVuJyUyQyUyMCdEdWxveGV0aW5lJyUyQyUyMCdNb2JpYyclNUQlMkMlMEElMjAnY29uZGl0aW9uJyUzQSUyMCU1QidHb3V0JTJDJTIwQWN1dGUnJTJDJTIwJ2licm9teWFsZ2lhJyUyQyUyMCdJbmZsYW1tYXRvcnklMjBDb25kaXRpb25zJyU1RCUyQyUwQSUyMCdyZXZpZXcnJTNBJTIwJTVCJyUyMmxpa2UlMjB0aGUlMjBwcmV2aW91cyUyMHBlcnNvbiUyMG1lbnRpb24lMkMlMjBJJTI2JTIzMDM5JTNCbSUyMGElMjBzdHJvbmclMjBiZWxpZXZlciUyMG9mJTIwYWxldmUlMkMlMjBpdCUyMHdvcmtzJTIwZmFzdGVyJTIwZm9yJTIwbXklMjBnb3V0JTIwdGhhbiUyMHRoZSUyMHByZXNjcmlwdGlvbiUyMG1lZHMlMjBJJTIwdGFrZS4lMjBObyUyMG1vcmUlMjBnb2luZyUyMHRvJTIwdGhlJTIwZG9jdG9yJTIwZm9yJTIwcmVmaWxscy4uLi4uQWxldmUlMjB3b3JrcyElMjInJTJDJTBBJTIwJTIwJyUyMkklMjBoYXZlJTIwdGFrZW4lMjBDeW1iYWx0YSUyMGZvciUyMGFib3V0JTIwYSUyMHllYXIlMjBhbmQlMjBhJTIwaGFsZiUyMGZvciUyMGZpYnJvbXlhbGdpYSUyMHBhaW4uJTIwSXQlMjBpcyUyMGdyZWF0JTVDciU1Q25hcyUyMGElMjBwYWluJTIwcmVkdWNlciUyMGFuZCUyMGFuJTIwYW50aS1kZXByZXNzYW50JTJDJTIwaG93ZXZlciUyQyUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzJTIwb3V0d2VpZ2hlZCUyMCU1Q3IlNUNuYW55JTIwYmVuZWZpdCUyMEklMjBnb3QlMjBmcm9tJTIwaXQuJTIwSSUyMGhhZCUyMHRyb3VibGUlMjB3aXRoJTIwcmVzdGxlc3NuZXNzJTJDJTIwYmVpbmclMjB0aXJlZCUyMGNvbnN0YW50bHklMkMlNUNyJTVDbmRpenppbmVzcyUyQyUyMGRyeSUyMG1vdXRoJTJDJTIwbnVtYm5lc3MlMjBhbmQlMjB0aW5nbGluZyUyMGluJTIwbXklMjBmZWV0JTJDJTIwYW5kJTIwaG9ycmlibGUlMjBzd2VhdGluZy4lMjBJJTIwYW0lNUNyJTVDbmJlaW5nJTIwd2VhbmVkJTIwb2ZmJTIwb2YlMjBpdCUyMG5vdy4lMjBXZW50JTIwZnJvbSUyMDYwJTIwbWclMjB0byUyMDMwbWclMjBhbmQlMjBub3clMjB0byUyMDE1JTIwbWcuJTIwSSUyMHdpbGwlMjBiZSU1Q3IlNUNub2ZmJTIwY29tcGxldGVseSUyMGluJTIwYWJvdXQlMjBhJTIwd2Vlay4lMjBUaGUlMjBmaWJybyUyMHBhaW4lMjBpcyUyMGNvbWluZyUyMGJhY2slMkMlMjBidXQlMjBJJTIwd291bGQlMjByYXRoZXIlMjBkZWFsJTIwd2l0aCUyMGl0JTIwdGhhbiUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzLiUyMiclMkMlMEElMjAlMjAnJTIySSUyMGhhdmUlMjBiZWVuJTIwdGFraW5nJTIwTW9iaWMlMjBmb3IlMjBvdmVyJTIwYSUyMHllYXIlMjB3aXRoJTIwbm8lMjBzaWRlJTIwZWZmZWN0cyUyMG90aGVyJTIwdGhhbiUyMGFuJTIwZWxldmF0ZWQlMjBibG9vZCUyMHByZXNzdXJlLiUyMCUyMEklMjBoYWQlMjBzZXZlcmUlMjBrbmVlJTIwYW5kJTIwYW5rbGUlMjBwYWluJTIwd2hpY2glMjBjb21wbGV0ZWx5JTIwd2VudCUyMGF3YXklMjBhZnRlciUyMHRha2luZyUyME1vYmljLiUyMCUyMEklMjBhdHRlbXB0ZWQlMjB0byUyMHN0b3AlMjB0aGUlMjBtZWRpY2F0aW9uJTIwaG93ZXZlciUyMHBhaW4lMjByZXR1cm5lZCUyMGFmdGVyJTIwYSUyMGZldyUyMGRheXMuJTIyJyU1RCUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwJTVCOS4wJTJDJTIwMy4wJTJDJTIwMTAuMCU1RCUyQyUwQSUyMCdkYXRlJyUzQSUyMCU1QidTZXB0ZW1iZXIlMjAyJTJDJTIwMjAxNSclMkMlMjAnTm92ZW1iZXIlMjA3JTJDJTIwMjAxMSclMkMlMjAnSnVuZSUyMDUlMkMlMjAyMDEzJyU1RCUyQyUwQSUyMCd1c2VmdWxDb3VudCclM0ElMjAlNUIzNiUyQyUyMDEzJTJDJTIwMTI4JTVEJTdE",highlighted:`{<span class="hljs-string">&#x27;Unnamed: 0&#x27;</span>: [<span class="hljs-number">87571</span>, <span class="hljs-number">178045</span>, <span class="hljs-number">80482</span>],
<span class="hljs-string">&#x27;drugName&#x27;</span>: [<span class="hljs-string">&#x27;Naproxen&#x27;</span>, <span class="hljs-string">&#x27;Duloxetine&#x27;</span>, <span class="hljs-string">&#x27;Mobic&#x27;</span>],
<span class="hljs-string">&#x27;condition&#x27;</span>: [<span class="hljs-string">&#x27;Gout, Acute&#x27;</span>, <span class="hljs-string">&#x27;ibromyalgia&#x27;</span>, <span class="hljs-string">&#x27;Inflammatory Conditions&#x27;</span>],
<span class="hljs-string">&#x27;review&#x27;</span>: [<span class="hljs-string">&#x27;&quot;like the previous person mention, I&amp;#039;m a strong believer of aleve, it works faster for my gout than the prescription meds I take. No more going to the doctor for refills.....Aleve works!&quot;&#x27;</span>,
<span class="hljs-string">&#x27;&quot;I have taken Cymbalta for about a year and a half for fibromyalgia pain. It is great\\r\\nas a pain reducer and an anti-depressant, however, the side effects outweighed \\r\\nany benefit I got from it. I had trouble with restlessness, being tired constantly,\\r\\ndizziness, dry mouth, numbness and tingling in my feet, and horrible sweating. I am\\r\\nbeing weaned off of it now. Went from 60 mg to 30mg and now to 15 mg. I will be\\r\\noff completely in about a week. The fibro pain is coming back, but I would rather deal with it than the side effects.&quot;&#x27;</span>,
<span class="hljs-string">&#x27;&quot;I have been taking Mobic for over a year with no side effects other than an elevated blood pressure. I had severe knee and ankle pain which completely went away after taking Mobic. I attempted to stop the medication however pain returned after a few days.&quot;&#x27;</span>],
<span class="hljs-string">&#x27;rating&#x27;</span>: [<span class="hljs-number">9.0</span>, <span class="hljs-number">3.0</span>, <span class="hljs-number">10.0</span>],
<span class="hljs-string">&#x27;date&#x27;</span>: [<span class="hljs-string">&#x27;September 2, 2015&#x27;</span>, <span class="hljs-string">&#x27;November 7, 2011&#x27;</span>, <span class="hljs-string">&#x27;June 5, 2013&#x27;</span>],
<span class="hljs-string">&#x27;usefulCount&#x27;</span>: [<span class="hljs-number">36</span>, <span class="hljs-number">13</span>, <span class="hljs-number">128</span>]}`,wrap:!1}}),L=new y({props:{code:"Zm9yJTIwc3BsaXQlMjBpbiUyMGRydWdfZGF0YXNldC5rZXlzKCklM0ElMEElMjAlMjAlMjAlMjBhc3NlcnQlMjBsZW4oZHJ1Z19kYXRhc2V0JTVCc3BsaXQlNUQpJTIwJTNEJTNEJTIwbGVuKGRydWdfZGF0YXNldCU1QnNwbGl0JTVELnVuaXF1ZSglMjJVbm5hbWVkJTNBJTIwMCUyMikp",highlighted:`<span class="hljs-keyword">for</span> split <span class="hljs-keyword">in</span> drug_dataset.keys():
<span class="hljs-keyword">assert</span> <span class="hljs-built_in">len</span>(drug_dataset[split]) == <span class="hljs-built_in">len</span>(drug_dataset[split].unique(<span class="hljs-string">&quot;Unnamed: 0&quot;</span>))`,wrap:!1}}),O=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LnJlbmFtZV9jb2x1bW4oJTBBJTIwJTIwJTIwJTIwb3JpZ2luYWxfY29sdW1uX25hbWUlM0QlMjJVbm5hbWVkJTNBJTIwMCUyMiUyQyUyMG5ld19jb2x1bW5fbmFtZSUzRCUyMnBhdGllbnRfaWQlMjIlMEEpJTBBZHJ1Z19kYXRhc2V0",highlighted:`drug_dataset = drug_dataset.rename_column(
original_column_name=<span class="hljs-string">&quot;Unnamed: 0&quot;</span>, new_column_name=<span class="hljs-string">&quot;patient_id&quot;</span>
)
drug_dataset`,wrap:!1}}),K=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDE2MTI5NyUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB0ZXN0JTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA1Mzc2NiUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>],
num_rows: <span class="hljs-number">161297</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>],
num_rows: <span class="hljs-number">53766</span>
})
})`,wrap:!1}}),b=new k({props:{$$slots:{default:[dr]},$$scope:{ctx:U}}}),se=new y({props:{code:"ZGVmJTIwbG93ZXJjYXNlX2NvbmRpdGlvbihleGFtcGxlKSUzQSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMCU3QiUyMmNvbmRpdGlvbiUyMiUzQSUyMGV4YW1wbGUlNUIlMjJjb25kaXRpb24lMjIlNUQubG93ZXIoKSU3RCUwQSUwQSUwQWRydWdfZGF0YXNldC5tYXAobG93ZXJjYXNlX2NvbmRpdGlvbik=",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">lowercase_condition</span>(<span class="hljs-params">example</span>):
<span class="hljs-keyword">return</span> {<span class="hljs-string">&quot;condition&quot;</span>: example[<span class="hljs-string">&quot;condition&quot;</span>].lower()}
drug_dataset.<span class="hljs-built_in">map</span>(lowercase_condition)`,wrap:!1}}),ae=new y({props:{code:"QXR0cmlidXRlRXJyb3IlM0ElMjAnTm9uZVR5cGUnJTIwb2JqZWN0JTIwaGFzJTIwbm8lMjBhdHRyaWJ1dGUlMjAnbG93ZXIn",highlighted:'AttributeError: <span class="hljs-string">&#x27;NoneType&#x27;</span> <span class="hljs-built_in">object</span> has no attribute <span class="hljs-string">&#x27;lower&#x27;</span>',wrap:!1}}),le=new y({props:{code:"ZGVmJTIwZmlsdGVyX25vbmVzKHgpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIweCU1QiUyMmNvbmRpdGlvbiUyMiU1RCUyMGlzJTIwbm90JTIwTm9uZQ==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">filter_nones</span>(<span class="hljs-params">x</span>):
<span class="hljs-keyword">return</span> x[<span class="hljs-string">&quot;condition&quot;</span>] <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>`,wrap:!1}}),oe=new y({props:{code:"bGFtYmRhJTIwJTNDYXJndW1lbnRzJTNFJTIwJTNBJTIwJTNDZXhwcmVzc2lvbiUzRQ==",highlighted:'lambda <span class="hljs-tag">&lt;<span class="hljs-name">arguments</span>&gt;</span> : <span class="hljs-tag">&lt;<span class="hljs-name">expression</span>&gt;</span>',wrap:!1}}),de=new y({props:{code:"bGFtYmRhJTIweCUyMCUzQSUyMHglMjAqJTIweA==",highlighted:'lambda <span class="hljs-keyword">x</span> : <span class="hljs-keyword">x</span> * <span class="hljs-keyword">x</span>',wrap:!1}}),pe=new y({props:{code:"KGxhbWJkYSUyMHglM0ElMjB4JTIwKiUyMHgpKDMp",highlighted:'(<span class="hljs-keyword">lambda</span> x: x * x)(<span class="hljs-number">3</span>)',wrap:!1}}),me=new y({props:{code:"OQ==",highlighted:'<span class="hljs-number">9</span>',wrap:!1}}),ue=new y({props:{code:"KGxhbWJkYSUyMGJhc2UlMkMlMjBoZWlnaHQlM0ElMjAwLjUlMjAqJTIwYmFzZSUyMColMjBoZWlnaHQpKDQlMkMlMjA4KQ==",highlighted:'(<span class="hljs-keyword">lambda</span> base, height: <span class="hljs-number">0.5</span> * base * height)(<span class="hljs-number">4</span>, <span class="hljs-number">8</span>)',wrap:!1}}),Me=new y({props:{code:"MTYuMA==",highlighted:'<span class="hljs-number">16.0</span>',wrap:!1}}),ye=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LmZpbHRlcihsYW1iZGElMjB4JTNBJTIweCU1QiUyMmNvbmRpdGlvbiUyMiU1RCUyMGlzJTIwbm90JTIwTm9uZSk=",highlighted:'drug_dataset = drug_dataset.<span class="hljs-built_in">filter</span>(<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">&quot;condition&quot;</span>] <span class="hljs-keyword">is</span> <span class="hljs-keyword">not</span> <span class="hljs-literal">None</span>)',wrap:!1}}),je=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChsb3dlcmNhc2VfY29uZGl0aW9uKSUwQSUyMyUyMENoZWNrJTIwdGhhdCUyMGxvd2VyY2FzaW5nJTIwd29ya2VkJTBBZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlNUIlMjJjb25kaXRpb24lMjIlNUQlNUIlM0EzJTVE",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(lowercase_condition)
<span class="hljs-comment"># Check that lowercasing worked</span>
drug_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-string">&quot;condition&quot;</span>][:<span class="hljs-number">3</span>]`,wrap:!1}}),fe=new y({props:{code:"JTVCJ2xlZnQlMjB2ZW50cmljdWxhciUyMGR5c2Z1bmN0aW9uJyUyQyUyMCdhZGhkJyUyQyUyMCdiaXJ0aCUyMGNvbnRyb2wnJTVE",highlighted:'[<span class="hljs-string">&#x27;left ventricular dysfunction&#x27;</span>, <span class="hljs-string">&#x27;adhd&#x27;</span>, <span class="hljs-string">&#x27;birth control&#x27;</span>]',wrap:!1}}),we=new fa({props:{title:"Criando novas colunas",local:"criando-novas-colunas",headingTag:"h2"}}),ge=new y({props:{code:"ZGVmJTIwY29tcHV0ZV9yZXZpZXdfbGVuZ3RoKGV4YW1wbGUpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwJTdCJTIycmV2aWV3X2xlbmd0aCUyMiUzQSUyMGxlbihleGFtcGxlJTVCJTIycmV2aWV3JTIyJTVELnNwbGl0KCkpJTdE",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_review_length</span>(<span class="hljs-params">example</span>):
<span class="hljs-keyword">return</span> {<span class="hljs-string">&quot;review_length&quot;</span>: <span class="hljs-built_in">len</span>(example[<span class="hljs-string">&quot;review&quot;</span>].split())}`,wrap:!1}}),ve=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChjb21wdXRlX3Jldmlld19sZW5ndGgpJTBBJTIzJTIwSW5zcGVjdCUyMHRoZSUyMGZpcnN0JTIwdHJhaW5pbmclMjBleGFtcGxlJTBBZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlNUIwJTVE",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(compute_review_length)
<span class="hljs-comment"># Inspect the first training example</span>
drug_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>]`,wrap:!1}}),Ce=new y({props:{code:"JTdCJ3BhdGllbnRfaWQnJTNBJTIwMjA2NDYxJTJDJTBBJTIwJ2RydWdOYW1lJyUzQSUyMCdWYWxzYXJ0YW4nJTJDJTBBJTIwJ2NvbmRpdGlvbiclM0ElMjAnbGVmdCUyMHZlbnRyaWN1bGFyJTIwZHlzZnVuY3Rpb24nJTJDJTBBJTIwJ3JldmlldyclM0ElMjAnJTIySXQlMjBoYXMlMjBubyUyMHNpZGUlMjBlZmZlY3QlMkMlMjBJJTIwdGFrZSUyMGl0JTIwaW4lMjBjb21iaW5hdGlvbiUyMG9mJTIwQnlzdG9saWMlMjA1JTIwTWclMjBhbmQlMjBGaXNoJTIwT2lsJTIyJyUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwOS4wJTJDJTBBJTIwJ2RhdGUnJTNBJTIwJ01heSUyMDIwJTJDJTIwMjAxMiclMkMlMEElMjAndXNlZnVsQ291bnQnJTNBJTIwMjclMkMlMEElMjAncmV2aWV3X2xlbmd0aCclM0ElMjAxNyU3RA==",highlighted:`{<span class="hljs-string">&#x27;patient_id&#x27;</span>: <span class="hljs-number">206461</span>,
<span class="hljs-string">&#x27;drugName&#x27;</span>: <span class="hljs-string">&#x27;Valsartan&#x27;</span>,
<span class="hljs-string">&#x27;condition&#x27;</span>: <span class="hljs-string">&#x27;left ventricular dysfunction&#x27;</span>,
<span class="hljs-string">&#x27;review&#x27;</span>: <span class="hljs-string">&#x27;&quot;It has no side effect, I take it in combination of Bystolic 5 Mg and Fish Oil&quot;&#x27;</span>,
<span class="hljs-string">&#x27;rating&#x27;</span>: <span class="hljs-number">9.0</span>,
<span class="hljs-string">&#x27;date&#x27;</span>: <span class="hljs-string">&#x27;May 20, 2012&#x27;</span>,
<span class="hljs-string">&#x27;usefulCount&#x27;</span>: <span class="hljs-number">27</span>,
<span class="hljs-string">&#x27;review_length&#x27;</span>: <span class="hljs-number">17</span>}`,wrap:!1}}),Ie=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQuc29ydCglMjJyZXZpZXdfbGVuZ3RoJTIyKSU1QiUzQTMlNUQ=",highlighted:'drug_dataset[<span class="hljs-string">&quot;train&quot;</span>].sort(<span class="hljs-string">&quot;review_length&quot;</span>)[:<span class="hljs-number">3</span>]',wrap:!1}}),Ze=new y({props:{code:"JTdCJ3BhdGllbnRfaWQnJTNBJTIwJTVCMTAzNDg4JTJDJTIwMjM2MjclMkMlMjAyMDU1OCU1RCUyQyUwQSUyMCdkcnVnTmFtZSclM0ElMjAlNUInTG9lc3RyaW4lMjAyMSUyMDElMjAlMkYlMjAyMCclMkMlMjAnQ2hsb3J6b3hhem9uZSclMkMlMjAnTnVjeW50YSclNUQlMkMlMEElMjAnY29uZGl0aW9uJyUzQSUyMCU1QidiaXJ0aCUyMGNvbnRyb2wnJTJDJTIwJ211c2NsZSUyMHNwYXNtJyUyQyUyMCdwYWluJyU1RCUyQyUwQSUyMCdyZXZpZXcnJTNBJTIwJTVCJyUyMkV4Y2VsbGVudC4lMjInJTJDJTIwJyUyMnVzZWxlc3MlMjInJTJDJTIwJyUyMm9rJTIyJyU1RCUyQyUwQSUyMCdyYXRpbmcnJTNBJTIwJTVCMTAuMCUyQyUyMDEuMCUyQyUyMDYuMCU1RCUyQyUwQSUyMCdkYXRlJyUzQSUyMCU1QidOb3ZlbWJlciUyMDQlMkMlMjAyMDA4JyUyQyUyMCdNYXJjaCUyMDI0JTJDJTIwMjAxNyclMkMlMjAnQXVndXN0JTIwMjAlMkMlMjAyMDE2JyU1RCUyQyUwQSUyMCd1c2VmdWxDb3VudCclM0ElMjAlNUI1JTJDJTIwMiUyQyUyMDEwJTVEJTJDJTBBJTIwJ3Jldmlld19sZW5ndGgnJTNBJTIwJTVCMSUyQyUyMDElMkMlMjAxJTVEJTdE",highlighted:`{<span class="hljs-string">&#x27;patient_id&#x27;</span>: [<span class="hljs-number">103488</span>, <span class="hljs-number">23627</span>, <span class="hljs-number">20558</span>],
<span class="hljs-string">&#x27;drugName&#x27;</span>: [<span class="hljs-string">&#x27;Loestrin 21 1 / 20&#x27;</span>, <span class="hljs-string">&#x27;Chlorzoxazone&#x27;</span>, <span class="hljs-string">&#x27;Nucynta&#x27;</span>],
<span class="hljs-string">&#x27;condition&#x27;</span>: [<span class="hljs-string">&#x27;birth control&#x27;</span>, <span class="hljs-string">&#x27;muscle spasm&#x27;</span>, <span class="hljs-string">&#x27;pain&#x27;</span>],
<span class="hljs-string">&#x27;review&#x27;</span>: [<span class="hljs-string">&#x27;&quot;Excellent.&quot;&#x27;</span>, <span class="hljs-string">&#x27;&quot;useless&quot;&#x27;</span>, <span class="hljs-string">&#x27;&quot;ok&quot;&#x27;</span>],
<span class="hljs-string">&#x27;rating&#x27;</span>: [<span class="hljs-number">10.0</span>, <span class="hljs-number">1.0</span>, <span class="hljs-number">6.0</span>],
<span class="hljs-string">&#x27;date&#x27;</span>: [<span class="hljs-string">&#x27;November 4, 2008&#x27;</span>, <span class="hljs-string">&#x27;March 24, 2017&#x27;</span>, <span class="hljs-string">&#x27;August 20, 2016&#x27;</span>],
<span class="hljs-string">&#x27;usefulCount&#x27;</span>: [<span class="hljs-number">5</span>, <span class="hljs-number">2</span>, <span class="hljs-number">10</span>],
<span class="hljs-string">&#x27;review_length&#x27;</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>]}`,wrap:!1}}),g=new k({props:{$$slots:{default:[ir]},$$scope:{ctx:U}}}),Ge=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0LmZpbHRlcihsYW1iZGElMjB4JTNBJTIweCU1QiUyMnJldmlld19sZW5ndGglMjIlNUQlMjAlM0UlMjAzMCklMEFwcmludChkcnVnX2RhdGFzZXQubnVtX3Jvd3Mp",highlighted:`drug_dataset = drug_dataset.<span class="hljs-built_in">filter</span>(<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">&quot;review_length&quot;</span>] &gt; <span class="hljs-number">30</span>)
<span class="hljs-built_in">print</span>(drug_dataset.num_rows)`,wrap:!1}}),_e=new y({props:{code:"JTdCJ3RyYWluJyUzQSUyMDEzODUxNCUyQyUyMCd0ZXN0JyUzQSUyMDQ2MTA4JTdE",highlighted:'{<span class="hljs-string">&#x27;train&#x27;</span>: <span class="hljs-number">138514</span>, <span class="hljs-string">&#x27;test&#x27;</span>: <span class="hljs-number">46108</span>}',wrap:!1}}),$=new k({props:{$$slots:{default:[pr]},$$scope:{ctx:U}}}),Qe=new y({props:{code:"aW1wb3J0JTIwaHRtbCUwQSUwQXRleHQlMjAlM0QlMjAlMjJJJTI2JTIzMDM5JTNCbSUyMGElMjB0cmFuc2Zvcm1lciUyMGNhbGxlZCUyMEJFUlQlMjIlMEFodG1sLnVuZXNjYXBlKHRleHQp",highlighted:`<span class="hljs-keyword">import</span> html
text = <span class="hljs-string">&quot;I&amp;#039;m a transformer called BERT&quot;</span>
html.unescape(text)`,wrap:!1}}),We=new y({props:{code:"JTIySSdtJTIwYSUyMHRyYW5zZm9ybWVyJTIwY2FsbGVkJTIwQkVSVCUyMg==",highlighted:'<span class="hljs-string">&quot;I&#x27;m a transformer called BERT&quot;</span>',wrap:!1}}),Ne=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcChsYW1iZGElMjB4JTNBJTIwJTdCJTIycmV2aWV3JTIyJTNBJTIwaHRtbC51bmVzY2FwZSh4JTVCJTIycmV2aWV3JTIyJTVEKSU3RCk=",highlighted:'drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(<span class="hljs-keyword">lambda</span> x: {<span class="hljs-string">&quot;review&quot;</span>: html.unescape(x[<span class="hljs-string">&quot;review&quot;</span>])})',wrap:!1}}),ze=new fa({props:{title:"Os superpoderes do método map()",local:"os-superpoderes-do-método-map",headingTag:"h2"}}),Ye=new y({props:{code:"bmV3X2RydWdfZGF0YXNldCUyMCUzRCUyMGRydWdfZGF0YXNldC5tYXAoJTBBJTIwJTIwJTIwJTIwbGFtYmRhJTIweCUzQSUyMCU3QiUyMnJldmlldyUyMiUzQSUyMCU1Qmh0bWwudW5lc2NhcGUobyklMjBmb3IlMjBvJTIwaW4lMjB4JTVCJTIycmV2aWV3JTIyJTVEJTVEJTdEJTJDJTIwYmF0Y2hlZCUzRFRydWUlMEEp",highlighted:`new_drug_dataset = drug_dataset.<span class="hljs-built_in">map</span>(
<span class="hljs-keyword">lambda</span> x: {<span class="hljs-string">&quot;review&quot;</span>: [html.unescape(o) <span class="hljs-keyword">for</span> o <span class="hljs-keyword">in</span> x[<span class="hljs-string">&quot;review&quot;</span>]]}, batched=<span class="hljs-literal">True</span>
)`,wrap:!1}}),Fe=new y({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMEElMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJiZXJ0LWJhc2UtY2FzZWQlMjIpJTBBJTBBJTBBZGVmJTIwdG9rZW5pemVfZnVuY3Rpb24oZXhhbXBsZXMpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwdG9rZW5pemVyKGV4YW1wbGVzJTVCJTIycmV2aWV3JTIyJTVEJTJDJTIwdHJ1bmNhdGlvbiUzRFRydWUp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">&quot;bert-base-cased&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;review&quot;</span>], truncation=<span class="hljs-literal">True</span>)`,wrap:!1}}),Le=new y({props:{code:"JTI1dGltZSUyMHRva2VuaXplZF9kYXRhc2V0JTIwJTNEJTIwZHJ1Z19kYXRhc2V0Lm1hcCh0b2tlbml6ZV9mdW5jdGlvbiUyQyUyMGJhdGNoZWQlM0RUcnVlKQ==",highlighted:'%time tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_function, batched=<span class="hljs-literal">True</span>)',wrap:!1}}),v=new k({props:{$$slots:{default:[mr]},$$scope:{ctx:U}}}),ts=new y({props:{code:"c2xvd190b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJiZXJ0LWJhc2UtY2FzZWQlMjIlMkMlMjB1c2VfZmFzdCUzREZhbHNlKSUwQSUwQSUwQWRlZiUyMHNsb3dfdG9rZW5pemVfZnVuY3Rpb24oZXhhbXBsZXMpJTNBJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwc2xvd190b2tlbml6ZXIoZXhhbXBsZXMlNUIlMjJyZXZpZXclMjIlNUQlMkMlMjB0cnVuY2F0aW9uJTNEVHJ1ZSklMEElMEElMEF0b2tlbml6ZWRfZGF0YXNldCUyMCUzRCUyMGRydWdfZGF0YXNldC5tYXAoc2xvd190b2tlbml6ZV9mdW5jdGlvbiUyQyUyMGJhdGNoZWQlM0RUcnVlJTJDJTIwbnVtX3Byb2MlM0Q4KQ==",highlighted:`slow_tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">&quot;bert-base-cased&quot;</span>, use_fast=<span class="hljs-literal">False</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">slow_tokenize_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> slow_tokenizer(examples[<span class="hljs-string">&quot;review&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(slow_tokenize_function, batched=<span class="hljs-literal">True</span>, num_proc=<span class="hljs-number">8</span>)`,wrap:!1}}),C=new k({props:{$$slots:{default:[cr]},$$scope:{ctx:U}}}),x=new k({props:{$$slots:{default:[ur]},$$scope:{ctx:U}}}),is=new y({props:{code:"ZGVmJTIwdG9rZW5pemVfYW5kX3NwbGl0KGV4YW1wbGVzKSUzQSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMHRva2VuaXplciglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBleGFtcGxlcyU1QiUyMnJldmlldyUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHRydW5jYXRpb24lM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbWF4X2xlbmd0aCUzRDEyOCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJldHVybl9vdmVyZmxvd2luZ190b2tlbnMlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwKQ==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_and_split</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(
examples[<span class="hljs-string">&quot;review&quot;</span>],
truncation=<span class="hljs-literal">True</span>,
max_length=<span class="hljs-number">128</span>,
return_overflowing_tokens=<span class="hljs-literal">True</span>,
)`,wrap:!1}}),ms=new y({props:{code:"cmVzdWx0JTIwJTNEJTIwdG9rZW5pemVfYW5kX3NwbGl0KGRydWdfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTVCMCU1RCklMEElNUJsZW4oaW5wKSUyMGZvciUyMGlucCUyMGluJTIwcmVzdWx0JTVCJTIyaW5wdXRfaWRzJTIyJTVEJTVE",highlighted:`result = tokenize_and_split(drug_dataset[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>])
[<span class="hljs-built_in">len</span>(inp) <span class="hljs-keyword">for</span> inp <span class="hljs-keyword">in</span> result[<span class="hljs-string">&quot;input_ids&quot;</span>]]`,wrap:!1}}),cs=new y({props:{code:"JTVCMTI4JTJDJTIwNDklNUQ=",highlighted:'[<span class="hljs-number">128</span>, <span class="hljs-number">49</span>]',wrap:!1}}),Ms=new y({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlKQ==",highlighted:'tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_and_split, batched=<span class="hljs-literal">True</span>)',wrap:!1}}),Js=new y({props:{code:"QXJyb3dJbnZhbGlkJTNBJTIwQ29sdW1uJTIwMSUyMG5hbWVkJTIwY29uZGl0aW9uJTIwZXhwZWN0ZWQlMjBsZW5ndGglMjAxNDYzJTIwYnV0JTIwZ290JTIwbGVuZ3RoJTIwMTAwMA==",highlighted:'ArrowInvalid: Column <span class="hljs-number">1</span> named condition expected length <span class="hljs-number">1463</span> but got length <span class="hljs-number">1000</span>',wrap:!1}}),js=new y({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKCUwQSUyMCUyMCUyMCUyMHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlJTJDJTIwcmVtb3ZlX2NvbHVtbnMlM0RkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RC5jb2x1bW5fbmFtZXMlMEEp",highlighted:`tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(
tokenize_and_split, batched=<span class="hljs-literal">True</span>, remove_columns=drug_dataset[<span class="hljs-string">&quot;train&quot;</span>].column_names
)`,wrap:!1}}),Us=new y({props:{code:"bGVuKHRva2VuaXplZF9kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQpJTJDJTIwbGVuKGRydWdfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEKQ==",highlighted:'<span class="hljs-built_in">len</span>(tokenized_dataset[<span class="hljs-string">&quot;train&quot;</span>]), <span class="hljs-built_in">len</span>(drug_dataset[<span class="hljs-string">&quot;train&quot;</span>])',wrap:!1}}),ws=new y({props:{code:"KDIwNjc3MiUyQyUyMDEzODUxNCk=",highlighted:'(<span class="hljs-number">206772</span>, <span class="hljs-number">138514</span>)',wrap:!1}}),bs=new y({props:{code:"ZGVmJTIwdG9rZW5pemVfYW5kX3NwbGl0KGV4YW1wbGVzKSUzQSUwQSUyMCUyMCUyMCUyMHJlc3VsdCUyMCUzRCUyMHRva2VuaXplciglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBleGFtcGxlcyU1QiUyMnJldmlldyUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHRydW5jYXRpb24lM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbWF4X2xlbmd0aCUzRDEyOCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJldHVybl9vdmVyZmxvd2luZ190b2tlbnMlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwKSUwQSUyMCUyMCUyMCUyMCUyMyUyMEV4dHJhY3QlMjBtYXBwaW5nJTIwYmV0d2VlbiUyMG5ldyUyMGFuZCUyMG9sZCUyMGluZGljZXMlMEElMjAlMjAlMjAlMjBzYW1wbGVfbWFwJTIwJTNEJTIwcmVzdWx0LnBvcCglMjJvdmVyZmxvd190b19zYW1wbGVfbWFwcGluZyUyMiklMEElMjAlMjAlMjAlMjBmb3IlMjBrZXklMkMlMjB2YWx1ZXMlMjBpbiUyMGV4YW1wbGVzLml0ZW1zKCklM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXN1bHQlNUJrZXklNUQlMjAlM0QlMjAlNUJ2YWx1ZXMlNUJpJTVEJTIwZm9yJTIwaSUyMGluJTIwc2FtcGxlX21hcCU1RCUwQSUyMCUyMCUyMCUyMHJldHVybiUyMHJlc3VsdA==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize_and_split</span>(<span class="hljs-params">examples</span>):
result = tokenizer(
examples[<span class="hljs-string">&quot;review&quot;</span>],
truncation=<span class="hljs-literal">True</span>,
max_length=<span class="hljs-number">128</span>,
return_overflowing_tokens=<span class="hljs-literal">True</span>,
)
<span class="hljs-comment"># Extract mapping between new and old indices</span>
sample_map = result.pop(<span class="hljs-string">&quot;overflow_to_sample_mapping&quot;</span>)
<span class="hljs-keyword">for</span> key, values <span class="hljs-keyword">in</span> examples.items():
result[key] = [values[i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> sample_map]
<span class="hljs-keyword">return</span> result`,wrap:!1}}),$s=new y({props:{code:"dG9rZW5pemVkX2RhdGFzZXQlMjAlM0QlMjBkcnVnX2RhdGFzZXQubWFwKHRva2VuaXplX2FuZF9zcGxpdCUyQyUyMGJhdGNoZWQlM0RUcnVlKSUwQXRva2VuaXplZF9kYXRhc2V0",highlighted:`tokenized_dataset = drug_dataset.<span class="hljs-built_in">map</span>(tokenize_and_split, batched=<span class="hljs-literal">True</span>)
tokenized_dataset`,wrap:!1}}),vs=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ2F0dGVudGlvbl9tYXNrJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ2RhdGUnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdpbnB1dF9pZHMnJTJDJTIwJ3BhdGllbnRfaWQnJTJDJTIwJ3JhdGluZyclMkMlMjAncmV2aWV3JyUyQyUyMCdyZXZpZXdfbGVuZ3RoJyUyQyUyMCd0b2tlbl90eXBlX2lkcyclMkMlMjAndXNlZnVsQ291bnQnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjAyMDY3NzIlMEElMjAlMjAlMjAlMjAlN0QpJTBBJTIwJTIwJTIwJTIwdGVzdCUzQSUyMERhdGFzZXQoJTdCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZmVhdHVyZXMlM0ElMjAlNUInYXR0ZW50aW9uX21hc2snJTJDJTIwJ2NvbmRpdGlvbiclMkMlMjAnZGF0ZSclMkMlMjAnZHJ1Z05hbWUnJTJDJTIwJ2lucHV0X2lkcyclMkMlMjAncGF0aWVudF9pZCclMkMlMjAncmF0aW5nJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTJDJTIwJ3Rva2VuX3R5cGVfaWRzJyUyQyUyMCd1c2VmdWxDb3VudCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDY4ODc2JTBBJTIwJTIwJTIwJTIwJTdEKSUwQSU3RCk=",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;attention_mask&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;input_ids&#x27;</span>, <span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>, <span class="hljs-string">&#x27;token_type_ids&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>],
num_rows: <span class="hljs-number">206772</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;attention_mask&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;input_ids&#x27;</span>, <span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>, <span class="hljs-string">&#x27;token_type_ids&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>],
num_rows: <span class="hljs-number">68876</span>
})
})`,wrap:!1}}),Is=new fa({props:{title:"De Dataset s para DataFrame s e vice-versa",local:"de-dataset-s-para-dataframe-s-e-vice-versa",headingTag:"h2"}}),Zs=new Un({props:{id:"tfcY1067A5Q"}}),Vs=new y({props:{code:"ZHJ1Z19kYXRhc2V0LnNldF9mb3JtYXQoJTIycGFuZGFzJTIyKQ==",highlighted:'drug_dataset.set_format(<span class="hljs-string">&quot;pandas&quot;</span>)',wrap:!1}}),_s=new y({props:{code:"ZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlNUIlM0EzJTVE",highlighted:'drug_dataset[<span class="hljs-string">&quot;train&quot;</span>][:<span class="hljs-number">3</span>]',wrap:!1}}),Bs=new y({props:{code:"dHJhaW5fZGYlMjAlM0QlMjBkcnVnX2RhdGFzZXQlNUIlMjJ0cmFpbiUyMiU1RCU1QiUzQSU1RA==",highlighted:'train_df = drug_dataset[<span class="hljs-string">&quot;train&quot;</span>][:]',wrap:!1}}),I=new k({props:{$$slots:{default:[Mr]},$$scope:{ctx:U}}}),Ws=new y({props:{code:"ZnJlcXVlbmNpZXMlMjAlM0QlMjAoJTBBJTIwJTIwJTIwJTIwdHJhaW5fZGYlNUIlMjJjb25kaXRpb24lMjIlNUQlMEElMjAlMjAlMjAlMjAudmFsdWVfY291bnRzKCklMEElMjAlMjAlMjAlMjAudG9fZnJhbWUoKSUwQSUyMCUyMCUyMCUyMC5yZXNldF9pbmRleCgpJTBBJTIwJTIwJTIwJTIwLnJlbmFtZShjb2x1bW5zJTNEJTdCJTIyaW5kZXglMjIlM0ElMjAlMjJjb25kaXRpb24lMjIlMkMlMjAlMjJjb3VudCUyMiUzQSUyMCUyMmZyZXF1ZW5jeSUyMiU3RCklMEEpJTBBZnJlcXVlbmNpZXMuaGVhZCgp",highlighted:`frequencies = (
train_df[<span class="hljs-string">&quot;condition&quot;</span>]
.value_counts()
.to_frame()
.reset_index()
.rename(columns={<span class="hljs-string">&quot;index&quot;</span>: <span class="hljs-string">&quot;condition&quot;</span>, <span class="hljs-string">&quot;count&quot;</span>: <span class="hljs-string">&quot;frequency&quot;</span>})
)
frequencies.head()`,wrap:!1}}),Ns=new y({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwRGF0YXNldCUwQSUwQWZyZXFfZGF0YXNldCUyMCUzRCUyMERhdGFzZXQuZnJvbV9wYW5kYXMoZnJlcXVlbmNpZXMpJTBBZnJlcV9kYXRhc2V0",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> Dataset
freq_dataset = Dataset.from_pandas(frequencies)
freq_dataset`,wrap:!1}}),qs=new y({props:{code:"RGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1Qidjb25kaXRpb24nJTJDJTIwJ2ZyZXF1ZW5jeSclNUQlMkMlMEElMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDgxOSUwQSU3RCk=",highlighted:`Dataset({
features: [<span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;frequency&#x27;</span>],
num_rows: <span class="hljs-number">819</span>
})`,wrap:!1}}),Z=new k({props:{$$slots:{default:[Jr]},$$scope:{ctx:U}}}),Hs=new y({props:{code:"ZHJ1Z19kYXRhc2V0LnJlc2V0X2Zvcm1hdCgp",highlighted:"drug_dataset.reset_format()",wrap:!1}}),As=new fa({props:{title:"Criando um conjunto de validação",local:"criando-um-conjunto-de-validação",headingTag:"h2"}}),Ds=new y({props:{code:"ZHJ1Z19kYXRhc2V0X2NsZWFuJTIwJTNEJTIwZHJ1Z19kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQudHJhaW5fdGVzdF9zcGxpdCh0cmFpbl9zaXplJTNEMC44JTJDJTIwc2VlZCUzRDQyKSUwQSUyMyUyMFJlbmFtZSUyMHRoZSUyMGRlZmF1bHQlMjAlMjJ0ZXN0JTIyJTIwc3BsaXQlMjB0byUyMCUyMnZhbGlkYXRpb24lMjIlMEFkcnVnX2RhdGFzZXRfY2xlYW4lNUIlMjJ2YWxpZGF0aW9uJTIyJTVEJTIwJTNEJTIwZHJ1Z19kYXRhc2V0X2NsZWFuLnBvcCglMjJ0ZXN0JTIyKSUwQSUyMyUyMEFkZCUyMHRoZSUyMCUyMnRlc3QlMjIlMjBzZXQlMjB0byUyMG91ciUyMCU2MERhdGFzZXREaWN0JTYwJTBBZHJ1Z19kYXRhc2V0X2NsZWFuJTVCJTIydGVzdCUyMiU1RCUyMCUzRCUyMGRydWdfZGF0YXNldCU1QiUyMnRlc3QlMjIlNUQlMEFkcnVnX2RhdGFzZXRfY2xlYW4=",highlighted:`drug_dataset_clean = drug_dataset[<span class="hljs-string">&quot;train&quot;</span>].train_test_split(train_size=<span class="hljs-number">0.8</span>, seed=<span class="hljs-number">42</span>)
<span class="hljs-comment"># Rename the default &quot;test&quot; split to &quot;validation&quot;</span>
drug_dataset_clean[<span class="hljs-string">&quot;validation&quot;</span>] = drug_dataset_clean.pop(<span class="hljs-string">&quot;test&quot;</span>)
<span class="hljs-comment"># Add the &quot;test&quot; set to our \`DatasetDict\`</span>
drug_dataset_clean[<span class="hljs-string">&quot;test&quot;</span>] = drug_dataset[<span class="hljs-string">&quot;test&quot;</span>]
drug_dataset_clean`,wrap:!1}}),Fs=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclMkMlMjAncmV2aWV3X2NsZWFuJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwMTEwODExJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHZhbGlkYXRpb24lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclMkMlMjAncmV2aWV3X2NsZWFuJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwMjc3MDMlMEElMjAlMjAlMjAlMjAlN0QpJTBBJTIwJTIwJTIwJTIwdGVzdCUzQSUyMERhdGFzZXQoJTdCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZmVhdHVyZXMlM0ElMjAlNUIncGF0aWVudF9pZCclMkMlMjAnZHJ1Z05hbWUnJTJDJTIwJ2NvbmRpdGlvbiclMkMlMjAncmV2aWV3JyUyQyUyMCdyYXRpbmcnJTJDJTIwJ2RhdGUnJTJDJTIwJ3VzZWZ1bENvdW50JyUyQyUyMCdyZXZpZXdfbGVuZ3RoJyUyQyUyMCdyZXZpZXdfY2xlYW4nJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA0NjEwOCUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>, <span class="hljs-string">&#x27;review_clean&#x27;</span>],
num_rows: <span class="hljs-number">110811</span>
})
validation: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>, <span class="hljs-string">&#x27;review_clean&#x27;</span>],
num_rows: <span class="hljs-number">27703</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>, <span class="hljs-string">&#x27;review_clean&#x27;</span>],
num_rows: <span class="hljs-number">46108</span>
})
})`,wrap:!1}}),Ls=new fa({props:{title:"Salvando um conjunto de dados",local:"salvando-um-conjunto-de-dados",headingTag:"h2"}}),Ps=new Un({props:{id:"blF9uxYcKHo"}}),sa=new y({props:{code:"ZHJ1Z19kYXRhc2V0X2NsZWFuLnNhdmVfdG9fZGlzayglMjJkcnVnLXJldmlld3MlMjIp",highlighted:'drug_dataset_clean.save_to_disk(<span class="hljs-string">&quot;drug-reviews&quot;</span>)',wrap:!1}}),ta=new y({props:{code:"ZHJ1Zy1yZXZpZXdzJTJGJTBBJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldF9kaWN0Lmpzb24lMEElRTIlOTQlOUMlRTIlOTQlODAlRTIlOTQlODAlMjB0ZXN0JTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTk0JUUyJTk0JTgwJUUyJTk0JTgwJTIwc3RhdGUuanNvbiUwQSVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMHRyYWluJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJUUyJTk0JTgyJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwaW5kaWNlcy5hcnJvdyUwQSVFMiU5NCU4MiUyMCUyMCUyMCVFMiU5NCU5NCVFMiU5NCU4MCVFMiU5NCU4MCUyMHN0YXRlLmpzb24lMEElRTIlOTQlOTQlRTIlOTQlODAlRTIlOTQlODAlMjB2YWxpZGF0aW9uJTBBJTIwJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwZGF0YXNldC5hcnJvdyUwQSUyMCUyMCUyMCUyMCVFMiU5NCU5QyVFMiU5NCU4MCVFMiU5NCU4MCUyMGRhdGFzZXRfaW5mby5qc29uJTBBJTIwJTIwJTIwJTIwJUUyJTk0JTlDJUUyJTk0JTgwJUUyJTk0JTgwJTIwaW5kaWNlcy5hcnJvdyUwQSUyMCUyMCUyMCUyMCVFMiU5NCU5NCVFMiU5NCU4MCVFMiU5NCU4MCUyMHN0YXRlLmpzb24=",highlighted:`drug-reviews/
├── dataset_dict.json
├── test
│ ├── dataset.arrow
│ ├── dataset_info.json
│ └── <span class="hljs-keyword">state</span>.json
├── train
│ ├── dataset.arrow
│ ├── dataset_info.json
│ ├── indices.arrow
│ └── <span class="hljs-keyword">state</span>.json
└── validation
├── dataset.arrow
├── dataset_info.json
├── indices.arrow
└── <span class="hljs-keyword">state</span>.json`,wrap:!1}}),oa=new y({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9mcm9tX2Rpc2slMEElMEFkcnVnX2RhdGFzZXRfcmVsb2FkZWQlMjAlM0QlMjBsb2FkX2Zyb21fZGlzayglMjJkcnVnLXJldmlld3MlMjIpJTBBZHJ1Z19kYXRhc2V0X3JlbG9hZGVk",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_from_disk
drug_dataset_reloaded = load_from_disk(<span class="hljs-string">&quot;drug-reviews&quot;</span>)
drug_dataset_reloaded`,wrap:!1}}),ra=new y({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3BhdGllbnRfaWQnJTJDJTIwJ2RydWdOYW1lJyUyQyUyMCdjb25kaXRpb24nJTJDJTIwJ3JldmlldyclMkMlMjAncmF0aW5nJyUyQyUyMCdkYXRlJyUyQyUyMCd1c2VmdWxDb3VudCclMkMlMjAncmV2aWV3X2xlbmd0aCclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDExMDgxMSUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB2YWxpZGF0aW9uJTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjAyNzcwMyUwQSUyMCUyMCUyMCUyMCU3RCklMEElMjAlMjAlMjAlMjB0ZXN0JTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidwYXRpZW50X2lkJyUyQyUyMCdkcnVnTmFtZSclMkMlMjAnY29uZGl0aW9uJyUyQyUyMCdyZXZpZXcnJTJDJTIwJ3JhdGluZyclMkMlMjAnZGF0ZSclMkMlMjAndXNlZnVsQ291bnQnJTJDJTIwJ3Jldmlld19sZW5ndGgnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA0NjEwOCUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>],
num_rows: <span class="hljs-number">110811</span>
})
validation: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>],
num_rows: <span class="hljs-number">27703</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;patient_id&#x27;</span>, <span class="hljs-string">&#x27;drugName&#x27;</span>, <span class="hljs-string">&#x27;condition&#x27;</span>, <span class="hljs-string">&#x27;review&#x27;</span>, <span class="hljs-string">&#x27;rating&#x27;</span>, <span class="hljs-string">&#x27;date&#x27;</span>, <span class="hljs-string">&#x27;usefulCount&#x27;</span>, <span class="hljs-string">&#x27;review_length&#x27;</span>],
num_rows: <span class="hljs-number">46108</span>
})
})`,wrap:!1}}),ia=new y({props:{code:"Zm9yJTIwc3BsaXQlMkMlMjBkYXRhc2V0JTIwaW4lMjBkcnVnX2RhdGFzZXRfY2xlYW4uaXRlbXMoKSUzQSUwQSUyMCUyMCUyMCUyMGRhdGFzZXQudG9fanNvbihmJTIyZHJ1Zy1yZXZpZXdzLSU3QnNwbGl0JTdELmpzb25sJTIyKQ==",highlighted:`<span class="hljs-keyword">for</span> split, dataset <span class="hljs-keyword">in</span> drug_dataset_clean.items():
dataset.to_json(<span class="hljs-string">f&quot;drug-reviews-<span class="hljs-subst">{split}</span>.jsonl&quot;</span>)`,wrap:!1}}),ma=new y({props:{code:"IWhlYWQlMjAtbiUyMDElMjBkcnVnLXJldmlld3MtdHJhaW4uanNvbmw=",highlighted:'!head -n <span class="hljs-number">1</span> drug-reviews-train.jsonl',wrap:!1}}),ca=new y({props:{code:"JTdCJTIycGF0aWVudF9pZCUyMiUzQTE0MTc4MCUyQyUyMmRydWdOYW1lJTIyJTNBJTIyRXNjaXRhbG9wcmFtJTIyJTJDJTIyY29uZGl0aW9uJTIyJTNBJTIyZGVwcmVzc2lvbiUyMiUyQyUyMnJldmlldyUyMiUzQSUyMiU1QyUyMkklMjBzZWVtZWQlMjB0byUyMGV4cGVyaWVuY2UlMjB0aGUlMjByZWd1bGFyJTIwc2lkZSUyMGVmZmVjdHMlMjBvZiUyMExFWEFQUk8lMkMlMjBpbnNvbW5pYSUyQyUyMGxvdyUyMHNleCUyMGRyaXZlJTJDJTIwc2xlZXBpbmVzcyUyMGR1cmluZyUyMHRoZSUyMGRheS4lMjBJJTIwYW0lMjB0YWtpbmclMjBpdCUyMGF0JTIwbmlnaHQlMjBiZWNhdXNlJTIwbXklMjBkb2N0b3IlMjBzYWlkJTIwaWYlMjBpdCUyMG1hZGUlMjBtZSUyMHRpcmVkJTIwdG8lMjB0YWtlJTIwaXQlMjBhdCUyMG5pZ2h0LiUyMEklMjBhc3N1bWVkJTIwaXQlMjB3b3VsZCUyMGFuZCUyMHN0YXJ0ZWQlMjBvdXQlMjB0YWtpbmclMjBpdCUyMGF0JTIwbmlnaHQuJTIwU3RyYW5nZSUyMGRyZWFtcyUyQyUyMHNvbWUlMjBwbGVhc2FudC4lMjBJJTIwd2FzJTIwZGlhZ25vc2VkJTIwd2l0aCUyMGZpYnJvbXlhbGdpYS4lMjBTZWVtcyUyMHRvJTIwYmUlMjBoZWxwaW5nJTIwd2l0aCUyMHRoZSUyMHBhaW4uJTIwSGF2ZSUyMGhhZCUyMGFueGlldHklMjBhbmQlMjBkZXByZXNzaW9uJTIwaW4lMjBteSUyMGZhbWlseSUyQyUyMGFuZCUyMGhhdmUlMjB0cmllZCUyMHF1aXRlJTIwYSUyMGZldyUyMG90aGVyJTIwbWVkaWNhdGlvbnMlMjB0aGF0JTIwaGF2ZW4ndCUyMHdvcmtlZC4lMjBPbmx5JTIwaGF2ZSUyMGJlZW4lMjBvbiUyMGl0JTIwZm9yJTIwdHdvJTIwd2Vla3MlMjBidXQlMjBmZWVsJTIwbW9yZSUyMHBvc2l0aXZlJTIwaW4lMjBteSUyMG1pbmQlMkMlMjB3YW50JTIwdG8lMjBhY2NvbXBsaXNoJTIwbW9yZSUyMGluJTIwbXklMjBsaWZlLiUyMEhvcGVmdWxseSUyMHRoZSUyMHNpZGUlMjBlZmZlY3RzJTIwd2lsbCUyMGR3aW5kbGUlMjBhd2F5JTJDJTIwd29ydGglMjBpdCUyMHRvJTIwc3RpY2slMjB3aXRoJTIwaXQlMjBmcm9tJTIwaGVhcmluZyUyMG90aGVycyUyMHJlc3BvbnNlcy4lMjBHcmVhdCUyMG1lZGljYXRpb24uJTVDJTIyJTIyJTJDJTIycmF0aW5nJTIyJTNBOS4wJTJDJTIyZGF0ZSUyMiUzQSUyMk1heSUyMDI5JTJDJTIwMjAxMSUyMiUyQyUyMnVzZWZ1bENvdW50JTIyJTNBMTAlMkMlMjJyZXZpZXdfbGVuZ3RoJTIyJTNBMTI1JTdE",highlighted:'{<span class="hljs-string">&quot;patient_id&quot;</span>:<span class="hljs-number">141780</span>,<span class="hljs-string">&quot;drugName&quot;</span>:<span class="hljs-string">&quot;Escitalopram&quot;</span>,<span class="hljs-string">&quot;condition&quot;</span>:<span class="hljs-string">&quot;depression&quot;</span>,<span class="hljs-string">&quot;review&quot;</span>:<span class="hljs-string">&quot;\\&quot;I seemed to experience the regular side effects of LEXAPRO, insomnia, low sex drive, sleepiness during the day. I am taking it at night because my doctor said if it made me tired to take it at night. I assumed it would and started out taking it at night. Strange dreams, some pleasant. I was diagnosed with fibromyalgia. Seems to be helping with the pain. Have had anxiety and depression in my family, and have tried quite a few other medications that haven&#x27;t worked. Only have been on it for two weeks but feel more positive in my mind, want to accomplish more in my life. Hopefully the side effects will dwindle away, worth it to stick with it from hearing others responses. Great medication.\\&quot;&quot;</span>,<span class="hljs-string">&quot;rating&quot;</span>:<span class="hljs-number">9.0</span>,<span class="hljs-string">&quot;date&quot;</span>:<span class="hljs-string">&quot;May 29, 2011&quot;</span>,<span class="hljs-string">&quot;usefulCount&quot;</span>:<span class="hljs-number">10</span>,<span class="hljs-string">&quot;review_length&quot;</span>:<span class="hljs-number">125</span>}',wrap:!1}}),Ma=new y({props:{code:"ZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMnRyYWluJTIyJTNBJTIwJTIyZHJ1Zy1yZXZpZXdzLXRyYWluLmpzb25sJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydmFsaWRhdGlvbiUyMiUzQSUyMCUyMmRydWctcmV2aWV3cy12YWxpZGF0aW9uLmpzb25sJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMCUyMmRydWctcmV2aWV3cy10ZXN0Lmpzb25sJTIyJTJDJTBBJTdEJTBBZHJ1Z19kYXRhc2V0X3JlbG9hZGVkJTIwJTNEJTIwbG9hZF9kYXRhc2V0KCUyMmpzb24lMjIlMkMlMjBkYXRhX2ZpbGVzJTNEZGF0YV9maWxlcyk=",highlighted:`data_files = {
<span class="hljs-string">&quot;train&quot;</span>: <span class="hljs-string">&quot;drug-reviews-train.jsonl&quot;</span>,
<span class="hljs-string">&quot;validation&quot;</span>: <span class="hljs-string">&quot;drug-reviews-validation.jsonl&quot;</span>,
<span class="hljs-string">&quot;test&quot;</span>: <span class="hljs-string">&quot;drug-reviews-test.jsonl&quot;</span>,
}
drug_dataset_reloaded = load_dataset(<span class="hljs-string">&quot;json&quot;</span>, data_files=data_files)`,wrap:!1}}),ja=new rr({props:{source:"https://github.com/huggingface/course/blob/main/chapters/pt/chapter5/3.mdx"}}),{c(){J=o("meta"),j=l(),T=o("p"),f=l(),i(G.$$.fragment),ha=l(),i(_.$$.fragment),ba=l(),X=o("p"),X.textContent=wn,ga=l(),i(B.$$.fragment),$a=l(),i(Q.$$.fragment),va=l(),W=o("p"),W.innerHTML=hn,Ca=l(),R=o("p"),R.innerHTML=bn,xa=l(),N=o("p"),N.innerHTML=gn,Ia=l(),i(q.$$.fragment),Za=l(),z=o("p"),z.innerHTML=$n,ka=l(),i(H.$$.fragment),Va=l(),A=o("p"),A.innerHTML=vn,Ga=l(),i(Y.$$.fragment),_a=l(),i(E.$$.fragment),Xa=l(),D=o("p"),D.innerHTML=Cn,Ba=l(),F=o("ul"),F.innerHTML=xn,Qa=l(),S=o("p"),S.innerHTML=In,Wa=l(),i(L.$$.fragment),Ra=l(),P=o("p"),P.innerHTML=Zn,Na=l(),i(O.$$.fragment),qa=l(),i(K.$$.fragment),za=l(),i(b.$$.fragment),Ha=l(),ee=o("p"),ee.innerHTML=kn,Aa=l(),i(se.$$.fragment),Ya=l(),i(ae.$$.fragment),Ea=l(),te=o("p"),te.innerHTML=Vn,Da=l(),i(le.$$.fragment),Fa=l(),ne=o("p"),ne.innerHTML=Gn,Sa=l(),i(oe.$$.fragment),La=l(),re=o("p"),re.innerHTML=_n,Pa=l(),i(de.$$.fragment),Oa=l(),ie=o("p"),ie.textContent=Xn,Ka=l(),i(pe.$$.fragment),et=l(),i(me.$$.fragment),st=l(),ce=o("p"),ce.textContent=Bn,at=l(),i(ue.$$.fragment),tt=l(),i(Me.$$.fragment),lt=l(),Je=o("p"),Je.innerHTML=Qn,nt=l(),i(ye.$$.fragment),ot=l(),Te=o("p"),Te.innerHTML=Wn,rt=l(),i(je.$$.fragment),dt=l(),i(fe.$$.fragment),it=l(),Ue=o("p"),Ue.textContent=Rn,pt=l(),i(we.$$.fragment),mt=l(),he=o("p"),he.textContent=Nn,ct=l(),be=o("p"),be.textContent=qn,ut=l(),i(ge.$$.fragment),Mt=l(),$e=o("p"),$e.innerHTML=zn,Jt=l(),i(ve.$$.fragment),yt=l(),i(Ce.$$.fragment),Tt=l(),xe=o("p"),xe.innerHTML=Hn,jt=l(),i(Ie.$$.fragment),ft=l(),i(Ze.$$.fragment),Ut=l(),ke=o("p"),ke.textContent=An,wt=l(),i(g.$$.fragment),ht=l(),Ve=o("p"),Ve.innerHTML=Yn,bt=l(),i(Ge.$$.fragment),gt=l(),i(_e.$$.fragment),$t=l(),Xe=o("p"),Xe.textContent=En,vt=l(),i($.$$.fragment),Ct=l(),Be=o("p"),Be.innerHTML=Dn,xt=l(),i(Qe.$$.fragment),It=l(),i(We.$$.fragment),Zt=l(),Re=o("p"),Re.innerHTML=Fn,kt=l(),i(Ne.$$.fragment),Vt=l(),qe=o("p"),qe.innerHTML=Sn,Gt=l(),i(ze.$$.fragment),_t=l(),He=o("p"),He.innerHTML=Ln,Xt=l(),Ae=o("p"),Ae.innerHTML=Pn,Bt=l(),i(Ye.$$.fragment),Qt=l(),Ee=o("p"),Ee.innerHTML=On,Wt=l(),De=o("p"),De.innerHTML=Kn,Rt=l(),i(Fe.$$.fragment),Nt=l(),Se=o("p"),Se.innerHTML=eo,qt=l(),i(Le.$$.fragment),zt=l(),Pe=o("p"),Pe.innerHTML=so,Ht=l(),i(v.$$.fragment),At=l(),Oe=o("p"),Oe.textContent=ao,Yt=l(),Ke=o("table"),Ke.innerHTML=to,Et=l(),es=o("p"),es.innerHTML=lo,Dt=l(),ss=o("p"),ss.textContent=no,Ft=l(),as=o("p"),as.innerHTML=oo,St=l(),i(ts.$$.fragment),Lt=l(),ls=o("p"),ls.textContent=ro,Pt=l(),ns=o("table"),ns.innerHTML=io,Ot=l(),os=o("p"),os.innerHTML=po,Kt=l(),i(C.$$.fragment),el=l(),rs=o("p"),rs.innerHTML=mo,sl=l(),i(x.$$.fragment),al=l(),ds=o("p"),ds.innerHTML=co,tl=l(),i(is.$$.fragment),ll=l(),ps=o("p"),ps.innerHTML=uo,nl=l(),i(ms.$$.fragment),ol=l(),i(cs.$$.fragment),rl=l(),us=o("p"),us.textContent=Mo,dl=l(),i(Ms.$$.fragment),il=l(),i(Js.$$.fragment),pl=l(),ys=o("p"),ys.innerHTML=Jo,ml=l(),Ts=o("p"),Ts.innerHTML=yo,cl=l(),i(js.$$.fragment),ul=l(),fs=o("p"),fs.textContent=To,Ml=l(),i(Us.$$.fragment),Jl=l(),i(ws.$$.fragment),yl=l(),hs=o("p"),hs.innerHTML=jo,Tl=l(),i(bs.$$.fragment),jl=l(),gs=o("p"),gs.innerHTML=fo,fl=l(),i($s.$$.fragment),Ul=l(),i(vs.$$.fragment),wl=l(),Cs=o("p"),Cs.textContent=Uo,hl=l(),xs=o("p"),xs.innerHTML=wo,bl=l(),i(Is.$$.fragment),gl=l(),i(Zs.$$.fragment),$l=l(),ks=o("p"),ks.innerHTML=ho,vl=l(),i(Vs.$$.fragment),Cl=l(),Gs=o("p"),Gs.innerHTML=bo,xl=l(),i(_s.$$.fragment),Il=l(),w=o("table"),w.innerHTML=go,Zl=l(),Xs=o("p"),Xs.innerHTML=$o,kl=l(),i(Bs.$$.fragment),Vl=l(),i(I.$$.fragment),Gl=l(),Qs=o("p"),Qs.innerHTML=vo,_l=l(),i(Ws.$$.fragment),Xl=l(),h=o("table"),h.innerHTML=Co,Bl=l(),Rs=o("p"),Rs.innerHTML=xo,Ql=l(),i(Ns.$$.fragment),Wl=l(),i(qs.$$.fragment),Rl=l(),i(Z.$$.fragment),Nl=l(),zs=o("p"),zs.innerHTML=Io,ql=l(),i(Hs.$$.fragment),zl=l(),i(As.$$.fragment),Hl=l(),Ys=o("p"),Ys.textContent=Zo,Al=l(),Es=o("p"),Es.innerHTML=ko,Yl=l(),i(Ds.$$.fragment),El=l(),i(Fs.$$.fragment),Dl=l(),Ss=o("p"),Ss.innerHTML=Vo,Fl=l(),i(Ls.$$.fragment),Sl=l(),i(Ps.$$.fragment),Ll=l(),Os=o("p"),Os.textContent=Go,Pl=l(),Ks=o("table"),Ks.innerHTML=_o,Ol=l(),ea=o("p"),ea.textContent=Xo,Kl=l(),i(sa.$$.fragment),en=l(),aa=o("p"),aa.textContent=Bo,sn=l(),i(ta.$$.fragment),an=l(),la=o("p"),la.innerHTML=Qo,tn=l(),na=o("p"),na.innerHTML=Wo,ln=l(),i(oa.$$.fragment),nn=l(),i(ra.$$.fragment),on=l(),da=o("p"),da.innerHTML=Ro,rn=l(),i(ia.$$.fragment),dn=l(),pa=o("p"),pa.innerHTML=No,pn=l(),i(ma.$$.fragment),mn=l(),i(ca.$$.fragment),cn=l(),ua=o("p"),ua.innerHTML=qo,un=l(),i(Ma.$$.fragment),Mn=l(),Ja=o("p"),Ja.textContent=zo,Jn=l(),ya=o("ol"),ya.innerHTML=Ho,yn=l(),Ta=o("p"),Ta.textContent=Ao,Tn=l(),i(ja.$$.fragment),jn=l(),wa=o("p"),this.h()},l(e){const s=lr("svelte-u9bgzb",document.head);J=r(s,"META",{name:!0,content:!0}),s.forEach(a),j=n(e),T=r(e,"P",{}),Ko(T).forEach(a),f=n(e),p(G.$$.fragment,e),ha=n(e),p(_.$$.fragment,e),ba=n(e),X=r(e,"P",{"data-svelte-h":!0}),d(X)!=="svelte-11er57r"&&(X.textContent=wn),ga=n(e),p(B.$$.fragment,e),$a=n(e),p(Q.$$.fragment,e),va=n(e),W=r(e,"P",{"data-svelte-h":!0}),d(W)!=="svelte-1p6133k"&&(W.innerHTML=hn),Ca=n(e),R=r(e,"P",{"data-svelte-h":!0}),d(R)!=="svelte-p5j5vv"&&(R.innerHTML=bn),xa=n(e),N=r(e,"P",{"data-svelte-h":!0}),d(N)!=="svelte-1nvgfun"&&(N.innerHTML=gn),Ia=n(e),p(q.$$.fragment,e),Za=n(e),z=r(e,"P",{"data-svelte-h":!0}),d(z)!=="svelte-2ucir0"&&(z.innerHTML=$n),ka=n(e),p(H.$$.fragment,e),Va=n(e),A=r(e,"P",{"data-svelte-h":!0}),d(A)!=="svelte-1emj021"&&(A.innerHTML=vn),Ga=n(e),p(Y.$$.fragment,e),_a=n(e),p(E.$$.fragment,e),Xa=n(e),D=r(e,"P",{"data-svelte-h":!0}),d(D)!=="svelte-bl57va"&&(D.innerHTML=Cn),Ba=n(e),F=r(e,"UL",{"data-svelte-h":!0}),d(F)!=="svelte-13ef8pr"&&(F.innerHTML=xn),Qa=n(e),S=r(e,"P",{"data-svelte-h":!0}),d(S)!=="svelte-vmx6cx"&&(S.innerHTML=In),Wa=n(e),p(L.$$.fragment,e),Ra=n(e),P=r(e,"P",{"data-svelte-h":!0}),d(P)!=="svelte-1z10bxq"&&(P.innerHTML=Zn),Na=n(e),p(O.$$.fragment,e),qa=n(e),p(K.$$.fragment,e),za=n(e),p(b.$$.fragment,e),Ha=n(e),ee=r(e,"P",{"data-svelte-h":!0}),d(ee)!=="svelte-1o9acy5"&&(ee.innerHTML=kn),Aa=n(e),p(se.$$.fragment,e),Ya=n(e),p(ae.$$.fragment,e),Ea=n(e),te=r(e,"P",{"data-svelte-h":!0}),d(te)!=="svelte-letb0j"&&(te.innerHTML=Vn),Da=n(e),p(le.$$.fragment,e),Fa=n(e),ne=r(e,"P",{"data-svelte-h":!0}),d(ne)!=="svelte-i6rl95"&&(ne.innerHTML=Gn),Sa=n(e),p(oe.$$.fragment,e),La=n(e),re=r(e,"P",{"data-svelte-h":!0}),d(re)!=="svelte-1sdkxyv"&&(re.innerHTML=_n),Pa=n(e),p(de.$$.fragment,e),Oa=n(e),ie=r(e,"P",{"data-svelte-h":!0}),d(ie)!=="svelte-1rwe7yu"&&(ie.textContent=Xn),Ka=n(e),p(pe.$$.fragment,e),et=n(e),p(me.$$.fragment,e),st=n(e),ce=r(e,"P",{"data-svelte-h":!0}),d(ce)!=="svelte-1oirxen"&&(ce.textContent=Bn),at=n(e),p(ue.$$.fragment,e),tt=n(e),p(Me.$$.fragment,e),lt=n(e),Je=r(e,"P",{"data-svelte-h":!0}),d(Je)!=="svelte-13nhv74"&&(Je.innerHTML=Qn),nt=n(e),p(ye.$$.fragment,e),ot=n(e),Te=r(e,"P",{"data-svelte-h":!0}),d(Te)!=="svelte-1mjpph6"&&(Te.innerHTML=Wn),rt=n(e),p(je.$$.fragment,e),dt=n(e),p(fe.$$.fragment,e),it=n(e),Ue=r(e,"P",{"data-svelte-h":!0}),d(Ue)!=="svelte-1vbzbbt"&&(Ue.textContent=Rn),pt=n(e),p(we.$$.fragment,e),mt=n(e),he=r(e,"P",{"data-svelte-h":!0}),d(he)!=="svelte-1m5s2ky"&&(he.textContent=Nn),ct=n(e),be=r(e,"P",{"data-svelte-h":!0}),d(be)!=="svelte-159eibk"&&(be.textContent=qn),ut=n(e),p(ge.$$.fragment,e),Mt=n(e),$e=r(e,"P",{"data-svelte-h":!0}),d($e)!=="svelte-xmzdco"&&($e.innerHTML=zn),Jt=n(e),p(ve.$$.fragment,e),yt=n(e),p(Ce.$$.fragment,e),Tt=n(e),xe=r(e,"P",{"data-svelte-h":!0}),d(xe)!=="svelte-qda73m"&&(xe.innerHTML=Hn),jt=n(e),p(Ie.$$.fragment,e),ft=n(e),p(Ze.$$.fragment,e),Ut=n(e),ke=r(e,"P",{"data-svelte-h":!0}),d(ke)!=="svelte-qjny5n"&&(ke.textContent=An),wt=n(e),p(g.$$.fragment,e),ht=n(e),Ve=r(e,"P",{"data-svelte-h":!0}),d(Ve)!=="svelte-ywre6a"&&(Ve.innerHTML=Yn),bt=n(e),p(Ge.$$.fragment,e),gt=n(e),p(_e.$$.fragment,e),$t=n(e),Xe=r(e,"P",{"data-svelte-h":!0}),d(Xe)!=="svelte-1mu23uh"&&(Xe.textContent=En),vt=n(e),p($.$$.fragment,e),Ct=n(e),Be=r(e,"P",{"data-svelte-h":!0}),d(Be)!=="svelte-1h1f44c"&&(Be.innerHTML=Dn),xt=n(e),p(Qe.$$.fragment,e),It=n(e),p(We.$$.fragment,e),Zt=n(e),Re=r(e,"P",{"data-svelte-h":!0}),d(Re)!=="svelte-z8ik69"&&(Re.innerHTML=Fn),kt=n(e),p(Ne.$$.fragment,e),Vt=n(e),qe=r(e,"P",{"data-svelte-h":!0}),d(qe)!=="svelte-1i9ab10"&&(qe.innerHTML=Sn),Gt=n(e),p(ze.$$.fragment,e),_t=n(e),He=r(e,"P",{"data-svelte-h":!0}),d(He)!=="svelte-1u71bq8"&&(He.innerHTML=Ln),Xt=n(e),Ae=r(e,"P",{"data-svelte-h":!0}),d(Ae)!=="svelte-1qwvt4h"&&(Ae.innerHTML=Pn),Bt=n(e),p(Ye.$$.fragment,e),Qt=n(e),Ee=r(e,"P",{"data-svelte-h":!0}),d(Ee)!=="svelte-1q6rxqd"&&(Ee.innerHTML=On),Wt=n(e),De=r(e,"P",{"data-svelte-h":!0}),d(De)!=="svelte-14bt5pn"&&(De.innerHTML=Kn),Rt=n(e),p(Fe.$$.fragment,e),Nt=n(e),Se=r(e,"P",{"data-svelte-h":!0}),d(Se)!=="svelte-bf1aya"&&(Se.innerHTML=eo),qt=n(e),p(Le.$$.fragment,e),zt=n(e),Pe=r(e,"P",{"data-svelte-h":!0}),d(Pe)!=="svelte-3b2hco"&&(Pe.innerHTML=so),Ht=n(e),p(v.$$.fragment,e),At=n(e),Oe=r(e,"P",{"data-svelte-h":!0}),d(Oe)!=="svelte-1wbv5hu"&&(Oe.textContent=ao),Yt=n(e),Ke=r(e,"TABLE",{"data-svelte-h":!0}),d(Ke)!=="svelte-176vuiy"&&(Ke.innerHTML=to),Et=n(e),es=r(e,"P",{"data-svelte-h":!0}),d(es)!=="svelte-lhwaff"&&(es.innerHTML=lo),Dt=n(e),ss=r(e,"P",{"data-svelte-h":!0}),d(ss)!=="svelte-1dvmlib"&&(ss.textContent=no),Ft=n(e),as=r(e,"P",{"data-svelte-h":!0}),d(as)!=="svelte-x9w7hr"&&(as.innerHTML=oo),St=n(e),p(ts.$$.fragment,e),Lt=n(e),ls=r(e,"P",{"data-svelte-h":!0}),d(ls)!=="svelte-8r9x36"&&(ls.textContent=ro),Pt=n(e),ns=r(e,"TABLE",{"data-svelte-h":!0}),d(ns)!=="svelte-w1akcx"&&(ns.innerHTML=io),Ot=n(e),os=r(e,"P",{"data-svelte-h":!0}),d(os)!=="svelte-5abtsv"&&(os.innerHTML=po),Kt=n(e),p(C.$$.fragment,e),el=n(e),rs=r(e,"P",{"data-svelte-h":!0}),d(rs)!=="svelte-pe2aag"&&(rs.innerHTML=mo),sl=n(e),p(x.$$.fragment,e),al=n(e),ds=r(e,"P",{"data-svelte-h":!0}),d(ds)!=="svelte-f1jsdw"&&(ds.innerHTML=co),tl=n(e),p(is.$$.fragment,e),ll=n(e),ps=r(e,"P",{"data-svelte-h":!0}),d(ps)!=="svelte-io7i0r"&&(ps.innerHTML=uo),nl=n(e),p(ms.$$.fragment,e),ol=n(e),p(cs.$$.fragment,e),rl=n(e),us=r(e,"P",{"data-svelte-h":!0}),d(us)!=="svelte-bm9rus"&&(us.textContent=Mo),dl=n(e),p(Ms.$$.fragment,e),il=n(e),p(Js.$$.fragment,e),pl=n(e),ys=r(e,"P",{"data-svelte-h":!0}),d(ys)!=="svelte-1wyok0l"&&(ys.innerHTML=Jo),ml=n(e),Ts=r(e,"P",{"data-svelte-h":!0}),d(Ts)!=="svelte-yy7r4z"&&(Ts.innerHTML=yo),cl=n(e),p(js.$$.fragment,e),ul=n(e),fs=r(e,"P",{"data-svelte-h":!0}),d(fs)!=="svelte-1k3gtsh"&&(fs.textContent=To),Ml=n(e),p(Us.$$.fragment,e),Jl=n(e),p(ws.$$.fragment,e),yl=n(e),hs=r(e,"P",{"data-svelte-h":!0}),d(hs)!=="svelte-ydlmrc"&&(hs.innerHTML=jo),Tl=n(e),p(bs.$$.fragment,e),jl=n(e),gs=r(e,"P",{"data-svelte-h":!0}),d(gs)!=="svelte-1uww5rq"&&(gs.innerHTML=fo),fl=n(e),p($s.$$.fragment,e),Ul=n(e),p(vs.$$.fragment,e),wl=n(e),Cs=r(e,"P",{"data-svelte-h":!0}),d(Cs)!=="svelte-x462py"&&(Cs.textContent=Uo),hl=n(e),xs=r(e,"P",{"data-svelte-h":!0}),d(xs)!=="svelte-wva18"&&(xs.innerHTML=wo),bl=n(e),p(Is.$$.fragment,e),gl=n(e),p(Zs.$$.fragment,e),$l=n(e),ks=r(e,"P",{"data-svelte-h":!0}),d(ks)!=="svelte-1vgh43g"&&(ks.innerHTML=ho),vl=n(e),p(Vs.$$.fragment,e),Cl=n(e),Gs=r(e,"P",{"data-svelte-h":!0}),d(Gs)!=="svelte-1x2sj0v"&&(Gs.innerHTML=bo),xl=n(e),p(_s.$$.fragment,e),Il=n(e),w=r(e,"TABLE",{border:!0,class:!0,"data-svelte-h":!0}),d(w)!=="svelte-fhhlil"&&(w.innerHTML=go),Zl=n(e),Xs=r(e,"P",{"data-svelte-h":!0}),d(Xs)!=="svelte-1mxv2vi"&&(Xs.innerHTML=$o),kl=n(e),p(Bs.$$.fragment,e),Vl=n(e),p(I.$$.fragment,e),Gl=n(e),Qs=r(e,"P",{"data-svelte-h":!0}),d(Qs)!=="svelte-7xebho"&&(Qs.innerHTML=vo),_l=n(e),p(Ws.$$.fragment,e),Xl=n(e),h=r(e,"TABLE",{border:!0,class:!0,"data-svelte-h":!0}),d(h)!=="svelte-10crns6"&&(h.innerHTML=Co),Bl=n(e),Rs=r(e,"P",{"data-svelte-h":!0}),d(Rs)!=="svelte-1s9fkn7"&&(Rs.innerHTML=xo),Ql=n(e),p(Ns.$$.fragment,e),Wl=n(e),p(qs.$$.fragment,e),Rl=n(e),p(Z.$$.fragment,e),Nl=n(e),zs=r(e,"P",{"data-svelte-h":!0}),d(zs)!=="svelte-1f3542r"&&(zs.innerHTML=Io),ql=n(e),p(Hs.$$.fragment,e),zl=n(e),p(As.$$.fragment,e),Hl=n(e),Ys=r(e,"P",{"data-svelte-h":!0}),d(Ys)!=="svelte-w24gdx"&&(Ys.textContent=Zo),Al=n(e),Es=r(e,"P",{"data-svelte-h":!0}),d(Es)!=="svelte-j4v92t"&&(Es.innerHTML=ko),Yl=n(e),p(Ds.$$.fragment,e),El=n(e),p(Fs.$$.fragment,e),Dl=n(e),Ss=r(e,"P",{"data-svelte-h":!0}),d(Ss)!=="svelte-ljrxe6"&&(Ss.innerHTML=Vo),Fl=n(e),p(Ls.$$.fragment,e),Sl=n(e),p(Ps.$$.fragment,e),Ll=n(e),Os=r(e,"P",{"data-svelte-h":!0}),d(Os)!=="svelte-s7azoe"&&(Os.textContent=Go),Pl=n(e),Ks=r(e,"TABLE",{"data-svelte-h":!0}),d(Ks)!=="svelte-1gd98wf"&&(Ks.innerHTML=_o),Ol=n(e),ea=r(e,"P",{"data-svelte-h":!0}),d(ea)!=="svelte-f88wxz"&&(ea.textContent=Xo),Kl=n(e),p(sa.$$.fragment,e),en=n(e),aa=r(e,"P",{"data-svelte-h":!0}),d(aa)!=="svelte-1hnob70"&&(aa.textContent=Bo),sn=n(e),p(ta.$$.fragment,e),an=n(e),la=r(e,"P",{"data-svelte-h":!0}),d(la)!=="svelte-16s4esf"&&(la.innerHTML=Qo),tn=n(e),na=r(e,"P",{"data-svelte-h":!0}),d(na)!=="svelte-dxhfp2"&&(na.innerHTML=Wo),ln=n(e),p(oa.$$.fragment,e),nn=n(e),p(ra.$$.fragment,e),on=n(e),da=r(e,"P",{"data-svelte-h":!0}),d(da)!=="svelte-1ai1zbs"&&(da.innerHTML=Ro),rn=n(e),p(ia.$$.fragment,e),dn=n(e),pa=r(e,"P",{"data-svelte-h":!0}),d(pa)!=="svelte-1ruebb0"&&(pa.innerHTML=No),pn=n(e),p(ma.$$.fragment,e),mn=n(e),p(ca.$$.fragment,e),cn=n(e),ua=r(e,"P",{"data-svelte-h":!0}),d(ua)!=="svelte-9jwvef"&&(ua.innerHTML=qo),un=n(e),p(Ma.$$.fragment,e),Mn=n(e),Ja=r(e,"P",{"data-svelte-h":!0}),d(Ja)!=="svelte-1qt5i7k"&&(Ja.textContent=zo),Jn=n(e),ya=r(e,"OL",{"data-svelte-h":!0}),d(ya)!=="svelte-g9lisp"&&(ya.innerHTML=Ho),yn=n(e),Ta=r(e,"P",{"data-svelte-h":!0}),d(Ta)!=="svelte-18hl2bp"&&(Ta.textContent=Ao),Tn=n(e),p(ja.$$.fragment,e),jn=n(e),wa=r(e,"P",{}),Ko(wa).forEach(a),this.h()},h(){Ua(J,"name","hf:doc:metadata"),Ua(J,"content",Tr),Ua(w,"border","1"),Ua(w,"class","dataframe"),Ua(h,"border","1"),Ua(h,"class","dataframe")},m(e,s){nr(document.head,J),t(e,j,s),t(e,T,s),t(e,f,s),m(G,e,s),t(e,ha,s),m(_,e,s),t(e,ba,s),t(e,X,s),t(e,ga,s),m(B,e,s),t(e,$a,s),m(Q,e,s),t(e,va,s),t(e,W,s),t(e,Ca,s),t(e,R,s),t(e,xa,s),t(e,N,s),t(e,Ia,s),m(q,e,s),t(e,Za,s),t(e,z,s),t(e,ka,s),m(H,e,s),t(e,Va,s),t(e,A,s),t(e,Ga,s),m(Y,e,s),t(e,_a,s),m(E,e,s),t(e,Xa,s),t(e,D,s),t(e,Ba,s),t(e,F,s),t(e,Qa,s),t(e,S,s),t(e,Wa,s),m(L,e,s),t(e,Ra,s),t(e,P,s),t(e,Na,s),m(O,e,s),t(e,qa,s),m(K,e,s),t(e,za,s),m(b,e,s),t(e,Ha,s),t(e,ee,s),t(e,Aa,s),m(se,e,s),t(e,Ya,s),m(ae,e,s),t(e,Ea,s),t(e,te,s),t(e,Da,s),m(le,e,s),t(e,Fa,s),t(e,ne,s),t(e,Sa,s),m(oe,e,s),t(e,La,s),t(e,re,s),t(e,Pa,s),m(de,e,s),t(e,Oa,s),t(e,ie,s),t(e,Ka,s),m(pe,e,s),t(e,et,s),m(me,e,s),t(e,st,s),t(e,ce,s),t(e,at,s),m(ue,e,s),t(e,tt,s),m(Me,e,s),t(e,lt,s),t(e,Je,s),t(e,nt,s),m(ye,e,s),t(e,ot,s),t(e,Te,s),t(e,rt,s),m(je,e,s),t(e,dt,s),m(fe,e,s),t(e,it,s),t(e,Ue,s),t(e,pt,s),m(we,e,s),t(e,mt,s),t(e,he,s),t(e,ct,s),t(e,be,s),t(e,ut,s),m(ge,e,s),t(e,Mt,s),t(e,$e,s),t(e,Jt,s),m(ve,e,s),t(e,yt,s),m(Ce,e,s),t(e,Tt,s),t(e,xe,s),t(e,jt,s),m(Ie,e,s),t(e,ft,s),m(Ze,e,s),t(e,Ut,s),t(e,ke,s),t(e,wt,s),m(g,e,s),t(e,ht,s),t(e,Ve,s),t(e,bt,s),m(Ge,e,s),t(e,gt,s),m(_e,e,s),t(e,$t,s),t(e,Xe,s),t(e,vt,s),m($,e,s),t(e,Ct,s),t(e,Be,s),t(e,xt,s),m(Qe,e,s),t(e,It,s),m(We,e,s),t(e,Zt,s),t(e,Re,s),t(e,kt,s),m(Ne,e,s),t(e,Vt,s),t(e,qe,s),t(e,Gt,s),m(ze,e,s),t(e,_t,s),t(e,He,s),t(e,Xt,s),t(e,Ae,s),t(e,Bt,s),m(Ye,e,s),t(e,Qt,s),t(e,Ee,s),t(e,Wt,s),t(e,De,s),t(e,Rt,s),m(Fe,e,s),t(e,Nt,s),t(e,Se,s),t(e,qt,s),m(Le,e,s),t(e,zt,s),t(e,Pe,s),t(e,Ht,s),m(v,e,s),t(e,At,s),t(e,Oe,s),t(e,Yt,s),t(e,Ke,s),t(e,Et,s),t(e,es,s),t(e,Dt,s),t(e,ss,s),t(e,Ft,s),t(e,as,s),t(e,St,s),m(ts,e,s),t(e,Lt,s),t(e,ls,s),t(e,Pt,s),t(e,ns,s),t(e,Ot,s),t(e,os,s),t(e,Kt,s),m(C,e,s),t(e,el,s),t(e,rs,s),t(e,sl,s),m(x,e,s),t(e,al,s),t(e,ds,s),t(e,tl,s),m(is,e,s),t(e,ll,s),t(e,ps,s),t(e,nl,s),m(ms,e,s),t(e,ol,s),m(cs,e,s),t(e,rl,s),t(e,us,s),t(e,dl,s),m(Ms,e,s),t(e,il,s),m(Js,e,s),t(e,pl,s),t(e,ys,s),t(e,ml,s),t(e,Ts,s),t(e,cl,s),m(js,e,s),t(e,ul,s),t(e,fs,s),t(e,Ml,s),m(Us,e,s),t(e,Jl,s),m(ws,e,s),t(e,yl,s),t(e,hs,s),t(e,Tl,s),m(bs,e,s),t(e,jl,s),t(e,gs,s),t(e,fl,s),m($s,e,s),t(e,Ul,s),m(vs,e,s),t(e,wl,s),t(e,Cs,s),t(e,hl,s),t(e,xs,s),t(e,bl,s),m(Is,e,s),t(e,gl,s),m(Zs,e,s),t(e,$l,s),t(e,ks,s),t(e,vl,s),m(Vs,e,s),t(e,Cl,s),t(e,Gs,s),t(e,xl,s),m(_s,e,s),t(e,Il,s),t(e,w,s),t(e,Zl,s),t(e,Xs,s),t(e,kl,s),m(Bs,e,s),t(e,Vl,s),m(I,e,s),t(e,Gl,s),t(e,Qs,s),t(e,_l,s),m(Ws,e,s),t(e,Xl,s),t(e,h,s),t(e,Bl,s),t(e,Rs,s),t(e,Ql,s),m(Ns,e,s),t(e,Wl,s),m(qs,e,s),t(e,Rl,s),m(Z,e,s),t(e,Nl,s),t(e,zs,s),t(e,ql,s),m(Hs,e,s),t(e,zl,s),m(As,e,s),t(e,Hl,s),t(e,Ys,s),t(e,Al,s),t(e,Es,s),t(e,Yl,s),m(Ds,e,s),t(e,El,s),m(Fs,e,s),t(e,Dl,s),t(e,Ss,s),t(e,Fl,s),m(Ls,e,s),t(e,Sl,s),m(Ps,e,s),t(e,Ll,s),t(e,Os,s),t(e,Pl,s),t(e,Ks,s),t(e,Ol,s),t(e,ea,s),t(e,Kl,s),m(sa,e,s),t(e,en,s),t(e,aa,s),t(e,sn,s),m(ta,e,s),t(e,an,s),t(e,la,s),t(e,tn,s),t(e,na,s),t(e,ln,s),m(oa,e,s),t(e,nn,s),m(ra,e,s),t(e,on,s),t(e,da,s),t(e,rn,s),m(ia,e,s),t(e,dn,s),t(e,pa,s),t(e,pn,s),m(ma,e,s),t(e,mn,s),m(ca,e,s),t(e,cn,s),t(e,ua,s),t(e,un,s),m(Ma,e,s),t(e,Mn,s),t(e,Ja,s),t(e,Jn,s),t(e,ya,s),t(e,yn,s),t(e,Ta,s),t(e,Tn,s),m(ja,e,s),t(e,jn,s),t(e,wa,s),fn=!0},p(e,[s]){const Yo={};s&2&&(Yo.$$scope={dirty:s,ctx:e}),b.$set(Yo);const Eo={};s&2&&(Eo.$$scope={dirty:s,ctx:e}),g.$set(Eo);const Do={};s&2&&(Do.$$scope={dirty:s,ctx:e}),$.$set(Do);const Fo={};s&2&&(Fo.$$scope={dirty:s,ctx:e}),v.$set(Fo);const So={};s&2&&(So.$$scope={dirty:s,ctx:e}),C.$set(So);const Lo={};s&2&&(Lo.$$scope={dirty:s,ctx:e}),x.$set(Lo);const Po={};s&2&&(Po.$$scope={dirty:s,ctx:e}),I.$set(Po);const Oo={};s&2&&(Oo.$$scope={dirty:s,ctx:e}),Z.$set(Oo)},i(e){fn||(c(G.$$.fragment,e),c(_.$$.fragment,e),c(B.$$.fragment,e),c(Q.$$.fragment,e),c(q.$$.fragment,e),c(H.$$.fragment,e),c(Y.$$.fragment,e),c(E.$$.fragment,e),c(L.$$.fragment,e),c(O.$$.fragment,e),c(K.$$.fragment,e),c(b.$$.fragment,e),c(se.$$.fragment,e),c(ae.$$.fragment,e),c(le.$$.fragment,e),c(oe.$$.fragment,e),c(de.$$.fragment,e),c(pe.$$.fragment,e),c(me.$$.fragment,e),c(ue.$$.fragment,e),c(Me.$$.fragment,e),c(ye.$$.fragment,e),c(je.$$.fragment,e),c(fe.$$.fragment,e),c(we.$$.fragment,e),c(ge.$$.fragment,e),c(ve.$$.fragment,e),c(Ce.$$.fragment,e),c(Ie.$$.fragment,e),c(Ze.$$.fragment,e),c(g.$$.fragment,e),c(Ge.$$.fragment,e),c(_e.$$.fragment,e),c($.$$.fragment,e),c(Qe.$$.fragment,e),c(We.$$.fragment,e),c(Ne.$$.fragment,e),c(ze.$$.fragment,e),c(Ye.$$.fragment,e),c(Fe.$$.fragment,e),c(Le.$$.fragment,e),c(v.$$.fragment,e),c(ts.$$.fragment,e),c(C.$$.fragment,e),c(x.$$.fragment,e),c(is.$$.fragment,e),c(ms.$$.fragment,e),c(cs.$$.fragment,e),c(Ms.$$.fragment,e),c(Js.$$.fragment,e),c(js.$$.fragment,e),c(Us.$$.fragment,e),c(ws.$$.fragment,e),c(bs.$$.fragment,e),c($s.$$.fragment,e),c(vs.$$.fragment,e),c(Is.$$.fragment,e),c(Zs.$$.fragment,e),c(Vs.$$.fragment,e),c(_s.$$.fragment,e),c(Bs.$$.fragment,e),c(I.$$.fragment,e),c(Ws.$$.fragment,e),c(Ns.$$.fragment,e),c(qs.$$.fragment,e),c(Z.$$.fragment,e),c(Hs.$$.fragment,e),c(As.$$.fragment,e),c(Ds.$$.fragment,e),c(Fs.$$.fragment,e),c(Ls.$$.fragment,e),c(Ps.$$.fragment,e),c(sa.$$.fragment,e),c(ta.$$.fragment,e),c(oa.$$.fragment,e),c(ra.$$.fragment,e),c(ia.$$.fragment,e),c(ma.$$.fragment,e),c(ca.$$.fragment,e),c(Ma.$$.fragment,e),c(ja.$$.fragment,e),fn=!0)},o(e){u(G.$$.fragment,e),u(_.$$.fragment,e),u(B.$$.fragment,e),u(Q.$$.fragment,e),u(q.$$.fragment,e),u(H.$$.fragment,e),u(Y.$$.fragment,e),u(E.$$.fragment,e),u(L.$$.fragment,e),u(O.$$.fragment,e),u(K.$$.fragment,e),u(b.$$.fragment,e),u(se.$$.fragment,e),u(ae.$$.fragment,e),u(le.$$.fragment,e),u(oe.$$.fragment,e),u(de.$$.fragment,e),u(pe.$$.fragment,e),u(me.$$.fragment,e),u(ue.$$.fragment,e),u(Me.$$.fragment,e),u(ye.$$.fragment,e),u(je.$$.fragment,e),u(fe.$$.fragment,e),u(we.$$.fragment,e),u(ge.$$.fragment,e),u(ve.$$.fragment,e),u(Ce.$$.fragment,e),u(Ie.$$.fragment,e),u(Ze.$$.fragment,e),u(g.$$.fragment,e),u(Ge.$$.fragment,e),u(_e.$$.fragment,e),u($.$$.fragment,e),u(Qe.$$.fragment,e),u(We.$$.fragment,e),u(Ne.$$.fragment,e),u(ze.$$.fragment,e),u(Ye.$$.fragment,e),u(Fe.$$.fragment,e),u(Le.$$.fragment,e),u(v.$$.fragment,e),u(ts.$$.fragment,e),u(C.$$.fragment,e),u(x.$$.fragment,e),u(is.$$.fragment,e),u(ms.$$.fragment,e),u(cs.$$.fragment,e),u(Ms.$$.fragment,e),u(Js.$$.fragment,e),u(js.$$.fragment,e),u(Us.$$.fragment,e),u(ws.$$.fragment,e),u(bs.$$.fragment,e),u($s.$$.fragment,e),u(vs.$$.fragment,e),u(Is.$$.fragment,e),u(Zs.$$.fragment,e),u(Vs.$$.fragment,e),u(_s.$$.fragment,e),u(Bs.$$.fragment,e),u(I.$$.fragment,e),u(Ws.$$.fragment,e),u(Ns.$$.fragment,e),u(qs.$$.fragment,e),u(Z.$$.fragment,e),u(Hs.$$.fragment,e),u(As.$$.fragment,e),u(Ds.$$.fragment,e),u(Fs.$$.fragment,e),u(Ls.$$.fragment,e),u(Ps.$$.fragment,e),u(sa.$$.fragment,e),u(ta.$$.fragment,e),u(oa.$$.fragment,e),u(ra.$$.fragment,e),u(ia.$$.fragment,e),u(ma.$$.fragment,e),u(ca.$$.fragment,e),u(Ma.$$.fragment,e),u(ja.$$.fragment,e),fn=!1},d(e){e&&(a(j),a(T),a(f),a(ha),a(ba),a(X),a(ga),a($a),a(va),a(W),a(Ca),a(R),a(xa),a(N),a(Ia),a(Za),a(z),a(ka),a(Va),a(A),a(Ga),a(_a),a(Xa),a(D),a(Ba),a(F),a(Qa),a(S),a(Wa),a(Ra),a(P),a(Na),a(qa),a(za),a(Ha),a(ee),a(Aa),a(Ya),a(Ea),a(te),a(Da),a(Fa),a(ne),a(Sa),a(La),a(re),a(Pa),a(Oa),a(ie),a(Ka),a(et),a(st),a(ce),a(at),a(tt),a(lt),a(Je),a(nt),a(ot),a(Te),a(rt),a(dt),a(it),a(Ue),a(pt),a(mt),a(he),a(ct),a(be),a(ut),a(Mt),a($e),a(Jt),a(yt),a(Tt),a(xe),a(jt),a(ft),a(Ut),a(ke),a(wt),a(ht),a(Ve),a(bt),a(gt),a($t),a(Xe),a(vt),a(Ct),a(Be),a(xt),a(It),a(Zt),a(Re),a(kt),a(Vt),a(qe),a(Gt),a(_t),a(He),a(Xt),a(Ae),a(Bt),a(Qt),a(Ee),a(Wt),a(De),a(Rt),a(Nt),a(Se),a(qt),a(zt),a(Pe),a(Ht),a(At),a(Oe),a(Yt),a(Ke),a(Et),a(es),a(Dt),a(ss),a(Ft),a(as),a(St),a(Lt),a(ls),a(Pt),a(ns),a(Ot),a(os),a(Kt),a(el),a(rs),a(sl),a(al),a(ds),a(tl),a(ll),a(ps),a(nl),a(ol),a(rl),a(us),a(dl),a(il),a(pl),a(ys),a(ml),a(Ts),a(cl),a(ul),a(fs),a(Ml),a(Jl),a(yl),a(hs),a(Tl),a(jl),a(gs),a(fl),a(Ul),a(wl),a(Cs),a(hl),a(xs),a(bl),a(gl),a($l),a(ks),a(vl),a(Cl),a(Gs),a(xl),a(Il),a(w),a(Zl),a(Xs),a(kl),a(Vl),a(Gl),a(Qs),a(_l),a(Xl),a(h),a(Bl),a(Rs),a(Ql),a(Wl),a(Rl),a(Nl),a(zs),a(ql),a(zl),a(Hl),a(Ys),a(Al),a(Es),a(Yl),a(El),a(Dl),a(Ss),a(Fl),a(Sl),a(Ll),a(Os),a(Pl),a(Ks),a(Ol),a(ea),a(Kl),a(en),a(aa),a(sn),a(an),a(la),a(tn),a(na),a(ln),a(nn),a(on),a(da),a(rn),a(dn),a(pa),a(pn),a(mn),a(cn),a(ua),a(un),a(Mn),a(Ja),a(Jn),a(ya),a(yn),a(Ta),a(Tn),a(jn),a(wa)),a(J),M(G,e),M(_,e),M(B,e),M(Q,e),M(q,e),M(H,e),M(Y,e),M(E,e),M(L,e),M(O,e),M(K,e),M(b,e),M(se,e),M(ae,e),M(le,e),M(oe,e),M(de,e),M(pe,e),M(me,e),M(ue,e),M(Me,e),M(ye,e),M(je,e),M(fe,e),M(we,e),M(ge,e),M(ve,e),M(Ce,e),M(Ie,e),M(Ze,e),M(g,e),M(Ge,e),M(_e,e),M($,e),M(Qe,e),M(We,e),M(Ne,e),M(ze,e),M(Ye,e),M(Fe,e),M(Le,e),M(v,e),M(ts,e),M(C,e),M(x,e),M(is,e),M(ms,e),M(cs,e),M(Ms,e),M(Js,e),M(js,e),M(Us,e),M(ws,e),M(bs,e),M($s,e),M(vs,e),M(Is,e),M(Zs,e),M(Vs,e),M(_s,e),M(Bs,e),M(I,e),M(Ws,e),M(Ns,e),M(qs,e),M(Z,e),M(Hs,e),M(As,e),M(Ds,e),M(Fs,e),M(Ls,e),M(Ps,e),M(sa,e),M(ta,e),M(oa,e),M(ra,e),M(ia,e),M(ma,e),M(ca,e),M(Ma,e),M(ja,e)}}}const Tr='{"title":"Hora de fatiar e dividir os dados","local":"hora-de-fatiar-e-dividir-os-dados","sections":[{"title":"Slicing and dicing our data","local":"slicing-and-dicing-our-data","sections":[],"depth":2},{"title":"Criando novas colunas","local":"criando-novas-colunas","sections":[],"depth":2},{"title":"Os superpoderes do método map()","local":"os-superpoderes-do-método-map","sections":[],"depth":2},{"title":"De Dataset s para DataFrame s e vice-versa","local":"de-dataset-s-para-dataframe-s-e-vice-versa","sections":[],"depth":2},{"title":"Criando um conjunto de validação","local":"criando-um-conjunto-de-validação","sections":[],"depth":2},{"title":"Salvando um conjunto de dados","local":"salvando-um-conjunto-de-dados","sections":[],"depth":2}],"depth":1}';function jr(U){return sr(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class vr extends ar{constructor(J){super(),tr(this,J,jr,yr,er,{})}}export{vr as component};

Xet Storage Details

Size:
105 kB
·
Xet hash:
da288a2525138dbf376530ed989ab507e72ff903dc30604199883f72ccb268d0

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.