Buckets:
| import{s as Ga,o as Za,n as Ce}from"../chunks/scheduler.37c15a92.js";import{S as Va,i as Wa,g as u,s as t,r as p,A as ka,h as J,f as a,c as n,j as Ba,u as r,x as y,k as xa,y as Ra,a as l,v as o,d,t as c,w as m}from"../chunks/index.2bf4358c.js";import{T as Re}from"../chunks/Tip.363c041f.js";import{Y as Ca}from"../chunks/Youtube.1e50a667.js";import{C as T}from"../chunks/CodeBlock.4e987730.js";import{C as Ea}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as qs}from"../chunks/Heading.8ada512a.js";import{E as Xa}from"../chunks/getInferenceSnippets.acd17970.js";function va(b){let i,j='✎ Por defecto, 🤗 Datasets va a descomprimir los archivos necesarios para cargar un dataset. Si quieres ahorrar espacio de almacenamiento, puedes usar <code>DownloadConfig(delete_extracted=True)</code> al argumento <code>download_config</code> de <code>load_dataset()</code>. Revisa la <a href="https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig" rel="nofollow">documentación</a> para más detalles.';return{c(){i=u("p"),i.innerHTML=j},l(M){i=J(M,"P",{"data-svelte-h":!0}),y(i)!=="svelte-1vcz8if"&&(i.innerHTML=j)},m(M,h){l(M,i,h)},p:Ce,d(M){M&&a(i)}}}function Na(b){let i,j='✏️ <strong>¡Inténtalo!</strong> Escoge alguno de los <a href="https://mystic.the-eye.eu/public/AI/pile_preliminary_components/" rel="nofollow">subconjuntos</a> del <em>Pile</em> que sea más grande que la RAM de tu computador portátil o de escritorio, cárgalo con 🤗 Datasets y mide la cantidad de RAM utilizada. Recuerda que para tener una medición precisa, tienes que hacerlo en un nuevo proceso. Puedes encontrar los tamaños de cada uno de los subconjuntos sin comprimir en la Tabla 1 del <a href="https://arxiv.org/abs/2101.00027" rel="nofollow">paper de <em>Pile</em></a>.';return{c(){i=u("p"),i.innerHTML=j},l(M){i=J(M,"P",{"data-svelte-h":!0}),y(i)!=="svelte-1udxpjd"&&(i.innerHTML=j)},m(M,h){l(M,i,h)},p:Ce,d(M){M&&a(i)}}}function _a(b){let i,j='💡 En los cuadernos de Jupyter también puedes medir el tiempo de ejecución de las celdas usando <a href="https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit" rel="nofollow"><code>%%timeit</code></a>.';return{c(){i=u("p"),i.innerHTML=j},l(M){i=J(M,"P",{"data-svelte-h":!0}),y(i)!=="svelte-1pb1ytq"&&(i.innerHTML=j)},m(M,h){l(M,i,h)},p:Ce,d(M){M&&a(i)}}}function za(b){let i,j="💡 Para acelerar la tokenización con <em>streaming</em> puedes definir <code>batched=True</code>, como lo vimos en la sección anterior. Esto va a procesar los ejemplos lote por lote. Recuerda que el tamaño por defecto de los lotes es 1.000 y puede ser especificado con el argumento <code>batch_size</code>.";return{c(){i=u("p"),i.innerHTML=j},l(M){i=J(M,"P",{"data-svelte-h":!0}),y(i)!=="svelte-e5qad3"&&(i.innerHTML=j)},m(M,h){l(M,i,h)},p:Ce,d(M){M&&a(i)}}}function Qa(b){let i,j='✏️ <strong>¡Inténtalo!</strong> Usa alguno de los corpus grandes de Common Crawl como <a href="https://huggingface.co/datasets/mc4" rel="nofollow"><code>mc4</code></a> u <a href="https://huggingface.co/datasets/oscar" rel="nofollow"><code>oscar</code></a> para crear un dataset <em>streaming</em> multilenguaje que represente las proporciones de lenguajes hablados en un país de tu elección. Por ejemplo, los 4 lenguajes nacionales en Suiza son alemán, francés, italiano y romanche, así que podrías crear un corpus suizo al hacer un muestreo de Oscar de acuerdo con su proporción de lenguaje.';return{c(){i=u("p"),i.innerHTML=j},l(M){i=J(M,"P",{"data-svelte-h":!0}),y(i)!=="svelte-19fsbe0"&&(i.innerHTML=j)},m(M,h){l(M,i,h)},p:Ce,d(M){M&&a(i)}}}function Ya(b){let i,j,M,h,$,Ee,B,Xe,x,Ls="Hoy en día es común que tengas que trabajar con dataset de varios GB, especialmente si planeas pre-entrenar un transformador como BERT o GPT-2 desde ceros. En estos casos, <em>solamente cargar</em> los datos puede ser un desafío. Por ejemplo, el corpus de WebText utilizado para preentrenar GPT-2 consiste de más de 8 millones de documentos y 40 GB de texto. ¡Cargarlo en la RAM de tu computador portátil le va a causar un paro cardíaco!",ve,G,Ps="Afortunadamente, 🤗 Datasets está diseñado para superar estas limitaciones: te libera de problemas de manejo de memoria al tratar los datasets como archivos <em>proyectados en memoria</em> (<em>memory-mapped</em>) y de límites de almacenamiento al hacer <em>streaming</em> de las entradas en un corpus.",Ne,Z,_e,V,Os='En esta sección vamos a explorar estas funcionalidades de 🤗 Datasets con un corpus enorme de 825 GB conocido como el <a href="https://pile.eleuther.ai" rel="nofollow">Pile</a>. ¡Comencemos!',ze,W,Qe,k,Ks='El <em>Pile</em> es un corpus de textos en inglés creado por <a href="https://www.eleuther.ai" rel="nofollow">EleutherAI</a> para entrenar modelos de lenguaje de gran escala. Incluye una selección diversa de datasets que abarca artículos científicos, repositorios de código de Github y texto filtrado de la web. El corpus de entrenamiento está disponible en <a href="https://mystic.the-eye.eu/public/AI/pile/" rel="nofollow">partes de 14 GB</a> y también puedes descargar varios de los <a href="https://mystic.the-eye.eu/public/AI/pile_preliminary_components/" rel="nofollow">componentes individuales</a>. Arranquemos viendo el dataset de los abstracts de PubMed, un corpus de abstracts de 15 millones de publicaciones biomédicas en <a href="https://pubmed.ncbi.nlm.nih.gov/" rel="nofollow">PubMed</a>. Este dataset está en formato <a href="https://jsonlines.org" rel="nofollow">JSON Lines</a> y está comprimido con la librería <code>zstandard</code>, así que primero tenemos que instalarla:',Ye,R,He,C,ea='A continuación, podemos cargar el dataset usando el método para archivos remotos que aprendimos en la <a href="/course/chapter5/2">sección 2</a>:',Fe,E,Ae,X,Se,v,sa="Como podemos ver, hay 15.518.009 filas y dos columnas en el dataset, ¡un montón!",De,f,qe,N,aa="Veamos el contenido del primer ejemplo:",Le,_,Pe,z,Oe,Q,la="Ok, esto parece el abstract de un artículo médico. Ahora miremos cuánta RAM hemos usado para cargar el dataset.",Ke,Y,es,H,ta='Una forma simple de medir el uso de memoria en Python es con la librería <a href="https://psutil.readthedocs.io/en/latest/" rel="nofollow"><code>psutil</code></a>, que se puede instalar con <code>pip</code> así:',ss,F,as,A,na="Esta librería contiene una clase <code>Process</code> que nos permite revisar el uso de memoria del proceso actual:",ls,S,ts,D,ns,q,ia="El atributo <code>rss</code> se refiere al <em>resident set size</em>, que es la fracción de memoria que un proceso ocupa en RAM. Esta medición también incluye la memoria usada por el intérprete de Python y las librerías que hemos cargado, así que la cantidad real de memoria usada para cargar el dataset es un poco más pequeña. A modo de comparación, veamos qué tan grande es el dataset en disco, usando el atributo <code>dataset_size</code>. Dado que el resultado está expresado en bytes, tenemos que convertirlo manualmente en gigabytes:",is,L,ps,P,rs,O,pa="Bien, a pesar de que el archivo es de casi 20 GB, ¡podemos cargarlo y acceder a su contenido con mucha menos RAM!",os,w,ds,K,ra='Si estás familiarizado con Pandas, este resultado puede ser sorprendente por la famosa <a href="https://wesmckinney.com/blog/apache-arrow-pandas-internals/" rel="nofollow">regla de Wes Kinney</a> que indica que típicamente necesitas de 5 a 10 veces la RAM que el tamaño del archivo de tu dataset. ¿Cómo resuelve entonces 🤗 Datasets este problema de manejo de memoria? 🤗 Datasets trata cada dataset como un <a href="https://en.wikipedia.org/wiki/Memory-mapped_file" rel="nofollow">archivo proyectado en memoria</a>, lo que permite un mapeo entre la RAM y el sistema de almacenamiento de archivos, que le permite a la librería acceder y operar los elementos del dataset sin necesidad de tenerlos cargados completamente en memoria.',cs,ee,oa='Los archivos proyectados en memoria también pueden ser compartidos por múltiples procesos, lo que habilita la paralelización de métodos como <code>Dataset.map()</code> sin que sea obligatorio mover o copiar el dataset. Internamente, estas capacidades se logran gracias al formato de memoria <a href="https://arrow.apache.org" rel="nofollow">Apache Arrow</a> y la librería <a href="https://arrow.apache.org/docs/python/index.html" rel="nofollow"><code>pyarrow</code></a>, que permiten la carga y procesamiento de datos a gran velocidad. (Para ahondar más en Apache Arrow y algunas comparaciones con Pandas, revisa el <a href="https://towardsdatascience.com/apache-arrow-read-dataframe-with-zero-memory-69634092b1a" rel="nofollow">blog de Dejan Simic</a>). Para verlo en acción, ejecutemos un test de velocidad iterando sobre todos los elementos del dataset de abstracts de PubMed:',ms,se,Ms,ae,us,le,da="Aquí usamos el módulo <code>timeit</code> de Python para medir el tiempo de ejecución que se toma <code>code_snippet</code>. Típicamemente, puedes iterar a lo largo de un dataset a una velocidad de unas cuantas décimas de un GB por segundo. Esto funciona muy bien para la gran mayoría de aplicaciones, pero algunas veces tendrás que trabajar con un dataset que es tan grande para incluso almacenarse en el disco de tu computador. Por ejemplo, si quisieramos descargar el <em>Pile</em> completo ¡necesitaríamos 825 GB de almacenamiento libre! Para trabajar con esos casos, 🤗 Datasets puede trabajar haciendo <em>streaming</em>, lo que permite la descarga y acceso a los elementos sobre la marcha, sin necesidad de descargar todo el dataset. Veamos cómo funciona:",Js,U,ys,te,Ts,ne,ca="Para habilitar el <em>streaming</em> basta con pasar el argumento <code>streaming=True</code> a la función <code>load_dataset()</code>. Por ejemplo, carguemos el dataset de abstracts de PubMed de nuevo, pero en modo <em>streaming</em>.",js,ie,hs,pe,ma="En vez del <code>Dataset</code> común y corriente que nos hemos encontrado en el resto del capítulo, el objeto devuelto con <code>streaming=True</code> es un <code>IterableDataset</code>. Como su nombre lo indica, para acceder a los elementos de un <code>IterableDataset</code> tenemos que iterar sobre él. Podemos acceder al primer elemento de nuestro dataset de la siguiente manera:",bs,re,fs,oe,ws,de,Ma='Los elementos de un dataset <em>streamed</em> pueden ser procesados sobre la marcha usando <code>IterableDataset.map()</code>, lo que puede servirte si tienes que tokenizar los inputs. El proceso es exactamente el mismo que el que usamos para tokenizar nuestro dataset en el <a href="/course/chapter3">Capítulo 3</a>, con la única diferencia de que los outputs se devuelven uno por uno.',Us,ce,gs,me,Is,g,$s,Me,ua="También puedes aleatorizar el orden de un dataset <em>streamed</em> usando <code>IterableDataset.shuffle()</code>, pero a diferencia de <code>Dataset.shuffle()</code> esto sólo afecta a los elementos en un <code>buffer_size</code> determinado:",Bs,ue,xs,Je,Gs,ye,Ja="En este ejemplo, seleccionamos un ejemplo aleatorio de los primeros 10.000 ejemplos en el buffer. Apenas se accede a un ejemplo, su lugar en el buffer se llena con el siguiente ejemplo en el corpus (i.e., el ejemplo número 10.001). También puedes seleccionar elementos de un dataset <em>streamed</em> usando las funciones <code>IterableDataset.take()</code> y <code>IterableDataset.skip()</code>, que funcionan de manera similar a <code>Dataset.select()</code>. Por ejemplo, para seleccionar los 5 primeros ejemplos en el dataset de abstracts de PubMed podemos hacer lo siguiente:",Zs,Te,Vs,je,Ws,he,ya="También podemos usar la función <code>IterableDataset.skip()</code> para crear conjuntos de entrenamiento y validación de un dataset ordenado aleatoriamente así:",ks,be,Rs,fe,Ta="Vamos a repasar la exploración del <em>streaming</em> de datasets con una aplicación común: combinar múltiples datasets para crear un solo corpus. 🤗 Datasets provee una función <code>interleave_datasets()</code> que convierte una lista de objetos <code>IterableDataset</code> en un solo <code>IterableDataset</code>, donde la lista de elementos del nuevo dataset se obtiene al alternar entre los ejemplos originales. Esta función es particularmente útil cuando quieres combinar datasets grandes, así que como ejemplo hagamos <em>streaming</em> del conjunto FreeLaw del <em>Pile</em>, que es un dataset de 51 GB con opiniones legales de las cortes en Estados Unidos.",Cs,we,Es,Ue,Xs,ge,ja="Este dataset es lo suficientemente grande como para llevar al límite la RAM de la mayoría de computadores portátiles. Sin embargo, ¡podemos cargarla y acceder a el sin esfuerzo! Ahora combinemos los ejemplos de FreeLaw y PubMed usando la función <code>interleave_datasets()</code>:",vs,Ie,Ns,$e,_s,Be,ha="Usamos la función <code>islice()</code> del módulo <code>itertools</code> de Python para seleccionar los primeros dos ejemplos del dataset combinado y podemos ver que corresponden con los primeros dos ejemplos de cada uno de los dos datasets de origen.",zs,xe,ba="Finalmente, si quieres hacer <em>streaming</em> del <em>Pile</em> de 825 GB en su totalidad, puedes usar todos los archivos preparados de la siguiente manera:",Qs,Ge,Ys,Ze,Hs,I,Fs,Ve,fa="Ya tienes todas las herramientas para cargar y procesar datasets de todas las formas y tamaños, pero a menos que seas muy afortunado, llegará un punto en tu camino de PLN en el que tendrás que crear el dataset tu mismo para resolver tu problema particular. De esto hablaremos en la siguiente sección.",As,We,Ss,ke,Ds;return $=new qs({props:{title:"¿Big data? 🤗 ¡Datasets al rescate!",local:"big-data--datasets-al-rescate",headingTag:"h1"}}),B=new Ea({props:{chapter:5,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter5/section4.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter5/section4.ipynb"}]}}),Z=new Ca({props:{id:"JwISwTCPPWo"}}),W=new qs({props:{title:"¿Qué es el Pile?",local:"qué-es-el-pile",headingTag:"h2"}}),R=new T({props:{code:"IXBpcCUyMGluc3RhbGwlMjB6c3RhbmRhcmQ=",highlighted:"!pip install zstandard",wrap:!1}}),E=new T({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTBBJTBBJTIzJTIwRXN0byUyMHRvbWElMjBhbGd1bm9zJTIwbWludXRvcyUyMHBhcmElMjBlamVjdXRhcnNlJTJDJTIwYXMlQzMlQUQlMjBxdWUlMjB2ZSUyMHBvciUyMHVuJTIwdGUlMjBvJTIwdW4lMjBjYWYlQzMlQTklMjBtaWVudHJhcyUyMGVzcGVyYXMlMjAlM0EpJTBBZGF0YV9maWxlcyUyMCUzRCUyMCUyMmh0dHBzJTNBJTJGJTJGbXlzdGljLnRoZS1leWUuZXUlMkZwdWJsaWMlMkZBSSUyRnBpbGVfcHJlbGltaW5hcnlfY29tcG9uZW50cyUyRlBVQk1FRF90aXRsZV9hYnN0cmFjdHNfMjAxOV9iYXNlbGluZS5qc29ubC56c3QlMjIlMEFwdWJtZWRfZGF0YXNldCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJqc29uJTIyJTJDJTIwZGF0YV9maWxlcyUzRGRhdGFfZmlsZXMlMkMlMjBzcGxpdCUzRCUyMnRyYWluJTIyKSUwQXB1Ym1lZF9kYXRhc2V0",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| <span class="hljs-comment"># Esto toma algunos minutos para ejecutarse, así que ve por un te o un café mientras esperas :)</span> | |
| data_files = <span class="hljs-string">"https://mystic.the-eye.eu/public/AI/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst"</span> | |
| pubmed_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, split=<span class="hljs-string">"train"</span>) | |
| pubmed_dataset`,wrap:!1}}),X=new T({props:{code:"RGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidtZXRhJyUyQyUyMCd0ZXh0JyU1RCUyQyUwQSUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwMTU1MTgwMDklMEElN0Qp",highlighted:`Dataset({ | |
| features: [<span class="hljs-string">'meta'</span>, <span class="hljs-string">'text'</span>], | |
| num_rows: <span class="hljs-number">15518009</span> | |
| })`,wrap:!1}}),f=new Re({props:{$$slots:{default:[va]},$$scope:{ctx:b}}}),_=new T({props:{code:"cHVibWVkX2RhdGFzZXQlNUIwJTVE",highlighted:'pubmed_dataset[<span class="hljs-number">0</span>]',wrap:!1}}),z=new T({props:{code:"JTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MDk1NzQlMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAndGV4dCclM0ElMjAnRXBpZGVtaW9sb2d5JTIwb2YlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHdpdGglMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb24uJTVDblRvJTIwZGV0ZXJtaW5lJTIwdGhlJTIwcHJldmFsZW5jZSUyMG9mJTIwaHlwb3hhZW1pYSUyMGluJTIwY2hpbGRyZW4lMjBhZ2VkJTIwdW5kZXIlMjA1JTIweWVhcnMlMjBzdWZmZXJpbmclMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb25zJTIwKEFMUkkpJTJDJTIwdGhlJTIwcmlzayUyMGZhY3RvcnMlMjBmb3IlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHVuZGVyJTIwNSUyMHllYXJzJTIwb2YlMjBhZ2UlMjB3aXRoJTIwQUxSSSUyQyUyMGFuZCUyMHRoZSUyMGFzc29jaWF0aW9uJTIwb2YlMjBoeXBveGFlbWlhJTIwd2l0aCUyMGFuJTIwaW5jcmVhc2VkJTIwcmlzayUyMG9mJTIwZHlpbmclMjBpbiUyMGNoaWxkcmVuJTIwb2YlMjB0aGUlMjBzYW1lJTIwYWdlJTIwLi4uJyU3RA==",highlighted:`{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'</span>}`,wrap:!1}}),Y=new qs({props:{title:"La magia de la proyección en memoria",local:"la-magia-de-la-proyección-en-memoria",headingTag:"h2"}}),F=new T({props:{code:"IXBpcCUyMGluc3RhbGwlMjBwc3V0aWw=",highlighted:"!pip install psutil",wrap:!1}}),S=new T({props:{code:"aW1wb3J0JTIwcHN1dGlsJTBBJTBBJTIzJTIwUHJvY2Vzcy5tZW1vcnlfaW5mbyUyMGVzdCVDMyVBMSUyMGV4cHJlc2FkbyUyMGVuJTIwYnl0ZXMlMkMlMjBhcyVDMyVBRCUyMHF1ZSUyMGxvJTIwY29udmVydGltb3MlMjBlbiUyMG1lZ2FieXRlcyUwQXByaW50KGYlMjJSQU0lMjB1c2VkJTNBJTIwJTdCcHN1dGlsLlByb2Nlc3MoKS5tZW1vcnlfaW5mbygpLnJzcyUyMCUyRiUyMCgxMDI0JTIwKiUyMDEwMjQpJTNBLjJmJTdEJTIwTUIlMjIp",highlighted:`<span class="hljs-keyword">import</span> psutil | |
| <span class="hljs-comment"># Process.memory_info está expresado en bytes, así que lo convertimos en megabytes</span> | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"RAM used: <span class="hljs-subst">{psutil.Process().memory_info().rss / (<span class="hljs-number">1024</span> * <span class="hljs-number">1024</span>):<span class="hljs-number">.2</span>f}</span> MB"</span>)`,wrap:!1}}),D=new T({props:{code:"UkFNJTIwdXNlZCUzQSUyMDU2NzguMzMlMjBNQg==",highlighted:'RAM used: <span class="hljs-number">5678.33</span> MB',wrap:!1}}),L=new T({props:{code:"cHJpbnQoZiUyMk51bWJlciUyMG9mJTIwZmlsZXMlMjBpbiUyMGRhdGFzZXQlMjAlM0ElMjAlN0JwdWJtZWRfZGF0YXNldC5kYXRhc2V0X3NpemUlN0QlMjIpJTBBc2l6ZV9nYiUyMCUzRCUyMHB1Ym1lZF9kYXRhc2V0LmRhdGFzZXRfc2l6ZSUyMCUyRiUyMCgxMDI0KiozKSUwQXByaW50KGYlMjJEYXRhc2V0JTIwc2l6ZSUyMChjYWNoZSUyMGZpbGUpJTIwJTNBJTIwJTdCc2l6ZV9nYiUzQS4yZiU3RCUyMEdCJTIyKQ==",highlighted:`<span class="hljs-built_in">print</span>(<span class="hljs-string">f"Number of files in dataset : <span class="hljs-subst">{pubmed_dataset.dataset_size}</span>"</span>) | |
| size_gb = pubmed_dataset.dataset_size / (<span class="hljs-number">1024</span>**<span class="hljs-number">3</span>) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"Dataset size (cache file) : <span class="hljs-subst">{size_gb:<span class="hljs-number">.2</span>f}</span> GB"</span>)`,wrap:!1}}),P=new T({props:{code:"TnVtYmVyJTIwb2YlMjBmaWxlcyUyMGluJTIwZGF0YXNldCUyMCUzQSUyMDIwOTc5NDM3MDUxJTBBRGF0YXNldCUyMHNpemUlMjAoY2FjaGUlMjBmaWxlKSUyMCUzQSUyMDE5LjU0JTIwR0I=",highlighted:`Number of files <span class="hljs-keyword">in</span> dataset : <span class="hljs-number">20979437051</span> | |
| Dataset size (cache file) : <span class="hljs-number">19.54</span> GB`,wrap:!1}}),w=new Re({props:{$$slots:{default:[Na]},$$scope:{ctx:b}}}),se=new T({props:{code:"aW1wb3J0JTIwdGltZWl0JTBBJTBBY29kZV9zbmlwcGV0JTIwJTNEJTIwJTIyJTIyJTIyYmF0Y2hfc2l6ZSUyMCUzRCUyMDEwMDAlMEElMEFmb3IlMjBpZHglMjBpbiUyMHJhbmdlKDAlMkMlMjBsZW4ocHVibWVkX2RhdGFzZXQpJTJDJTIwYmF0Y2hfc2l6ZSklM0ElMEElMjAlMjAlMjAlMjBfJTIwJTNEJTIwcHVibWVkX2RhdGFzZXQlNUJpZHglM0FpZHglMjAlMkIlMjBiYXRjaF9zaXplJTVEJTBBJTIyJTIyJTIyJTBBJTBBdGltZSUyMCUzRCUyMHRpbWVpdC50aW1laXQoc3RtdCUzRGNvZGVfc25pcHBldCUyQyUyMG51bWJlciUzRDElMkMlMjBnbG9iYWxzJTNEZ2xvYmFscygpKSUwQXByaW50KCUwQSUyMCUyMCUyMCUyMGYlMjJJdGVyYXRlZCUyMG92ZXIlMjAlN0JsZW4ocHVibWVkX2RhdGFzZXQpJTdEJTIwZXhhbXBsZXMlMjAoYWJvdXQlMjAlN0JzaXplX2diJTNBLjFmJTdEJTIwR0IpJTIwaW4lMjAlMjIlMEElMjAlMjAlMjAlMjBmJTIyJTdCdGltZSUzQS4xZiU3RHMlMkMlMjBpLmUuJTIwJTdCc2l6ZV9nYiUyRnRpbWUlM0EuM2YlN0QlMjBHQiUyRnMlMjIlMEEp",highlighted:`<span class="hljs-keyword">import</span> timeit | |
| code_snippet = <span class="hljs-string">"""batch_size = 1000 | |
| for idx in range(0, len(pubmed_dataset), batch_size): | |
| _ = pubmed_dataset[idx:idx + batch_size] | |
| """</span> | |
| time = timeit.timeit(stmt=code_snippet, number=<span class="hljs-number">1</span>, <span class="hljs-built_in">globals</span>=<span class="hljs-built_in">globals</span>()) | |
| <span class="hljs-built_in">print</span>( | |
| <span class="hljs-string">f"Iterated over <span class="hljs-subst">{<span class="hljs-built_in">len</span>(pubmed_dataset)}</span> examples (about <span class="hljs-subst">{size_gb:<span class="hljs-number">.1</span>f}</span> GB) in "</span> | |
| <span class="hljs-string">f"<span class="hljs-subst">{time:<span class="hljs-number">.1</span>f}</span>s, i.e. <span class="hljs-subst">{size_gb/time:<span class="hljs-number">.3</span>f}</span> GB/s"</span> | |
| )`,wrap:!1}}),ae=new T({props:{code:"J0l0ZXJhdGVkJTIwb3ZlciUyMDE1NTE4MDA5JTIwZXhhbXBsZXMlMjAoYWJvdXQlMjAxOS41JTIwR0IpJTIwaW4lMjA2NC4ycyUyQyUyMGkuZS4lMjAwLjMwNCUyMEdCJTJGcyc=",highlighted:'<span class="hljs-string">'Iterated over 15518009 examples (about 19.5 GB) in 64.2s, i.e. 0.304 GB/s'</span>',wrap:!1}}),U=new Re({props:{$$slots:{default:[_a]},$$scope:{ctx:b}}}),te=new qs({props:{title:"Haciendo streaming de datasets",local:"haciendo-streaming-de-datasets",headingTag:"h2"}}),ie=new T({props:{code:"cHVibWVkX2RhdGFzZXRfc3RyZWFtZWQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTBBJTIwJTIwJTIwJTIwJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwc3BsaXQlM0QlMjJ0cmFpbiUyMiUyQyUyMHN0cmVhbWluZyUzRFRydWUlMEEp",highlighted:`pubmed_dataset_streamed = load_dataset( | |
| <span class="hljs-string">"json"</span>, data_files=data_files, split=<span class="hljs-string">"train"</span>, streaming=<span class="hljs-literal">True</span> | |
| )`,wrap:!1}}),re=new T({props:{code:"bmV4dChpdGVyKHB1Ym1lZF9kYXRhc2V0X3N0cmVhbWVkKSk=",highlighted:'<span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(pubmed_dataset_streamed))',wrap:!1}}),oe=new T({props:{code:"JTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MDk1NzQlMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAndGV4dCclM0ElMjAnRXBpZGVtaW9sb2d5JTIwb2YlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHdpdGglMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb24uJTVDblRvJTIwZGV0ZXJtaW5lJTIwdGhlJTIwcHJldmFsZW5jZSUyMG9mJTIwaHlwb3hhZW1pYSUyMGluJTIwY2hpbGRyZW4lMjBhZ2VkJTIwdW5kZXIlMjA1JTIweWVhcnMlMjBzdWZmZXJpbmclMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb25zJTIwKEFMUkkpJTJDJTIwdGhlJTIwcmlzayUyMGZhY3RvcnMlMjBmb3IlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHVuZGVyJTIwNSUyMHllYXJzJTIwb2YlMjBhZ2UlMjB3aXRoJTIwQUxSSSUyQyUyMGFuZCUyMHRoZSUyMGFzc29jaWF0aW9uJTIwb2YlMjBoeXBveGFlbWlhJTIwd2l0aCUyMGFuJTIwaW5jcmVhc2VkJTIwcmlzayUyMG9mJTIwZHlpbmclMjBpbiUyMGNoaWxkcmVuJTIwb2YlMjB0aGUlMjBzYW1lJTIwYWdlJTIwLi4uJyU3RA==",highlighted:`{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'</span>}`,wrap:!1}}),ce=new T({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMEElMEF0b2tlbml6ZXIlMjAlM0QlMjBBdXRvVG9rZW5pemVyLmZyb21fcHJldHJhaW5lZCglMjJkaXN0aWxiZXJ0LWJhc2UtdW5jYXNlZCUyMiklMEF0b2tlbml6ZWRfZGF0YXNldCUyMCUzRCUyMHB1Ym1lZF9kYXRhc2V0X3N0cmVhbWVkLm1hcChsYW1iZGElMjB4JTNBJTIwdG9rZW5pemVyKHglNUIlMjJ0ZXh0JTIyJTVEKSklMEFuZXh0KGl0ZXIodG9rZW5pemVkX2RhdGFzZXQpKQ==",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">"distilbert-base-uncased"</span>) | |
| tokenized_dataset = pubmed_dataset_streamed.<span class="hljs-built_in">map</span>(<span class="hljs-keyword">lambda</span> x: tokenizer(x[<span class="hljs-string">"text"</span>])) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(tokenized_dataset))`,wrap:!1}}),me=new T({props:{code:"JTdCJ2lucHV0X2lkcyclM0ElMjAlNUIxMDElMkMlMjA0OTU4JTJDJTIwNTE3OCUyQyUyMDQzMjglMkMlMjA2Nzc5JTJDJTIwLi4uJTVEJTJDJTIwJ2F0dGVudGlvbl9tYXNrJyUzQSUyMCU1QjElMkMlMjAxJTJDJTIwMSUyQyUyMDElMkMlMjAxJTJDJTIwLi4uJTVEJTdE",highlighted:'{<span class="hljs-string">'input_ids'</span>: [<span class="hljs-number">101</span>, <span class="hljs-number">4958</span>, <span class="hljs-number">5178</span>, <span class="hljs-number">4328</span>, <span class="hljs-number">6779</span>, ...], <span class="hljs-string">'attention_mask'</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ...]}',wrap:!1}}),g=new Re({props:{$$slots:{default:[za]},$$scope:{ctx:b}}}),ue=new T({props:{code:"c2h1ZmZsZWRfZGF0YXNldCUyMCUzRCUyMHB1Ym1lZF9kYXRhc2V0X3N0cmVhbWVkLnNodWZmbGUoYnVmZmVyX3NpemUlM0QxMF8wMDAlMkMlMjBzZWVkJTNENDIpJTBBbmV4dChpdGVyKHNodWZmbGVkX2RhdGFzZXQpKQ==",highlighted:`shuffled_dataset = pubmed_dataset_streamed.shuffle(buffer_size=<span class="hljs-number">10_000</span>, seed=<span class="hljs-number">42</span>) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(shuffled_dataset))`,wrap:!1}}),Je=new T({props:{code:"JTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MTA3OTklMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAndGV4dCclM0ElMjAnUmFuZG9taXplZCUyMHN0dWR5JTIwb2YlMjBkb3NlJTIwb3IlMjBzY2hlZHVsZSUyMG1vZGlmaWNhdGlvbiUyMG9mJTIwZ3JhbnVsb2N5dGUlMjBjb2xvbnktc3RpbXVsYXRpbmclMjBmYWN0b3IlMjBpbiUyMHBsYXRpbnVtLWJhc2VkJTIwY2hlbW90aGVyYXB5JTIwZm9yJTIwZWxkZXJseSUyMHBhdGllbnRzJTIwd2l0aCUyMGx1bmclMjBjYW5jZXIlMjAuLi4nJTdE",highlighted:`{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11410799</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Randomized study of dose or schedule modification of granulocyte colony-stimulating factor in platinum-based chemotherapy for elderly patients with lung cancer ...'</span>}`,wrap:!1}}),Te=new T({props:{code:"ZGF0YXNldF9oZWFkJTIwJTNEJTIwcHVibWVkX2RhdGFzZXRfc3RyZWFtZWQudGFrZSg1KSUwQWxpc3QoZGF0YXNldF9oZWFkKQ==",highlighted:`dataset_head = pubmed_dataset_streamed.take(<span class="hljs-number">5</span>) | |
| <span class="hljs-built_in">list</span>(dataset_head)`,wrap:!1}}),je=new T({props:{code:"JTVCJTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MDk1NzQlMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAlMjAndGV4dCclM0ElMjAnRXBpZGVtaW9sb2d5JTIwb2YlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHdpdGglMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb24lMjAuLi4nJTdEJTJDJTBBJTIwJTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MDk1NzUlMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAlMjAndGV4dCclM0ElMjAnQ2xpbmljYWwlMjBzaWducyUyMG9mJTIwaHlwb3hhZW1pYSUyMGluJTIwY2hpbGRyZW4lMjB3aXRoJTIwYWN1dGUlMjBsb3dlciUyMHJlc3BpcmF0b3J5JTIwaW5mZWN0aW9uJTNBJTIwaW5kaWNhdG9ycyUyMG9mJTIwb3h5Z2VuJTIwdGhlcmFweSUyMC4uLiclN0QlMkMlMEElMjAlN0InbWV0YSclM0ElMjAlN0IncG1pZCclM0ElMjAxMTQwOTU3NiUyQyUyMCdsYW5ndWFnZSclM0ElMjAnZW5nJyU3RCUyQyUwQSUyMCUyMCd0ZXh0JyUzQSUyMCUyMkh5cG94YWVtaWElMjBpbiUyMGNoaWxkcmVuJTIwd2l0aCUyMHNldmVyZSUyMHBuZXVtb25pYSUyMGluJTIwUGFwdWElMjBOZXclMjBHdWluZWElMjAuLi4lMjIlN0QlMkMlMEElMjAlN0InbWV0YSclM0ElMjAlN0IncG1pZCclM0ElMjAxMTQwOTU3NyUyQyUyMCdsYW5ndWFnZSclM0ElMjAnZW5nJyU3RCUyQyUwQSUyMCUyMCd0ZXh0JyUzQSUyMCdPeHlnZW4lMjBjb25jZW50cmF0b3JzJTIwYW5kJTIwY3lsaW5kZXJzJTIwLi4uJyU3RCUyQyUwQSUyMCU3QidtZXRhJyUzQSUyMCU3QidwbWlkJyUzQSUyMDExNDA5NTc4JTJDJTIwJ2xhbmd1YWdlJyUzQSUyMCdlbmcnJTdEJTJDJTBBJTIwJTIwJ3RleHQnJTNBJTIwJ094eWdlbiUyMHN1cHBseSUyMGluJTIwcnVyYWwlMjBhZnJpY2ElM0ElMjBhJTIwcGVyc29uYWwlMjBleHBlcmllbmNlJTIwLi4uJyU3RCU1RA==",highlighted:`[{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409575</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Clinical signs of hypoxaemia in children with acute lower respiratory infection: indicators of oxygen therapy ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409576</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">"Hypoxaemia in children with severe pneumonia in Papua New Guinea ..."</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409577</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Oxygen concentrators and cylinders ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409578</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Oxygen supply in rural africa: a personal experience ...'</span>}]`,wrap:!1}}),be=new T({props:{code:"JTIzJTIwU2FsdGElMjBsYXMlMjBwcmltZXJhcyUyMDEwMDAlMjBtdWVzdHJhcyUyMGUlMjBpbmNsdXllJTIwZWwlMjByZXN0byUyMGVuJTIwZWwlMjBjb25qdW50byUyMGRlJTIwZW50cmVuYW1pZW50byUwQXRyYWluX2RhdGFzZXQlMjAlM0QlMjBzaHVmZmxlZF9kYXRhc2V0LnNraXAoMTAwMCklMEElMjMlMjBUb21hJTIwbGFzJTIwcHJpbWVyYXMlMjAxMDAwJTIwbXVlc3RyYXMlMjBwYXJhJTIwZWwlMjBjb25qdW50byUyMGRlJTIwdmFsaWRhY2klQzMlQjNuJTBBdmFsaWRhdGlvbl9kYXRhc2V0JTIwJTNEJTIwc2h1ZmZsZWRfZGF0YXNldC50YWtlKDEwMDAp",highlighted:`<span class="hljs-comment"># Salta las primeras 1000 muestras e incluye el resto en el conjunto de entrenamiento</span> | |
| train_dataset = shuffled_dataset.skip(<span class="hljs-number">1000</span>) | |
| <span class="hljs-comment"># Toma las primeras 1000 muestras para el conjunto de validación</span> | |
| validation_dataset = shuffled_dataset.take(<span class="hljs-number">1000</span>)`,wrap:!1}}),we=new T({props:{code:"bGF3X2RhdGFzZXRfc3RyZWFtZWQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTBBJTIwJTIwJTIwJTIwJTIyanNvbiUyMiUyQyUwQSUyMCUyMCUyMCUyMGRhdGFfZmlsZXMlM0QlMjJodHRwcyUzQSUyRiUyRm15c3RpYy50aGUtZXllLmV1JTJGcHVibGljJTJGQUklMkZwaWxlX3ByZWxpbWluYXJ5X2NvbXBvbmVudHMlMkZGcmVlTGF3X09waW5pb25zLmpzb25sLnpzdCUyMiUyQyUwQSUyMCUyMCUyMCUyMHNwbGl0JTNEJTIydHJhaW4lMjIlMkMlMEElMjAlMjAlMjAlMjBzdHJlYW1pbmclM0RUcnVlJTJDJTBBKSUwQW5leHQoaXRlcihsYXdfZGF0YXNldF9zdHJlYW1lZCkp",highlighted:`law_dataset_streamed = load_dataset( | |
| <span class="hljs-string">"json"</span>, | |
| data_files=<span class="hljs-string">"https://mystic.the-eye.eu/public/AI/pile_preliminary_components/FreeLaw_Opinions.jsonl.zst"</span>, | |
| split=<span class="hljs-string">"train"</span>, | |
| streaming=<span class="hljs-literal">True</span>, | |
| ) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(law_dataset_streamed))`,wrap:!1}}),Ue=new T({props:{code:"JTdCJ21ldGEnJTNBJTIwJTdCJ2Nhc2VfSUQnJTNBJTIwJzExMDkyMS5qc29uJyUyQyUwQSUyMCUyMCdjYXNlX2p1cmlzZGljdGlvbiclM0ElMjAnc2NvdHVzLnRhci5neiclMkMlMEElMjAlMjAnZGF0ZV9jcmVhdGVkJyUzQSUyMCcyMDEwLTA0LTI4VDE3JTNBMTIlM0E0OVonJTdEJTJDJTBBJTIwJ3RleHQnJTNBJTIwJyU1Q240NjElMjBVLlMuJTIwMjM4JTIwKDE5ODMpJTVDbk9MSU0lMjBFVCUyMEFMLiU1Q252LiU1Q25XQUtJTkVLT05BJTVDbk5vLiUyMDgxLTE1ODEuJTVDblN1cHJlbWUlMjBDb3VydCUyMG9mJTIwVW5pdGVkJTIwU3RhdGVzLiU1Q25Bcmd1ZWQlMjBKYW51YXJ5JTIwMTklMkMlMjAxOTgzLiU1Q25EZWNpZGVkJTIwQXByaWwlMjAyNiUyQyUyMDE5ODMuJTVDbkNFUlRJT1JBUkklMjBUTyUyMFRIRSUyMFVOSVRFRCUyMFNUQVRFUyUyMENPVVJUJTIwT0YlMjBBUFBFQUxTJTIwRk9SJTIwVEhFJTIwTklOVEglMjBDSVJDVUlUJTVDbioyMzklMjBNaWNoYWVsJTIwQS4lMjBMaWxseSUyQyUyMEZpcnN0JTIwRGVwdXR5JTIwQXR0b3JuZXklMjBHZW5lcmFsJTIwb2YlMjBIYXdhaWklMkMlMjBhcmd1ZWQlMjB0aGUlMjBjYXVzZSUyMGZvciUyMHBldGl0aW9uZXJzLiUyMFdpdGglMjBoaW0lMjBvbiUyMHRoZSUyMGJyaWVmJTIwd2FzJTIwSmFtZXMlMjBILiUyMERhbm5lbmJlcmclMkMlMjBEZXB1dHklMjBBdHRvcm5leSUyMEdlbmVyYWwuLi4nJTdE",highlighted:`{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'case_ID'</span>: <span class="hljs-string">'110921.json'</span>, | |
| <span class="hljs-string">'case_jurisdiction'</span>: <span class="hljs-string">'scotus.tar.gz'</span>, | |
| <span class="hljs-string">'date_created'</span>: <span class="hljs-string">'2010-04-28T17:12:49Z'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'\\n461 U.S. 238 (1983)\\nOLIM ET AL.\\nv.\\nWAKINEKONA\\nNo. 81-1581.\\nSupreme Court of United States.\\nArgued January 19, 1983.\\nDecided April 26, 1983.\\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'</span>}`,wrap:!1}}),Ie=new T({props:{code:"ZnJvbSUyMGl0ZXJ0b29scyUyMGltcG9ydCUyMGlzbGljZSUwQWZyb20lMjBkYXRhc2V0cyUyMGltcG9ydCUyMGludGVybGVhdmVfZGF0YXNldHMlMEElMEFjb21iaW5lZF9kYXRhc2V0JTIwJTNEJTIwaW50ZXJsZWF2ZV9kYXRhc2V0cyglNUJwdWJtZWRfZGF0YXNldF9zdHJlYW1lZCUyQyUyMGxhd19kYXRhc2V0X3N0cmVhbWVkJTVEKSUwQWxpc3QoaXNsaWNlKGNvbWJpbmVkX2RhdGFzZXQlMkMlMjAyKSk=",highlighted:`<span class="hljs-keyword">from</span> itertools <span class="hljs-keyword">import</span> islice | |
| <span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> interleave_datasets | |
| combined_dataset = interleave_datasets([pubmed_dataset_streamed, law_dataset_streamed]) | |
| <span class="hljs-built_in">list</span>(islice(combined_dataset, <span class="hljs-number">2</span>))`,wrap:!1}}),$e=new T({props:{code:"JTVCJTdCJ21ldGEnJTNBJTIwJTdCJ3BtaWQnJTNBJTIwMTE0MDk1NzQlMkMlMjAnbGFuZ3VhZ2UnJTNBJTIwJ2VuZyclN0QlMkMlMEElMjAlMjAndGV4dCclM0ElMjAnRXBpZGVtaW9sb2d5JTIwb2YlMjBoeXBveGFlbWlhJTIwaW4lMjBjaGlsZHJlbiUyMHdpdGglMjBhY3V0ZSUyMGxvd2VyJTIwcmVzcGlyYXRvcnklMjBpbmZlY3Rpb24lMjAuLi4nJTdEJTJDJTBBJTIwJTdCJ21ldGEnJTNBJTIwJTdCJ2Nhc2VfSUQnJTNBJTIwJzExMDkyMS5qc29uJyUyQyUwQSUyMCUyMCUyMCdjYXNlX2p1cmlzZGljdGlvbiclM0ElMjAnc2NvdHVzLnRhci5neiclMkMlMEElMjAlMjAlMjAnZGF0ZV9jcmVhdGVkJyUzQSUyMCcyMDEwLTA0LTI4VDE3JTNBMTIlM0E0OVonJTdEJTJDJTBBJTIwJTIwJ3RleHQnJTNBJTIwJyU1Q240NjElMjBVLlMuJTIwMjM4JTIwKDE5ODMpJTVDbk9MSU0lMjBFVCUyMEFMLiU1Q252LiU1Q25XQUtJTkVLT05BJTVDbk5vLiUyMDgxLTE1ODEuJTVDblN1cHJlbWUlMjBDb3VydCUyMG9mJTIwVW5pdGVkJTIwU3RhdGVzLiU1Q25Bcmd1ZWQlMjBKYW51YXJ5JTIwMTklMkMlMjAxOTgzLiU1Q25EZWNpZGVkJTIwQXByaWwlMjAyNiUyQyUyMDE5ODMuJTVDbkNFUlRJT1JBUkklMjBUTyUyMFRIRSUyMFVOSVRFRCUyMFNUQVRFUyUyMENPVVJUJTIwT0YlMjBBUFBFQUxTJTIwRk9SJTIwVEhFJTIwTklOVEglMjBDSVJDVUlUJTVDbioyMzklMjBNaWNoYWVsJTIwQS4lMjBMaWxseSUyQyUyMEZpcnN0JTIwRGVwdXR5JTIwQXR0b3JuZXklMjBHZW5lcmFsJTIwb2YlMjBIYXdhaWklMkMlMjBhcmd1ZWQlMjB0aGUlMjBjYXVzZSUyMGZvciUyMHBldGl0aW9uZXJzLiUyMFdpdGglMjBoaW0lMjBvbiUyMHRoZSUyMGJyaWVmJTIwd2FzJTIwSmFtZXMlMjBILiUyMERhbm5lbmJlcmclMkMlMjBEZXB1dHklMjBBdHRvcm5leSUyMEdlbmVyYWwuLi4nJTdEJTVE",highlighted:`[{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'case_ID'</span>: <span class="hljs-string">'110921.json'</span>, | |
| <span class="hljs-string">'case_jurisdiction'</span>: <span class="hljs-string">'scotus.tar.gz'</span>, | |
| <span class="hljs-string">'date_created'</span>: <span class="hljs-string">'2010-04-28T17:12:49Z'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'\\n461 U.S. 238 (1983)\\nOLIM ET AL.\\nv.\\nWAKINEKONA\\nNo. 81-1581.\\nSupreme Court of United States.\\nArgued January 19, 1983.\\nDecided April 26, 1983.\\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'</span>}]`,wrap:!1}}),Ge=new T({props:{code:"YmFzZV91cmwlMjAlM0QlMjAlMjJodHRwcyUzQSUyRiUyRm15c3RpYy50aGUtZXllLmV1JTJGcHVibGljJTJGQUklMkZwaWxlJTJGJTIyJTBBZGF0YV9maWxlcyUyMCUzRCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMnRyYWluJTIyJTNBJTIwJTVCYmFzZV91cmwlMjAlMkIlMjAlMjJ0cmFpbiUyRiUyMiUyMCUyQiUyMGYlMjIlN0JpZHglM0EwMmQlN0QuanNvbmwuenN0JTIyJTIwZm9yJTIwaWR4JTIwaW4lMjByYW5nZSgzMCklNUQlMkMlMEElMjAlMjAlMjAlMjAlMjJ2YWxpZGF0aW9uJTIyJTNBJTIwYmFzZV91cmwlMjAlMkIlMjAlMjJ2YWwuanNvbmwuenN0JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIydGVzdCUyMiUzQSUyMGJhc2VfdXJsJTIwJTJCJTIwJTIydGVzdC5qc29ubC56c3QlMjIlMkMlMEElN0QlMEFwaWxlX2RhdGFzZXQlMjAlM0QlMjBsb2FkX2RhdGFzZXQoJTIyanNvbiUyMiUyQyUyMGRhdGFfZmlsZXMlM0RkYXRhX2ZpbGVzJTJDJTIwc3RyZWFtaW5nJTNEVHJ1ZSklMEFuZXh0KGl0ZXIocGlsZV9kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQpKQ==",highlighted:`base_url = <span class="hljs-string">"https://mystic.the-eye.eu/public/AI/pile/"</span> | |
| data_files = { | |
| <span class="hljs-string">"train"</span>: [base_url + <span class="hljs-string">"train/"</span> + <span class="hljs-string">f"<span class="hljs-subst">{idx:02d}</span>.jsonl.zst"</span> <span class="hljs-keyword">for</span> idx <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">30</span>)], | |
| <span class="hljs-string">"validation"</span>: base_url + <span class="hljs-string">"val.jsonl.zst"</span>, | |
| <span class="hljs-string">"test"</span>: base_url + <span class="hljs-string">"test.jsonl.zst"</span>, | |
| } | |
| pile_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, streaming=<span class="hljs-literal">True</span>) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(pile_dataset[<span class="hljs-string">"train"</span>]))`,wrap:!1}}),Ze=new T({props:{code:"JTdCJ21ldGEnJTNBJTIwJTdCJ3BpbGVfc2V0X25hbWUnJTNBJTIwJ1BpbGUtQ0MnJTdEJTJDJTBBJTIwJ3RleHQnJTNBJTIwJ0l0JTIwaXMlMjBkb25lJTJDJTIwYW5kJTIwc3VibWl0dGVkLiUyMFlvdSUyMGNhbiUyMHBsYXklMjAlRTIlODAlOUNTdXJ2aXZhbCUyMG9mJTIwdGhlJTIwVGFzdGllc3QlRTIlODAlOUQlMjBvbiUyMEFuZHJvaWQlMkMlMjBhbmQlMjBvbiUyMHRoZSUyMHdlYi4uLiclN0Q=",highlighted:`{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pile_set_name'</span>: <span class="hljs-string">'Pile-CC'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'It is done, and submitted. You can play “Survival of the Tastiest” on Android, and on the web...'</span>}`,wrap:!1}}),I=new Re({props:{$$slots:{default:[Qa]},$$scope:{ctx:b}}}),We=new Xa({props:{source:"https://github.com/huggingface/course/blob/main/chapters/es/chapter5/4.mdx"}}),{c(){i=u("meta"),j=t(),M=u("p"),h=t(),p($.$$.fragment),Ee=t(),p(B.$$.fragment),Xe=t(),x=u("p"),x.innerHTML=Ls,ve=t(),G=u("p"),G.innerHTML=Ps,Ne=t(),p(Z.$$.fragment),_e=t(),V=u("p"),V.innerHTML=Os,ze=t(),p(W.$$.fragment),Qe=t(),k=u("p"),k.innerHTML=Ks,Ye=t(),p(R.$$.fragment),He=t(),C=u("p"),C.innerHTML=ea,Fe=t(),p(E.$$.fragment),Ae=t(),p(X.$$.fragment),Se=t(),v=u("p"),v.textContent=sa,De=t(),p(f.$$.fragment),qe=t(),N=u("p"),N.textContent=aa,Le=t(),p(_.$$.fragment),Pe=t(),p(z.$$.fragment),Oe=t(),Q=u("p"),Q.textContent=la,Ke=t(),p(Y.$$.fragment),es=t(),H=u("p"),H.innerHTML=ta,ss=t(),p(F.$$.fragment),as=t(),A=u("p"),A.innerHTML=na,ls=t(),p(S.$$.fragment),ts=t(),p(D.$$.fragment),ns=t(),q=u("p"),q.innerHTML=ia,is=t(),p(L.$$.fragment),ps=t(),p(P.$$.fragment),rs=t(),O=u("p"),O.textContent=pa,os=t(),p(w.$$.fragment),ds=t(),K=u("p"),K.innerHTML=ra,cs=t(),ee=u("p"),ee.innerHTML=oa,ms=t(),p(se.$$.fragment),Ms=t(),p(ae.$$.fragment),us=t(),le=u("p"),le.innerHTML=da,Js=t(),p(U.$$.fragment),ys=t(),p(te.$$.fragment),Ts=t(),ne=u("p"),ne.innerHTML=ca,js=t(),p(ie.$$.fragment),hs=t(),pe=u("p"),pe.innerHTML=ma,bs=t(),p(re.$$.fragment),fs=t(),p(oe.$$.fragment),ws=t(),de=u("p"),de.innerHTML=Ma,Us=t(),p(ce.$$.fragment),gs=t(),p(me.$$.fragment),Is=t(),p(g.$$.fragment),$s=t(),Me=u("p"),Me.innerHTML=ua,Bs=t(),p(ue.$$.fragment),xs=t(),p(Je.$$.fragment),Gs=t(),ye=u("p"),ye.innerHTML=Ja,Zs=t(),p(Te.$$.fragment),Vs=t(),p(je.$$.fragment),Ws=t(),he=u("p"),he.innerHTML=ya,ks=t(),p(be.$$.fragment),Rs=t(),fe=u("p"),fe.innerHTML=Ta,Cs=t(),p(we.$$.fragment),Es=t(),p(Ue.$$.fragment),Xs=t(),ge=u("p"),ge.innerHTML=ja,vs=t(),p(Ie.$$.fragment),Ns=t(),p($e.$$.fragment),_s=t(),Be=u("p"),Be.innerHTML=ha,zs=t(),xe=u("p"),xe.innerHTML=ba,Qs=t(),p(Ge.$$.fragment),Ys=t(),p(Ze.$$.fragment),Hs=t(),p(I.$$.fragment),Fs=t(),Ve=u("p"),Ve.textContent=fa,As=t(),p(We.$$.fragment),Ss=t(),ke=u("p"),this.h()},l(e){const s=ka("svelte-u9bgzb",document.head);i=J(s,"META",{name:!0,content:!0}),s.forEach(a),j=n(e),M=J(e,"P",{}),Ba(M).forEach(a),h=n(e),r($.$$.fragment,e),Ee=n(e),r(B.$$.fragment,e),Xe=n(e),x=J(e,"P",{"data-svelte-h":!0}),y(x)!=="svelte-1f54zhv"&&(x.innerHTML=Ls),ve=n(e),G=J(e,"P",{"data-svelte-h":!0}),y(G)!=="svelte-d2mhm9"&&(G.innerHTML=Ps),Ne=n(e),r(Z.$$.fragment,e),_e=n(e),V=J(e,"P",{"data-svelte-h":!0}),y(V)!=="svelte-i1zyge"&&(V.innerHTML=Os),ze=n(e),r(W.$$.fragment,e),Qe=n(e),k=J(e,"P",{"data-svelte-h":!0}),y(k)!=="svelte-11cis2"&&(k.innerHTML=Ks),Ye=n(e),r(R.$$.fragment,e),He=n(e),C=J(e,"P",{"data-svelte-h":!0}),y(C)!=="svelte-1dwk9ms"&&(C.innerHTML=ea),Fe=n(e),r(E.$$.fragment,e),Ae=n(e),r(X.$$.fragment,e),Se=n(e),v=J(e,"P",{"data-svelte-h":!0}),y(v)!=="svelte-jezns1"&&(v.textContent=sa),De=n(e),r(f.$$.fragment,e),qe=n(e),N=J(e,"P",{"data-svelte-h":!0}),y(N)!=="svelte-1yptpo5"&&(N.textContent=aa),Le=n(e),r(_.$$.fragment,e),Pe=n(e),r(z.$$.fragment,e),Oe=n(e),Q=J(e,"P",{"data-svelte-h":!0}),y(Q)!=="svelte-19647cu"&&(Q.textContent=la),Ke=n(e),r(Y.$$.fragment,e),es=n(e),H=J(e,"P",{"data-svelte-h":!0}),y(H)!=="svelte-1hggqvf"&&(H.innerHTML=ta),ss=n(e),r(F.$$.fragment,e),as=n(e),A=J(e,"P",{"data-svelte-h":!0}),y(A)!=="svelte-q3e312"&&(A.innerHTML=na),ls=n(e),r(S.$$.fragment,e),ts=n(e),r(D.$$.fragment,e),ns=n(e),q=J(e,"P",{"data-svelte-h":!0}),y(q)!=="svelte-1yzomxf"&&(q.innerHTML=ia),is=n(e),r(L.$$.fragment,e),ps=n(e),r(P.$$.fragment,e),rs=n(e),O=J(e,"P",{"data-svelte-h":!0}),y(O)!=="svelte-gbjr33"&&(O.textContent=pa),os=n(e),r(w.$$.fragment,e),ds=n(e),K=J(e,"P",{"data-svelte-h":!0}),y(K)!=="svelte-1caqt7j"&&(K.innerHTML=ra),cs=n(e),ee=J(e,"P",{"data-svelte-h":!0}),y(ee)!=="svelte-lono31"&&(ee.innerHTML=oa),ms=n(e),r(se.$$.fragment,e),Ms=n(e),r(ae.$$.fragment,e),us=n(e),le=J(e,"P",{"data-svelte-h":!0}),y(le)!=="svelte-1bm8p1s"&&(le.innerHTML=da),Js=n(e),r(U.$$.fragment,e),ys=n(e),r(te.$$.fragment,e),Ts=n(e),ne=J(e,"P",{"data-svelte-h":!0}),y(ne)!=="svelte-1q944vj"&&(ne.innerHTML=ca),js=n(e),r(ie.$$.fragment,e),hs=n(e),pe=J(e,"P",{"data-svelte-h":!0}),y(pe)!=="svelte-1g710sv"&&(pe.innerHTML=ma),bs=n(e),r(re.$$.fragment,e),fs=n(e),r(oe.$$.fragment,e),ws=n(e),de=J(e,"P",{"data-svelte-h":!0}),y(de)!=="svelte-13wilwe"&&(de.innerHTML=Ma),Us=n(e),r(ce.$$.fragment,e),gs=n(e),r(me.$$.fragment,e),Is=n(e),r(g.$$.fragment,e),$s=n(e),Me=J(e,"P",{"data-svelte-h":!0}),y(Me)!=="svelte-1xcnytx"&&(Me.innerHTML=ua),Bs=n(e),r(ue.$$.fragment,e),xs=n(e),r(Je.$$.fragment,e),Gs=n(e),ye=J(e,"P",{"data-svelte-h":!0}),y(ye)!=="svelte-11axkfp"&&(ye.innerHTML=Ja),Zs=n(e),r(Te.$$.fragment,e),Vs=n(e),r(je.$$.fragment,e),Ws=n(e),he=J(e,"P",{"data-svelte-h":!0}),y(he)!=="svelte-8b249"&&(he.innerHTML=ya),ks=n(e),r(be.$$.fragment,e),Rs=n(e),fe=J(e,"P",{"data-svelte-h":!0}),y(fe)!=="svelte-air9qn"&&(fe.innerHTML=Ta),Cs=n(e),r(we.$$.fragment,e),Es=n(e),r(Ue.$$.fragment,e),Xs=n(e),ge=J(e,"P",{"data-svelte-h":!0}),y(ge)!=="svelte-1pb4ctq"&&(ge.innerHTML=ja),vs=n(e),r(Ie.$$.fragment,e),Ns=n(e),r($e.$$.fragment,e),_s=n(e),Be=J(e,"P",{"data-svelte-h":!0}),y(Be)!=="svelte-v77nbg"&&(Be.innerHTML=ha),zs=n(e),xe=J(e,"P",{"data-svelte-h":!0}),y(xe)!=="svelte-1yvx41e"&&(xe.innerHTML=ba),Qs=n(e),r(Ge.$$.fragment,e),Ys=n(e),r(Ze.$$.fragment,e),Hs=n(e),r(I.$$.fragment,e),Fs=n(e),Ve=J(e,"P",{"data-svelte-h":!0}),y(Ve)!=="svelte-clgpvd"&&(Ve.textContent=fa),As=n(e),r(We.$$.fragment,e),Ss=n(e),ke=J(e,"P",{}),Ba(ke).forEach(a),this.h()},h(){xa(i,"name","hf:doc:metadata"),xa(i,"content",Ha)},m(e,s){Ra(document.head,i),l(e,j,s),l(e,M,s),l(e,h,s),o($,e,s),l(e,Ee,s),o(B,e,s),l(e,Xe,s),l(e,x,s),l(e,ve,s),l(e,G,s),l(e,Ne,s),o(Z,e,s),l(e,_e,s),l(e,V,s),l(e,ze,s),o(W,e,s),l(e,Qe,s),l(e,k,s),l(e,Ye,s),o(R,e,s),l(e,He,s),l(e,C,s),l(e,Fe,s),o(E,e,s),l(e,Ae,s),o(X,e,s),l(e,Se,s),l(e,v,s),l(e,De,s),o(f,e,s),l(e,qe,s),l(e,N,s),l(e,Le,s),o(_,e,s),l(e,Pe,s),o(z,e,s),l(e,Oe,s),l(e,Q,s),l(e,Ke,s),o(Y,e,s),l(e,es,s),l(e,H,s),l(e,ss,s),o(F,e,s),l(e,as,s),l(e,A,s),l(e,ls,s),o(S,e,s),l(e,ts,s),o(D,e,s),l(e,ns,s),l(e,q,s),l(e,is,s),o(L,e,s),l(e,ps,s),o(P,e,s),l(e,rs,s),l(e,O,s),l(e,os,s),o(w,e,s),l(e,ds,s),l(e,K,s),l(e,cs,s),l(e,ee,s),l(e,ms,s),o(se,e,s),l(e,Ms,s),o(ae,e,s),l(e,us,s),l(e,le,s),l(e,Js,s),o(U,e,s),l(e,ys,s),o(te,e,s),l(e,Ts,s),l(e,ne,s),l(e,js,s),o(ie,e,s),l(e,hs,s),l(e,pe,s),l(e,bs,s),o(re,e,s),l(e,fs,s),o(oe,e,s),l(e,ws,s),l(e,de,s),l(e,Us,s),o(ce,e,s),l(e,gs,s),o(me,e,s),l(e,Is,s),o(g,e,s),l(e,$s,s),l(e,Me,s),l(e,Bs,s),o(ue,e,s),l(e,xs,s),o(Je,e,s),l(e,Gs,s),l(e,ye,s),l(e,Zs,s),o(Te,e,s),l(e,Vs,s),o(je,e,s),l(e,Ws,s),l(e,he,s),l(e,ks,s),o(be,e,s),l(e,Rs,s),l(e,fe,s),l(e,Cs,s),o(we,e,s),l(e,Es,s),o(Ue,e,s),l(e,Xs,s),l(e,ge,s),l(e,vs,s),o(Ie,e,s),l(e,Ns,s),o($e,e,s),l(e,_s,s),l(e,Be,s),l(e,zs,s),l(e,xe,s),l(e,Qs,s),o(Ge,e,s),l(e,Ys,s),o(Ze,e,s),l(e,Hs,s),o(I,e,s),l(e,Fs,s),l(e,Ve,s),l(e,As,s),o(We,e,s),l(e,Ss,s),l(e,ke,s),Ds=!0},p(e,[s]){const wa={};s&2&&(wa.$$scope={dirty:s,ctx:e}),f.$set(wa);const Ua={};s&2&&(Ua.$$scope={dirty:s,ctx:e}),w.$set(Ua);const ga={};s&2&&(ga.$$scope={dirty:s,ctx:e}),U.$set(ga);const Ia={};s&2&&(Ia.$$scope={dirty:s,ctx:e}),g.$set(Ia);const $a={};s&2&&($a.$$scope={dirty:s,ctx:e}),I.$set($a)},i(e){Ds||(d($.$$.fragment,e),d(B.$$.fragment,e),d(Z.$$.fragment,e),d(W.$$.fragment,e),d(R.$$.fragment,e),d(E.$$.fragment,e),d(X.$$.fragment,e),d(f.$$.fragment,e),d(_.$$.fragment,e),d(z.$$.fragment,e),d(Y.$$.fragment,e),d(F.$$.fragment,e),d(S.$$.fragment,e),d(D.$$.fragment,e),d(L.$$.fragment,e),d(P.$$.fragment,e),d(w.$$.fragment,e),d(se.$$.fragment,e),d(ae.$$.fragment,e),d(U.$$.fragment,e),d(te.$$.fragment,e),d(ie.$$.fragment,e),d(re.$$.fragment,e),d(oe.$$.fragment,e),d(ce.$$.fragment,e),d(me.$$.fragment,e),d(g.$$.fragment,e),d(ue.$$.fragment,e),d(Je.$$.fragment,e),d(Te.$$.fragment,e),d(je.$$.fragment,e),d(be.$$.fragment,e),d(we.$$.fragment,e),d(Ue.$$.fragment,e),d(Ie.$$.fragment,e),d($e.$$.fragment,e),d(Ge.$$.fragment,e),d(Ze.$$.fragment,e),d(I.$$.fragment,e),d(We.$$.fragment,e),Ds=!0)},o(e){c($.$$.fragment,e),c(B.$$.fragment,e),c(Z.$$.fragment,e),c(W.$$.fragment,e),c(R.$$.fragment,e),c(E.$$.fragment,e),c(X.$$.fragment,e),c(f.$$.fragment,e),c(_.$$.fragment,e),c(z.$$.fragment,e),c(Y.$$.fragment,e),c(F.$$.fragment,e),c(S.$$.fragment,e),c(D.$$.fragment,e),c(L.$$.fragment,e),c(P.$$.fragment,e),c(w.$$.fragment,e),c(se.$$.fragment,e),c(ae.$$.fragment,e),c(U.$$.fragment,e),c(te.$$.fragment,e),c(ie.$$.fragment,e),c(re.$$.fragment,e),c(oe.$$.fragment,e),c(ce.$$.fragment,e),c(me.$$.fragment,e),c(g.$$.fragment,e),c(ue.$$.fragment,e),c(Je.$$.fragment,e),c(Te.$$.fragment,e),c(je.$$.fragment,e),c(be.$$.fragment,e),c(we.$$.fragment,e),c(Ue.$$.fragment,e),c(Ie.$$.fragment,e),c($e.$$.fragment,e),c(Ge.$$.fragment,e),c(Ze.$$.fragment,e),c(I.$$.fragment,e),c(We.$$.fragment,e),Ds=!1},d(e){e&&(a(j),a(M),a(h),a(Ee),a(Xe),a(x),a(ve),a(G),a(Ne),a(_e),a(V),a(ze),a(Qe),a(k),a(Ye),a(He),a(C),a(Fe),a(Ae),a(Se),a(v),a(De),a(qe),a(N),a(Le),a(Pe),a(Oe),a(Q),a(Ke),a(es),a(H),a(ss),a(as),a(A),a(ls),a(ts),a(ns),a(q),a(is),a(ps),a(rs),a(O),a(os),a(ds),a(K),a(cs),a(ee),a(ms),a(Ms),a(us),a(le),a(Js),a(ys),a(Ts),a(ne),a(js),a(hs),a(pe),a(bs),a(fs),a(ws),a(de),a(Us),a(gs),a(Is),a($s),a(Me),a(Bs),a(xs),a(Gs),a(ye),a(Zs),a(Vs),a(Ws),a(he),a(ks),a(Rs),a(fe),a(Cs),a(Es),a(Xs),a(ge),a(vs),a(Ns),a(_s),a(Be),a(zs),a(xe),a(Qs),a(Ys),a(Hs),a(Fs),a(Ve),a(As),a(Ss),a(ke)),a(i),m($,e),m(B,e),m(Z,e),m(W,e),m(R,e),m(E,e),m(X,e),m(f,e),m(_,e),m(z,e),m(Y,e),m(F,e),m(S,e),m(D,e),m(L,e),m(P,e),m(w,e),m(se,e),m(ae,e),m(U,e),m(te,e),m(ie,e),m(re,e),m(oe,e),m(ce,e),m(me,e),m(g,e),m(ue,e),m(Je,e),m(Te,e),m(je,e),m(be,e),m(we,e),m(Ue,e),m(Ie,e),m($e,e),m(Ge,e),m(Ze,e),m(I,e),m(We,e)}}}const Ha='{"title":"¿Big data? 🤗 ¡Datasets al rescate!","local":"big-data--datasets-al-rescate","sections":[{"title":"¿Qué es el Pile?","local":"qué-es-el-pile","sections":[],"depth":2},{"title":"La magia de la proyección en memoria","local":"la-magia-de-la-proyección-en-memoria","sections":[],"depth":2},{"title":"Haciendo streaming de datasets","local":"haciendo-streaming-de-datasets","sections":[],"depth":2}],"depth":1}';function Fa(b){return Za(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class el extends Va{constructor(i){super(),Wa(this,i,Fa,Ya,Ga,{})}}export{el as component}; | |
Xet Storage Details
- Size:
- 51.6 kB
- Xet hash:
- 1094ff6cc12f05176661744ca7e699c760e5902cf2528634c840237c6ffe5eba
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.