Buckets:

rtrm's picture
download
raw
8.97 kB
import{s as ce,n as ue,o as fe}from"../chunks/scheduler.36a0863c.js";import{S as ge,i as ke,g as o,s as n,r as p,A as Me,h as r,f as s,c as l,j as me,u as m,x as d,k as de,y as je,a,v as c,d as u,t as f,w as g}from"../chunks/index.f891bdb2.js";import{C as D}from"../chunks/CodeBlock.3ec784ea.js";import{H as ee,E as ze}from"../chunks/EditOnGithub.a58e27a9.js";function he(te){let i,F,C,I,k,N,M,se=`<code>PreTrainedTokenizerFast</code> depende de la biblioteca <a href="https://huggingface.co/docs/tokenizers" rel="nofollow">馃 Tokenizers</a>. Los tokenizadores obtenidos desde la biblioteca 馃 Tokenizers pueden ser
cargados de forma muy sencilla en los 馃 Transformers.`,P,j,ae="Antes de entrar en detalles, comencemos creando un tokenizador dummy en unas cuantas l铆neas:",E,z,Q,h,ne=`Ahora tenemos un tokenizador entrenado en los archivos que definimos. Lo podemos seguir utilizando en ese entorno de ejecuci贸n (runtime en ingl茅s), o puedes guardarlo
en un archivo JSON para reutilizarlo en un futuro.`,W,y,G,b,le=`Veamos c贸mo utilizar este objeto tokenizador en la biblioteca 馃 Transformers. La clase
<code>PreTrainedTokenizerFast</code> permite una instanciaci贸n f谩cil, al aceptar el objeto
<em>tokenizer</em> instanciado como argumento:`,X,$,R,T,oe='Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la <a href="main_classes/tokenizer">p谩gina sobre tokenizadores</a> para m谩s informaci贸n.',q,U,L,w,re="Para cargar un tokenizador desde un archivo JSON, comencemos por guardar nuestro tokenizador:",x,Z,H,V,ie=`La localizaci贸n (path en ingl茅s) donde este archivo es guardado puede ser incluida en el m茅todo de inicializaci贸n de <code>PreTrainedTokenizerFast</code>
utilizando el par谩metro <code>tokenizer_file</code>:`,S,J,A,v,pe='Este objeto ya puede ser utilizado con todos los m茅todos compartidos por los tokenizadores de 馃 Transformers! Visita la <a href="main_classes/tokenizer">p谩gina sobre tokenizadores</a> para m谩s informaci贸n.',Y,_,K,B,O;return k=new ee({props:{title:"Usa los tokenizadores de 馃 Tokenizers",local:"usa-los-tokenizadores-de--tokenizers",headingTag:"h1"}}),z=new D({props:{code:"ZnJvbSUyMHRva2VuaXplcnMlMjBpbXBvcnQlMjBUb2tlbml6ZXIlMEFmcm9tJTIwdG9rZW5pemVycy5tb2RlbHMlMjBpbXBvcnQlMjBCUEUlMEFmcm9tJTIwdG9rZW5pemVycy50cmFpbmVycyUyMGltcG9ydCUyMEJwZVRyYWluZXIlMEFmcm9tJTIwdG9rZW5pemVycy5wcmVfdG9rZW5pemVycyUyMGltcG9ydCUyMFdoaXRlc3BhY2UlMEElMEF0b2tlbml6ZXIlMjAlM0QlMjBUb2tlbml6ZXIoQlBFKHVua190b2tlbiUzRCUyMiU1QlVOSyU1RCUyMikpJTBBdHJhaW5lciUyMCUzRCUyMEJwZVRyYWluZXIoc3BlY2lhbF90b2tlbnMlM0QlNUIlMjIlNUJVTkslNUQlMjIlMkMlMjAlMjIlNUJDTFMlNUQlMjIlMkMlMjAlMjIlNUJTRVAlNUQlMjIlMkMlMjAlMjIlNUJQQUQlNUQlMjIlMkMlMjAlMjIlNUJNQVNLJTVEJTIyJTVEKSUwQSUwQXRva2VuaXplci5wcmVfdG9rZW5pemVyJTIwJTNEJTIwV2hpdGVzcGFjZSgpJTBBZmlsZXMlMjAlM0QlMjAlNUIuLi4lNUQlMEF0b2tlbml6ZXIudHJhaW4oZmlsZXMlMkMlMjB0cmFpbmVyKQ==",highlighted:`<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> tokenizers <span class="hljs-keyword">import</span> Tokenizer
<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> tokenizers.models <span class="hljs-keyword">import</span> BPE
<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> tokenizers.trainers <span class="hljs-keyword">import</span> BpeTrainer
<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> tokenizers.pre_tokenizers <span class="hljs-keyword">import</span> Whitespace
<span class="hljs-meta">&gt;&gt;&gt; </span>tokenizer = Tokenizer(BPE(unk_token=<span class="hljs-string">&quot;[UNK]&quot;</span>))
<span class="hljs-meta">&gt;&gt;&gt; </span>trainer = BpeTrainer(special_tokens=[<span class="hljs-string">&quot;[UNK]&quot;</span>, <span class="hljs-string">&quot;[CLS]&quot;</span>, <span class="hljs-string">&quot;[SEP]&quot;</span>, <span class="hljs-string">&quot;[PAD]&quot;</span>, <span class="hljs-string">&quot;[MASK]&quot;</span>])
<span class="hljs-meta">&gt;&gt;&gt; </span>tokenizer.pre_tokenizer = Whitespace()
<span class="hljs-meta">&gt;&gt;&gt; </span>files = [...]
<span class="hljs-meta">&gt;&gt;&gt; </span>tokenizer.train(files, trainer)`,wrap:!1}}),y=new ee({props:{title:"Cargando directamente desde el objeto tokenizador",local:"cargando-directamente-desde-el-objeto-tokenizador",headingTag:"h2"}}),$=new D({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMFByZVRyYWluZWRUb2tlbml6ZXJGYXN0JTBBJTBBZmFzdF90b2tlbml6ZXIlMjAlM0QlMjBQcmVUcmFpbmVkVG9rZW5pemVyRmFzdCh0b2tlbml6ZXJfb2JqZWN0JTNEdG9rZW5pemVyKQ==",highlighted:`<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> PreTrainedTokenizerFast
<span class="hljs-meta">&gt;&gt;&gt; </span>fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)`,wrap:!1}}),U=new ee({props:{title:"Cargando desde un archivo JSON",local:"cargando-desde-un-archivo-json",headingTag:"h2"}}),Z=new D({props:{code:"dG9rZW5pemVyLnNhdmUoJTIydG9rZW5pemVyLmpzb24lMjIp",highlighted:'<span class="hljs-meta">&gt;&gt;&gt; </span>tokenizer.save(<span class="hljs-string">&quot;tokenizer.json&quot;</span>)',wrap:!1}}),J=new D({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMFByZVRyYWluZWRUb2tlbml6ZXJGYXN0JTBBJTBBZmFzdF90b2tlbml6ZXIlMjAlM0QlMjBQcmVUcmFpbmVkVG9rZW5pemVyRmFzdCh0b2tlbml6ZXJfZmlsZSUzRCUyMnRva2VuaXplci5qc29uJTIyKQ==",highlighted:`<span class="hljs-meta">&gt;&gt;&gt; </span><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> PreTrainedTokenizerFast
<span class="hljs-meta">&gt;&gt;&gt; </span>fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file=<span class="hljs-string">&quot;tokenizer.json&quot;</span>)`,wrap:!1}}),_=new ze({props:{source:"https://github.com/huggingface/transformers/blob/main/docs/source/es/fast_tokenizers.md"}}),{c(){i=o("meta"),F=n(),C=o("p"),I=n(),p(k.$$.fragment),N=n(),M=o("p"),M.innerHTML=se,P=n(),j=o("p"),j.textContent=ae,E=n(),p(z.$$.fragment),Q=n(),h=o("p"),h.textContent=ne,W=n(),p(y.$$.fragment),G=n(),b=o("p"),b.innerHTML=le,X=n(),p($.$$.fragment),R=n(),T=o("p"),T.innerHTML=oe,q=n(),p(U.$$.fragment),L=n(),w=o("p"),w.textContent=re,x=n(),p(Z.$$.fragment),H=n(),V=o("p"),V.innerHTML=ie,S=n(),p(J.$$.fragment),A=n(),v=o("p"),v.innerHTML=pe,Y=n(),p(_.$$.fragment),K=n(),B=o("p"),this.h()},l(e){const t=Me("svelte-u9bgzb",document.head);i=r(t,"META",{name:!0,content:!0}),t.forEach(s),F=l(e),C=r(e,"P",{}),me(C).forEach(s),I=l(e),m(k.$$.fragment,e),N=l(e),M=r(e,"P",{"data-svelte-h":!0}),d(M)!=="svelte-1jbck1w"&&(M.innerHTML=se),P=l(e),j=r(e,"P",{"data-svelte-h":!0}),d(j)!=="svelte-161ig80"&&(j.textContent=ae),E=l(e),m(z.$$.fragment,e),Q=l(e),h=r(e,"P",{"data-svelte-h":!0}),d(h)!=="svelte-1d3xwh8"&&(h.textContent=ne),W=l(e),m(y.$$.fragment,e),G=l(e),b=r(e,"P",{"data-svelte-h":!0}),d(b)!=="svelte-v80ac3"&&(b.innerHTML=le),X=l(e),m($.$$.fragment,e),R=l(e),T=r(e,"P",{"data-svelte-h":!0}),d(T)!=="svelte-o2trt2"&&(T.innerHTML=oe),q=l(e),m(U.$$.fragment,e),L=l(e),w=r(e,"P",{"data-svelte-h":!0}),d(w)!=="svelte-19no5wd"&&(w.textContent=re),x=l(e),m(Z.$$.fragment,e),H=l(e),V=r(e,"P",{"data-svelte-h":!0}),d(V)!=="svelte-9rgu8a"&&(V.innerHTML=ie),S=l(e),m(J.$$.fragment,e),A=l(e),v=r(e,"P",{"data-svelte-h":!0}),d(v)!=="svelte-o2trt2"&&(v.innerHTML=pe),Y=l(e),m(_.$$.fragment,e),K=l(e),B=r(e,"P",{}),me(B).forEach(s),this.h()},h(){de(i,"name","hf:doc:metadata"),de(i,"content",ye)},m(e,t){je(document.head,i),a(e,F,t),a(e,C,t),a(e,I,t),c(k,e,t),a(e,N,t),a(e,M,t),a(e,P,t),a(e,j,t),a(e,E,t),c(z,e,t),a(e,Q,t),a(e,h,t),a(e,W,t),c(y,e,t),a(e,G,t),a(e,b,t),a(e,X,t),c($,e,t),a(e,R,t),a(e,T,t),a(e,q,t),c(U,e,t),a(e,L,t),a(e,w,t),a(e,x,t),c(Z,e,t),a(e,H,t),a(e,V,t),a(e,S,t),c(J,e,t),a(e,A,t),a(e,v,t),a(e,Y,t),c(_,e,t),a(e,K,t),a(e,B,t),O=!0},p:ue,i(e){O||(u(k.$$.fragment,e),u(z.$$.fragment,e),u(y.$$.fragment,e),u($.$$.fragment,e),u(U.$$.fragment,e),u(Z.$$.fragment,e),u(J.$$.fragment,e),u(_.$$.fragment,e),O=!0)},o(e){f(k.$$.fragment,e),f(z.$$.fragment,e),f(y.$$.fragment,e),f($.$$.fragment,e),f(U.$$.fragment,e),f(Z.$$.fragment,e),f(J.$$.fragment,e),f(_.$$.fragment,e),O=!1},d(e){e&&(s(F),s(C),s(I),s(N),s(M),s(P),s(j),s(E),s(Q),s(h),s(W),s(G),s(b),s(X),s(R),s(T),s(q),s(L),s(w),s(x),s(H),s(V),s(S),s(A),s(v),s(Y),s(K),s(B)),s(i),g(k,e),g(z,e),g(y,e),g($,e),g(U,e),g(Z,e),g(J,e),g(_,e)}}}const ye='{"title":"Usa los tokenizadores de 馃 Tokenizers","local":"usa-los-tokenizadores-de--tokenizers","sections":[{"title":"Cargando directamente desde el objeto tokenizador","local":"cargando-directamente-desde-el-objeto-tokenizador","sections":[],"depth":2},{"title":"Cargando desde un archivo JSON","local":"cargando-desde-un-archivo-json","sections":[],"depth":2}],"depth":1}';function be(te){return fe(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Ze extends ge{constructor(i){super(),ke(this,i,be,he,ce,{})}}export{Ze as component};

Xet Storage Details

Size:
8.97 kB
Xet hash:
5fb6395dabcbeb117724e7110f1b3e60516998b327331fe44d338b8f296d59c9

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.