Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / course /pr_1069 /pt /_app /immutable /nodes /36.62fa1072.js

rtrm's picture

about 2 months ago

4.42 kB

import{s as Q,n as R,o as J}from"../chunks/scheduler.37c15a92.js";import{S as K,i as V,g as r,s,r as M,A as W,h as m,f as o,c as n,j as F,u as j,x as v,k as G,y as X,a,v as y,d as E,t as A,w as N}from"../chunks/index.2bf4358c.js";import{C as Y}from"../chunks/CourseFloatingBanner.6add7356.js";import{H as Z,E as ee}from"../chunks/getInferenceSnippets.24b50994.js";function te(I){let i,z,$,_,u,x,l,k,p,O='No <a href="/course/chapter3">Capítulo 3</a>, nós estudamos como realizar o ajuste fino em um modelo para uma dada tarefa. Quando nós fazemos isso, usamos o mesmo tokenizador utilizado pelo modelo pré-treinado — mas o que podemos fazer quando queremos treinar um modelo do início? Nestes casos, utilizar um tokenizador que foi pré-treinado em um corpus de outro domínio ou linguagem é tipicamente subótimo. Por exemplo, um tokenizador que é treinado em um corpus de lingua inglesa terá um desempenho ruim em um corpus de textos em japonês, visto que o uso de espaços e pontuações é muito diferente nestes dois idiomas.',C,d,S='Neste capítulo, você aprenderá como treinar um novo tokenizador em um corpus de textos, para então ser usado no treinamento de um modelo de linguagem. Isto tudo será feito com ajuda da biblioteca <a href="https://github.com/huggingface/tokenizers" rel="nofollow">🤗 Tokenizers</a>, que provê o tokenizador rápido na biblioteca <a href="https://github.com/huggingface/transformers" rel="nofollow">🤗 Transformers</a>. Daremos uma olhada a fundo sobre as funcionalidades oferecidas pela biblioteca, e explorar como os tokenizadores rápidos diferem das versões “lentas”.',P,c,U="Os tópicos que iremos cobrir incluem:",T,f,B="<li>Como treinar um novo tokenizador semelhante ao usado por um determinado checkpoint em um novo corpus de textos</li> <li>Os recursos especiais dos tokenizadores rápidos</li> <li>As diferenças entre os três principais algoritmos de tokenização de subpalavras usados no processamento de linguagem natural hoje</li> <li>Como construir um tokenizador do zero com a biblioteca 🤗 Tokenizers e treiná-lo em alguns dados</li>",q,h,D='As técnicas introduzidas neste capítulo irão te preparar para a seção no <a href="/course/chapter7/6">Capítulo 7</a> onde iremos analisar a criação de um modelo de linguagem para a linguagem Python. Primeiramente, vamos começar analisando o que significa “treinar” um tokenizador.',w,g,H,b,L;return u=new Z({props:{title:"Introdução",local:"introdução",headingTag:"h1"}}),l=new Y({props:{chapter:6,classNames:"absolute z-10 right-0 top-0"}}),g=new ee({props:{source:"https://github.com/huggingface/course/blob/main/chapters/pt/chapter6/1.mdx"}}),{c(){i=r("meta"),z=s(),$=r("p"),_=s(),M(u.$$.fragment),x=s(),M(l.$$.fragment),k=s(),p=r("p"),p.innerHTML=O,C=s(),d=r("p"),d.innerHTML=S,P=s(),c=r("p"),c.textContent=U,T=s(),f=r("ul"),f.innerHTML=B,q=s(),h=r("p"),h.innerHTML=D,w=s(),M(g.$$.fragment),H=s(),b=r("p"),this.h()},l(e){const t=W("svelte-u9bgzb",document.head);i=m(t,"META",{name:!0,content:!0}),t.forEach(o),z=n(e),$=m(e,"P",{}),F($).forEach(o),_=n(e),j(u.$$.fragment,e),x=n(e),j(l.$$.fragment,e),k=n(e),p=m(e,"P",{"data-svelte-h":!0}),v(p)!=="svelte-2vpzc"&&(p.innerHTML=O),C=n(e),d=m(e,"P",{"data-svelte-h":!0}),v(d)!=="svelte-u7j4p"&&(d.innerHTML=S),P=n(e),c=m(e,"P",{"data-svelte-h":!0}),v(c)!=="svelte-a51f1r"&&(c.textContent=U),T=n(e),f=m(e,"UL",{"data-svelte-h":!0}),v(f)!=="svelte-1yxc2bu"&&(f.innerHTML=B),q=n(e),h=m(e,"P",{"data-svelte-h":!0}),v(h)!=="svelte-1u22jb6"&&(h.innerHTML=D),w=n(e),j(g.$$.fragment,e),H=n(e),b=m(e,"P",{}),F(b).forEach(o),this.h()},h(){G(i,"name","hf:doc:metadata"),G(i,"content",oe)},m(e,t){X(document.head,i),a(e,z,t),a(e,$,t),a(e,_,t),y(u,e,t),a(e,x,t),y(l,e,t),a(e,k,t),a(e,p,t),a(e,C,t),a(e,d,t),a(e,P,t),a(e,c,t),a(e,T,t),a(e,f,t),a(e,q,t),a(e,h,t),a(e,w,t),y(g,e,t),a(e,H,t),a(e,b,t),L=!0},p:R,i(e){L||(E(u.$$.fragment,e),E(l.$$.fragment,e),E(g.$$.fragment,e),L=!0)},o(e){A(u.$$.fragment,e),A(l.$$.fragment,e),A(g.$$.fragment,e),L=!1},d(e){e&&(o(z),o($),o(_),o(x),o(k),o(p),o(C),o(d),o(P),o(c),o(T),o(f),o(q),o(h),o(w),o(H),o(b)),o(i),N(u,e),N(l,e),N(g,e)}}}const oe='{"title":"Introdução","local":"introdução","sections":[],"depth":1}';function ae(I){return J(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class me extends K{constructor(i){super(),V(this,i,ae,te,Q,{})}}export{me as component};

Xet Storage Details

Size:: 4.42 kB
Xet hash:: 4471abef73106c5560366814b0915d848e3c3f76dbbe9e84a108b85449441403

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.