Buckets:

rtrm's picture
download
raw
5.6 kB
import{s as I,n as J,o as K}from"../chunks/scheduler.37c15a92.js";import{S as Q,i as V,g as r,s as i,r as y,A as W,h as o,f as n,c as s,j as R,u as k,x as d,k as D,y as X,a,v as S,d as A,t as N,w as U}from"../chunks/index.2bf4358c.js";import{C as Y}from"../chunks/CourseFloatingBanner.9ff4c771.js";import{H as Z,E as tt}from"../chunks/getInferenceSnippets.24b50994.js";function et(j){let l,T,v,x,m,P,f,b,p,q='В <a href="../chapter3/1">Главе 3</a> мы рассмотрели, как дообучить модель для конкретной задачи. При этом мы используем тот же токенизатор, на котором была предварительно обучена модель, но что делать, когда мы хотим обучить модель с нуля? В таких случаях использование токенизатора, который был предварительно обучен на корпусе из другой области или языка, как правило, является неоптимальным. Например, токенизатор, обученный на корпусе английских текстов, будет плохо работать на корпусе японских текстов, поскольку использование пробелов и знаков препинания в этих двух языках сильно отличается.',L,u,B='В этой главе вы узнаете, как обучить совершенно новый токенизатор на корпусе текстов, чтобы затем использовать его для предварительного обучения языковой модели. Все это будет сделано с помощью библиотеки <a href="https://github.com/huggingface/tokenizers" rel="nofollow">🤗 Tokenizers</a>, которая предоставляет “быстрые” токенизаторы в библиотеке <a href="https://github.com/huggingface/transformers" rel="nofollow">🤗 Transformers</a>. Мы подробно рассмотрим возможности, которые предоставляет эта библиотека, и выясним, чем быстрые токенизаторы отличаются от “медленных” версий.',w,c,F="Мы рассмотрим следующие темы:",C,h,G="<li>Как обучить новый токенизатор, аналогичный тому, который используется в данной контрольной точке, на новом корпусе текстов</li> <li>Особенности быстрых токенизаторов</li> <li>Различия между тремя основными алгоритмами токенизации по подсловам, используемыми в NLP сегодня</li> <li>Как создать токенизатор с нуля с помощью библиотеки 🤗 Tokenizers и обучить его на некоторых данных</li>",H,$,O='Техники, представленные в этой главе, подготовят вас к разделу в <a href="../chapter7/6">Главе 7</a>, где мы рассмотрим создание языковой модели по исходному коду Python. Для начала давайте разберемся, что значит “обучить” токенизатор.',M,_,z,g,E;return m=new Z({props:{title:"Введение",local:"introduction",headingTag:"h1"}}),f=new Y({props:{chapter:6,classNames:"absolute z-10 right-0 top-0"}}),_=new tt({props:{source:"https://github.com/huggingface/course/blob/main/chapters/ru/chapter6/1.mdx"}}),{c(){l=r("meta"),T=i(),v=r("p"),x=i(),y(m.$$.fragment),P=i(),y(f.$$.fragment),b=i(),p=r("p"),p.innerHTML=q,L=i(),u=r("p"),u.innerHTML=B,w=i(),c=r("p"),c.textContent=F,C=i(),h=r("ul"),h.innerHTML=G,H=i(),$=r("p"),$.innerHTML=O,M=i(),y(_.$$.fragment),z=i(),g=r("p"),this.h()},l(t){const e=W("svelte-u9bgzb",document.head);l=o(e,"META",{name:!0,content:!0}),e.forEach(n),T=s(t),v=o(t,"P",{}),R(v).forEach(n),x=s(t),k(m.$$.fragment,t),P=s(t),k(f.$$.fragment,t),b=s(t),p=o(t,"P",{"data-svelte-h":!0}),d(p)!=="svelte-r1z9su"&&(p.innerHTML=q),L=s(t),u=o(t,"P",{"data-svelte-h":!0}),d(u)!=="svelte-11z45h4"&&(u.innerHTML=B),w=s(t),c=o(t,"P",{"data-svelte-h":!0}),d(c)!=="svelte-eu8evv"&&(c.textContent=F),C=s(t),h=o(t,"UL",{"data-svelte-h":!0}),d(h)!=="svelte-vgcet5"&&(h.innerHTML=G),H=s(t),$=o(t,"P",{"data-svelte-h":!0}),d($)!=="svelte-97v8sh"&&($.innerHTML=O),M=s(t),k(_.$$.fragment,t),z=s(t),g=o(t,"P",{}),R(g).forEach(n),this.h()},h(){D(l,"name","hf:doc:metadata"),D(l,"content",nt)},m(t,e){X(document.head,l),a(t,T,e),a(t,v,e),a(t,x,e),S(m,t,e),a(t,P,e),S(f,t,e),a(t,b,e),a(t,p,e),a(t,L,e),a(t,u,e),a(t,w,e),a(t,c,e),a(t,C,e),a(t,h,e),a(t,H,e),a(t,$,e),a(t,M,e),S(_,t,e),a(t,z,e),a(t,g,e),E=!0},p:J,i(t){E||(A(m.$$.fragment,t),A(f.$$.fragment,t),A(_.$$.fragment,t),E=!0)},o(t){N(m.$$.fragment,t),N(f.$$.fragment,t),N(_.$$.fragment,t),E=!1},d(t){t&&(n(T),n(v),n(x),n(P),n(b),n(p),n(L),n(u),n(w),n(c),n(C),n(h),n(H),n($),n(M),n(z),n(g)),n(l),U(m,t),U(f,t),U(_,t)}}}const nt='{"title":"Введение","local":"introduction","sections":[],"depth":1}';function at(j){return K(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class ot extends Q{constructor(l){super(),V(this,l,at,et,I,{})}}export{ot as component};

Xet Storage Details

Size:
5.6 kB
·
Xet hash:
980ecdbe706275dca64c4de2dc38011583a5e236f4d7d7212bae7c559b75c9ab

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.