Buckets:

rtrm's picture
download
raw
12.5 kB
import{s as qt,f as Gt,n as Ot,o as zt}from"../chunks/scheduler.f6b352c8.js";import{S as St,i as Ut,g as o,s as i,r as q,A as It,h as s,f as l,c as a,j as jt,u as G,x as g,k as O,y as Bt,a as n,v as z,d as S,t as U,w as I}from"../chunks/index.7f38e934.js";import{H as vt,E as Ft}from"../chunks/index.687cf7c1.js";function Kt(Lt){let p,B,E,F,m,K,u,$t="Теперь мы готовы к дообучению нашей первой модели для вызова функций 🔥.",N,r,Q,v,_t="<p>Ответ: Нам нужны <strong>данные</strong>.</p>",D,L,xt="Обучение модели можно разделить на 3 шага:",J,$,Ct='<li><p><strong>Модель предварительно обучается на большом количестве данных</strong>. Результатом этого шага является <strong>предварительно обученная модель</strong>. Например, <a href="https://huggingface.co/google/gemma-2-2b" rel="nofollow">google/gemma-2-2b</a>. Это базовая модель, которая умеет только <strong>предсказывать следующий токен, не имеющая хороших способностей к следованию инструкциям</strong>.</p></li> <li><p>Затем, чтобы модель была полезна в контексте чата, ее необходимо <strong>дообучить</strong> следовать инструкциям. На этом этапе она может быть обучена создателями модели, сообществом разработчиков, вами или всеми желающими. Например, <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a> это инструктивно дообученная модель от Google Tea, созданная в рамках проекта Gemma.</p></li> <li><p>Затем модель может быть <strong>выровнена (aligned)</strong> в соответствии с предпочтениями создателя. Например, модель чата службы поддержки, которая никогда не должна быть невежливой с клиентами.</p></li>',V,_,bt="Обычно полноценный продукт вроде Gemini или Mistral <strong>проходит все 3 этапа</strong>, в то время как модели, которые вы можете найти на Hugging Face, прошли один или несколько этапов этого обучения.",W,x,ht='В этом руководстве мы создадим модель вызова функций на основе <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a>. Мы выбрали дообученую модель <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a> вместо базовой модели <a href="https://huggingface.co/google/gemma-2-2b" rel="nofollow">google/gemma-2-2b</a>, потому что дообученная модель лучше подходит для нашего случая использования.',X,C,Mt="Если начать с предварительно обученной модели, <strong>потребуется больше тренировок, чтобы научить модель следовать инструкциям, общаться в чате И вызывать функции</strong>.",Y,b,Tt="Начиная с инструктивно дообученной модели, <strong>мы минимизируем количество информации, которое необходимо изучить нашей модели</strong>.",Z,h,tt,M,wt="LoRA (Low-Rank Adaptation of Large Language Models, Низкоранговая Адаптация Больших Языковых Моделей) это популярная и легковесная техника обучения, которая значительно <strong>сокращает количество обучаемых параметров</strong>.",et,T,Ht="Она работает путем <strong>вставки меньшего количества новых весов в качестве адаптера в модель для обучения</strong>. Это делает обучение с LoRA намного быстрее, экономит память и создает меньшие веса модели (несколько сотен мегабайт), которые легче хранить и распространять.",lt,f,ct,nt,w,Pt="LoRA работает путем добавления пар матриц рангового разложения в слои трансформеров, обычно сосредоточенных на линейных слоях. Во время обучения мы “замораживаем” остальную часть модели и обновляем веса только недавно добавленных адаптеров.",it,H,dt="Таким образом, количество параметров, которые нам нужно обучить, значительно уменьшается, поскольку нам нужно обновлять только веса адаптеров.",at,c,kt="Во время инференса входные данные передаются в адаптер и базовую модель или эти веса адаптера могут быть объединены с базовой моделью, что не приводит к дополнительным затратам времени.",ot,P,At="LoRA особенно полезна для адаптации <strong>больших</strong> языковых моделей к конкретным задачам или доменам при сохранении управляемых требований к ресурсам. Это помогает сократить объем памяти, требуемый для обучения модели.",st,d,Rt='Если вы хотите узнать больше о том, как работает LoRA, ознакомьтесь с этим <a href="https://huggingface.co/learn/nlp-course/chapter11/4?fw=pt" rel="nofollow">руководством</a>.',gt,k,pt,A,yt='Вы можете получить доступ к учебному блокноту 👉 <a href="https://huggingface.co/agents-course/notebooks/blob/main/bonus-unit1/bonus-unit1.ipynb" rel="nofollow">здесь</a>.',ft,R,Et="Затем нажмите на Open In Colab, чтобы запустить его в Colab Notebook.",mt,y,ut,j,rt;return m=new vt({props:{title:"Давайте дообучим вашу модель для вызова функций",local:"давайте-дообучим-вашу-модель-для-вызова-функций",headingTag:"h1"}}),r=new vt({props:{title:"Как обучить нашу модель вызову функций?",local:"как-обучить-нашу-модель-вызову-функций",headingTag:"h2"}}),h=new vt({props:{title:"LoRA (Low-Rank Adaptation of Large Language Models)",local:"lora-low-rank-adaptation-of-large-language-models",headingTag:"h2"}}),k=new vt({props:{title:"Дообучение модели для вызова функций",local:"дообучение-модели-для-вызова-функций",headingTag:"h2"}}),y=new Ft({props:{source:"https://github.com/huggingface/agents-course/blob/main/units/ru-RU/bonus-unit1/fine-tuning.mdx"}}),{c(){p=o("meta"),B=i(),E=o("p"),F=i(),q(m.$$.fragment),K=i(),u=o("p"),u.textContent=$t,N=i(),q(r.$$.fragment),Q=i(),v=o("blockquote"),v.innerHTML=_t,D=i(),L=o("p"),L.textContent=xt,J=i(),$=o("ol"),$.innerHTML=Ct,V=i(),_=o("p"),_.innerHTML=bt,W=i(),x=o("p"),x.innerHTML=ht,X=i(),C=o("p"),C.innerHTML=Mt,Y=i(),b=o("p"),b.innerHTML=Tt,Z=i(),q(h.$$.fragment),tt=i(),M=o("p"),M.innerHTML=wt,et=i(),T=o("p"),T.innerHTML=Ht,lt=i(),f=o("img"),nt=i(),w=o("p"),w.textContent=Pt,it=i(),H=o("p"),H.textContent=dt,at=i(),c=o("p"),c.textContent=kt,ot=i(),P=o("p"),P.innerHTML=At,st=i(),d=o("p"),d.innerHTML=Rt,gt=i(),q(k.$$.fragment),pt=i(),A=o("p"),A.innerHTML=yt,ft=i(),R=o("p"),R.textContent=Et,mt=i(),q(y.$$.fragment),ut=i(),j=o("p"),this.h()},l(t){const e=It("svelte-u9bgzb",document.head);p=s(e,"META",{name:!0,content:!0}),e.forEach(l),B=a(t),E=s(t,"P",{}),jt(E).forEach(l),F=a(t),G(m.$$.fragment,t),K=a(t),u=s(t,"P",{"data-svelte-h":!0}),g(u)!=="svelte-1ngbex2"&&(u.textContent=$t),N=a(t),G(r.$$.fragment,t),Q=a(t),v=s(t,"BLOCKQUOTE",{"data-svelte-h":!0}),g(v)!=="svelte-gdgzr2"&&(v.innerHTML=_t),D=a(t),L=s(t,"P",{"data-svelte-h":!0}),g(L)!=="svelte-l6gul"&&(L.textContent=xt),J=a(t),$=s(t,"OL",{"data-svelte-h":!0}),g($)!=="svelte-y4vjka"&&($.innerHTML=Ct),V=a(t),_=s(t,"P",{"data-svelte-h":!0}),g(_)!=="svelte-lf3sz9"&&(_.innerHTML=bt),W=a(t),x=s(t,"P",{"data-svelte-h":!0}),g(x)!=="svelte-ae050s"&&(x.innerHTML=ht),X=a(t),C=s(t,"P",{"data-svelte-h":!0}),g(C)!=="svelte-1sypvg9"&&(C.innerHTML=Mt),Y=a(t),b=s(t,"P",{"data-svelte-h":!0}),g(b)!=="svelte-19sws3s"&&(b.innerHTML=Tt),Z=a(t),G(h.$$.fragment,t),tt=a(t),M=s(t,"P",{"data-svelte-h":!0}),g(M)!=="svelte-1qk7dst"&&(M.innerHTML=wt),et=a(t),T=s(t,"P",{"data-svelte-h":!0}),g(T)!=="svelte-1vy2ur2"&&(T.innerHTML=Ht),lt=a(t),f=s(t,"IMG",{src:!0,alt:!0,width:!0}),nt=a(t),w=s(t,"P",{"data-svelte-h":!0}),g(w)!=="svelte-sjg43f"&&(w.textContent=Pt),it=a(t),H=s(t,"P",{"data-svelte-h":!0}),g(H)!=="svelte-1b793u8"&&(H.textContent=dt),at=a(t),c=s(t,"P",{"data-svelte-h":!0}),g(c)!=="svelte-lflmga"&&(c.textContent=kt),ot=a(t),P=s(t,"P",{"data-svelte-h":!0}),g(P)!=="svelte-1efk2nj"&&(P.innerHTML=At),st=a(t),d=s(t,"P",{"data-svelte-h":!0}),g(d)!=="svelte-7y3alk"&&(d.innerHTML=Rt),gt=a(t),G(k.$$.fragment,t),pt=a(t),A=s(t,"P",{"data-svelte-h":!0}),g(A)!=="svelte-uja3h1"&&(A.innerHTML=yt),ft=a(t),R=s(t,"P",{"data-svelte-h":!0}),g(R)!=="svelte-1rlv5ya"&&(R.textContent=Et),mt=a(t),G(y.$$.fragment,t),ut=a(t),j=s(t,"P",{}),jt(j).forEach(l),this.h()},h(){O(p,"name","hf:doc:metadata"),O(p,"content",Nt),Gt(f.src,ct="https://huggingface.co/datasets/agents-course/course-images/resolve/main/en/unit1/blog_multi-lora-serving_LoRA.gif")||O(f,"src",ct),O(f,"alt","Инференс LoRA"),O(f,"width","50%")},m(t,e){Bt(document.head,p),n(t,B,e),n(t,E,e),n(t,F,e),z(m,t,e),n(t,K,e),n(t,u,e),n(t,N,e),z(r,t,e),n(t,Q,e),n(t,v,e),n(t,D,e),n(t,L,e),n(t,J,e),n(t,$,e),n(t,V,e),n(t,_,e),n(t,W,e),n(t,x,e),n(t,X,e),n(t,C,e),n(t,Y,e),n(t,b,e),n(t,Z,e),z(h,t,e),n(t,tt,e),n(t,M,e),n(t,et,e),n(t,T,e),n(t,lt,e),n(t,f,e),n(t,nt,e),n(t,w,e),n(t,it,e),n(t,H,e),n(t,at,e),n(t,c,e),n(t,ot,e),n(t,P,e),n(t,st,e),n(t,d,e),n(t,gt,e),z(k,t,e),n(t,pt,e),n(t,A,e),n(t,ft,e),n(t,R,e),n(t,mt,e),z(y,t,e),n(t,ut,e),n(t,j,e),rt=!0},p:Ot,i(t){rt||(S(m.$$.fragment,t),S(r.$$.fragment,t),S(h.$$.fragment,t),S(k.$$.fragment,t),S(y.$$.fragment,t),rt=!0)},o(t){U(m.$$.fragment,t),U(r.$$.fragment,t),U(h.$$.fragment,t),U(k.$$.fragment,t),U(y.$$.fragment,t),rt=!1},d(t){t&&(l(B),l(E),l(F),l(K),l(u),l(N),l(Q),l(v),l(D),l(L),l(J),l($),l(V),l(_),l(W),l(x),l(X),l(C),l(Y),l(b),l(Z),l(tt),l(M),l(et),l(T),l(lt),l(f),l(nt),l(w),l(it),l(H),l(at),l(c),l(ot),l(P),l(st),l(d),l(gt),l(pt),l(A),l(ft),l(R),l(mt),l(ut),l(j)),l(p),I(m,t),I(r,t),I(h,t),I(k,t),I(y,t)}}}const Nt='{"title":"Давайте дообучим вашу модель для вызова функций","local":"давайте-дообучим-вашу-модель-для-вызова-функций","sections":[{"title":"Как обучить нашу модель вызову функций?","local":"как-обучить-нашу-модель-вызову-функций","sections":[],"depth":2},{"title":"LoRA (Low-Rank Adaptation of Large Language Models)","local":"lora-low-rank-adaptation-of-large-language-models","sections":[],"depth":2},{"title":"Дообучение модели для вызова функций","local":"дообучение-модели-для-вызова-функций","sections":[],"depth":2}],"depth":1}';function Qt(Lt){return zt(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Wt extends St{constructor(p){super(),Ut(this,p,Qt,Kt,qt,{})}}export{Wt as component};

Xet Storage Details

Size:
12.5 kB
·
Xet hash:
f27008b5f5733d44fdc96ea2ed19256e839370e29ca222de12d423e88f8920c9

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.