Buckets:

rtrm's picture
download
raw
12.8 kB
import{s as Ot,a as zt,n as St,o as Ut}from"../chunks/scheduler.4048030c.js";import{S as It,i as Bt,e as o,s as i,c as j,h as Ft,a as s,d as l,b as a,f as Gt,g as q,j as g,k as B,l as Kt,m as n,n as G,t as O,o as z,p as S}from"../chunks/index.b7616466.js";import{C as Nt,H as Lt,E as Qt}from"../chunks/MermaidChart.svelte_svelte_type_style_lang.881374c1.js";function Dt(xt){let p,F,U,K,m,N,r,Q,u,_t="Теперь мы готовы к дообучению нашей первой модели для вызова функций 🔥.",D,$,J,v,Ct="<p>Ответ: Нам нужны <strong>данные</strong>.</p>",V,L,bt="Обучение модели можно разделить на 3 шага:",W,x,Mt='<li><p><strong>Модель предварительно обучается на большом количестве данных</strong>. Результатом этого шага является <strong>предварительно обученная модель</strong>. Например, <a href="https://huggingface.co/google/gemma-2-2b" rel="nofollow">google/gemma-2-2b</a>. Это базовая модель, которая умеет только <strong>предсказывать следующий токен, не имеющая хороших способностей к следованию инструкциям</strong>.</p></li> <li><p>Затем, чтобы модель была полезна в контексте чата, ее необходимо <strong>дообучить</strong> следовать инструкциям. На этом этапе она может быть обучена создателями модели, сообществом разработчиков, вами или всеми желающими. Например, <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a> это инструктивно дообученная модель от Google Tea, созданная в рамках проекта Gemma.</p></li> <li><p>Затем модель может быть <strong>выровнена (aligned)</strong> в соответствии с предпочтениями создателя. Например, модель чата службы поддержки, которая никогда не должна быть невежливой с клиентами.</p></li>',X,_,ht="Обычно полноценный продукт вроде Gemini или Mistral <strong>проходит все 3 этапа</strong>, в то время как модели, которые вы можете найти на Hugging Face, прошли один или несколько этапов этого обучения.",Y,C,Tt='В этом руководстве мы создадим модель вызова функций на основе <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a>. Мы выбрали дообученую модель <a href="https://huggingface.co/google/gemma-2-2b-it" rel="nofollow">google/gemma-2-2b-it</a> вместо базовой модели <a href="https://huggingface.co/google/gemma-2-2b" rel="nofollow">google/gemma-2-2b</a>, потому что дообученная модель лучше подходит для нашего случая использования.',Z,b,wt="Если начать с предварительно обученной модели, <strong>потребуется больше тренировок, чтобы научить модель следовать инструкциям, общаться в чате И вызывать функции</strong>.",tt,M,Ht="Начиная с инструктивно дообученной модели, <strong>мы минимизируем количество информации, которое необходимо изучить нашей модели</strong>.",et,h,lt,T,Pt="LoRA (Low-Rank Adaptation of Large Language Models, Низкоранговая Адаптация Больших Языковых Моделей) это популярная и легковесная техника обучения, которая значительно <strong>сокращает количество обучаемых параметров</strong>.",nt,w,ct="Она работает путем <strong>вставки меньшего количества новых весов в качестве адаптера в модель для обучения</strong>. Это делает обучение с LoRA намного быстрее, экономит память и создает меньшие веса модели (несколько сотен мегабайт), которые легче хранить и распространять.",it,f,dt,at,H,kt="LoRA работает путем добавления пар матриц рангового разложения в слои трансформеров, обычно сосредоточенных на линейных слоях. Во время обучения мы “замораживаем” остальную часть модели и обновляем веса только недавно добавленных адаптеров.",ot,P,Rt="Таким образом, количество параметров, которые нам нужно обучить, значительно уменьшается, поскольку нам нужно обновлять только веса адаптеров.",st,c,yt="Во время инференса входные данные передаются в адаптер и базовую модель или эти веса адаптера могут быть объединены с базовой моделью, что не приводит к дополнительным затратам времени.",gt,d,At="LoRA особенно полезна для адаптации <strong>больших</strong> языковых моделей к конкретным задачам или доменам при сохранении управляемых требований к ресурсам. Это помогает сократить объем памяти, требуемый для обучения модели.",pt,k,Et='Если вы хотите узнать больше о том, как работает LoRA, ознакомьтесь с этим <a href="https://huggingface.co/learn/nlp-course/chapter11/4?fw=pt" rel="nofollow">руководством</a>.',ft,R,mt,y,jt='Вы можете получить доступ к учебному блокноту 👉 <a href="https://huggingface.co/agents-course/notebooks/blob/main/bonus-unit1/bonus-unit1.ipynb" rel="nofollow">здесь</a>.',rt,A,qt="Затем нажмите на Open In Colab, чтобы запустить его в Colab Notebook.",ut,E,$t,I,vt;return m=new Nt({props:{containerStyle:"float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"}}),r=new Lt({props:{title:"Давайте дообучим вашу модель для вызова функций",local:"давайте-дообучим-вашу-модель-для-вызова-функций",headingTag:"h1"}}),$=new Lt({props:{title:"Как обучить нашу модель вызову функций?",local:"как-обучить-нашу-модель-вызову-функций",headingTag:"h2"}}),h=new Lt({props:{title:"LoRA (Low-Rank Adaptation of Large Language Models)",local:"lora-low-rank-adaptation-of-large-language-models",headingTag:"h2"}}),R=new Lt({props:{title:"Дообучение модели для вызова функций",local:"дообучение-модели-для-вызова-функций",headingTag:"h2"}}),E=new Qt({props:{source:"https://github.com/huggingface/agents-course/blob/main/units/ru-RU/bonus-unit1/fine-tuning.mdx"}}),{c(){p=o("meta"),F=i(),U=o("p"),K=i(),j(m.$$.fragment),N=i(),j(r.$$.fragment),Q=i(),u=o("p"),u.textContent=_t,D=i(),j($.$$.fragment),J=i(),v=o("blockquote"),v.innerHTML=Ct,V=i(),L=o("p"),L.textContent=bt,W=i(),x=o("ol"),x.innerHTML=Mt,X=i(),_=o("p"),_.innerHTML=ht,Y=i(),C=o("p"),C.innerHTML=Tt,Z=i(),b=o("p"),b.innerHTML=wt,tt=i(),M=o("p"),M.innerHTML=Ht,et=i(),j(h.$$.fragment),lt=i(),T=o("p"),T.innerHTML=Pt,nt=i(),w=o("p"),w.innerHTML=ct,it=i(),f=o("img"),at=i(),H=o("p"),H.textContent=kt,ot=i(),P=o("p"),P.textContent=Rt,st=i(),c=o("p"),c.textContent=yt,gt=i(),d=o("p"),d.innerHTML=At,pt=i(),k=o("p"),k.innerHTML=Et,ft=i(),j(R.$$.fragment),mt=i(),y=o("p"),y.innerHTML=jt,rt=i(),A=o("p"),A.textContent=qt,ut=i(),j(E.$$.fragment),$t=i(),I=o("p"),this.h()},l(t){const e=Ft("svelte-u9bgzb",document.head);p=s(e,"META",{name:!0,content:!0}),e.forEach(l),F=a(t),U=s(t,"P",{}),Gt(U).forEach(l),K=a(t),q(m.$$.fragment,t),N=a(t),q(r.$$.fragment,t),Q=a(t),u=s(t,"P",{"data-svelte-h":!0}),g(u)!=="svelte-1ngbex2"&&(u.textContent=_t),D=a(t),q($.$$.fragment,t),J=a(t),v=s(t,"BLOCKQUOTE",{"data-svelte-h":!0}),g(v)!=="svelte-gdgzr2"&&(v.innerHTML=Ct),V=a(t),L=s(t,"P",{"data-svelte-h":!0}),g(L)!=="svelte-l6gul"&&(L.textContent=bt),W=a(t),x=s(t,"OL",{"data-svelte-h":!0}),g(x)!=="svelte-y4vjka"&&(x.innerHTML=Mt),X=a(t),_=s(t,"P",{"data-svelte-h":!0}),g(_)!=="svelte-lf3sz9"&&(_.innerHTML=ht),Y=a(t),C=s(t,"P",{"data-svelte-h":!0}),g(C)!=="svelte-ae050s"&&(C.innerHTML=Tt),Z=a(t),b=s(t,"P",{"data-svelte-h":!0}),g(b)!=="svelte-1sypvg9"&&(b.innerHTML=wt),tt=a(t),M=s(t,"P",{"data-svelte-h":!0}),g(M)!=="svelte-19sws3s"&&(M.innerHTML=Ht),et=a(t),q(h.$$.fragment,t),lt=a(t),T=s(t,"P",{"data-svelte-h":!0}),g(T)!=="svelte-1qk7dst"&&(T.innerHTML=Pt),nt=a(t),w=s(t,"P",{"data-svelte-h":!0}),g(w)!=="svelte-1vy2ur2"&&(w.innerHTML=ct),it=a(t),f=s(t,"IMG",{src:!0,alt:!0,width:!0}),at=a(t),H=s(t,"P",{"data-svelte-h":!0}),g(H)!=="svelte-sjg43f"&&(H.textContent=kt),ot=a(t),P=s(t,"P",{"data-svelte-h":!0}),g(P)!=="svelte-1b793u8"&&(P.textContent=Rt),st=a(t),c=s(t,"P",{"data-svelte-h":!0}),g(c)!=="svelte-lflmga"&&(c.textContent=yt),gt=a(t),d=s(t,"P",{"data-svelte-h":!0}),g(d)!=="svelte-1efk2nj"&&(d.innerHTML=At),pt=a(t),k=s(t,"P",{"data-svelte-h":!0}),g(k)!=="svelte-7y3alk"&&(k.innerHTML=Et),ft=a(t),q(R.$$.fragment,t),mt=a(t),y=s(t,"P",{"data-svelte-h":!0}),g(y)!=="svelte-uja3h1"&&(y.innerHTML=jt),rt=a(t),A=s(t,"P",{"data-svelte-h":!0}),g(A)!=="svelte-1rlv5ya"&&(A.textContent=qt),ut=a(t),q(E.$$.fragment,t),$t=a(t),I=s(t,"P",{}),Gt(I).forEach(l),this.h()},h(){B(p,"name","hf:doc:metadata"),B(p,"content",Jt),zt(f.src,dt="https://huggingface.co/datasets/agents-course/course-images/resolve/main/en/unit1/blog_multi-lora-serving_LoRA.gif")||B(f,"src",dt),B(f,"alt","Инференс LoRA"),B(f,"width","50%")},m(t,e){Kt(document.head,p),n(t,F,e),n(t,U,e),n(t,K,e),G(m,t,e),n(t,N,e),G(r,t,e),n(t,Q,e),n(t,u,e),n(t,D,e),G($,t,e),n(t,J,e),n(t,v,e),n(t,V,e),n(t,L,e),n(t,W,e),n(t,x,e),n(t,X,e),n(t,_,e),n(t,Y,e),n(t,C,e),n(t,Z,e),n(t,b,e),n(t,tt,e),n(t,M,e),n(t,et,e),G(h,t,e),n(t,lt,e),n(t,T,e),n(t,nt,e),n(t,w,e),n(t,it,e),n(t,f,e),n(t,at,e),n(t,H,e),n(t,ot,e),n(t,P,e),n(t,st,e),n(t,c,e),n(t,gt,e),n(t,d,e),n(t,pt,e),n(t,k,e),n(t,ft,e),G(R,t,e),n(t,mt,e),n(t,y,e),n(t,rt,e),n(t,A,e),n(t,ut,e),G(E,t,e),n(t,$t,e),n(t,I,e),vt=!0},p:St,i(t){vt||(O(m.$$.fragment,t),O(r.$$.fragment,t),O($.$$.fragment,t),O(h.$$.fragment,t),O(R.$$.fragment,t),O(E.$$.fragment,t),vt=!0)},o(t){z(m.$$.fragment,t),z(r.$$.fragment,t),z($.$$.fragment,t),z(h.$$.fragment,t),z(R.$$.fragment,t),z(E.$$.fragment,t),vt=!1},d(t){t&&(l(F),l(U),l(K),l(N),l(Q),l(u),l(D),l(J),l(v),l(V),l(L),l(W),l(x),l(X),l(_),l(Y),l(C),l(Z),l(b),l(tt),l(M),l(et),l(lt),l(T),l(nt),l(w),l(it),l(f),l(at),l(H),l(ot),l(P),l(st),l(c),l(gt),l(d),l(pt),l(k),l(ft),l(mt),l(y),l(rt),l(A),l(ut),l($t),l(I)),l(p),S(m,t),S(r,t),S($,t),S(h,t),S(R,t),S(E,t)}}}const Jt='{"title":"Давайте дообучим вашу модель для вызова функций","local":"давайте-дообучим-вашу-модель-для-вызова-функций","sections":[{"title":"Как обучить нашу модель вызову функций?","local":"как-обучить-нашу-модель-вызову-функций","sections":[],"depth":2},{"title":"LoRA (Low-Rank Adaptation of Large Language Models)","local":"lora-low-rank-adaptation-of-large-language-models","sections":[],"depth":2},{"title":"Дообучение модели для вызова функций","local":"дообучение-модели-для-вызова-функций","sections":[],"depth":2}],"depth":1}';function Vt(xt){return Ut(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class Zt extends It{constructor(p){super(),Bt(this,p,Vt,Dt,Ot,{})}}export{Zt as component};

Xet Storage Details

Size:
12.8 kB
·
Xet hash:
ff198e1aaa873666ecb033d9e201f104f8f261fee7a9e2a92c4af7f8b927f342

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.