Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / bitsandbytes /pr_1908 /en /_app /immutable /nodes /26.ddaa8ffe.js

rtrm's picture

3 months ago

13.5 kB

	import{s as xt,n as Gt,o as wt}from"../chunks/scheduler.8a2cc2fa.js";import{S as zt,i as Tt,e as s,s as i,c as d,h as Ct,a as r,d as e,b as o,f as D,g as p,j as B,k as S,l as m,m as a,n as l,t as b,o as c,p as _}from"../chunks/index.7079e750.js";import{C as Nt,H as lt,E as Et}from"../chunks/MermaidChart.svelte_svelte_type_style_lang.2b7ce466.js";import{D as q}from"../chunks/Docstring.8c9a5003.js";function Pt(ht){let g,O,W,R,x,U,G,J,w,vt="Stochastic gradient descent (SGD) is a basic gradient descent optimizer to minimize loss given a set of model parameters and updates the parameters in the opposite direction of the gradient. The update is performed on a randomly sampled mini-batch of data from the dataset.",K,z,yt="bitsandbytes also supports momentum and Nesterov momentum to accelerate SGD by adding a weighted average of past gradients to the current gradient.",Q,T,X,u,C,bt,v,N,ct,k,$t="Base SGD optimizer.",Y,E,Z,f,P,_t,y,F,gt,A,Dt="8-bit SGD optimizer.",tt,L,et,h,j,ut,$,I,ft,M,St="32-bit SGD optimizer.",nt,V,at,H,it;return x=new Nt({props:{containerStyle:"float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"}}),G=new lt({props:{title:"SGD",local:"sgd",headingTag:"h1"}}),T=new lt({props:{title:"SGD",local:"api-class ][ bitsandbytes.optim.SGD",headingTag:"h2"}}),C=new q({props:{name:"class bitsandbytes.optim.SGD",anchor:"bitsandbytes.optim.SGD",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"optim_bits",val:" = 32"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L8"}}),N=new q({props:{name:"__init__",anchor:"bitsandbytes.optim.SGD.__init__",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"optim_bits",val:" = 32"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],parametersDescription:[{anchor:"bitsandbytes.optim.SGD.__init__.params",description:`<strong>params</strong> (<code>torch.tensor</code>) —
	The input parameters to optimize.`,name:"params"},{anchor:"bitsandbytes.optim.SGD.__init__.lr",description:`<strong>lr</strong> (<code>float</code>) —
	The learning rate.`,name:"lr"},{anchor:"bitsandbytes.optim.SGD.__init__.momentum",description:`<strong>momentum</strong> (<code>float</code>, defaults to 0) —
	The momentum value speeds up the optimizer by taking bigger steps.`,name:"momentum"},{anchor:"bitsandbytes.optim.SGD.__init__.dampening",description:`<strong>dampening</strong> (<code>float</code>, defaults to 0) —
	The dampening value reduces the momentum of the optimizer.`,name:"dampening"},{anchor:"bitsandbytes.optim.SGD.__init__.weight_decay",description:`<strong>weight_decay</strong> (<code>float</code>, defaults to 0.0) —
	The weight decay value for the optimizer.`,name:"weight_decay"},{anchor:"bitsandbytes.optim.SGD.__init__.nesterov",description:`<strong>nesterov</strong> (<code>bool</code>, defaults to <code>False</code>) —
	Whether to use Nesterov momentum.`,name:"nesterov"},{anchor:"bitsandbytes.optim.SGD.__init__.optim_bits",description:`<strong>optim_bits</strong> (<code>int</code>, defaults to 32) —
	The number of bits of the optimizer state.`,name:"optim_bits"},{anchor:"bitsandbytes.optim.SGD.__init__.args",description:`<strong>args</strong> (<code>object</code>, defaults to <code>None</code>) —
	An object with additional arguments.`,name:"args"},{anchor:"bitsandbytes.optim.SGD.__init__.min_8bit_size",description:`<strong>min_8bit_size</strong> (<code>int</code>, defaults to 4096) —
	The minimum number of elements of the parameter tensors for 8-bit optimization.`,name:"min_8bit_size"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L9"}}),E=new lt({props:{title:"SGD8bit",local:"bitsandbytes.optim.SGD8bit",headingTag:"h2"}}),P=new q({props:{name:"class bitsandbytes.optim.SGD8bit",anchor:"bitsandbytes.optim.SGD8bit",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L59"}}),F=new q({props:{name:"__init__",anchor:"bitsandbytes.optim.SGD8bit.__init__",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],parametersDescription:[{anchor:"bitsandbytes.optim.SGD8bit.__init__.params",description:`<strong>params</strong> (<code>torch.tensor</code>) —
	The input parameters to optimize.`,name:"params"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.lr",description:`<strong>lr</strong> (<code>float</code>) —
	The learning rate.`,name:"lr"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.momentum",description:`<strong>momentum</strong> (<code>float</code>, defaults to 0) —
	The momentum value speeds up the optimizer by taking bigger steps.`,name:"momentum"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.dampening",description:`<strong>dampening</strong> (<code>float</code>, defaults to 0) —
	The dampening value reduces the momentum of the optimizer.`,name:"dampening"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.weight_decay",description:`<strong>weight_decay</strong> (<code>float</code>, defaults to 0.0) —
	The weight decay value for the optimizer.`,name:"weight_decay"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.nesterov",description:`<strong>nesterov</strong> (<code>bool</code>, defaults to <code>False</code>) —
	Whether to use Nesterov momentum.`,name:"nesterov"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.args",description:`<strong>args</strong> (<code>object</code>, defaults to <code>None</code>) —
	An object with additional arguments.`,name:"args"},{anchor:"bitsandbytes.optim.SGD8bit.__init__.min_8bit_size",description:`<strong>min_8bit_size</strong> (<code>int</code>, defaults to 4096) —
	The minimum number of elements of the parameter tensors for 8-bit optimization.`,name:"min_8bit_size"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L60"}}),L=new lt({props:{title:"SGD32bit",local:"bitsandbytes.optim.SGD32bit",headingTag:"h2"}}),j=new q({props:{name:"class bitsandbytes.optim.SGD32bit",anchor:"bitsandbytes.optim.SGD32bit",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L107"}}),I=new q({props:{name:"__init__",anchor:"bitsandbytes.optim.SGD32bit.__init__",parameters:[{name:"params",val:""},{name:"lr",val:""},{name:"momentum",val:" = 0"},{name:"dampening",val:" = 0"},{name:"weight_decay",val:" = 0"},{name:"nesterov",val:" = False"},{name:"args",val:" = None"},{name:"min_8bit_size",val:" = 4096"}],parametersDescription:[{anchor:"bitsandbytes.optim.SGD32bit.__init__.params",description:`<strong>params</strong> (<code>torch.tensor</code>) —
	The input parameters to optimize.`,name:"params"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.lr",description:`<strong>lr</strong> (<code>float</code>) —
	The learning rate.`,name:"lr"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.momentum",description:`<strong>momentum</strong> (<code>float</code>, defaults to 0) —
	The momentum value speeds up the optimizer by taking bigger steps.`,name:"momentum"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.dampening",description:`<strong>dampening</strong> (<code>float</code>, defaults to 0) —
	The dampening value reduces the momentum of the optimizer.`,name:"dampening"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.weight_decay",description:`<strong>weight_decay</strong> (<code>float</code>, defaults to 0.0) —
	The weight decay value for the optimizer.`,name:"weight_decay"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.nesterov",description:`<strong>nesterov</strong> (<code>bool</code>, defaults to <code>False</code>) —
	Whether to use Nesterov momentum.`,name:"nesterov"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.args",description:`<strong>args</strong> (<code>object</code>, defaults to <code>None</code>) —
	An object with additional arguments.`,name:"args"},{anchor:"bitsandbytes.optim.SGD32bit.__init__.min_8bit_size",description:`<strong>min_8bit_size</strong> (<code>int</code>, defaults to 4096) —
	The minimum number of elements of the parameter tensors for 8-bit optimization.`,name:"min_8bit_size"}],source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/vr_1908/bitsandbytes/optim/sgd.py#L108"}}),V=new Et({props:{source:"https://github.com/bitsandbytes-foundation/bitsandbytes/blob/main/docs/source/reference/optim/sgd.mdx"}}),{c(){g=s("meta"),O=i(),W=s("p"),R=i(),d(x.$$.fragment),U=i(),d(G.$$.fragment),J=i(),w=s("p"),w.textContent=vt,K=i(),z=s("p"),z.textContent=yt,Q=i(),d(T.$$.fragment),X=i(),u=s("div"),d(C.$$.fragment),bt=i(),v=s("div"),d(N.$$.fragment),ct=i(),k=s("p"),k.textContent=$t,Y=i(),d(E.$$.fragment),Z=i(),f=s("div"),d(P.$$.fragment),_t=i(),y=s("div"),d(F.$$.fragment),gt=i(),A=s("p"),A.textContent=Dt,tt=i(),d(L.$$.fragment),et=i(),h=s("div"),d(j.$$.fragment),ut=i(),$=s("div"),d(I.$$.fragment),ft=i(),M=s("p"),M.textContent=St,nt=i(),d(V.$$.fragment),at=i(),H=s("p"),this.h()},l(t){const n=Ct("svelte-u9bgzb",document.head);g=r(n,"META",{name:!0,content:!0}),n.forEach(e),O=o(t),W=r(t,"P",{}),D(W).forEach(e),R=o(t),p(x.$$.fragment,t),U=o(t),p(G.$$.fragment,t),J=o(t),w=r(t,"P",{"data-svelte-h":!0}),B(w)!=="svelte-q53bao"&&(w.textContent=vt),K=o(t),z=r(t,"P",{"data-svelte-h":!0}),B(z)!=="svelte-xtlqke"&&(z.textContent=yt),Q=o(t),p(T.$$.fragment,t),X=o(t),u=r(t,"DIV",{class:!0});var ot=D(u);p(C.$$.fragment,ot),bt=o(ot),v=r(ot,"DIV",{class:!0});var st=D(v);p(N.$$.fragment,st),ct=o(st),k=r(st,"P",{"data-svelte-h":!0}),B(k)!=="svelte-1r01lii"&&(k.textContent=$t),st.forEach(e),ot.forEach(e),Y=o(t),p(E.$$.fragment,t),Z=o(t),f=r(t,"DIV",{class:!0});var rt=D(f);p(P.$$.fragment,rt),_t=o(rt),y=r(rt,"DIV",{class:!0});var mt=D(y);p(F.$$.fragment,mt),gt=o(mt),A=r(mt,"P",{"data-svelte-h":!0}),B(A)!=="svelte-utr5h5"&&(A.textContent=Dt),mt.forEach(e),rt.forEach(e),tt=o(t),p(L.$$.fragment,t),et=o(t),h=r(t,"DIV",{class:!0});var dt=D(h);p(j.$$.fragment,dt),ut=o(dt),$=r(dt,"DIV",{class:!0});var pt=D($);p(I.$$.fragment,pt),ft=o(pt),M=r(pt,"P",{"data-svelte-h":!0}),B(M)!=="svelte-wdls4c"&&(M.textContent=St),pt.forEach(e),dt.forEach(e),nt=o(t),p(V.$$.fragment,t),at=o(t),H=r(t,"P",{}),D(H).forEach(e),this.h()},h(){S(g,"name","hf:doc:metadata"),S(g,"content",Ft),S(v,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),S(u,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),S(y,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),S(f,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),S($,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),S(h,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8")},m(t,n){m(document.head,g),a(t,O,n),a(t,W,n),a(t,R,n),l(x,t,n),a(t,U,n),l(G,t,n),a(t,J,n),a(t,w,n),a(t,K,n),a(t,z,n),a(t,Q,n),l(T,t,n),a(t,X,n),a(t,u,n),l(C,u,null),m(u,bt),m(u,v),l(N,v,null),m(v,ct),m(v,k),a(t,Y,n),l(E,t,n),a(t,Z,n),a(t,f,n),l(P,f,null),m(f,_t),m(f,y),l(F,y,null),m(y,gt),m(y,A),a(t,tt,n),l(L,t,n),a(t,et,n),a(t,h,n),l(j,h,null),m(h,ut),m(h,$),l(I,$,null),m($,ft),m($,M),a(t,nt,n),l(V,t,n),a(t,at,n),a(t,H,n),it=!0},p:Gt,i(t){it\|\|(b(x.$$.fragment,t),b(G.$$.fragment,t),b(T.$$.fragment,t),b(C.$$.fragment,t),b(N.$$.fragment,t),b(E.$$.fragment,t),b(P.$$.fragment,t),b(F.$$.fragment,t),b(L.$$.fragment,t),b(j.$$.fragment,t),b(I.$$.fragment,t),b(V.$$.fragment,t),it=!0)},o(t){c(x.$$.fragment,t),c(G.$$.fragment,t),c(T.$$.fragment,t),c(C.$$.fragment,t),c(N.$$.fragment,t),c(E.$$.fragment,t),c(P.$$.fragment,t),c(F.$$.fragment,t),c(L.$$.fragment,t),c(j.$$.fragment,t),c(I.$$.fragment,t),c(V.$$.fragment,t),it=!1},d(t){t&&(e(O),e(W),e(R),e(U),e(J),e(w),e(K),e(z),e(Q),e(X),e(u),e(Y),e(Z),e(f),e(tt),e(et),e(h),e(nt),e(at),e(H)),e(g),_(x,t),_(G,t),_(T,t),_(C),_(N),_(E,t),_(P),_(F),_(L,t),_(j),_(I),_(V,t)}}}const Ft='{"title":"SGD","local":"sgd","sections":[{"title":"SGD","local":"api-class ][ bitsandbytes.optim.SGD","sections":[],"depth":2},{"title":"SGD8bit","local":"bitsandbytes.optim.SGD8bit","sections":[],"depth":2},{"title":"SGD32bit","local":"bitsandbytes.optim.SGD32bit","sections":[],"depth":2}],"depth":1}';function Lt(ht){return wt(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class At extends zt{constructor(g){super(),Tt(this,g,Lt,Pt,xt,{})}}export{At as component};

Xet Storage Details

Size:: 13.5 kB
Xet hash:: b81b986b36f75265343414c590ad6633b0ad34facfe3f72fc9ac76493c318a7f

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.