// LFM2.5-350M (Q4_0 GGUF) WebGPU chat bundle. Import { Lfm2Mobile } from this file. var Iu=Object.defineProperty;var re=(e,n)=>()=>(e&&(n=e(e=0)),n);var bt=(e,n)=>{for(var t in n)Iu(e,t,{get:n[t],enumerable:!0})};function ta(e){return/\w/.test(e)}function Gn(e){return/[0-9]/.test(e)}function ra(e){return/\s/.test(e)}function Hu(e,n={}){return e.endsWith(` `)&&(e=e.slice(0,-1)),n.lstrip_blocks&&(e=e.replace(/^[ \t]*({[#%-])/gm,"$1")),n.trim_blocks&&(e=e.replace(/([#%-]})\n/g,"$1")),e.replace(/(\s*){%(-?)\s*(?:end)?generation\s*(-?)%}(\s*)/gs,(t,r,s,a,i)=>(s?"":r)+(a?"":i))}function vt(e,n={}){let t=[],r=Hu(e,n),s=0,a=0,i=l=>{let d="";for(;l(r[s]);){if(r[s]==="\\"){if(++s,s>=r.length)throw new SyntaxError("Unexpected end of input");let c=r[s++],p=Nu.get(c);if(p===void 0)throw new SyntaxError(`Unexpected escaped character: ${c}`);d+=p;continue}if(d+=r[s++],s>=r.length)throw new SyntaxError("Unexpected end of input")}return d},o=()=>{let l=t.at(-1);l&&l.type===y.Text&&(l.value=l.value.trimEnd(),l.value===""&&t.pop())},u=()=>{for(;s0){t.push(new Oe(c,y.Text));continue}}if(r[s]==="{"&&r[s+1]==="#"){s+=2;let c=r[s]==="-";c&&++s;let p="";for(;r[s]!=="#"||r[s+1]!=="}";){if(s+2>=r.length)throw new SyntaxError("Missing end of comment tag");p+=r[s++]}let f=p.endsWith("-");f&&(p=p.slice(0,-1)),c&&o(),t.push(new Oe(p,y.Comment)),s+=2,f&&u();continue}if(r.slice(s,s+3)==="{%-"){o(),t.push(new Oe("{%",y.OpenStatement)),s+=3;continue}if(r.slice(s,s+3)==="{{-"){o(),t.push(new Oe("{{",y.OpenExpression)),a=0,s+=3;continue}if(i(ra),r.slice(s,s+3)==="-%}"){t.push(new Oe("%}",y.CloseStatement)),s+=3,u();continue}if(r.slice(s,s+3)==="-}}"){t.push(new Oe("}}",y.CloseExpression)),s+=3,u();continue}let d=r[s];if(d==="-"||d==="+"){let c=t.at(-1)?.type;if(c===y.Text||c===void 0)throw new SyntaxError(`Unexpected character: ${d}`);switch(c){case y.Identifier:case y.NumericLiteral:case y.StringLiteral:case y.CloseParen:case y.CloseSquareBracket:break;default:{++s;let p=i(Gn);t.push(new Oe(`${d}${p}`,p.length>0?y.NumericLiteral:y.UnaryOperator));continue}}}for(let[c,p]of Bu){if(c==="}}"&&a>0)continue;if(r.slice(s,s+c.length)===c){t.push(new Oe(c,p)),p===y.OpenExpression?a=0:p===y.OpenCurlyBracket?++a:p===y.CloseCurlyBracket&&--a,s+=c.length;continue e}}if(d==="'"||d==='"'){++s;let c=i(p=>p!==d);t.push(new Oe(c,y.StringLiteral)),++s;continue}if(Gn(d)){let c=i(Gn);if(t.at(-1)?.type!==y.Dot&&r[s]==="."&&Gn(r[s+1])){++s;let p=i(Gn);c=`${c}.${p}`}t.push(new Oe(c,y.NumericLiteral));continue}if(ta(d)){let c=i(ta);t.push(new Oe(c,y.Identifier));continue}throw new SyntaxError(`Unexpected character: ${d}`)}return t}function kt(e){let n=new Uu([]),t=0;function r(_,b){let v=e[t++];if(!v||v.type!==_)throw new Error(`Parser Error: ${b}. ${v.type} !== ${_}.`);return v}function s(_){if(!u(_))throw new SyntaxError(`Expected ${_}`);++t}function a(){switch(e[t].type){case y.Comment:return new Zu(e[t++].value);case y.Text:return l();case y.OpenStatement:return d();case y.OpenExpression:return c();default:throw new SyntaxError(`Unexpected token type: ${e[t].type}`)}}function i(..._){return t+_.length<=e.length&&_.every((b,v)=>b===e[t+v].type)}function o(..._){return e[t]?.type===y.OpenStatement&&e[t+1]?.type===y.Identifier&&_.includes(e[t+1]?.value)}function u(..._){return t+_.length<=e.length&&_.every((b,v)=>e[t+v].type==="Identifier"&&b===e[t+v].value)}function l(){return new aa(r(y.Text,"Expected text token").value)}function d(){if(r(y.OpenStatement,"Expected opening statement token"),e[t].type!==y.Identifier)throw new SyntaxError(`Unknown statement, got ${e[t].type}`);let _=e[t].value,b;switch(_){case"set":++t,b=p();break;case"if":++t,b=f(),r(y.OpenStatement,"Expected {% token"),s("endif"),r(y.CloseStatement,"Expected %} token");break;case"macro":++t,b=h(),r(y.OpenStatement,"Expected {% token"),s("endmacro"),r(y.CloseStatement,"Expected %} token");break;case"for":++t,b=g(),r(y.OpenStatement,"Expected {% token"),s("endfor"),r(y.CloseStatement,"Expected %} token");break;case"call":{++t;let v=null;i(y.OpenParen)&&(v=ae());let A=O();if(A.type!=="Identifier")throw new SyntaxError("Expected identifier following call statement");let me=ae();r(y.CloseStatement,"Expected closing statement token");let oe=[];for(;!o("endcall");)oe.push(a());r(y.OpenStatement,"Expected '{%'"),s("endcall"),r(y.CloseStatement,"Expected closing statement token");let gt=new sa(A,me);b=new dl(gt,v,oe);break}case"break":++t,r(y.CloseStatement,"Expected closing statement token"),b=new Vu;break;case"continue":++t,r(y.CloseStatement,"Expected closing statement token"),b=new $u;break;case"filter":{++t;let v=O();v instanceof qn&&i(y.OpenParen)&&(v=H(v)),r(y.CloseStatement,"Expected closing statement token");let A=[];for(;!o("endfilter");)A.push(a());r(y.OpenStatement,"Expected '{%'"),s("endfilter"),r(y.CloseStatement,"Expected '%}'"),b=new rl(v,A);break}default:throw new SyntaxError(`Unknown statement type: ${_}`)}return b}function c(){r(y.OpenExpression,"Expected opening expression token");let _=w();return r(y.CloseExpression,"Expected closing expression token"),_}function p(){let _=m(),b=null,v=[];if(i(y.Equals))++t,b=m();else{for(r(y.CloseStatement,"Expected %} token");!o("endset");)v.push(a());r(y.OpenStatement,"Expected {% token"),s("endset")}return r(y.CloseStatement,"Expected closing statement token"),new ju(_,b,v)}function f(){let _=w();r(y.CloseStatement,"Expected closing statement token");let b=[],v=[];for(;!o("elif","else","endif");)b.push(a());if(o("elif")){++t,++t;let A=f();v.push(A)}else if(o("else"))for(++t,++t,r(y.CloseStatement,"Expected closing statement token");!o("endif");)v.push(a());return new Fu(_,b,v)}function h(){let _=O();if(_.type!=="Identifier")throw new SyntaxError("Expected identifier following macro statement");let b=ae();r(y.CloseStatement,"Expected closing statement token");let v=[];for(;!o("endmacro");)v.push(a());return new Qu(_,b,v)}function m(_=!1){let b=_?O:w,v=[b()],A=i(y.Comma);for(;A&&(++t,v.push(b()),!!i(y.Comma)););return A?new ia(v):v[0]}function g(){let _=m(!0);if(!(_ instanceof qn||_ instanceof ia))throw new SyntaxError(`Expected identifier/tuple for the loop variable, got ${_.type} instead`);if(!u("in"))throw new SyntaxError("Expected `in` keyword following loop variable");++t;let b=w();r(y.CloseStatement,"Expected closing statement token");let v=[];for(;!o("endfor","else");)v.push(a());let A=[];if(o("else"))for(++t,++t,r(y.CloseStatement,"Expected closing statement token");!o("endfor");)A.push(a());return new Ku(_,b,v,A)}function w(){return T()}function T(){let _=x();if(u("if")){++t;let b=x();if(u("else")){++t;let v=T();return new cl(b,_,v)}else return new sl(_,b)}return _}function x(){let _=q();for(;u("or");){let b=e[t];++t;let v=q();_=new In(b,_,v)}return _}function q(){let _=k();for(;u("and");){let b=e[t];++t;let v=k();_=new In(b,_,v)}return _}function k(){let _;for(;u("not");){let b=e[t];++t;let v=k();_=new il(b,v)}return _??B()}function B(){let _=V();for(;;){let b;if(u("not","in"))b=new Oe("not in",y.Identifier),t+=2;else if(u("in"))b=e[t++];else if(i(y.ComparisonBinaryOperator))b=e[t++];else break;let v=V();_=new In(b,_,v)}return _}function V(){let _=I();for(;i(y.AdditiveBinaryOperator);){let b=e[t];++t;let v=I();_=new In(b,_,v)}return _}function S(){let _=fe(O());return i(y.OpenParen)?H(_):_}function H(_){let b=new sa(_,ae());return b=fe(b),i(y.OpenParen)&&(b=H(b)),b}function ae(){r(y.OpenParen,"Expected opening parenthesis for arguments list");let _=ie();return r(y.CloseParen,"Expected closing parenthesis for arguments list"),_}function ie(){let _=[];for(;!i(y.CloseParen);){let b;if(e[t].type===y.MultiplicativeBinaryOperator&&e[t].value==="*"){++t;let v=w();b=new ll(v)}else if(b=w(),i(y.Equals)){if(++t,!(b instanceof qn))throw new SyntaxError("Expected identifier for keyword argument");let v=w();b=new ul(b,v)}_.push(b),i(y.Comma)&&++t}return _}function U(){let _=[],b=!1;for(;!i(y.CloseSquareBracket);)i(y.Colon)?(_.push(void 0),++t,b=!0):(_.push(w()),i(y.Colon)&&(++t,b=!0));if(_.length===0)throw new SyntaxError("Expected at least one argument for member/slice expression");if(b){if(_.length>3)throw new SyntaxError("Expected 0-3 arguments for slice expression");return new ol(..._)}return _[0]}function fe(_){for(;i(y.Dot)||i(y.OpenSquareBracket);){let b=e[t];++t;let v,A=b.type===y.OpenSquareBracket;if(A)v=U(),r(y.CloseSquareBracket,"Expected closing square bracket");else if(v=O(),v.type!=="Identifier"&&v.type!=="IntegerLiteral")throw new SyntaxError("Expected identifier or integer following dot operator");_=new Yu(_,v,A)}return _}function I(){let _=te();for(;i(y.MultiplicativeBinaryOperator);){let b=e[t++],v=te();_=new In(b,_,v)}return _}function te(){let _=ye();for(;u("is");){++t;let b=u("not");b&&++t;let v=O();if(!(v instanceof qn))throw new SyntaxError("Expected identifier for the test");_=new al(_,b,v)}return _}function ye(){let _=S();for(;i(y.Pipe);){++t;let b=O();if(!(b instanceof qn))throw new SyntaxError("Expected identifier for the filter");i(y.OpenParen)&&(b=H(b)),_=new tl(_,b)}return _}function O(){let _=e[t++];switch(_.type){case y.NumericLiteral:{let b=_.value;return b.includes(".")?new Ju(Number(b)):new Xu(Number(b))}case y.StringLiteral:{let b=_.value;for(;i(y.StringLiteral);)b+=e[t++].value;return new aa(b)}case y.Identifier:return new qn(_.value);case y.OpenParen:{let b=m();return r(y.CloseParen,"Expected closing parenthesis, got ${tokens[current].type} instead."),b}case y.OpenSquareBracket:{let b=[];for(;!i(y.CloseSquareBracket);)b.push(w()),i(y.Comma)&&++t;return++t,new el(b)}case y.OpenCurlyBracket:{let b=new Map;for(;!i(y.CloseCurlyBracket);){let v=w();r(y.Colon,"Expected colon between key and value in object literal");let A=w();b.set(v,A),i(y.Comma)&&++t}return++t,new nl(b)}default:throw new SyntaxError(`Unexpected token: ${_.type}`)}}for(;t0)for(let s=e;sn;s+=t)r.push(s);return r}function oa(e,n,t,r=1){let s=Math.sign(r);s>=0?(n=(n??=0)<0?Math.max(e.length+n,0):Math.min(n,e.length),t=(t??=e.length)<0?Math.max(e.length+t,0):Math.min(t,e.length)):(n=(n??=e.length-1)<0?Math.max(e.length+n,-1):Math.min(n,e.length-1),t=(t??=-1)<-1?Math.max(e.length+t,-1):Math.min(t,e.length-1));let a=[];for(let i=n;s*in.toUpperCase())}function ml(e){return hl(new Date,e)}function hl(e,n){let t=new Intl.DateTimeFormat(void 0,{month:"long"}),r=new Intl.DateTimeFormat(void 0,{month:"short"}),s=a=>a<10?"0"+a:a.toString();return n.replace(/%[YmdbBHM%]/g,a=>{switch(a){case"%Y":return e.getFullYear().toString();case"%m":return s(e.getMonth()+1);case"%d":return s(e.getDate());case"%b":return r.format(e);case"%B":return t.format(e);case"%H":return s(e.getHours());case"%M":return s(e.getMinutes());case"%%":return"%";default:return a}})}function gl(e){return e.replace(/[.*+?^${}()|[\]\\]/g,"\\$&")}function _l(e,n,t,r){if(r===0)return e;let s=r==null||r<0?1/0:r,a=n.length===0?new RegExp("(?=)","gu"):new RegExp(gl(n),"gu");return e.replaceAll(a,i=>s>0?(--s,t):i)}function da(e){return e.replace(bl,n=>"\\u"+n.charCodeAt(0).toString(16).padStart(4,"0"))}function mn(e,n={},t=0,r=!0){let{indent:s=null,ensureAscii:a=!1,separators:i=null,sortKeys:o=!1}=n,u,l;switch(i?[u,l]=i:s?(u=",",l=": "):(u=", ",l=": "),e.type){case"NullValue":return"null";case"UndefinedValue":return r?"null":"undefined";case"IntegerValue":case"FloatValue":case"BooleanValue":return JSON.stringify(e.value);case"StringValue":{let d=JSON.stringify(e.value);return a&&(d=da(d)),d}case"ArrayValue":case"ObjectValue":{let d=s?" ".repeat(s):"",c=` `+d.repeat(t),p=c+d;if(e.type==="ArrayValue"){let f=e.value.map(h=>mn(h,n,t+1,r));return s?`[${p}${f.join(`${u}${p}`)}${c}]`:`[${f.join(u)}]`}else{let f=Array.from(e.value.entries());o&&(f=f.sort(([m],[g])=>m.localeCompare(g)));let h=f.map(([m,g])=>{let w=JSON.stringify(m);a&&(w=da(w));let T=`${w}${l}${mn(g,n,t+1,r)}`;return s?`${p}${T}`:T});return s?`{${h.join(u)}${c}}`:`{${h.join(u)}}`}}default:throw new Error(`Cannot convert to JSON: ${e.type}`)}}function wl(e){e.set("false",!1),e.set("true",!0),e.set("none",null),e.set("raise_exception",n=>{throw new Error(n)}),e.set("range",pl),e.set("strftime_now",ml),e.set("True",!0),e.set("False",!1),e.set("None",null)}function pa(e,n){let t=n.split("."),r=e;for(let s of t)if(r instanceof ce)r=r.value.get(s)??new $;else if(r instanceof R){let a=parseInt(s,10);if(!isNaN(a)&&a>=0&&aa instanceof P||a instanceof ee||a instanceof C,s=a=>a instanceof C?a.value?1:0:a.value;if(r(e)&&r(n)){let a=s(e),i=s(n);return ai?1:0}if(e.type!==n.type)throw new Error(`Cannot compare different types: ${e.type} and ${n.type}`);if(e.type==="StringValue"){let a=e.value,i=n.value;return t||(a=a.toLowerCase(),i=i.toLowerCase()),ai?1:0}else throw new Error(`Cannot compare type: ${e.type}`)}function wt(e){switch(typeof e){case"number":return Number.isInteger(e)?new P(e):new ee(e);case"string":return new E(e);case"boolean":return new C(e);case"undefined":return new $;case"object":return e===null?new Z:Array.isArray(e)?new R(e.map(wt)):new ce(new Map(Object.entries(e).map(([n,t])=>[n,wt(t)])));case"function":return new j((n,t)=>{let r=e(...n.map(s=>s.value))??null;return wt(r)});default:throw new Error(`Cannot convert to runtime value: ${e}`)}}function Sl(e){switch(e.operator.type){case"MultiplicativeBinaryOperator":return 4;case"AdditiveBinaryOperator":return 3;case"ComparisonBinaryOperator":return 2;case"Identifier":return e.operator.value==="and"?1:e.operator.value==="in"||e.operator.value==="not in"?2:0}return 0}function Tl(e,n=" "){let t=typeof n=="number"?" ".repeat(n):n;return Pe(e.body,0,t).replace(/\n$/,"")}function he(...e){return vl+e.join(" ")+kl}function Pe(e,n,t){return e.map(r=>xl(r,n,t)).join(le)}function xl(e,n,t){let r=t.repeat(n);switch(e.type){case"Program":return Pe(e.body,n,t);case"If":return Dl(e,n,t);case"For":return El(e,n,t);case"Set":return ql(e,n,t);case"Macro":return Ll(e,n,t);case"Break":return r+he("break");case"Continue":return r+he("continue");case"CallStatement":return Ol(e,n,t);case"FilterStatement":return Cl(e,n,t);case"Comment":return r+"{# "+e.value+" #}";default:return r+"{{- "+W(e)+" -}}"}}function Dl(e,n,t){let r=t.repeat(n),s=[],a=e;for(;a&&(s.push({test:a.test,body:a.body}),a.alternate.length===1&&a.alternate[0].type==="If");)a=a.alternate[0];let i=r+he("if",W(s[0].test))+le+Pe(s[0].body,n+1,t);for(let o=1;o0&&(i+=le+r+he("else")+le+Pe(a.alternate,n+1,t)),i+=le+r+he("endif"),i}function El(e,n,t){let r=t.repeat(n),s="";if(e.iterable.type==="SelectExpression"){let i=e.iterable;s=`${W(i.lhs)} if ${W(i.test)}`}else s=W(e.iterable);let a=r+he("for",W(e.loopvar),"in",s)+le+Pe(e.body,n+1,t);return e.defaultBlock.length>0&&(a+=le+r+he("else")+le+Pe(e.defaultBlock,n+1,t)),a+=le+r+he("endfor"),a}function ql(e,n,t){let r=t.repeat(n),s=W(e.assignee),a=e.value?W(e.value):"",i=r+he("set",`${s}${e.value?" = "+a:""}`);return e.body.length===0?i:i+le+Pe(e.body,n+1,t)+le+r+he("endset")}function Ll(e,n,t){let r=t.repeat(n),s=e.args.map(W).join(", ");return r+he("macro",`${e.name.value}(${s})`)+le+Pe(e.body,n+1,t)+le+r+he("endmacro")}function Ol(e,n,t){let r=t.repeat(n),s=e.callerArgs&&e.callerArgs.length>0?`(${e.callerArgs.map(W).join(", ")})`:"",a=W(e.call),i=r+he(`call${s}`,a)+le;return i+=Pe(e.body,n+1,t)+le,i+=r+he("endcall"),i}function Cl(e,n,t){let r=t.repeat(n),s=e.filter.type==="Identifier"?e.filter.value:W(e.filter),a=r+he("filter",s)+le;return a+=Pe(e.body,n+1,t)+le,a+=r+he("endfilter"),a}function W(e,n=-1){switch(e.type){case"SpreadExpression":return`*${W(e.argument)}`;case"Identifier":return e.value;case"IntegerLiteral":return`${e.value}`;case"FloatLiteral":return`${e.value}`;case"StringLiteral":return JSON.stringify(e.value);case"BinaryExpression":{let t=e,r=Sl(t),s=W(t.left,r),a=W(t.right,r+1),i=`${s} ${t.operator.value} ${a}`;return r`${W(r)}: ${W(s)}`).join(", ")}}`;case"SliceExpression":{let t=e,r=t.start?W(t.start):"",s=t.stop?W(t.stop):"",a=t.step?`:${W(t.step)}`:"";return`${r}:${s}${a}`}case"KeywordArgumentExpression":{let t=e;return`${t.key.value}=${W(t.value)}`}case"Ternary":{let t=e,r=`${W(t.trueExpr)} if ${W(t.condition,0)} else ${W(t.falseExpr)}`;return n>-1?`(${r})`:r}default:throw new Error(`Unknown expression type: ${e.type}`)}}var Ru,Wu,Mu,y,Oe,Bu,Nu,ze,Uu,Fu,Ku,Vu,$u,ju,Qu,Zu,De,Yu,sa,qn,Ln,Xu,Ju,aa,el,ia,nl,In,tl,rl,sl,al,il,ol,ul,ll,dl,cl,ua,la,yl,Ne,P,ee,E,C,bl,ce,Rn,R,ca,j,Z,$,fa,Be,zr,le,vl,kl,St,Ar=re(()=>{Ru=Object.defineProperty,Wu=(e,n,t)=>n in e?Ru(e,n,{enumerable:!0,configurable:!0,writable:!0,value:t}):e[n]=t,Mu=(e,n,t)=>(Wu(e,typeof n!="symbol"?n+"":n,t),t),y=Object.freeze({Text:"Text",NumericLiteral:"NumericLiteral",StringLiteral:"StringLiteral",Identifier:"Identifier",Equals:"Equals",OpenParen:"OpenParen",CloseParen:"CloseParen",OpenStatement:"OpenStatement",CloseStatement:"CloseStatement",OpenExpression:"OpenExpression",CloseExpression:"CloseExpression",OpenSquareBracket:"OpenSquareBracket",CloseSquareBracket:"CloseSquareBracket",OpenCurlyBracket:"OpenCurlyBracket",CloseCurlyBracket:"CloseCurlyBracket",Comma:"Comma",Dot:"Dot",Colon:"Colon",Pipe:"Pipe",CallOperator:"CallOperator",AdditiveBinaryOperator:"AdditiveBinaryOperator",MultiplicativeBinaryOperator:"MultiplicativeBinaryOperator",ComparisonBinaryOperator:"ComparisonBinaryOperator",UnaryOperator:"UnaryOperator",Comment:"Comment"}),Oe=class{constructor(e,n){this.value=e,this.type=n}};Bu=[["{%",y.OpenStatement],["%}",y.CloseStatement],["{{",y.OpenExpression],["}}",y.CloseExpression],["(",y.OpenParen],[")",y.CloseParen],["{",y.OpenCurlyBracket],["}",y.CloseCurlyBracket],["[",y.OpenSquareBracket],["]",y.CloseSquareBracket],[",",y.Comma],[".",y.Dot],[":",y.Colon],["|",y.Pipe],["<=",y.ComparisonBinaryOperator],[">=",y.ComparisonBinaryOperator],["==",y.ComparisonBinaryOperator],["!=",y.ComparisonBinaryOperator],["<",y.ComparisonBinaryOperator],[">",y.ComparisonBinaryOperator],["+",y.AdditiveBinaryOperator],["-",y.AdditiveBinaryOperator],["~",y.AdditiveBinaryOperator],["*",y.MultiplicativeBinaryOperator],["/",y.MultiplicativeBinaryOperator],["%",y.MultiplicativeBinaryOperator],["=",y.Equals]],Nu=new Map([["n",` `],["t"," "],["r","\r"],["b","\b"],["f","\f"],["v","\v"],["'","'"],['"','"'],["\\","\\"]]);ze=class{type="Statement"},Uu=class extends ze{constructor(e){super(),this.body=e}type="Program"},Fu=class extends ze{constructor(e,n,t){super(),this.test=e,this.body=n,this.alternate=t}type="If"},Ku=class extends ze{constructor(e,n,t,r){super(),this.loopvar=e,this.iterable=n,this.body=t,this.defaultBlock=r}type="For"},Vu=class extends ze{type="Break"},$u=class extends ze{type="Continue"},ju=class extends ze{constructor(e,n,t){super(),this.assignee=e,this.value=n,this.body=t}type="Set"},Qu=class extends ze{constructor(e,n,t){super(),this.name=e,this.args=n,this.body=t}type="Macro"},Zu=class extends ze{constructor(e){super(),this.value=e}type="Comment"},De=class extends ze{type="Expression"},Yu=class extends De{constructor(e,n,t){super(),this.object=e,this.property=n,this.computed=t}type="MemberExpression"},sa=class extends De{constructor(e,n){super(),this.callee=e,this.args=n}type="CallExpression"},qn=class extends De{constructor(e){super(),this.value=e}type="Identifier"},Ln=class extends De{constructor(e){super(),this.value=e}type="Literal"},Xu=class extends Ln{type="IntegerLiteral"},Ju=class extends Ln{type="FloatLiteral"},aa=class extends Ln{type="StringLiteral"},el=class extends Ln{type="ArrayLiteral"},ia=class extends Ln{type="TupleLiteral"},nl=class extends Ln{type="ObjectLiteral"},In=class extends De{constructor(e,n,t){super(),this.operator=e,this.left=n,this.right=t}type="BinaryExpression"},tl=class extends De{constructor(e,n){super(),this.operand=e,this.filter=n}type="FilterExpression"},rl=class extends ze{constructor(e,n){super(),this.filter=e,this.body=n}type="FilterStatement"},sl=class extends De{constructor(e,n){super(),this.lhs=e,this.test=n}type="SelectExpression"},al=class extends De{constructor(e,n,t){super(),this.operand=e,this.negate=n,this.test=t}type="TestExpression"},il=class extends De{constructor(e,n){super(),this.operator=e,this.argument=n}type="UnaryExpression"},ol=class extends De{constructor(e=void 0,n=void 0,t=void 0){super(),this.start=e,this.stop=n,this.step=t}type="SliceExpression"},ul=class extends De{constructor(e,n){super(),this.key=e,this.value=n}type="KeywordArgumentExpression"},ll=class extends De{constructor(e){super(),this.argument=e}type="SpreadExpression"},dl=class extends ze{constructor(e,n,t){super(),this.call=e,this.callerArgs=n,this.body=t}type="CallStatement"},cl=class extends De{constructor(e,n,t){super(),this.condition=e,this.trueExpr=n,this.falseExpr=t}type="Ternary"};ua=class extends Error{},la=class extends Error{},yl=new Map,Ne=class{type="RuntimeValue";value;get builtins(){return yl}constructor(e=void 0){this.value=e}__bool__(){return new C(!!this.value)}toString(){return String(this.value)}},P=class extends Ne{type="IntegerValue"},ee=class extends Ne{type="FloatValue";toString(){return this.value%1===0?this.value.toFixed(1):this.value.toString()}},E=class extends Ne{type="StringValue";_builtins;get builtins(){return this._builtins??=new Map([["upper",new j(()=>new E(this.value.toUpperCase()))],["lower",new j(()=>new E(this.value.toLowerCase()))],["strip",new j(()=>new E(this.value.trim()))],["title",new j(()=>new E(fl(this.value)))],["capitalize",new j(()=>new E(this.value.charAt(0).toUpperCase()+this.value.slice(1)))],["length",new P(this.value.length)],["rstrip",new j(()=>new E(this.value.trimEnd()))],["lstrip",new j(()=>new E(this.value.trimStart()))],["startswith",new j(e=>{if(e.length===0)throw new Error("startswith() requires at least one argument");let n=e[0];if(n instanceof E)return new C(this.value.startsWith(n.value));if(n instanceof R){for(let t of n.value){if(!(t instanceof E))throw new Error("startswith() tuple elements must be strings");if(this.value.startsWith(t.value))return new C(!0)}return new C(!1)}throw new Error("startswith() argument must be a string or tuple of strings")})],["endswith",new j(e=>{if(e.length===0)throw new Error("endswith() requires at least one argument");let n=e[0];if(n instanceof E)return new C(this.value.endsWith(n.value));if(n instanceof R){for(let t of n.value){if(!(t instanceof E))throw new Error("endswith() tuple elements must be strings");if(this.value.endsWith(t.value))return new C(!0)}return new C(!1)}throw new Error("endswith() argument must be a string or tuple of strings")})],["split",new j(e=>{let n=e[0]??new Z;if(!(n instanceof E||n instanceof Z))throw new Error("sep argument must be a string or null");let t=e[1]??new P(-1);if(!(t instanceof P))throw new Error("maxsplit argument must be a number");let r=[];if(n instanceof Z){let s=this.value.trimStart();for(let{0:a,index:i}of s.matchAll(/\S+/g)){if(t.value!==-1&&r.length>=t.value&&i!==void 0){r.push(a+s.slice(i+a.length));break}r.push(a)}}else{if(n.value==="")throw new Error("empty separator");r=this.value.split(n.value),t.value!==-1&&r.length>t.value&&r.push(r.splice(t.value).join(n.value))}return new R(r.map(s=>new E(s)))})],["replace",new j(e=>{if(e.length<2)throw new Error("replace() requires at least two arguments");let n=e[0],t=e[1];if(!(n instanceof E&&t instanceof E))throw new Error("replace() arguments must be strings");let r;if(e.length>2?e[2].type==="KeywordArgumentsValue"?r=e[2].value.get("count")??new Z:r=e[2]:r=new Z,!(r instanceof P||r instanceof Z))throw new Error("replace() count argument must be a number or null");return new E(_l(this.value,n.value,t.value,r.value))})]])}},C=class extends Ne{type="BooleanValue"},bl=/[\x7f-\uffff]/g;ce=class extends Ne{type="ObjectValue";_builtins;__bool__(){return new C(this.value.size>0)}get builtins(){return this._builtins??=new Map([["get",new j(([e,n])=>{if(!(e instanceof E))throw new Error(`Object key must be a string: got ${e.type}`);return this.value.get(e.value)??n??new Z})],["items",new j(()=>this.items())],["keys",new j(()=>this.keys())],["values",new j(()=>this.values())],["dictsort",new j(e=>{let n=new Map,t=e.filter(o=>o instanceof Rn?(n=o.value,!1):!0),r=t.at(0)??n.get("case_sensitive")??new C(!1);if(!(r instanceof C))throw new Error("case_sensitive must be a boolean");let s=t.at(1)??n.get("by")??new E("key");if(!(s instanceof E))throw new Error("by must be a string");if(!["key","value"].includes(s.value))throw new Error("by must be either 'key' or 'value'");let a=t.at(2)??n.get("reverse")??new C(!1);if(!(a instanceof C))throw new Error("reverse must be a boolean");let i=Array.from(this.value.entries()).map(([o,u])=>new R([new E(o),u])).sort((o,u)=>{let l=s.value==="key"?0:1,d=o.value[l],c=u.value[l],p=Pr(d,c,r.value);return a.value?-p:p});return new R(i)})]])}items(){return new R(Array.from(this.value.entries()).map(([e,n])=>new R([new E(e),n])))}keys(){return new R(Array.from(this.value.keys()).map(e=>new E(e)))}values(){return new R(Array.from(this.value.values()))}toString(){return mn(this,{},0,!1)}},Rn=class extends ce{type="KeywordArgumentsValue"},R=class extends Ne{type="ArrayValue";_builtins;get builtins(){return this._builtins??=new Map([["length",new P(this.value.length)]])}__bool__(){return new C(this.value.length>0)}toString(){return mn(this,{},0,!1)}},ca=class extends R{type="TupleValue"},j=class extends Ne{type="FunctionValue"},Z=class extends Ne{type="NullValue"},$=class extends Ne{type="UndefinedValue"},fa=class{constructor(e){this.parent=e}variables=new Map([["namespace",new j(e=>{if(e.length===0)return new ce(new Map);if(e.length!==1||!(e[0]instanceof ce))throw new Error("`namespace` expects either zero arguments or a single object argument");return e[0]})]]);tests=fa.TESTS;set(e,n){return this.declareVariable(e,wt(n))}declareVariable(e,n){if(this.variables.has(e))throw new SyntaxError(`Variable already declared: ${e}`);return this.variables.set(e,n),n}setVariable(e,n){return this.variables.set(e,n),n}resolve(e){if(this.variables.has(e))return this;if(this.parent)return this.parent.resolve(e);throw new Error(`Unknown variable: ${e}`)}lookupVariable(e){try{return this.resolve(e).variables.get(e)??new $}catch{return new $}}},Be=fa;Mu(Be,"TESTS",new Map([["boolean",e=>e.type==="BooleanValue"],["callable",e=>e instanceof j],["odd",e=>{if(!(e instanceof P))throw new Error(`cannot odd on ${e.type}`);return e.value%2!==0}],["even",e=>{if(!(e instanceof P))throw new Error(`cannot even on ${e.type}`);return e.value%2===0}],["false",e=>e.type==="BooleanValue"&&!e.value],["true",e=>e.type==="BooleanValue"&&e.value],["none",e=>e.type==="NullValue"],["string",e=>e.type==="StringValue"],["number",e=>e instanceof P||e instanceof ee],["integer",e=>e instanceof P],["iterable",e=>e.type==="ArrayValue"||e.type==="StringValue"],["mapping",e=>e instanceof ce],["sequence",e=>e instanceof R||e instanceof ce||e instanceof E],["lower",e=>{let n=e.value;return e.type==="StringValue"&&n===n.toLowerCase()}],["upper",e=>{let n=e.value;return e.type==="StringValue"&&n===n.toUpperCase()}],["none",e=>e.type==="NullValue"],["defined",e=>e.type!=="UndefinedValue"],["undefined",e=>e.type==="UndefinedValue"],["equalto",(e,n)=>e.value===n.value],["eq",(e,n)=>e.value===n.value]]));zr=class{global;constructor(e){this.global=e??new Be}run(e){return this.evaluate(e,this.global)}evaluateBinaryExpression(e,n){let t=this.evaluate(e.left,n);switch(e.operator.value){case"and":return t.__bool__().value?this.evaluate(e.right,n):t;case"or":return t.__bool__().value?t:this.evaluate(e.right,n)}let r=this.evaluate(e.right,n);switch(e.operator.value){case"==":return new C(t.value==r.value);case"!=":return new C(t.value!=r.value)}if(t instanceof $||r instanceof $){if(r instanceof $&&["in","not in"].includes(e.operator.value))return new C(e.operator.value==="not in");throw new Error(`Cannot perform operation ${e.operator.value} on undefined values`)}else{if(t instanceof Z||r instanceof Z)throw new Error("Cannot perform operation on null values");if(e.operator.value==="~")return new E(t.value.toString()+r.value.toString());if((t instanceof P||t instanceof ee)&&(r instanceof P||r instanceof ee)){let s=t.value,a=r.value;switch(e.operator.value){case"+":case"-":case"*":{let i=e.operator.value==="+"?s+a:e.operator.value==="-"?s-a:s*a;return t instanceof ee||r instanceof ee?new ee(i):new P(i)}case"/":return new ee(s/a);case"%":{let i=s%a;return t instanceof ee||r instanceof ee?new ee(i):new P(i)}case"<":return new C(s":return new C(s>a);case">=":return new C(s>=a);case"<=":return new C(s<=a)}}else if(t instanceof R&&r instanceof R){if(e.operator.value==="+")return new R(t.value.concat(r.value))}else if(r instanceof R){let s=r.value.find(a=>a.value===t.value)!==void 0;switch(e.operator.value){case"in":return new C(s);case"not in":return new C(!s)}}}if((t instanceof E||r instanceof E)&&e.operator.value==="+")return new E(t.value.toString()+r.value.toString());if(t instanceof E&&r instanceof E)switch(e.operator.value){case"in":return new C(r.value.includes(t.value));case"not in":return new C(!r.value.includes(t.value))}if(t instanceof E&&r instanceof ce)switch(e.operator.value){case"in":return new C(r.value.has(t.value));case"not in":return new C(!r.value.has(t.value))}throw new SyntaxError(`Unknown operator "${e.operator.value}" between ${t.type} and ${r.type}`)}evaluateArguments(e,n){let t=[],r=new Map;for(let s of e)if(s.type==="SpreadExpression"){let a=s,i=this.evaluate(a.argument,n);if(!(i instanceof R))throw new Error(`Cannot unpack non-iterable type: ${i.type}`);for(let o of i.value)t.push(o)}else if(s.type==="KeywordArgumentExpression"){let a=s;r.set(a.key.value,this.evaluate(a.value,n))}else{if(r.size>0)throw new Error("Positional arguments must come before keyword arguments");t.push(this.evaluate(s,n))}return[t,r]}applyFilter(e,n,t){if(n.type==="Identifier"){let r=n;if(r.value==="safe")return e;if(r.value==="tojson")return new E(mn(e,{}));if(e instanceof R)switch(r.value){case"list":return e;case"first":return e.value[0];case"last":return e.value[e.value.length-1];case"length":return new P(e.value.length);case"reverse":return new R(e.value.slice().reverse());case"sort":return new R(e.value.slice().sort((s,a)=>Pr(s,a,!1)));case"join":return new E(e.value.map(s=>s.value).join(""));case"string":return new E(mn(e,{},0,!1));case"unique":{let s=new Set,a=[];for(let i of e.value)s.has(i.value)||(s.add(i.value),a.push(i));return new R(a)}default:throw new Error(`Unknown ArrayValue filter: ${r.value}`)}else if(e instanceof E)switch(r.value){case"length":case"upper":case"lower":case"title":case"capitalize":{let s=e.builtins.get(r.value);if(s instanceof j)return s.value([],t);if(s instanceof P)return s;throw new Error(`Unknown StringValue filter: ${r.value}`)}case"trim":return new E(e.value.trim());case"indent":return new E(e.value.split(` `).map((s,a)=>a===0||s.length===0?s:" "+s).join(` `));case"join":case"string":return e;case"int":{let s=parseInt(e.value,10);return new P(isNaN(s)?0:s)}case"float":{let s=parseFloat(e.value);return new ee(isNaN(s)?0:s)}default:throw new Error(`Unknown StringValue filter: ${r.value}`)}else if(e instanceof P||e instanceof ee)switch(r.value){case"abs":return e instanceof P?new P(Math.abs(e.value)):new ee(Math.abs(e.value));case"int":return new P(Math.floor(e.value));case"float":return new ee(e.value);case"string":return new E(e.toString());default:throw new Error(`Unknown NumericValue filter: ${r.value}`)}else if(e instanceof ce)switch(r.value){case"items":return new R(Array.from(e.value.entries()).map(([s,a])=>new R([new E(s),a])));case"length":return new P(e.value.size);default:{let s=e.builtins.get(r.value);if(s)return s instanceof j?s.value([],t):s;throw new Error(`Unknown ObjectValue filter: ${r.value}`)}}else if(e instanceof C)switch(r.value){case"bool":return new C(e.value);case"int":return new P(e.value?1:0);case"float":return new ee(e.value?1:0);case"string":return new E(e.value?"true":"false");default:throw new Error(`Unknown BooleanValue filter: ${r.value}`)}throw new Error(`Cannot apply filter "${r.value}" to type: ${e.type}`)}else if(n.type==="CallExpression"){let r=n;if(r.callee.type!=="Identifier")throw new Error(`Unknown filter: ${r.callee.type}`);let s=r.callee.value;if(s==="tojson"){let[,a]=this.evaluateArguments(r.args,t),i=a.get("indent")??new Z;if(!(i instanceof P||i instanceof Z))throw new Error("If set, indent must be a number");let o=a.get("ensure_ascii")??new C(!1);if(!(o instanceof C))throw new Error("If set, ensure_ascii must be a boolean");let u=a.get("sort_keys")??new C(!1);if(!(u instanceof C))throw new Error("If set, sort_keys must be a boolean");let l=a.get("separators")??new Z,d=null;if(l instanceof R||l instanceof ca){if(l.value.length!==2)throw new Error("separators must be a tuple of two strings");let[c,p]=l.value;if(!(c instanceof E)||!(p instanceof E))throw new Error("separators must be a tuple of two strings");d=[c.value,p.value]}else if(!(l instanceof Z))throw new Error("If set, separators must be a tuple of two strings");return new E(mn(e,{indent:i.value,ensureAscii:o.value,sortKeys:u.value,separators:d}))}else if(s==="join"){let a;if(e instanceof E)a=Array.from(e.value);else if(e instanceof R)a=e.value.map(l=>l.value);else throw new Error(`Cannot apply filter "${s}" to type: ${e.type}`);let[i,o]=this.evaluateArguments(r.args,t),u=i.at(0)??o.get("separator")??new E("");if(!(u instanceof E))throw new Error("separator must be a string");return new E(a.join(u.value))}else if(s==="int"||s==="float"){let[a,i]=this.evaluateArguments(r.args,t),o=a.at(0)??i.get("default")??(s==="int"?new P(0):new ee(0));if(e instanceof E){let u=s==="int"?parseInt(e.value,10):parseFloat(e.value);return isNaN(u)?o:s==="int"?new P(u):new ee(u)}else{if(e instanceof P||e instanceof ee)return e;if(e instanceof C)return s==="int"?new P(e.value?1:0):new ee(e.value?1:0);throw new Error(`Cannot apply filter "${s}" to type: ${e.type}`)}}else if(s==="default"){let[a,i]=this.evaluateArguments(r.args,t),o=a[0]??new E(""),u=a[1]??i.get("boolean")??new C(!1);if(!(u instanceof C))throw new Error("`default` filter flag must be a boolean");return e instanceof $||u.value&&!e.__bool__().value?o:e}if(e instanceof R){switch(s){case"sort":{let[a,i]=this.evaluateArguments(r.args,t),o=a.at(0)??i.get("reverse")??new C(!1);if(!(o instanceof C))throw new Error("reverse must be a boolean");let u=a.at(1)??i.get("case_sensitive")??new C(!1);if(!(u instanceof C))throw new Error("case_sensitive must be a boolean");let l=a.at(2)??i.get("attribute")??new Z;if(!(l instanceof E||l instanceof P||l instanceof Z))throw new Error("attribute must be a string, integer, or null");let d=c=>{if(l instanceof Z)return c;let p=l instanceof P?String(l.value):l.value;return pa(c,p)};return new R(e.value.slice().sort((c,p)=>{let f=d(c),h=d(p),m=Pr(f,h,u.value);return o.value?-m:m}))}case"selectattr":case"rejectattr":{let a=s==="selectattr";if(e.value.some(c=>!(c instanceof ce)))throw new Error(`\`${s}\` can only be applied to array of objects`);if(r.args.some(c=>c.type!=="StringLiteral"))throw new Error(`arguments of \`${s}\` must be strings`);let[i,o,u]=r.args.map(c=>this.evaluate(c,t)),l;if(o){let c=t.tests.get(o.value);if(!c)throw new Error(`Unknown test: ${o.value}`);l=c}else l=(...c)=>c[0].__bool__().value;let d=e.value.filter(c=>{let p=c.value.get(i.value),f=p?l(p,u):!1;return a?f:!f});return new R(d)}case"map":{let[,a]=this.evaluateArguments(r.args,t);if(a.has("attribute")){let i=a.get("attribute");if(!(i instanceof E))throw new Error("attribute must be a string");let o=a.get("default"),u=e.value.map(l=>{if(!(l instanceof ce))throw new Error("items in map must be an object");let d=pa(l,i.value);return d instanceof $?o??new $:d});return new R(u)}else throw new Error("`map` expressions without `attribute` set are not currently supported.")}}throw new Error(`Unknown ArrayValue filter: ${s}`)}else if(e instanceof E){switch(s){case"indent":{let[a,i]=this.evaluateArguments(r.args,t),o=a.at(0)??i.get("width")??new P(4);if(!(o instanceof P))throw new Error("width must be a number");let u=a.at(1)??i.get("first")??new C(!1),l=a.at(2)??i.get("blank")??new C(!1),d=e.value.split(` `),c=" ".repeat(o.value),p=d.map((f,h)=>!u.value&&h===0||!l.value&&f.length===0?f:c+f);return new E(p.join(` `))}case"replace":{let a=e.builtins.get("replace");if(!(a instanceof j))throw new Error("replace filter not available");let[i,o]=this.evaluateArguments(r.args,t);return a.value([...i,new Rn(o)],t)}}throw new Error(`Unknown StringValue filter: ${s}`)}else if(e instanceof ce){let a=e.builtins.get(s);if(a&&a instanceof j){let[i,o]=this.evaluateArguments(r.args,t);return o.size>0&&i.push(new Rn(o)),a.value(i,t)}throw new Error(`Unknown ObjectValue filter: ${s}`)}else throw new Error(`Cannot apply filter "${s}" to type: ${e.type}`)}throw new Error(`Unknown filter: ${n.type}`)}evaluateFilterExpression(e,n){let t=this.evaluate(e.operand,n);return this.applyFilter(t,e.filter,n)}evaluateTestExpression(e,n){let t=this.evaluate(e.operand,n),r=n.tests.get(e.test.value);if(!r)throw new Error(`Unknown test: ${e.test.value}`);let s=r(t);return new C(e.negate?!s:s)}evaluateSelectExpression(e,n){return this.evaluate(e.test,n).__bool__().value?this.evaluate(e.lhs,n):new $}evaluateUnaryExpression(e,n){let t=this.evaluate(e.argument,n);if(e.operator.value==="not")return new C(!t.value);throw new SyntaxError(`Unknown operator: ${e.operator.value}`)}evaluateTernaryExpression(e,n){return this.evaluate(e.condition,n).__bool__().value?this.evaluate(e.trueExpr,n):this.evaluate(e.falseExpr,n)}evalProgram(e,n){return this.evaluateBlock(e.body,n)}evaluateBlock(e,n){let t="";for(let r of e){let s=this.evaluate(r,n);s.type!=="NullValue"&&s.type!=="UndefinedValue"&&(t+=s.toString())}return new E(t)}evaluateIdentifier(e,n){return n.lookupVariable(e.value)}evaluateCallExpression(e,n){let[t,r]=this.evaluateArguments(e.args,n);r.size>0&&t.push(new Rn(r));let s=this.evaluate(e.callee,n);if(s.type!=="FunctionValue")throw new Error(`Cannot call something that is not a function: got ${s.type}`);return s.value(t,n)}evaluateSliceExpression(e,n,t){if(!(e instanceof R||e instanceof E))throw new Error("Slice object must be an array or string");let r=this.evaluate(n.start,t),s=this.evaluate(n.stop,t),a=this.evaluate(n.step,t);if(!(r instanceof P||r instanceof $))throw new Error("Slice start must be numeric or undefined");if(!(s instanceof P||s instanceof $))throw new Error("Slice stop must be numeric or undefined");if(!(a instanceof P||a instanceof $))throw new Error("Slice step must be numeric or undefined");return e instanceof R?new R(oa(e.value,r.value,s.value,a.value)):new E(oa(Array.from(e.value),r.value,s.value,a.value).join(""))}evaluateMemberExpression(e,n){let t=this.evaluate(e.object,n),r;if(e.computed){if(e.property.type==="SliceExpression")return this.evaluateSliceExpression(t,e.property,n);r=this.evaluate(e.property,n)}else e.property.type==="IntegerLiteral"?r=new P(e.property.value):r=new E(e.property.value);let s;if(t instanceof ce){if(!(r instanceof E))throw new Error(`Cannot access property with non-string: got ${r.type}`);s=t.value.get(r.value)??t.builtins.get(r.value)}else if(t instanceof R||t instanceof E)if(r instanceof P)s=t.value.at(r.value),t instanceof E&&(s=new E(t.value.at(r.value)));else if(r instanceof E)s=t.builtins.get(r.value);else throw new Error(`Cannot access property with non-string/non-number: got ${r.type}`);else{if(!(r instanceof E))throw new Error(`Cannot access property with non-string: got ${r.type}`);s=t.builtins.get(r.value)}return s instanceof Ne?s:new $}evaluateSet(e,n){let t=e.value?this.evaluate(e.value,n):this.evaluateBlock(e.body,n);if(e.assignee.type==="Identifier"){let r=e.assignee.value;n.setVariable(r,t)}else if(e.assignee.type==="TupleLiteral"){let r=e.assignee;if(!(t instanceof R))throw new Error(`Cannot unpack non-iterable type in set: ${t.type}`);let s=t.value;if(s.length!==r.value.length)throw new Error(`Too ${r.value.length>s.length?"few":"many"} items to unpack in set`);for(let a=0;af.setVariable(e.loopvar.value,c);else if(e.loopvar.type==="TupleLiteral"){let f=e.loopvar;if(c.type!=="ArrayValue")throw new Error(`Cannot unpack non-iterable type: ${c.type}`);let h=c;if(f.value.length!==h.value.length)throw new Error(`Too ${f.value.length>h.value.length?"few":"many"} items to unpack`);p=m=>{for(let g=0;g0?a[l-1]:new $],["nextitem",l{let s=new Be(r);t=t.slice();let a;t.at(-1)?.type==="KeywordArgumentsValue"&&(a=t.pop());for(let i=0;i{let l=new Be(u);if(e.callerArgs)for(let d=0;dthis.evaluate(t,n)));case"TupleLiteral":return new ca(e.value.map(t=>this.evaluate(t,n)));case"ObjectLiteral":{let t=new Map;for(let[r,s]of e.value){let a=this.evaluate(r,n);if(!(a instanceof E))throw new Error(`Object keys must be strings: got ${a.type}`);t.set(a.value,this.evaluate(s,n))}return new ce(t)}case"Identifier":return this.evaluateIdentifier(e,n);case"CallExpression":return this.evaluateCallExpression(e,n);case"MemberExpression":return this.evaluateMemberExpression(e,n);case"UnaryExpression":return this.evaluateUnaryExpression(e,n);case"BinaryExpression":return this.evaluateBinaryExpression(e,n);case"FilterExpression":return this.evaluateFilterExpression(e,n);case"FilterStatement":return this.evaluateFilterStatement(e,n);case"TestExpression":return this.evaluateTestExpression(e,n);case"SelectExpression":return this.evaluateSelectExpression(e,n);case"Ternary":return this.evaluateTernaryExpression(e,n);case"Comment":return new Z;default:throw new SyntaxError(`Unknown node type: ${e.type}`)}}};le=` `,vl="{%- ",kl=" -%}";St=class{parsed;constructor(e){let n=vt(e,{lstrip_blocks:!0,trim_blocks:!0});this.parsed=kt(n)}render(e){let n=new Be;if(wl(n),e)for(let[s,a]of Object.entries(e))n.set(s,a);return new zr(n).run(this.parsed).value}format(e){return Tl(this.parsed,e?.indent||" ")}}});function Ee(e=null){if(e!==null&&typeof e=="object"&&Oa.has(e))return e;let n=Mr(e)?e:{},t=Mr(n.adapterInfo)?n.adapterInfo:{},r=Mr(n.limits)?n.limits:{},s={adapterInfo:Kc(t),features:qt(n.features),wgslLanguageFeatures:Lt(n.wgslLanguageFeatures),limits:Ot(r)};return Oa.add(s),s}function Ca(e){let n=new Set(e),t={size:n.size,has(r){return n.has(r)},entries(){return n.entries()},forEach(r,s){n.forEach(a=>r.call(s,a,a,t))},keys(){return n.keys()},values(){return n.values()},[Symbol.iterator](){return n[Symbol.iterator]()}};return t}function qt(e=[]){return Ca(za(e))}function Lt(e=[]){return Ca(za(e))}function tn(e=null){let n=Ee(e);return{adapterInfo:{...n.adapterInfo},features:Array.from(n.features.values()).sort(),wgslLanguageFeatures:Array.from(n.wgslLanguageFeatures.values()).sort(),limits:{...n.limits}}}function Br(e,n){if(!e)return null;for(let t of e.requiredFeatures??[])if(!n.features.has(t))return`requires device.features.has("${t}")`;for(let t of e.requiredWGSLLanguageFeatures??[])if(!n.wgslLanguageFeatures.has(t))return`requires device.wgslLanguageFeatures.has("${t}")`;for(let[t,r]of Object.entries(e.requiredLimits??{})){if(r===void 0)continue;let s=n.limits[t];if(typeof s!="number"||s= ${r}`}if(e.requiredSubgroupMinSize!==void 0){let t=n.adapterInfo.subgroupMinSize;if(typeof t!="number")return`requires adapterInfo.subgroupMinSize >= ${e.requiredSubgroupMinSize} (adapter does not report subgroup sizes)`;if(t= ${e.requiredSubgroupMinSize}`}return null}function Pa(e){let n=e.adapterInfo;return{vendor:typeof n.vendor=="string"?n.vendor.toLowerCase():"",architecture:typeof n.architecture=="string"?n.architecture.toLowerCase():"",...typeof n.subgroupMinSize=="number"?{subgroupMinSize:n.subgroupMinSize}:{},...typeof n.subgroupMaxSize=="number"?{subgroupMaxSize:n.subgroupMaxSize}:{},isFallbackAdapter:n.isFallbackAdapter===!0}}function Kc(e){return{...Hc,...e}}function Ot(e){let n={...Fc};for(let t of Uc){let r=Vc(e,t);r!==void 0&&(n[t]=r)}for(let[t,r]of Object.entries(e))typeof r=="number"&&Number.isFinite(r)&&(n[t]=r);return n}function za(e){return e==null?[]:Array.isArray(e)?e.filter(Wr):typeof e[Symbol.iterator]=="function"?Array.from(e).filter(Wr):typeof e.values=="function"?Array.from(e.values()).filter(Wr):[]}function Vc(e,n){let t=e[n];return typeof t=="number"&&Number.isFinite(t)?t:void 0}function Wr(e){return typeof e=="string"}function Mr(e){return e!==null&&typeof e=="object"&&!Array.isArray(e)}var Hc,Uc,Bn,Fc,Oa,Nn=re(()=>{"use strict";Hc=Object.freeze({vendor:"",architecture:"",device:"",description:""}),Uc=Object.freeze(["maxTextureDimension1D","maxTextureDimension2D","maxTextureDimension3D","maxTextureArrayLayers","maxBindGroups","maxBindGroupsPlusVertexBuffers","maxBindingsPerBindGroup","maxDynamicUniformBuffersPerPipelineLayout","maxDynamicStorageBuffersPerPipelineLayout","maxSampledTexturesPerShaderStage","maxSamplersPerShaderStage","maxStorageBuffersPerShaderStage","maxStorageTexturesPerShaderStage","maxUniformBuffersPerShaderStage","maxUniformBufferBindingSize","maxStorageBufferBindingSize","minUniformBufferOffsetAlignment","minStorageBufferOffsetAlignment","maxVertexBuffers","maxBufferSize","maxVertexAttributes","maxVertexBufferArrayStride","maxInterStageShaderVariables","maxColorAttachments","maxColorAttachmentBytesPerSample","maxComputeWorkgroupStorageSize","maxComputeInvocationsPerWorkgroup","maxComputeWorkgroupSizeX","maxComputeWorkgroupSizeY","maxComputeWorkgroupSizeZ","maxComputeWorkgroupsPerDimension","maxImmediateSize","maxStorageBuffersInVertexStage","maxStorageBuffersInFragmentStage","maxStorageTexturesInVertexStage","maxStorageTexturesInFragmentStage"]),Bn=Object.freeze(["shader-f16","subgroups","chromium-experimental-subgroup-matrix","timestamp-query","texture-formats-tier1","texture-formats-tier2"]),Fc=Object.freeze({maxTextureDimension1D:8192,maxTextureDimension2D:8192,maxTextureDimension3D:2048,maxTextureArrayLayers:256,maxBindGroups:4,maxBindGroupsPlusVertexBuffers:24,maxBindingsPerBindGroup:1e3,maxDynamicUniformBuffersPerPipelineLayout:8,maxDynamicStorageBuffersPerPipelineLayout:4,maxSampledTexturesPerShaderStage:16,maxSamplersPerShaderStage:16,maxStorageBuffersPerShaderStage:10,maxStorageTexturesPerShaderStage:4,maxUniformBuffersPerShaderStage:12,maxUniformBufferBindingSize:64*1024,maxStorageBufferBindingSize:128*1024*1024,minUniformBufferOffsetAlignment:256,minStorageBufferOffsetAlignment:256,maxVertexBuffers:8,maxBufferSize:256*1024*1024,maxVertexAttributes:16,maxVertexBufferArrayStride:2048,maxInterStageShaderVariables:16,maxColorAttachments:8,maxColorAttachmentBytesPerSample:32,maxComputeInvocationsPerWorkgroup:256,maxComputeWorkgroupSizeX:256,maxComputeWorkgroupSizeY:256,maxComputeWorkgroupSizeZ:64,maxComputeWorkgroupStorageSize:16*1024,maxComputeWorkgroupsPerDimension:65535,maxImmediateSize:64}),Oa=new WeakSet});function Aa(e){return Object.fromEntries(Object.entries(e).filter(([,n])=>n!==void 0))}var Ga=re(()=>{"use strict"});function Ra(e){if(e==="u32"||e==="i32"||e==="f32")return{align:4,size:4,scalar:e,components:1};let n=$c.exec(e);if(!n)throw new Error(`Unsupported uniform field type: ${e}`);let t=Number(n[1]);return{align:t===2?8:16,size:t===3?12:t*4,scalar:n[2],components:t}}function jc(e){return e==="u32"||e==="i32"||e==="f32"}function Ia(e,n){return Math.ceil(e/n)*n}function Nr(e,n={}){return Hn(e,"u32",n)}function Hr(e,n={}){return Hn(e,"i32",n)}function Ur(e,n={}){return Hn(e,"f32",n)}function Hn(e,n,t={}){return Na(e,"uniform field"),Ra(n),Object.freeze({kind:"uniform-field",name:e,type:n,semantic:t.semantic,required:t.required??!t.internal,internal:!!t.internal,default:t.default,description:t.description})}function Un(e,n,t={}){if(Na(e,"uniform struct"),!Array.isArray(n)||n.length===0)throw new Error(`uniform struct ${e} requires at least one field`);let r=n.map(s=>Yc(s,e));return Object.freeze({kind:"uniform-struct",name:e,fields:Object.freeze(Xc(r,t))})}function Fr(e){Kr(e);let n=e.fields.map(t=>`${t.name}: ${t.type}`).join(", ");return`struct ${e.name} { ${n} };`}function Wa(e,n={}){if(Kr(e),!e.fields.every(o=>jc(o.type)))return Qc(e,n);let t=Math.max(16,Math.ceil(e.fields.length*4/16)*16),r=new ArrayBuffer(t),s=new Uint32Array(r),a=new Int32Array(r),i=new Float32Array(r);return e.fields.forEach((o,u)=>{let l=n[o.name];if(l===void 0&&o.required)throw new Error(`Missing uniform field ${e.name}.${o.name}`);if(l===void 0&&(l=o.default??0),typeof l!="number")throw new Error(`Uniform ${e.name}.${o.name} expects a scalar number`);Jc({field:o,index:u,value:l,u32View:s,i32View:a,f32View:i})}),new Uint32Array(r)}function Qc(e,n){let t=[],r=0;for(let u of e.fields){let l=Ra(u.type);r=Ia(r,l.align),t.push({field:u,layout:l,offset:r}),r+=l.size}let s=new ArrayBuffer(Math.max(16,Ia(r,16))),a=new Uint32Array(s),i=new Int32Array(s),o=new Float32Array(s);for(let{field:u,layout:l,offset:d}of t){let c=n[u.name];if(c===void 0&&u.required)throw new Error(`Missing uniform field ${e.name}.${u.name}`);c===void 0&&(c=u.default??(l.components===1?0:new Array(l.components).fill(0)));let p=typeof c=="number"?[c]:c;if(p.length!==l.components)throw new Error(`Uniform ${e.name}.${u.name} expects ${l.components} component(s), got ${p.length}`);for(let f=0;f4294967295)throw new Error(`Uniform ${r} must be an integer u32 in [0, 4294967295]`);s[n]=t;return}if(e==="i32"){if(!Number.isInteger(t)||t<-2147483648||t>2147483647)throw new Error(`Uniform ${r} must be an integer i32 in [-2147483648, 2147483647]`);a[n]=t;return}if(!Number.isFinite(t))throw new Error(`Uniform ${r} must be a finite f32`);i[n]=t}function Ma(e,n,t,r){return e.createUniformU32(Wa(n,t),r)}function Ba(e){return Kr(e),{kind:e.kind,name:e.name,fields:e.fields.map(n=>Aa({name:n.name,type:n.type,required:n.required,internal:n.internal,semantic:n.semantic,default:n.default,description:n.description}))}}function Yc(e,n){if(!e||e.kind!=="uniform-field")throw new Error(`uniform struct ${n} fields must be created with u32(), i32(), or f32()`);return e}function Xc(e,n){let t=n.alignFieldsTo??4;if(!Number.isInteger(t)||t<=0)throw new Error(`alignFieldsTo must be a positive integer, got ${t}`);let r=[...e],s=r.length%t;if(s===0)return Object.freeze(r);let a=t-s,i=0,o=new Set(r.map(u=>u.name));for(let u=0;u4294967295)throw new Error(`Uniform ${e.name} must be an integer u32 in [0, 4294967295]`);r[n]=t;return}if(e.type==="i32"){if(!Number.isInteger(t)||t<-2147483648||t>2147483647)throw new Error(`Uniform ${e.name} must be an integer i32 in [-2147483648, 2147483647]`);s[n]=t;return}if(e.type==="f32"){if(!Number.isFinite(t))throw new Error(`Uniform ${e.name} must be a finite f32`);a[n]=t;return}throw new Error(`Unsupported uniform field type: ${e.type}`)}function Kr(e){if(!e||e.kind!=="uniform-struct")throw new Error("Expected a uniform struct schema")}function Na(e,n){if(typeof e!="string"||!/^[A-Za-z_][A-Za-z0-9_]*$/.test(e))throw new Error(`${n} name must be a WGSL-compatible identifier, got ${e}`)}var $c,Ct=re(()=>{"use strict";Ga();$c=/^vec([234])<(u32|i32|f32)>$/});function Vr(e,n={}){Ka(e,"storage binding");let t=n.access??"read";if(!(t in Ha))throw new Error(`storage binding ${e} has unsupported access ${t}`);return Object.freeze({kind:"storage",name:e,arg:n.arg,access:t,elementType:n.elementType??"f32",semantic:n.semantic,role:n.role,binding:n.binding,group:n.group})}function $r(e,n,t={}){Ka(e,"uniform binding");let r;if(sp(n)?r=Un(t.structName??tp(e),n):r=n,!r||r.kind!=="uniform-struct")throw new Error(`uniform binding ${e} requires a uniformStruct schema or field array`);return Object.freeze({kind:"uniform",name:e,struct:r,semantic:t.semantic,binding:t.binding,group:t.group})}function On(e){if(!Array.isArray(e)||e.length===0)throw new Error("bindGroup requires at least one binding");let n=new Set,t=new Set;return Object.freeze(e.map((r,s)=>{if(!r||r.kind!=="storage"&&r.kind!=="uniform")throw new Error("bindGroup entries must be storage() or uniform() bindings");if(n.has(r.name))throw new Error(`duplicate bindGroup binding name: ${r.name}`);n.add(r.name);let a=r.binding??s;if(!Number.isInteger(a)||a<0)throw new Error(`binding ${r.name} has invalid binding index ${a}`);let i=r.group??0;if(!Number.isInteger(i)||i<0)throw new Error(`binding ${r.name} has invalid bind group index ${i}`);let o=`${i}:${a}`;if(t.has(o))throw new Error(`duplicate bindGroup binding index ${a} in @group(${i})`);return t.add(o),Object.freeze({...r,binding:a})}))}function jr(e,n={}){return On(e).map(t=>ep(t,n)).join(` `)}function Ua(e){let n=[],t=new Map;for(let r of On(e)){if(r.kind!=="uniform")continue;let s=JSON.stringify(Ba(r.struct)),a=t.get(r.struct.name);if(a!==void 0){if(a!==s)throw new Error(`uniform struct ${r.struct.name} is declared with conflicting schemas`);continue}t.set(r.struct.name,s),n.push(Fr(r.struct))}return n.join(` `)}function Fa(e,n,t,r={}){let s=On(n),a=r.labelPrefix??"kernel",i=[];return{bindings:s.map(u=>{let l=t?.[u.name];if(l==null)throw new Error(`Missing resource for binding ${u.name}`);if(u.kind==="uniform"){let f;return Qr(l)?f=l:(f=Ma(e,u.struct,l,`${a}-${u.name}`),typeof f.destroy=="function"&&i.push(()=>f.destroy?.())),{buffer:f,type:"uniform",binding:u.binding,...u.group?{group:u.group}:{}}}let d=l,c=typeof d.byteOffset=="number"?d.byteOffset:0,p=typeof d.byteLength=="number"?rp(d.byteLength):void 0;return{tensor:l,type:Ha[u.access],binding:u.binding,...u.group?{group:u.group}:{},...c?{offset:c}:{},...p!==void 0?{size:p}:{}}}),cleanup:()=>{for(let u of i)u()}}}function ep(e,n){let t=e.group??0;if(e.kind==="storage"){let r=e.access==="read_write"?"read_write":"read",s=np(e.elementType,n,`binding ${e.name} elementType`);return`@group(${t}) @binding(${e.binding}) var ${e.name}: array<${s}>;`}return`@group(${t}) @binding(${e.binding}) var ${e.name}: ${e.struct.name};`}function np(e,n,t){if(typeof e!="string"||!e.startsWith("$"))return e;let r=e.slice(1),s=n[r];if(s==null)throw new Error(`Missing template value ${r} for ${t}`);return s}function Qr(e){return e!==null&&typeof e=="object"&&typeof e.destroy=="function"&&!("shape"in e)}function tp(e){return e.length===0?e:e[0].toUpperCase()+e.slice(1)}function Ka(e,n){if(typeof e!="string"||!/^[A-Za-z_][A-Za-z0-9_]*$/.test(e))throw new Error(`${n} name must be a WGSL-compatible identifier, got ${e}`)}function rp(e){return Math.max(4,Math.ceil(e/4)*4)}function sp(e){return Array.isArray(e)}var Ha,Fn=re(()=>{"use strict";Ct();Ha=Object.freeze({read:"read-only-storage",read_write:"storage"})});function se(e){let n=Ie[e];if(!n)throw new Error(`Unsupported dtype: ${e}`);return n.storageByteSize}function Y(e){if(!Array.isArray(e))throw new Error("shape must be an array");let n=1;for(let t of e){if(!Number.isInteger(t)||t<0)throw new Error(`invalid shape dimension: ${t}`);n*=t}return n}function Ve(e){return e!==null&&typeof e=="object"&&typeof e.dtype=="string"&&Array.isArray(e.shape)&&typeof e.size=="number"&&typeof e.byteLength=="number"&&"buffer"in e&&"runtime"in e}function be(e,n){let t=Y([...n]);return{dtype:e,shape:[...n],size:t,byteLength:t*se(e),byteOffset:0,buffer:{destroy(){}},runtime:null,destroy(){}}}var Py,Ie,we=re(()=>{"use strict";Py=Object.freeze({float16:"float16",float32:"float32",int8:"int8",int16:"int16",int32:"int32",uint8:"uint8",uint32:"uint32",bool:"bool"}),Ie=Object.freeze({float16:{storageByteSize:2,onDiskByteSize:2,wgslScalar:"f16",arrayCtor:Uint16Array},float32:{storageByteSize:4,onDiskByteSize:4,wgslScalar:"f32",arrayCtor:Float32Array},int8:{storageByteSize:4,onDiskByteSize:1,wgslScalar:"i32",arrayCtor:Int32Array},int16:{storageByteSize:4,onDiskByteSize:2,wgslScalar:"i32",arrayCtor:Int32Array},int32:{storageByteSize:4,onDiskByteSize:4,wgslScalar:"i32",arrayCtor:Int32Array},uint8:{storageByteSize:4,onDiskByteSize:1,wgslScalar:"u32",arrayCtor:Uint32Array},uint32:{storageByteSize:4,onDiskByteSize:4,wgslScalar:"u32",arrayCtor:Uint32Array},bool:{storageByteSize:4,onDiskByteSize:1,wgslScalar:"u32",arrayCtor:Uint32Array}})});function Kn(e){return e==null?e:Array.isArray(e)?e.map(Kn):e instanceof Map?Object.fromEntries([...e].map(([n,t])=>[n,Kn(t)])):typeof e=="object"&&"value"in e?e.type==="NullValue"?null:Kn(e.value):e}function ne(e){return((...n)=>e(...n.map(Kn)))}function Vn(e){let n=Ie[hn(e)];if(!n)throw new Error(`Unsupported WebGPU dtype: ${e}`);return n.wgslScalar}function hn(e){return e==="f32"?"float32":e==="f16"?"float16":e==="u32"?"uint32":e==="i32"?"int32":e}function Ya(e={}){let n=e,t=Zr(e.device),r=t.features.has("shader-f16");return{...Za,f16Ok:ne(s=>s!=="f16"&&s!=="float16"||r),f16Allowed:ne(s=>s==="f32"||s==="float32"||(s==="f16"||s==="float16")&&r),op:e.op,variant:e.variant,pass:e.pass,device:t,attrs:e.attrs??{},args:e.args??{},source:e.sourceContext??{},present:e.present??{},shapes:e.shapes??{},ranks:e.ranks??{},tensorDtypes:e.tensorDtypes??{},dtypes:e.dtypes??{},...e.derived??{},tunables:e.tunables??{},constants:e.constants??{},...e.constants??{},...n.env!==void 0?{env:n.env}:{}}}function Zr(e){let n=Ee(e),t=$a.get(n);return t===void 0&&(t={features:n.features,wgslLanguageFeatures:n.wgslLanguageFeatures,limits:n.limits,adapterInfo:Pa(n)},$a.set(n,t)),t}function Ue(e,n={}){if(typeof e!="string")return e;let t=Ya(n),r=cp(e),s=r.freeIdentifiers.filter(i=>!(i in t));if(s.length>0)throw new Error(`Unknown identifier${s.length===1?"":"s"} ${s.map(i=>`"${i}"`).join(", ")} in WebGPU expression: ${e} Identifiers resolve against the expression scope. Namespaces: args, attrs, shapes, ranks, dtypes, tensorDtypes, present, constants, tunables, source, device (plus the bare names declared in \`derive\`). device sub-fields: features, wgslLanguageFeatures, limits, adapterInfo. Helper functions: ${[...Object.keys(Za),...ap].join(", ")}. If a string literal was intended, quote it (e.g. '"${s[0]}"' not '${s[0]}').`);if(r.statement===void 0)throw r.parseError??new Error(`Empty WebGPU expression: ${e}`);let a=new Be;for(let[i,o]of ip)a.set(i,o);for(let i of r.freeIdentifiers)a.set(i,t[i]);for(let i of r.probedIdentifiers)i in t&&a.set(i,t[i]);return Kn(new zr(a).evaluate(r.statement,a))}function Yr(e,n={}){return op(e,Ya(n))}function op(e,n){let t=Va.get(e);t||(t=new St(e),Va.set(e,t));let r=lp(e),s=r?up(n,r):n;return t.render(s)}function up(e,n){let t={};for(let r of Object.keys(e))n.has(r)&&(t[r]=e[r]);return t}function lp(e){let n=ja.get(e);if(n!==void 0)return n;let t;try{let r=kt(vt(e,Xa)),s=new Set,a=i=>{if(!i||typeof i!="object")return;if(Array.isArray(i)){for(let u of i)a(u);return}if(i instanceof Map){for(let[u,l]of i)a(u),a(l);return}let o=i;o.type==="Identifier"&&typeof o.value=="string"&&s.add(o.value);for(let u of Object.keys(o))u!=="type"&&a(o[u])};a(r),t=s}catch{t=null}return ja.set(e,t),t}function cp(e){let n=Qa.get(e);if(n!==void 0)return n;let t=new Set,r=new Set,s=o=>{if(!o||typeof o!="object")return;if(Array.isArray(o)){for(let l of o)s(l);return}if(o instanceof Map){for(let[l,d]of o)s(l),s(d);return}let u=o;switch(u.type){case"Identifier":dp.has(u.value)||t.add(u.value);return;case"MemberExpression":s(u.object),u.computed&&s(u.property);return;case"BinaryExpression":s(u.left),s(u.right);return;case"UnaryExpression":s(u.argument);return;case"FilterExpression":{s(u.operand);let l=u.filter;l?.type==="CallExpression"&&s(l.args);return}case"TestExpression":{let l=u.test,d=u.operand;(l?.value==="defined"||l?.value==="undefined")&&d?.type==="Identifier"?r.add(d.value):s(u.operand);return}case"CallExpression":s(u.callee),s(u.args);return;case"KeywordArgumentExpression":s(u.value);return;default:{for(let[l,d]of Object.entries(u))l!=="type"&&s(d);return}}},a,i;try{let o=kt(vt(`{{ ${e} }}`,Xa));a=o.body[0],s(o)}catch(o){i=o}for(let o of t)r.delete(o);return n=Object.freeze({statement:a,...i!==void 0?{parseError:i}:{},freeIdentifiers:Object.freeze([...t]),probedIdentifiers:Object.freeze([...r])}),Qa.set(e,n),n}function gn(e,n){let t={};for(let[r,s]of Object.entries(e??{}))t[r]=$e(s,n);return t}function $e(e,n){return typeof e=="string"?Ue(e,n):Array.isArray(e)?e.map(t=>$e(t,n)):e&&typeof e=="object"?Object.fromEntries(Object.entries(e).map(([t,r])=>[t,$e(r,n)])):e}var Va,Za,ap,$a,ip,ja,Qa,Xa,dp,$n=re(()=>{"use strict";Ar();Nn();we();Va=new Map;Za=Object.freeze({ceil:ne(e=>Math.ceil(e)),floor:ne(e=>Math.floor(e)),min:ne((...e)=>Math.min(...e)),max:ne((...e)=>Math.max(...e)),pow:ne((e,n)=>Math.pow(e,n)),ceilDiv:ne((e,n)=>Math.ceil(e/n)),pow2ceil:ne(e=>e<=1?1:2**Math.ceil(Math.log2(e))),numel:ne(e=>e.reduce((n,t)=>n*t,1)),rank:ne(e=>e.length),dim:ne((e,n)=>{let t=(n%e.length+e.length)%e.length;return e[t]}),rows:ne((e,n)=>{let t=(n%e.length+e.length)%e.length;return e.reduce((r,s,a)=>a===t?r:r*s,1)}),cols:ne((e,n)=>{let t=(n%e.length+e.length)%e.length;return e[t]}),outer:ne((e,n)=>{let t=(n%e.length+e.length)%e.length;return e.slice(0,t).reduce((r,s)=>r*s,1)}),inner:ne((e,n)=>{let t=(n%e.length+e.length)%e.length;return e.slice(t+1).reduce((r,s)=>r*s,1)}),broadcastable:ne((e,n)=>{if(e.length>n.length)return!1;let t=n.length-e.length;return e.every((r,s)=>r===1||r===n[s+t])}),sameShape:ne((e,n)=>e.length===n.length&&e.every((t,r)=>t===n[r])),hasAxis:ne((e,n,t)=>{let r=(n%t+t)%t;return e.some(s=>(s%t+t)%t===r)}),has:ne((e,n)=>e instanceof Map?e.has(n):!!(e&&Object.prototype.hasOwnProperty.call(e,n))),dtypeBytes:ne(e=>{let n=Ie[hn(e)];if(!n)throw new Error(`Unsupported dtype for dtypeBytes(): ${e}`);return n.storageByteSize}),pick:ne((e,n)=>{if(!Array.isArray(e))throw new Error("pick() expects a list of [condition, value] pairs as its first argument");for(let t of e){if(!Array.isArray(t)||t.length<2)throw new Error("pick() entries must be [condition, value] pairs");if(t[0])return t[1]}return n})});ap=["f16Ok","f16Allowed"];$a=new WeakMap;ip=[["true",!0],["false",!1],["none",null],["True",!0],["False",!1],["None",null]];ja=new Map;Qa=new Map,Xa=Object.freeze({lstrip_blocks:!0,trim_blocks:!0}),dp=new Set(["true","false","none","True","False","None"])});function Xr(e,n){let t=[];for(let r of e.split(` `)){let s=pp.exec(r);if(s)for(let a of s[1].split(",")){let i=a.trim();if(i.length===0)continue;let o=Ja[i];o&&!n.has(o)&&t.push(`enable ${i}; (requires device feature "${o}")`)}}return t}var Ja,pp,Jr=re(()=>{"use strict";Ja=Object.freeze({f16:"shader-f16",subgroups:"subgroups",chromium_experimental_subgroup_matrix:"chromium-experimental-subgroup-matrix"}),pp=/^\s*enable\s+([^;]+);/});function _n(e){let n=e instanceof Map?new Map(e):new Map(Object.entries(e));return Object.freeze({readText(t){let r=n.get(t);if(r===void 0)throw new Error(`WebGPU template asset is missing: ${t}`);return r},has(t){return n.has(t)}})}function es(e){At(e,"WebGPU manifest");let n=e.schemaVersion??1;if(n!==1)throw new Error(`Unsupported WebGPU manifest schemaVersion: ${n}`);let t=e.domain??"ai.onnx";Ep(t,"WebGPU manifest domain");let r=e.name;if(typeof r!="string"||r.length===0)throw new Error("WebGPU manifest requires a non-empty name");if(!Array.isArray(e.inputs))throw new Error(`WebGPU manifest ${t}.${r} requires inputs`);if(!Array.isArray(e.outputs))throw new Error(`WebGPU manifest ${t}.${r} requires outputs`);if(!ns(e.args)||Object.keys(e.args).length===0)throw new Error(`WebGPU manifest ${t}.${r} requires explicit args`);Dp(e.args,`${t}.${r}.args`);let s=hp(e,`${t}.${r}`),a=gp(e,s);return Object.freeze({schemaVersion:1,domain:t,name:r,id:`${t}.${r}`,sinceVersion:e.sinceVersion,inputs:Object.freeze([...e.inputs]),outputs:Object.freeze([...e.outputs]),args:Object.freeze({...e.args}),attributes:Object.freeze({...e.attributes??{}}),derive:Object.freeze({...e.derive??{}}),typeConstraints:Object.freeze({...e.typeConstraints??{}}),tunables:Object.freeze({...e.tunables??{}}),staticShapes:Object.freeze([...e.staticShapes??[]]),variants:Object.freeze(a)})}function ei(e){return e.map(n=>{if(n.buffer.type==="uniform"){if(!n.struct)throw new Error(`WebGPU uniform binding ${n.name} requires struct`);return $r(n.name,Un(n.struct.name,n.struct.fields.map(xp)),{semantic:n.semantic,binding:n.binding,group:n.group})}return Vr(n.name,{arg:n.arg,access:n.buffer.type==="storage"?"read_write":"read",elementType:n.elementType,semantic:n.semantic??n.role,role:n.role,binding:n.binding,group:n.group})})}function hp(e,n){let t=new Map;for(let[r,s]of Object.entries(e.bindingSets??{})){if(!Array.isArray(s)||s.length===0)throw new Error(`WebGPU manifest ${n} bindingSet "${r}" must be a non-empty binding array`);t.set(r,s)}return t}function ni(e,n,t){if(Array.isArray(e))return e;if(typeof e=="string"){let r=n.get(e);if(!r)throw new Error(`WebGPU ${t} references unknown bindingSet "${e}"`);return r}throw new Error(`WebGPU ${t} bindings must be an array or a bindingSet name`)}function gp(e,n){let t=`${e.domain??"ai.onnx"}.${e.name}`,r=mp.filter(a=>e[a]!==void 0);if(r.length>0)throw new Error(`WebGPU manifest ${t} uses the retired flattened dialect: top-level ${r.join(", ")} is no longer accepted. Declare ${r.length===1?"it":"them"} on variants[].passes[] instead (docs/kernel-authoring-framework.md \xA74).`);let s=zt(e,t);if(s.length===0)throw new Error(`WebGPU manifest ${t} requires a non-empty variants list`);return s.map((a,i)=>yp(a,i,n))}function zt(e,n){let t=[...e.variants??[]];for(let r of e.variantFamilies??[]){let s=Object.keys(r.axes??{});if(s.length===0)throw new Error(`WebGPU manifest ${n}: a variantFamily requires at least one axis`);if(!Array.isArray(r.variants)||r.variants.length===0)throw new Error(`WebGPU manifest ${n}: a variantFamily requires at least one base variant`);for(let a of s){let i=r.axes[a];if(!Array.isArray(i)||i.length===0)throw new Error(`WebGPU manifest ${n}: variantFamily axis "${a}" must be a non-empty array`)}for(let a of _p(s,r.axes))for(let i of r.variants)t.push(Pt(i,a))}return t}function _p(e,n){let t=[{}];for(let r of e)t=t.flatMap(s=>n[r].map(a=>({...s,[r]:a})));return t}function Pt(e,n){if(typeof e=="string")return e.replace(/\{([A-Za-z_]\w*)\}/g,(t,r)=>r in n?String(n[r]):t);if(Array.isArray(e))return e.map(t=>Pt(t,n));if(e!==null&&typeof e=="object"){let t={};for(let[r,s]of Object.entries(e))t[Pt(r,n)]=Pt(s,n);return t}return e}function yp(e,n,t){At(e,"WebGPU variant");let r=e.id??e.name??`variant_${n}`;if(!/^[A-Za-z0-9][A-Za-z0-9_]*$/.test(r))throw new Error(`WebGPU variant id must be stable, got ${r}`);let s=e.passes;if(!Array.isArray(s)||s.length===0)throw new Error(`WebGPU variant ${r} requires passes`);let a=e.bindings!==void 0?ni(e.bindings,t,`variant ${r}`):void 0,i=e.version??1;if(!Number.isInteger(i)||i<1)throw new Error(`WebGPU variant ${r} version must be an integer >= 1`);return Object.freeze({id:r,name:e.name??r,version:i,default:!!e.default,priority:e.priority??0,when:Sp(e.when,r),selectAbove:typeof e.selectAbove=="string"&&e.selectAbove.length>0?e.selectAbove:null,requires:Tp(e),tunables:Object.freeze({...e.tunables??{}}),derive:Object.freeze({...e.derive??{}}),constants:Object.freeze({...e.constants??{}}),intermediates:Object.freeze([...e.intermediates??[]]),passes:Object.freeze(s.map((o,u)=>bp(o,a,u,t)))})}function bp(e,n,t,r){let s=vp(e,t);if(!e.dispatch)throw new Error(`WebGPU pass ${e.id??t} requires dispatch`);let a=e.bindings!==void 0?ni(e.bindings,r,`pass ${e.id??t}`):n;if(!Array.isArray(a)||a.length===0)throw new Error(`WebGPU pass ${e.id??t} requires bindings`);return Object.freeze({id:e.id??`pass_${t}`,...e.name?{name:e.name}:{},source:s,entryPoint:e.entryPoint??"main",bindings:Object.freeze(a.map(kp)),constants:Object.freeze({...e.constants??{}}),uniforms:Object.freeze({...e.uniforms??{}}),dispatch:e.dispatch,profile:Object.freeze({...e.profile??{}}),...e.viewAlias?{viewAlias:wp(e.viewAlias,a,`pass ${e.id??t}`)}:{},reads:Object.freeze([...e.reads??[]]),writes:Object.freeze([...e.writes??[]])})}function wp(e,n,t){if(!Array.isArray(e)||e.length===0)throw new Error(`WebGPU ${t} viewAlias must be a non-empty array of { input, output } binding-name pairs`);let r=a=>n.find(i=>i.name===a)?.buffer.type,s=e.map(a=>{if(typeof a?.input!="string"||typeof a?.output!="string")throw new Error(`WebGPU ${t} viewAlias pair must be { "input": , "output": }`);if(r(a.input)!=="read-only-storage")throw new Error(`WebGPU ${t} viewAlias.input "${a.input}" must name a read-only-storage binding of the pass`);if(r(a.output)!=="storage")throw new Error(`WebGPU ${t} viewAlias.output "${a.output}" must name a storage (read_write) binding of the pass`);return Object.freeze({input:a.input,output:a.output})});return Object.freeze(s)}function vp(e,n){let t=`WebGPU pass ${e.id??n}`,r=e.source;if(r!==void 0){if(At(r,`${t}.source`),r.kind==="template"){let s=r.shader??e.shader;if(typeof s!="string"||s.length===0)throw new Error(`${t} template source requires shader`);if(e.shader!==void 0&&e.shader!==s)throw new Error(`${t} has conflicting shader and source.shader`);if(r.version!==void 0&&typeof r.version!="string"&&typeof r.version!="number")throw new Error(`${t} template source version must be a string or number`);if(r.inputs!==void 0&&!ns(r.inputs))throw new Error(`${t} template source inputs must be an object`);return Object.freeze({kind:"template",shader:s,...r.version!==void 0?{version:r.version}:{},inputs:Object.freeze({...r.inputs??{}})})}throw new Error(`${t} source has unsupported kind ${r.kind}`)}if(typeof e.shader!="string"||e.shader.length===0)throw new Error(`${t} requires shader or source`);return Object.freeze({kind:"template",shader:e.shader,inputs:Object.freeze({})})}function kp(e,n){if(At(e,`WebGPU binding ${n}`),e.optional===!0)throw new Error(`WebGPU binding ${e.name??e.role??n} cannot be optional; use a separate variant`);let t=e.buffer?.type;if(!t||!fp.has(t))throw new Error(`WebGPU binding ${e.name??e.role??n} has invalid buffer type`);let r=e.name??e.role??e.semantic;if(typeof r!="string"||!/^[A-Za-z_][A-Za-z0-9_]*$/.test(r))throw new Error(`WebGPU binding requires a WGSL-compatible name, got ${String(r)}`);let s=Object.freeze({name:r,...e.role!==void 0?{role:e.role}:{},...e.semantic!==void 0?{semantic:e.semantic}:{},...e.arg!==void 0?{arg:e.arg}:{},buffer:{type:t},...e.elementType?{elementType:e.elementType}:{},...e.struct?{struct:e.struct}:{},...e.binding!==void 0?{binding:e.binding}:{},...e.group!==void 0?{group:e.group}:{}});if(t==="uniform"&&!s.struct)throw new Error(`WebGPU uniform binding ${r} requires struct`);if(t!=="uniform"&&!s.elementType)throw new Error(`WebGPU storage binding ${r} requires elementType`);return s}function Sp(e,n){if(e===void 0)return!0;if(Array.isArray(e)){if(e.length===0)throw new Error(`WebGPU variant ${n} when[] must be a non-empty list of predicates`);for(let t of e)if(typeof t!="string"||t.length===0)throw new Error(`WebGPU variant ${n} when[] entries must be non-empty expression strings, got ${JSON.stringify(t)}`);return Object.freeze([...e])}if(typeof e!="string"&&typeof e!="boolean")throw new Error(`WebGPU variant ${n} when must be a string, boolean, or string[], got ${JSON.stringify(e)}`);return e}function Tp(e){let n={...e.requiredFeatures?{requiredFeatures:e.requiredFeatures}:{},...e.requiredLimits?{requiredLimits:e.requiredLimits}:{},...e.requiredWGSLLanguageFeatures?{requiredWGSLLanguageFeatures:e.requiredWGSLLanguageFeatures}:{},...e.requiredSubgroupMinSize!==void 0?{requiredSubgroupMinSize:e.requiredSubgroupMinSize}:{}};if(n.requiredSubgroupMinSize!==void 0&&(!Number.isInteger(n.requiredSubgroupMinSize)||n.requiredSubgroupMinSize<1))throw new Error(`WebGPU variant ${e.id??e.name??"?"} requiredSubgroupMinSize must be a positive integer`);return Object.keys(n).length===0?null:n}function xp(e){if(e.type==="u32")return Nr(e.name,e);if(e.type==="i32")return Hr(e.name,e);if(e.type==="f32")return Ur(e.name,e);throw new Error(`Unsupported WebGPU uniform field type: ${e.type}`)}function Dp(e,n){for(let[t,r]of Object.entries(e)){if(!/^[A-Za-z_][A-Za-z0-9_]*$/.test(t))throw new Error(`${n}.${t} is not a valid arg name`);if(!["tensor","u32","i32","f32","bool","string"].includes(r.kind))throw new Error(`${n}.${t} has unsupported kind ${String(r.kind)}`)}}function Ep(e,n){if(!/^[a-z][a-z0-9]*(?:\.[A-Za-z][A-Za-z0-9_]*)*$/.test(e))throw new Error(`${n} must be a dotted canonical domain, got ${e}`)}function At(e,n){if(!ns(e))throw new Error(`${n} must be an object`)}function ns(e){return e!==null&&typeof e=="object"&&!Array.isArray(e)}var fp,mp,Gt=re(()=>{"use strict";Fn();Ct();fp=new Set(["read-only-storage","storage","uniform"]);mp=["shader","entryPoint","bindings","constants","uniforms","profile","dispatch"]});function ts(e){return{attrs:e.attrs,dtypes:e.dtypes,tensorDtypes:e.tensorDtypes,ranks:e.ranks,tunables:e.tunables}}function ti(e,n,t,r=null){return rn({op:e.id,sinceVersion:e.sinceVersion,variant:n.id,variantVersion:n.version,...ts(t),staticShapes:Lp(t,e.staticShapes),specialization:r,device:tn(t.device),bindings:n.passes.map(s=>s.bindings.map(a=>({name:a.name,binding:a.binding,group:a.group,type:a.buffer.type,elementType:a.elementType,struct:qp(a.struct)})))})}function qp(e){return e&&{name:e.name,fields:e.fields.map(n=>({name:n.name,type:n.type}))}}function ri(e){return rn({shapes:e.shapes,args:e.args})}function si(e,n){return`${e}|shapes=${n}`}function rn(e){return Array.isArray(e)?`[${e.map(rn).join(",")}]`:e&&typeof e=="object"?`{${Object.keys(e).sort().map(n=>`${JSON.stringify(n)}:${rn(e[n])}`).join(",")}}`:JSON.stringify(e)}function Lp(e,n){let t={};for(let r of n){let[s,a]=r.split("."),i=e.shapes[s];if(!i)continue;if(a===void 0||a==="*"){t[r]=i;continue}let o=Number(a);Number.isInteger(o)&&(t[r]=i[o])}return t}var It,Rt,Wt,ai=re(()=>{"use strict";Nn();It=class{entries=new Map;hits=0;misses=0;get(n){let t=this.entries.get(n);if(t===void 0){this.misses+=1;return}return this.hits+=1,t}getOrCreate(n,t){let r=this.get(n);if(r!==void 0)return r;let s=t();return this.entries.set(n,s),s}clear(){this.entries.clear(),this.hits=0,this.misses=0}},Rt=class extends It{},Wt=class extends It{}});function ii(e,n,t,r=!1){return e.map(s=>{let a=r?[0]:Cp($e(s.shape,t),s.id),i=hn(s.dtype),o=Op(s.id,n);return Object.freeze({id:s.id,dtype:i,shape:a,firstWrite:o.firstWrite,lastRead:o.lastRead,byteLength:Y(a)*se(i)})})}function Op(e,n){let t=Number.POSITIVE_INFINITY,r=-1;for(let s=0;s{if(!Number.isInteger(r)||Number(r)<0)throw new Error(`WebGPU scratch ${n} shape dimension must be a nonnegative integer, got ${String(r)}`);return Number(r)}))}var oi=re(()=>{"use strict";we();$n()});var pi={};bt(pi,{executeWebGpuPlan:()=>Pp,materializeComputePassDescriptorTemplate:()=>Mt,materializeWebGpuExecutionPlan:()=>jn});function li(e){let n=0;for(let t of e){if(t.type!=="storage"&&t.type!=="read-only-storage")continue;let r=t,s=typeof r.size=="number"?r.size:typeof r.tensor?.byteLength=="number"?r.tensor.byteLength:void 0;typeof s=="number"&&Number.isFinite(s)&&s>0&&(n+=s)}return n}function di(e,n){return n<=0?e?{profile:e}:{}:{profile:{...e??{},bytesMoved:n}}}async function Pp(e,n,t={}){let r=jn(e,n);try{if(r.programs.length===0)return;if(typeof e.runProgramSequence=="function")await e.runProgramSequence(r.programs,t);else for(let s of r.programs)await e.runProgram(s,t)}finally{r.cleanup()}}function jn(e,n){let t=Ap(e,n),r=[],s=[];for(let a=0;al[c.name]);let d=Fa(e,i.bindings,l,{labelPrefix:i.name});r.push(d.cleanup),s.push({name:i.name,source:i.source,entryPoint:i.entryPoint,cacheKey:`webgpu:${n.program.key}:pass=${i.id}`,bindings:d.bindings,dispatchWorkgroups:o.dispatchWorkgroups,...di(i.profile,li(d.bindings)),plan:{webgpuPlanKey:n.plan.key,pass:o.id,scratches:n.plan.scratches}})}return{programs:s,cleanup:()=>{for(let a of r)a();for(let a of Object.values(t))typeof a.destroy=="function"&&a.destroy()}}}function Mt(e,n){ci(`${e.name} (program ${e.programKey}, pass ${e.id})`,e.bindingSpecs,r=>ss(r,n));let t=e.bindingSpecs.map((r,s)=>zp(e,r,n,s));return{name:e.name,source:e.source,entryPoint:e.entryPoint,cacheKey:e.cacheKey,bindings:t,dispatchWorkgroups:e.dispatchWorkgroups,...di(e.profile,li(t)),plan:{webgpuProgramKey:e.programKey,webgpuPlanKey:e.planKey,pass:e.id}}}function zp(e,n,t,r){let s=ss(n,t);if(s==null)throw new Error(`Missing resource for compute pass descriptor template binding ${n.name}`);let a=n.binding??r;if(n.buffer.type==="uniform"){if(!Qr(s))throw new Error(`Compute pass descriptor template ${e.name} requires caller-owned uniform buffer for ${n.name}`);return{buffer:s,type:"uniform",binding:a,...n.group?{group:n.group}:{}}}let i=s,o=typeof i.byteOffset=="number"?i.byteOffset:0,u=typeof i.byteLength=="number"?i.byteLength:void 0;return{tensor:s,type:n.buffer.type,binding:a,...n.group?{group:n.group}:{},...o?{offset:o}:{},...u!==void 0?{size:u}:{}}}function ss(e,n){return n[e.arg??""]??n[e.name]??n[e.role??""]??n[e.semantic??""]}function Ap(e,n){let t={};if(n.plan.scratches.length===0)return t;if(typeof e.empty!="function")throw new Error("WebGPU multi-pass plan requires a runtime with empty(dtype, shape)");for(let r of n.plan.scratches)t[r.id]=e.empty(r.dtype,r.shape,`webgpu-scratch-${r.id}`);return t}function Gp(e,n,t,r){let s={};for(let a of n){if(a.buffer.type==="uniform"){let i=ui(e,a,r);s[a.name]=i??t[a.name];continue}s[a.name]=ui(e,a,r)}return s}function ui(e,n,t){return t[n.name]??t[n.role??""]??t[n.semantic??""]??ss(n,e.request.resources)}function ci(e,n,t){let r=null;for(let s of n){let a=Ip(s);if(a===null)continue;let i=rs(t(s));if(i===null)continue;r===null&&(r=new Map);let o=r.get(i.buffer);if(o===void 0){r.set(i.buffer,{name:s.name,access:a,view:i});continue}if(o.access==="read"&&a==="read")continue;if(o.access==="read_write"&&a==="read_write"){if(!Wp(o.view.offset,o.view.end,i.offset,i.end))continue;throw new Error(`${e}: storage bindings "${o.name}" and "${s.name}" alias overlapping writable ranges of the same GPU buffer; overlapping storage aliases are unsafe when either binding is writable`)}let[u,l]=a==="read_write"?[o.name,s.name]:[s.name,o.name];throw new Error(`${e}: storage aliasing hazard \u2014 binding "${u}" (read-only-storage) and binding "${l}" (storage, read_write) resolve to the same GPU buffer. WebGPU usage scopes cover the whole buffer, so this poisons the entire command buffer and corrupts downstream results. Bind it once as storage (read_write) for intentional in-place, or use distinct buffers.`)}}function Ip(e){if("buffer"in e&&e.buffer!==void 0)switch(e.buffer.type){case"read-only-storage":return"read";case"storage":return"read_write";default:return null}let n=e;return n.kind==="storage"?n.access:null}function Rp(e,n){let t=e.viewAlias;if(t===void 0)return!1;for(let{input:r,output:s}of t){let a=rs(n[r]),i=rs(n[s]);if(a===null||i===null||!(a.buffer===i.buffer&&a.offset===i.offset&&a.end===i.end)||a.dtype!==i.dtype)return!1}return!0}function rs(e){if(e===null||typeof e!="object")return null;let n=e,t=n.buffer??e;if(t===null||typeof t!="object"&&typeof t!="function")return null;let r=typeof n.byteOffset=="number"?n.byteOffset:0,s=typeof n.byteLength=="number"?n.byteLength:typeof n.size=="number"?n.size:Number.POSITIVE_INFINITY,a=typeof n.dtype=="string"?n.dtype:void 0;return{buffer:t,offset:r,end:r+s,dtype:a}}function Wp(e,n,t,r){return e{"use strict";Fn()});function Mp(e,n){let t=0,r=0;for(let s of e.passes){let a=0,i=0;for(let o of s.bindings){let u=o.buffer?.type;u&&(o.optional&&o.arg&&!n?.[o.arg]||(u==="uniform"?i+=1:a+=1))}t=Math.max(t,a),r=Math.max(r,i)}return{storage:t,uniform:r}}function Bp(e,n,t){let{storage:r,uniform:s}=Mp(e,t),a=n.limits.maxStorageBuffersPerShaderStage;if(typeof a=="number"&&r>a)return`needs ${r} storage buffers per shader stage, device allows ${a} (maxStorageBuffersPerShaderStage)`;let i=n.limits.maxUniformBuffersPerShaderStage;return typeof i=="number"&&s>i?`needs ${s} uniform buffers per shader stage, device allows ${i} (maxUniformBuffersPerShaderStage)`:null}function fi(e,n,t,r,s,a){return Object.freeze({id:e.id,name:e.name,source:e.source,entryPoint:e.entryPoint,cacheKey:t,bindings:e.bindings,bindingSpecs:e.bindingSpecs,dispatchWorkgroups:n.dispatchWorkgroups,uniforms:n.uniforms,...e.profile?{profile:e.profile}:{},programKey:r,planKey:s,passIndex:a})}function os(e,n,t,r){let s=Bt(e);if(r.has(s))throw new Error(`Circular WebGPU template include: ${[...r,s].join(" -> ")}`);r.add(s);let a=n.replace(Np,(i,o)=>{let u=Hp(s,o);return os(u,t(u),t,r)});return r.delete(s),a}function Hp(e,n){if(n.startsWith(".")){let t=e.slice(0,Math.max(0,e.lastIndexOf("/")));return Bt(`${t}/${n}`)}return Bt(n)}function Bt(e){let n=[];for(let t of e.replaceAll("\\","/").split("/"))if(!(t===""||t===".")){if(t===".."){if(n.length===0)throw new Error(`WebGPU template path escapes package root: ${e}`);n.pop();continue}n.push(t)}return n.join("/")}function Up(e,n,t){if(n.kind==="tensor"){if(!Ve(t))throw new Error(`WebGPU arg ${e} must be a GPU tensor`);if(n.dtype&&t.dtype!==n.dtype)throw new Error(`WebGPU arg ${e} dtype ${t.dtype} does not match ${n.dtype}`);return}if(n.kind==="string"){if(typeof t!="string")throw new Error(`WebGPU arg ${e} must be a string`);if(n.oneOf&&!n.oneOf.includes(t))throw new Error(`WebGPU arg ${e} must be one of ${n.oneOf.join(", ")}`);return}if(n.kind==="bool"){if(typeof t!="boolean")throw new Error(`WebGPU arg ${e} must be a boolean`);return}if(typeof t!="number"||!Number.isFinite(t))throw new Error(`WebGPU arg ${e} must be a finite number`);if(n.kind==="u32"&&(!Number.isInteger(t)||t<0||t>4294967295))throw new Error(`WebGPU arg ${e} must be a u32`);if(n.kind==="i32"&&(!Number.isInteger(t)||t<-2147483648||t>2147483647))throw new Error(`WebGPU arg ${e} must be an i32`)}function Fp(e){return typeof e.readText=="function"?e:_n(e)}function Kp(e,n){return hi(`WebGPU op ${e.program.op}`,e.program.passes,n)}function Vp(e,n,t){return hi(`WebGPU op ${e} variant ${n.id}`,n.passes,t)}function hi(e,n,t){if(t===void 0){if(n.length!==1)throw new Error(`${e} has ${n.length} passes; select a pass by id or index`);return 0}if(typeof t=="number"){if(!Number.isInteger(t)||t<0||t>=n.length)throw new Error(`${e} has no pass index ${t}`);return t}let r=n.findIndex(s=>s.id===t);if(r<0)throw new Error(`${e} has no pass ${t}`);return r}function $p(e,n){if(!gi(e))throw new Error(`${n} must be a JSON object`);return is(e,n)}function is(e,n){if(e===null)return null;if(typeof e=="boolean"||typeof e=="string")return e;if(typeof e=="number"){if(!Number.isFinite(e))throw new Error(`${n} number must be finite`);return e}if(Array.isArray(e))return Object.freeze(e.map((t,r)=>is(t,`${n}[${r}]`)));if(gi(e)){let t={};for(let[r,s]of Object.entries(e)){if(s===void 0)throw new Error(`${n}.${r} must be JSON; got undefined`);t[r]=is(s,`${n}.${r}`)}return Object.freeze(t)}throw new Error(`${n} must be JSON-compatible`)}function gi(e){if(e===null||typeof e!="object"||Array.isArray(e))return!1;let n=Object.getPrototypeOf(e);return n===Object.prototype||n===null}function jp(e,n){if(e&&typeof e=="object"){let t=mi.get(e);return t===void 0&&(t=rn(tn(n)),mi.set(e,t)),t}return rn(tn(n))}function Qp(e,n,t){return rn({v:t??null,d:jp(e,n.device),...ts(n),args:n.args,shapes:n.shapes,present:n.present,source:n.sourceContext})}function Yp(e){return e!==null&&typeof e=="object"&&typeof e.dtype=="string"&&Array.isArray(e.shape)}function Xp(e){let n=e.shape.reduce((t,r)=>t*r,1);return{dtype:e.dtype,shape:e.shape,size:n,byteLength:n*4,buffer:{},runtime:null}}var Qn,Np,mi,Zp,Zn=re(()=>{"use strict";Fn();we();ai();Nn();$n();Gt();oi();Jr();Qn=class{manifest;assets;programCache;planCache;prepareCache=new Map;constructor(n,t={}){this.manifest=es(n),this.assets=Fp(t.assets??{}),this.programCache=t.programCache??new Rt,this.planCache=t.planCache??new Wt}explain(n,t,r={}){let s=Ee(n.device),a=this.applyManifestDerive(this.buildBaseScope(s,t)),i=this.variantCandidates(r.variant).map(o=>{let u=this.checkVariant(o,a);return{id:o.id,ok:u.ok,...!u.ok&&u.reason?{reason:u.reason}:{}}});return{op:this.manifest.id,selected:i.find(o=>o.ok)?.id??null,candidates:i}}prepare(n,t,r={}){this.validateRequest(t);let s=Ee(n.device),a=this.buildBaseScope(s,t),i=Qp(n.device,a,r.variant),o=this.prepareCache.get(i);if(o)return{program:o.program,plan:o.plan,request:t};let u=this.applyManifestDerive(a),{variant:l,scope:d}=this.selectVariantAndScope(u,t,r.variant),c=ti(this.manifest,l,d,this.programSpecialization(l,d)),p=this.programCache.getOrCreate(c,()=>this.buildProgram(c,l,d)),f=ri(d),h=si(c,f),m=this.planCache.getOrCreate(h,()=>this.buildPlan(h,c,f,l,d));return this.prepareCache.set(i,{program:p,plan:m}),{program:p,plan:m,request:t}}clearPreparedState(){this.prepareCache.clear(),this.programCache.clear(),this.planCache.clear()}inferOutputs(n,t={}){let r={};for(let[u,l]of Object.entries(n))l!==void 0&&(r[u]=Yp(l)?Xp(l):l);let s={resources:r,...t.args?{args:t.args}:{},...t.attrs?{attrs:t.attrs}:{}},a=this.applyManifestDerive(this.buildBaseScope(Ee(void 0),s)),i=new Map;for(let[u,l]of Object.entries(this.manifest.args))l.kind==="tensor"&&(l.role==="output"||l.role==="inout")&&l.semantic&&i.set(l.semantic,u);let o={};for(let u of this.manifest.outputs){let l=i.get(u.role)??u.role;if(u.shape===void 0)throw new Error(`${this.manifest.id}: output "${u.role}" has no shape expression \u2014 add outputs[].shape to ops/${this.manifest.id}/manifest.json (docs/model-graph-builder.md).`);let d=typeof u.shape=="string"?Ue(u.shape,a):u.shape.map(c=>$e(c,a));if(!Array.isArray(d)||!d.every(c=>Number.isInteger(c)&&c>=0))throw new Error(`${this.manifest.id}: output "${u.role}" shape evaluated to ${JSON.stringify(d)} (expected non-negative integers)`);o[l]={role:u.role,shape:d,dtype:this.resolveOutputDtype(u,a)}}return o}resolveOutputDtype(n,t){if(!n.dtype)return"float32";if(Zp.has(n.dtype))return n.dtype;let r=t.dtypes[n.dtype];if(typeof r=="string")return hn(r);let s=this.manifest.typeConstraints[n.dtype],a=t.tensorDtypes;for(let i of this.manifest.inputs){let o=a[i.role];if(typeof o=="string"&&(!Array.isArray(s)||s.includes(o)))return o}throw new Error(`${this.manifest.id}: output "${n.role}" dtype "${n.dtype}" is a constraint var with no bound input \u2014 pass a dtype override or bind an input sharing the var.`)}async run(n,t,r={}){let s=this.prepare(n,t,r),{executeWebGpuPlan:a}=await Promise.resolve().then(()=>(as(),pi));return await a(n,s,r.runOptions??{}),s}prepareComputePassDescriptorTemplate(n,t,r={}){if(r.cacheKey!==void 0)return this.prepareDirectComputePassDescriptorTemplate(n,t,{...r,cacheKey:r.cacheKey});let s=this.prepare(n,t,r),a=Kp(s,r.pass),i=s.program.passes[a],o=s.plan.passes[a];if(!i||!o)throw new Error(`WebGPU op ${s.program.op} produced no compute pass descriptor template at index ${a}`);return fi(i,o,`webgpu:${s.program.key}:pass=${i.id}`,s.program.key,s.plan.key,a)}prepareDirectComputePassDescriptorTemplate(n,t,r){this.validateRequest(t);let s=Ee(n.device),a=this.applyManifestDerive(this.buildBaseScope(s,t)),{variant:i,scope:o}=this.selectVariantAndScope(a,t,r.variant),u=Vp(this.manifest.id,i,r.pass),l=i.passes[u],d=this.buildProgramPass(i,l,o),c=this.buildPlanPass(i,l,o,u,this.allOutputsEmpty(o));return fi(d,c,r.cacheKey,r.cacheKey,r.cacheKey,u)}buildProgram(n,t,r){let s=t.passes.map(a=>this.buildProgramPass(t,a,r));return Object.freeze({key:n,op:this.manifest.id,variant:t.id,variantVersion:t.version,passes:Object.freeze(s)})}buildProgramPass(n,t,r){let s=this.passConstants(n,t,r),a={...r,variant:n,pass:t,constants:s},i=On(ei(t.bindings)),o=[Ua(i),jr(i,s)].filter(Boolean).join(` `),u=this.passSourceInputs(t.source,a),l={...a,sourceContext:u},d=this.buildTemplateSource(n,t,l,o),c=gn(t.profile,l);return Object.freeze({id:t.id,name:t.name??`${this.manifest.id}.${n.id}.${t.id}`,source:d,entryPoint:t.entryPoint,bindings:i,bindingSpecs:t.bindings,...Object.keys(c).length>0?{profile:c}:{},...t.viewAlias?{viewAlias:t.viewAlias}:{},reads:t.reads,writes:t.writes})}buildTemplateSource(n,t,r,s){let a=os(t.source.shader,this.assets.readText(t.source.shader),u=>this.assets.readText(u),new Set),i=Yr(a,{...r,env:{device:Zr(r.device),wgsl:{resourceDeclarations:s}}}),o=Xr(i,r.device.features);if(o.length>0)throw new Error(`WebGPU op ${this.manifest.id} variant ${n.id} pass ${t.id} rendered WGSL enable directives the device does not support: ${o.join(", ")}. Gate the directive in the template (env.device.features) or declare the feature in the variant's requires.requiredFeatures.`);return i}programSpecialization(n,t){return{variant:gn(n.constants,{...t,variant:n}),passes:n.passes.map(r=>({id:r.id,constants:gn(r.constants,{...t,variant:n,pass:r}),source:this.passSourceSpecialization(n,r,t)}))}}passSourceSpecialization(n,t,r){let s=this.passConstants(n,t,r),a={...r,variant:n,pass:t,constants:s};return{kind:"template",shader:t.source.shader,sourceVersion:t.source.version??1,inputs:this.passSourceInputs(t.source,a)}}buildPlan(n,t,r,s,a){let i=this.allOutputsEmpty(a),o=ii(s.intermediates,s.passes,a,i),u=s.passes.map((l,d)=>this.buildPlanPass(s,l,a,d,i));return Object.freeze({key:n,programKey:t,shapeKey:r,scratches:o,passes:Object.freeze(u)})}allOutputsEmpty(n){let t=0;for(let[r,s]of Object.entries(this.manifest.args)){if(s.role!=="output"&&s.role!=="inout")continue;let a=n.resources[r];if(!Ve(a)||(t+=1,a.shape.reduce((i,o)=>i*o,1)!==0))return!1}return t>0}buildPlanPass(n,t,r,s,a){let i=this.passConstants(n,t,r);if(a)return Object.freeze({id:t.id,dispatchWorkgroups:[0,0,0],uniforms:this.zeroFilledUniforms(t)});let o={...r,variant:n,pass:t,constants:i},u={...o,sourceContext:this.passSourceInputs(t.source,o)},l=t.bindings.filter(d=>d.buffer.type==="uniform").reduce((d,c)=>(d[c.name]=this.uniformValues(c,t.uniforms[c.name],u),d),{});return Object.freeze({id:t.id,dispatchWorkgroups:this.passDispatchWorkgroups(t,u),uniforms:l})}zeroFilledUniforms(n){let t={};for(let r of n.bindings)r.buffer.type!=="uniform"||!r.struct||(t[r.name]=Object.fromEntries(r.struct.fields.map(s=>[s.name,0])));return t}passDispatchWorkgroups(n,t){let r=t.device.limits.maxComputeWorkgroupsPerDimension;return[Ue(n.dispatch.x,t),Ue(n.dispatch.y??1,t),Ue(n.dispatch.z??1,t)].map((s,a)=>{if(!Number.isInteger(s)||Number(s)<0)throw new Error(`WebGPU pass ${n.id} dispatch axis ${a} must resolve to a nonnegative integer, got ${String(s)}`);if(Number(s)>r)throw new Error(`WebGPU pass ${n.id} dispatch axis ${a} = ${s} exceeds maxComputeWorkgroupsPerDimension (${r}); clamp the dispatch (min(..., ${r})) and grid-stride over the remainder, or fold into 2D/3D.`);return Number(s)})}uniformValues(n,t,r){let s=n.struct;if(!s)throw new Error(`WebGPU uniform binding ${n.name} requires struct`);let a={};for(let i of s.fields){let o=t?.[i.name]??i.value??r.args[i.name]??i.default;if(o===void 0)continue;let u=Ue(o,r);if(typeof u!="number"||!Number.isFinite(u))throw new Error(`WebGPU uniform ${n.name}.${i.name} must resolve to a finite number`);a[i.name]=u}return a}passConstants(n,t,r){return{...r.dtypes,...gn(n.constants,{...r,variant:n,pass:t}),...gn(t.constants,{...r,variant:n,pass:t})}}passSourceInputs(n,t){return $p(gn(n.inputs,t),`WebGPU template source ${n.shader} inputs`)}selectVariantAndScope(n,t,r){let s=this.selectVariant(n,r),a=this.applyVariantDerive(n,t,s);return{variant:s,scope:a}}selectVariant(n,t){let r=[];for(let s of this.variantCandidates(t)){let a=this.checkVariant(s,n);if(a.ok)return s;r.push(`${s.id}: ${a.reason}`)}throw new Error(`No supported WebGPU variant for ${this.manifest.id}; rejected ${r.join("; ")}`)}variantCandidates(n){if(n!==void 0){let r=this.manifest.variants.find(s=>s.id===n);if(!r)throw new Error(`WebGPU op ${this.manifest.id} has no variant ${n}`);return[r]}return[...this.manifest.variants].sort((r,s)=>r.default!==s.default?r.default?-1:1:s.priority-r.priority)}checkVariant(n,t){let r=Br(n.requires,t.device);if(r)return{ok:!1,reason:r};let s=Bp(n,t.device,t.present);if(s)return{ok:!1,reason:s};let a={...t,variant:n},i=Array.isArray(n.when)?n.when:[n.when],o=i.length>1;for(let u of i){let l;try{l=Ue(u,a)}catch(d){return{ok:!1,reason:`when eval error in \`${typeof u=="string"?u:String(u)}\`: ${d.message}`}}if(l!==!0){let d=typeof u=="string"?u:String(u);return{ok:!1,reason:o?`when clause failed: \`${d}\` \u2192 ${String(l)}`:`when guard resolved to ${String(l)}`}}}if(n.selectAbove!==null){let u;try{u=Ue(n.selectAbove,a)}catch(l){return{ok:!1,reason:`selectAbove eval error in \`${n.selectAbove}\`: ${l.message}`}}if(u!==!0)return{ok:!1,reason:`below perf floor: \`${n.selectAbove}\` \u2192 ${String(u)}`}}return{ok:!0}}buildBaseScope(n,t){let r={...t.resources},s={...this.manifest.attributes,...t.attrs??{}},a={...t.args??{}},i={...t.sourceContext??{}};for(let[f,h]of Object.entries(r))!Ve(h)&&typeof h!="object"&&(a[f]=h);let o=Object.fromEntries(Object.keys({...this.manifest.args,...r}).map(f=>[f,r[f]!==void 0&&r[f]!==null])),u={},l={},d={},c={};for(let[f,h]of Object.entries(this.manifest.args)){let m=r[f];if(!Ve(m))continue;let g=[f,h.semantic,h.role].filter(w=>typeof w=="string"&&w.length>0);for(let w of g)u[w]=m.shape,l[w]=m.shape.length,d[w]=m.dtype}for(let f of[...this.manifest.inputs,...this.manifest.outputs]){if(!f.dtype)continue;let h=d[f.role];h!==void 0&&(c[f.dtype]=Vn(h))}return this.validateInputDtypes(d),{op:this.manifest,device:n,attrs:s,args:a,sourceContext:i,resources:r,present:o,shapes:u,ranks:l,tensorDtypes:d,dtypes:c,derived:{},tunables:{...this.manifest.tunables,...t.tunables??{}},constants:{}}}validateInputDtypes(n){for(let t of this.manifest.inputs){let r=t.dtype;if(!r)continue;let s=n[t.role];if(s===void 0)continue;let a=this.manifest.typeConstraints[r];if(Array.isArray(a)&&a.length>0&&!a.includes(s))throw new Error(`${this.manifest.id}: input "${t.role}" has dtype ${s}, not allowed by type constraint ${r} = [${a.join(", ")}]`)}}applyManifestDerive(n){let t={};for(let[r,s]of Object.entries(this.manifest.derive))t[r]=$e(s,{...n,derived:t});return{...n,derived:t}}applyVariantDerive(n,t,r){let s={...n,variant:r,tunables:{...this.manifest.tunables,...r.tunables,...t.tunables??{}}},a={...n.derived};for(let[i,o]of Object.entries(r.derive))a[i]=$e(o,{...s,derived:a});return{...s,derived:a}}validateRequest(n){for(let[t,r]of Object.entries(this.manifest.args)){let s=n.resources[t]??n.args?.[t];if(s==null){if(r.required!==!1)throw new Error(`WebGPU op ${this.manifest.id} missing required arg ${t}`);continue}Up(t,r,s)}}};Np=/{%\s*include\s+["']([^"']+)["']\s*%}/g;mi=new WeakMap;Zp=new Set(Object.keys(Ie))});var _i,yi,bi=re(()=>{_i=new Map([]),yi=new Map([["com.xenova.AddInPlace",{manifest:{schemaVersion:1,domain:"com.xenova",name:"AddInPlace",sinceVersion:1,inputs:[{role:"Y",dtype:"Y"},{role:"X",dtype:"X"}],outputs:[{role:"Y",dtype:"Y",shape:"shapes.yT"}],typeConstraints:{Y:["float32","float16"],X:["float32","float16"]},args:{yT:{kind:"tensor",semantic:"Y",role:"inout"},xT:{kind:"tensor",semantic:"X",role:"input"},count:{kind:"u32",semantic:"kernel.count"}},tunables:{WORKGROUP_SIZE:64,MAX_WORKGROUPS_X:1024},variants:[{id:"scalar",when:["args.count >= 0","numel(shapes.yT) >= args.count","numel(shapes.xT) >= args.count","f16Ok(dtypes.Y)","f16Ok(dtypes.X)"],passes:[{id:"main",name:"AddInPlace",shader:"add-in-place.wgsl.jinja",bindings:[{name:"y",arg:"yT",semantic:"Y",role:"inout",buffer:{type:"storage"},elementType:"$Y"},{name:"x",arg:"xT",semantic:"X",role:"input",buffer:{type:"read-only-storage"},elementType:"$X"},{name:"params",semantic:"kernel.params",buffer:{type:"uniform"},struct:{name:"Params",fields:[{name:"count",type:"u32",value:"args.count"},{name:"wgY",type:"u32",value:"min(ceil(args.count / tunables.WORKGROUP_SIZE), tunables.MAX_WORKGROUPS_X)"}]}}],dispatch:{x:"min(ceil(args.count / tunables.WORKGROUP_SIZE), tunables.MAX_WORKGROUPS_X)",y:"ceil(ceil(args.count / tunables.WORKGROUP_SIZE) / min(ceil(args.count / tunables.WORKGROUP_SIZE), tunables.MAX_WORKGROUPS_X))",z:1},reads:["Y","X"],writes:["Y"]}]}]},assets:[["add-in-place.wgsl.jinja",`{% if Y == "f16" or X == "f16" %} enable f16; {% endif %} {{ env.wgsl.resourceDeclarations }} const WG: u32 = {{ tunables.WORKGROUP_SIZE }}u; @compute @workgroup_size(WG, 1, 1) fn main(@builtin(workgroup_id) wg: vec3, @builtin(local_invocation_id) lid: vec3) { let wg_idx = wg.x + wg.y * params.wgY; let i = wg_idx * WG + lid.x; if (i >= params.count) { return; } let yv = f32(y[i]); let xv = f32(x[i]); y[i] = {{ "f16(yv + xv)" if dtypes.Y == "f16" else "yv + xv" }}; } `]]}],["com.xenova.llama.ForwardMegakernel",{manifest:{schemaVersion:1,domain:"com.xenova.llama",name:"ForwardMegakernel",sinceVersion:1,inputs:[{role:"InputIds",dtype:"uint32",rank:2},{role:"PositionIds",dtype:"uint32",rank:2},{role:"Weights",dtype:"float32",rank:1},{role:"CacheKeys",dtype:"float32"},{role:"CacheValues",dtype:"float32"}],outputs:[{role:"Logits",dtype:"float32"},{role:"CacheKeys",dtype:"float32"},{role:"CacheValues",dtype:"float32"}],args:{inputIdsT:{kind:"tensor",semantic:"InputIds",role:"input"},positionIdsT:{kind:"tensor",semantic:"PositionIds",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},logitsT:{kind:"tensor",semantic:"Logits",role:"output"},cacheKeysT:{kind:"tensor",semantic:"CacheKeys",role:"inout"},cacheValuesT:{kind:"tensor",semantic:"CacheValues",role:"inout"},batchSize:{kind:"u32",semantic:"batch_size"},seqLen:{kind:"u32",semantic:"seq_len"},pastLen:{kind:"u32",semantic:"past_len"},logitsLen:{kind:"u32",semantic:"logits_len"},maxSeq:{kind:"u32",semantic:"max_seq_len"},embedOffset:{kind:"u32",semantic:"embed_offset"},modelNormOffset:{kind:"u32",semantic:"model_norm_offset"},lmHeadOffset:{kind:"u32",semantic:"lm_head_offset"},hiddenArraySize:{kind:"u32",semantic:"hidden_array_size"},qArraySize:{kind:"u32",semantic:"q_array_size"},kvArraySize:{kind:"u32",semantic:"kv_array_size"},interSize:{kind:"u32",semantic:"inter_size"},consts:{kind:"string",semantic:"shape_consts"},layerOffsets:{kind:"string",semantic:"layer_offsets_wgsl"},qkNormBlock:{kind:"string",semantic:"qk_norm_block"},siluFn:{kind:"string",semantic:"silu_wgsl"},f32Min:{kind:"string",semantic:"f32_min_literal"},ropeTheta:{kind:"string",semantic:"rope_theta"},rmsEps:{kind:"string",semantic:"rms_eps"},scaling:{kind:"string",semantic:"attention_scaling"}},variants:[{id:"generated",priority:0,when:["args.batchSize > 0","args.seqLen > 0","args.hiddenArraySize > 0","ranks.inputIdsT == 2",'tensorDtypes.inputIdsT == "uint32"','tensorDtypes.weightsT == "float32"','tensorDtypes.logitsT == "float32"'],constants:{maxSeq:"args.maxSeq",consts:"args.consts",ropeTheta:"args.ropeTheta",rmsEps:"args.rmsEps",scaling:"args.scaling",embedOffset:"args.embedOffset",modelNormOffset:"args.modelNormOffset",lmHeadOffset:"args.lmHeadOffset",layerOffsets:"args.layerOffsets",qkNormBlock:"args.qkNormBlock",siluFn:"args.siluFn",f32Min:"args.f32Min",hiddenArraySize:"args.hiddenArraySize",qArraySize:"args.qArraySize",kvArraySize:"args.kvArraySize",interSize:"args.interSize"},passes:[{id:"main",name:"ForwardMegakernel",shader:"forward-megakernel.wgsl.jinja",bindings:[{name:"input_ids",arg:"inputIdsT",semantic:"InputIds",role:"input",buffer:{type:"read-only-storage"},elementType:"u32"},{name:"position_ids",arg:"positionIdsT",semantic:"PositionIds",role:"input",buffer:{type:"read-only-storage"},elementType:"u32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"logits",arg:"logitsT",semantic:"Logits",role:"output",buffer:{type:"storage"},elementType:"f32"},{name:"cache_keys",arg:"cacheKeysT",semantic:"CacheKeys",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"cache_values",arg:"cacheValuesT",semantic:"CacheValues",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"params",semantic:"kernel.params",buffer:{type:"uniform"},struct:{name:"Params",fields:[{name:"batch_size",type:"u32",value:"args.batchSize"},{name:"seq_len",type:"u32",value:"args.seqLen"},{name:"past_len",type:"u32",value:"args.pastLen"},{name:"logits_len",type:"u32",value:"args.logitsLen"}]}}],dispatch:{x:"min(args.batchSize, device.limits.maxComputeWorkgroupsPerDimension)",y:"ceilDiv(args.batchSize, device.limits.maxComputeWorkgroupsPerDimension)",z:1},reads:["InputIds","PositionIds","Weights","CacheKeys","CacheValues"],writes:["Logits","CacheKeys","CacheValues"]}]}]},assets:[["forward-megakernel.wgsl.jinja",`struct Params { batch_size: u32, seq_len: u32, past_len: u32, logits_len: u32, } @group(0) @binding(0) var input_ids: array; @group(0) @binding(1) var position_ids: array; @group(0) @binding(2) var weights: array; @group(0) @binding(3) var logits: array; @group(0) @binding(4) var cache_keys: array; @group(0) @binding(5) var cache_values: array; @group(0) @binding(6) var params: Params; const MAX_SEQ_LEN: u32 = {{ maxSeq }}u; {{ consts }} const ROPE_THETA: f32 = {{ ropeTheta }}; const RMS_EPS: f32 = {{ rmsEps }}; const ATTN_SCALING: f32 = {{ scaling }}; const W_EMBED: u32 = {{ embedOffset }}u; const W_FINAL_NORM: u32 = {{ modelNormOffset }}u; const W_LM_HEAD: u32 = {{ lmHeadOffset }}u; {{ layerOffsets }} fn hidden_index(t: u32, dim: u32) -> u32 { return t * HIDDEN_SIZE + dim; } fn q_index(t: u32, head: u32, dim: u32) -> u32 { return (t * NUM_HEADS + head) * HEAD_DIM + dim; } fn kv_index(t: u32, head: u32, dim: u32) -> u32 { return (t * NUM_KV_HEADS + head) * HEAD_DIM + dim; } fn cache_index(layer: u32, batch: u32, pos: u32, head: u32, dim: u32) -> u32 { return ((((layer * params.batch_size + batch) * MAX_SEQ_LEN + pos) * NUM_KV_HEADS + head) * HEAD_DIM + dim); } {{ siluFn }} @compute @workgroup_size(1) fn main(@builtin(workgroup_id) wid: vec3, @builtin(num_workgroups) nwg: vec3) { // 2D-fold of the batch axis: when batch_size exceeds the per-dimension dispatch // limit it is split across x (clamped) and y, so the flat batch index is // wid.x + wid.y * nwg.x. With y == 1 (batch_size within the limit) this reduces // to wid.x, bit-identically. The guard below drops the over-dispatched tail. let batch = wid.x + wid.y * nwg.x; if (batch >= params.batch_size || params.seq_len > MAX_SEQ_LEN || params.past_len + params.seq_len > MAX_SEQ_LEN) { return; } var hidden: array; var residual: array; var normed: array; var q: array; var k: array; var v: array; var attn_out: array; var gate: array; var up: array; for (var t = 0u; t < params.seq_len; t = t + 1u) { let token = input_ids[batch * params.seq_len + t]; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { hidden[hidden_index(t, dim)] = weights[W_EMBED + token * HIDDEN_SIZE + dim]; } } for (var layer = 0u; layer < NUM_LAYERS; layer = layer + 1u) { for (var i = 0u; i < params.seq_len * HIDDEN_SIZE; i = i + 1u) { residual[i] = hidden[i]; } for (var t = 0u; t < params.seq_len; t = t + 1u) { var variance = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let value = hidden[hidden_index(t, dim)]; variance = variance + value * value; } let scale = inverseSqrt(variance / f32(HIDDEN_SIZE) + RMS_EPS); for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { normed[hidden_index(t, dim)] = hidden[hidden_index(t, dim)] * scale * weights[input_norm_offset(layer) + dim]; } } for (var t = 0u; t < params.seq_len; t = t + 1u) { for (var head = 0u; head < NUM_HEADS; head = head + 1u) { for (var d = 0u; d < HEAD_DIM; d = d + 1u) { let out_dim = head * HEAD_DIM + d; var acc = 0.0; for (var in_dim = 0u; in_dim < HIDDEN_SIZE; in_dim = in_dim + 1u) { acc = acc + normed[hidden_index(t, in_dim)] * weights[q_offset(layer) + out_dim * HIDDEN_SIZE + in_dim]; } q[q_index(t, head, d)] = acc; } } for (var head = 0u; head < NUM_KV_HEADS; head = head + 1u) { for (var d = 0u; d < HEAD_DIM; d = d + 1u) { let out_dim = head * HEAD_DIM + d; var k_acc = 0.0; var v_acc = 0.0; for (var in_dim = 0u; in_dim < HIDDEN_SIZE; in_dim = in_dim + 1u) { let x = normed[hidden_index(t, in_dim)]; k_acc = k_acc + x * weights[k_offset(layer) + out_dim * HIDDEN_SIZE + in_dim]; v_acc = v_acc + x * weights[v_offset(layer) + out_dim * HIDDEN_SIZE + in_dim]; } k[kv_index(t, head, d)] = k_acc; v[kv_index(t, head, d)] = v_acc; } } } {{ qkNormBlock }} for (var t = 0u; t < params.seq_len; t = t + 1u) { let pos = f32(position_ids[batch * params.seq_len + t]); for (var head = 0u; head < NUM_HEADS; head = head + 1u) { for (var d = 0u; d < HEAD_DIM_HALF; d = d + 1u) { let inv_freq = 1.0 / pow(ROPE_THETA, f32(d * 2u) / f32(HEAD_DIM)); let angle = pos * inv_freq; let c = cos(angle); let s = sin(angle); let first = q[q_index(t, head, d)]; let second = q[q_index(t, head, d + HEAD_DIM_HALF)]; q[q_index(t, head, d)] = first * c - second * s; q[q_index(t, head, d + HEAD_DIM_HALF)] = second * c + first * s; } } for (var head = 0u; head < NUM_KV_HEADS; head = head + 1u) { for (var d = 0u; d < HEAD_DIM_HALF; d = d + 1u) { let inv_freq = 1.0 / pow(ROPE_THETA, f32(d * 2u) / f32(HEAD_DIM)); let angle = pos * inv_freq; let c = cos(angle); let s = sin(angle); let first = k[kv_index(t, head, d)]; let second = k[kv_index(t, head, d + HEAD_DIM_HALF)]; k[kv_index(t, head, d)] = first * c - second * s; k[kv_index(t, head, d + HEAD_DIM_HALF)] = second * c + first * s; } } for (var head = 0u; head < NUM_KV_HEADS; head = head + 1u) { for (var d = 0u; d < HEAD_DIM; d = d + 1u) { let pos_index = params.past_len + t; cache_keys[cache_index(layer, batch, pos_index, head, d)] = k[kv_index(t, head, d)]; cache_values[cache_index(layer, batch, pos_index, head, d)] = v[kv_index(t, head, d)]; } } } for (var t = 0u; t < params.seq_len; t = t + 1u) { for (var head = 0u; head < NUM_HEADS; head = head + 1u) { let kv_head = head / NUM_KV_GROUPS; var max_score = {{ f32Min }}; for (var src = 0u; src <= params.past_len + t; src = src + 1u) { var score = 0.0; for (var d = 0u; d < HEAD_DIM; d = d + 1u) { score = score + q[q_index(t, head, d)] * cache_keys[cache_index(layer, batch, src, kv_head, d)]; } score = score * ATTN_SCALING; max_score = max(max_score, score); } var denom = 0.0; for (var src = 0u; src <= params.past_len + t; src = src + 1u) { var score = 0.0; for (var d = 0u; d < HEAD_DIM; d = d + 1u) { score = score + q[q_index(t, head, d)] * cache_keys[cache_index(layer, batch, src, kv_head, d)]; } denom = denom + exp(score * ATTN_SCALING - max_score); } for (var d = 0u; d < HEAD_DIM; d = d + 1u) { var value = 0.0; for (var src = 0u; src <= params.past_len + t; src = src + 1u) { var score = 0.0; for (var kd = 0u; kd < HEAD_DIM; kd = kd + 1u) { score = score + q[q_index(t, head, kd)] * cache_keys[cache_index(layer, batch, src, kv_head, kd)]; } let prob = exp(score * ATTN_SCALING - max_score) / denom; value = value + prob * cache_values[cache_index(layer, batch, src, kv_head, d)]; } attn_out[hidden_index(t, head * HEAD_DIM + d)] = value; } } } for (var t = 0u; t < params.seq_len; t = t + 1u) { for (var out_dim = 0u; out_dim < HIDDEN_SIZE; out_dim = out_dim + 1u) { var acc = 0.0; for (var in_dim = 0u; in_dim < HIDDEN_SIZE; in_dim = in_dim + 1u) { acc = acc + attn_out[hidden_index(t, in_dim)] * weights[o_offset(layer) + out_dim * HIDDEN_SIZE + in_dim]; } hidden[hidden_index(t, out_dim)] = residual[hidden_index(t, out_dim)] + acc; } } for (var i = 0u; i < params.seq_len * HIDDEN_SIZE; i = i + 1u) { residual[i] = hidden[i]; } for (var t = 0u; t < params.seq_len; t = t + 1u) { var variance = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let value = hidden[hidden_index(t, dim)]; variance = variance + value * value; } let scale = inverseSqrt(variance / f32(HIDDEN_SIZE) + RMS_EPS); for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { normed[hidden_index(t, dim)] = hidden[hidden_index(t, dim)] * scale * weights[post_norm_offset(layer) + dim]; } for (var j = 0u; j < INTERMEDIATE_SIZE; j = j + 1u) { var gate_acc = 0.0; var up_acc = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let x = normed[hidden_index(t, dim)]; gate_acc = gate_acc + x * weights[gate_offset(layer) + j * HIDDEN_SIZE + dim]; up_acc = up_acc + x * weights[up_offset(layer) + j * HIDDEN_SIZE + dim]; } gate[j] = silu(gate_acc); up[j] = up_acc; } for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { var acc = 0.0; for (var j = 0u; j < INTERMEDIATE_SIZE; j = j + 1u) { acc = acc + gate[j] * up[j] * weights[down_offset(layer) + dim * INTERMEDIATE_SIZE + j]; } hidden[hidden_index(t, dim)] = residual[hidden_index(t, dim)] + acc; } } } for (var t = 0u; t < params.seq_len; t = t + 1u) { var variance = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let value = hidden[hidden_index(t, dim)]; variance = variance + value * value; } let scale = inverseSqrt(variance / f32(HIDDEN_SIZE) + RMS_EPS); for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { normed[hidden_index(t, dim)] = hidden[hidden_index(t, dim)] * scale * weights[W_FINAL_NORM + dim]; } } for (var out_t = 0u; out_t < params.logits_len; out_t = out_t + 1u) { let t = params.seq_len - params.logits_len + out_t; for (var vocab = 0u; vocab < VOCAB_SIZE; vocab = vocab + 1u) { var acc = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { acc = acc + normed[hidden_index(t, dim)] * weights[W_LM_HEAD + vocab * HIDDEN_SIZE + dim]; } logits[(batch * params.logits_len + out_t) * VOCAB_SIZE + vocab] = acc; } } } `]]}],["com.xenova.LlamaDecodeAttention",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeAttention",sinceVersion:1,inputs:[{role:"Q",dtype:"Q",rank:1},{role:"CacheKeys",dtype:"C",rank:1},{role:"CacheValues",dtype:"C",rank:1}],outputs:[{role:"Attn",dtype:"O",rank:1}],typeConstraints:{Q:["float32","float16"],C:["float32","float16"],O:["float32","float16"]},args:{qT:{kind:"tensor",semantic:"Q",role:"input"},cacheKeysT:{kind:"tensor",semantic:"CacheKeys",role:"input"},cacheValuesT:{kind:"tensor",semantic:"CacheValues",role:"input"},attnT:{kind:"tensor",semantic:"Attn",role:"output"},layer:{kind:"u32",semantic:"layer"},cacheLen:{kind:"u32",semantic:"cache_len"},pastLen:{kind:"u32",semantic:"past_len",required:!1},numHeads:{kind:"u32",semantic:"num_heads"},numKvHeads:{kind:"u32",semantic:"num_kv_heads"},headDim:{kind:"u32",semantic:"head_dim"},scale:{kind:"f32",semantic:"scale"},workgroupSize:{kind:"u32",semantic:"workgroup_size"}},variants:[{id:"scalar",priority:0,when:["ranks.qT == 1","(ranks.cacheKeysT == 1 or ranks.cacheKeysT == 5)","(ranks.cacheValuesT == 1 or ranks.cacheValuesT == 5)","ranks.attnT == 1",'(tensorDtypes.qT == "float32" or tensorDtypes.qT == "float16")',"tensorDtypes.cacheKeysT == tensorDtypes.cacheValuesT",'(tensorDtypes.cacheKeysT == "float32" or tensorDtypes.cacheKeysT == "float16")','(tensorDtypes.attnT == "float32" or tensorDtypes.attnT == "float16")','((tensorDtypes.qT != "float16" and tensorDtypes.cacheKeysT != "float16" and tensorDtypes.attnT != "float16") or device.features.has("shader-f16"))',"args.cacheLen > 0","args.numHeads > 0","args.numKvHeads > 0","args.numHeads % args.numKvHeads == 0","args.headDim > 0","(args.workgroupSize == 4 or args.workgroupSize == 8 or args.workgroupSize == 16 or args.workgroupSize == 32 or args.workgroupSize == 64 or args.workgroupSize == 128 or args.workgroupSize == 256)","numel(shapes.qT) >= args.numHeads * args.headDim","dim(shapes.attnT, 0) == args.numHeads * args.headDim","numel(shapes.cacheKeysT) >= (args.layer + 1) * args.cacheLen * args.numKvHeads * args.headDim","numel(shapes.cacheValuesT) >= (args.layer + 1) * args.cacheLen * args.numKvHeads * args.headDim"],constants:{usesF16:'tensorDtypes.qT == "float16" or tensorDtypes.cacheKeysT == "float16" or tensorDtypes.attnT == "float16"',qScalar:"dtypes.Q",cacheScalar:"dtypes.C",outScalar:"dtypes.O",layer:"args.layer",cacheLen:"args.cacheLen",numHeads:"args.numHeads",numKvHeads:"args.numKvHeads",numKvGroups:"args.numHeads / args.numKvHeads",headDim:"args.headDim",scaling:"args.scale",workgroupSize:"args.workgroupSize",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeAttention",shader:"decode-attention.wgsl.jinja",bindings:[{name:"q",arg:"qT",semantic:"Q",role:"input",buffer:{type:"read-only-storage"},elementType:"$qScalar"},{name:"cache_keys",arg:"cacheKeysT",semantic:"CacheKeys",role:"input",buffer:{type:"read-only-storage"},elementType:"$cacheScalar"},{name:"cache_values",arg:"cacheValuesT",semantic:"CacheValues",role:"input",buffer:{type:"read-only-storage"},elementType:"$cacheScalar"},{name:"attn_out",arg:"attnT",semantic:"Attn",role:"output",buffer:{type:"storage"},elementType:"$outScalar"},{name:"params",arg:"paramsT",semantic:"kernel.params",buffer:{type:"uniform"},struct:{name:"Params",fields:[{name:"past_len",type:"u32",value:"args.pastLen if args.pastLen else 0"},{name:"cache_len",type:"u32",value:"args.cacheLen"}]}}],dispatch:{x:"args.numHeads",y:1,z:1},reads:["Q","CacheKeys","CacheValues"],writes:["Attn"]}]}]},assets:[["decode-attention.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const LAYER: u32 = {{ layer }}u; const CACHE_LEN: u32 = {{ cacheLen }}u; const NUM_HEADS: u32 = {{ numHeads }}u; const NUM_KV_HEADS: u32 = {{ numKvHeads }}u; const NUM_KV_GROUPS: u32 = {{ numKvGroups }}u; const HEAD_DIM: u32 = {{ headDim }}u; const ATTN_SCALING: f32 = {{ scaling }}; const WORKGROUP_SIZE: u32 = {{ workgroupSize }}u; var scores: array; var partials: array; fn cache_index(pos: u32, head: u32, dim: u32) -> u32 { return (((LAYER * CACHE_LEN + pos) * NUM_KV_HEADS + head) * HEAD_DIM + dim); } fn load_q(value: {{ qScalar }}) -> f32 { return f32(value); } fn load_cache(value: {{ cacheScalar }}) -> f32 { return f32(value); } fn store_attn(value: f32) -> {{ outScalar }} { return {{ outScalar }}(value); } @compute @workgroup_size({{ workgroupSize }}) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let head = wid.x; let lid = lid3.x; if (head >= NUM_HEADS || params.past_len >= CACHE_LEN) { return; } let kv_head = head / NUM_KV_GROUPS; let q_base = head * HEAD_DIM; var local_max = {{ f32Min }}; for (var src = lid; src <= params.past_len; src = src + WORKGROUP_SIZE) { var score = 0.0; for (var d = 0u; d < HEAD_DIM; d = d + 1u) { score = fma(load_q(q[q_base + d]), load_cache(cache_keys[cache_index(src, kv_head, d)]), score); } score = score * ATTN_SCALING; scores[src] = score; local_max = max(local_max, score); } partials[lid] = local_max; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = max(partials[lid], partials[lid + stride]); } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let max_score = partials[0]; workgroupBarrier(); var local_denom = 0.0; for (var src = lid; src <= params.past_len; src = src + WORKGROUP_SIZE) { local_denom = local_denom + exp(scores[src] - max_score); } partials[lid] = local_denom; workgroupBarrier(); stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = partials[lid] + partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let denom = partials[0]; workgroupBarrier(); if (lid < HEAD_DIM) { let d = lid; var value = 0.0; for (var src = 0u; src <= params.past_len; src = src + 1u) { let prob = exp(scores[src] - max_score) / denom; value = fma(prob, load_cache(cache_values[cache_index(src, kv_head, d)]), value); } attn_out[q_base + d] = store_attn(value); } } `]]}],["com.xenova.LlamaDecodeAttentionSplitK",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeAttentionSplitK",sinceVersion:1,inputs:[{role:"Q",dtype:"Q",rank:1},{role:"CacheKeys",dtype:"C",rank:1},{role:"CacheValues",dtype:"C",rank:1}],outputs:[{role:"PartialOut",dtype:"float32",rank:1,shape:["args.numKvChunks * args.numHeads * args.headDim"]},{role:"PartialMeta",dtype:"float32",rank:1,shape:["args.numKvChunks * args.numHeads * 2"]}],typeConstraints:{Q:["float32","float16"],C:["float32","float16"]},args:{qT:{kind:"tensor",semantic:"Q",role:"input"},cacheKeysT:{kind:"tensor",semantic:"CacheKeys",role:"input"},cacheValuesT:{kind:"tensor",semantic:"CacheValues",role:"input"},partialOutT:{kind:"tensor",semantic:"PartialOut",role:"output"},partialMetaT:{kind:"tensor",semantic:"PartialMeta",role:"output"},layer:{kind:"u32",semantic:"layer"},cacheLen:{kind:"u32",semantic:"cache_len"},pastLen:{kind:"u32",semantic:"past_len",required:!1},numHeads:{kind:"u32",semantic:"num_heads"},numKvHeads:{kind:"u32",semantic:"num_kv_heads"},headDim:{kind:"u32",semantic:"head_dim"},scale:{kind:"f32",semantic:"scale"},workgroupSize:{kind:"u32",semantic:"workgroup_size"},tileSize:{kind:"u32",semantic:"tile_size"},numKvChunks:{kind:"u32",semantic:"num_kv_chunks"},minKeysPerChunk:{kind:"u32",semantic:"min_keys_per_chunk"}},variants:[{id:"split",priority:0,when:["ranks.qT == 1","(ranks.cacheKeysT == 1 or ranks.cacheKeysT == 5)","(ranks.cacheValuesT == 1 or ranks.cacheValuesT == 5)","ranks.partialOutT == 1","ranks.partialMetaT == 1",'(tensorDtypes.qT == "float32" or tensorDtypes.qT == "float16")',"tensorDtypes.cacheKeysT == tensorDtypes.cacheValuesT",'(tensorDtypes.cacheKeysT == "float32" or tensorDtypes.cacheKeysT == "float16")','tensorDtypes.partialOutT == "float32"','tensorDtypes.partialMetaT == "float32"','((tensorDtypes.qT != "float16" and tensorDtypes.cacheKeysT != "float16") or device.features.has("shader-f16"))',"args.cacheLen > 0","args.numHeads > 0","args.numKvHeads > 0","args.numHeads % args.numKvHeads == 0","args.headDim > 0","args.headDim % 4 == 0","args.tileSize > 0","args.workgroupSize >= args.tileSize","args.numKvChunks > 0","args.minKeysPerChunk > 0","(args.workgroupSize == 4 or args.workgroupSize == 8 or args.workgroupSize == 16 or args.workgroupSize == 32 or args.workgroupSize == 64 or args.workgroupSize == 128 or args.workgroupSize == 256)","numel(shapes.qT) >= args.numHeads * args.headDim","dim(shapes.partialOutT, 0) == args.numHeads * args.numKvChunks * args.headDim","dim(shapes.partialMetaT, 0) == args.numHeads * args.numKvChunks * 2","numel(shapes.cacheKeysT) >= (args.layer + 1) * args.cacheLen * args.numKvHeads * args.headDim","numel(shapes.cacheValuesT) >= (args.layer + 1) * args.cacheLen * args.numKvHeads * args.headDim"],constants:{usesF16:'tensorDtypes.qT == "float16" or tensorDtypes.cacheKeysT == "float16"',useSubgroups:'device.features.has("subgroups") and args.workgroupSize >= 32',qVec4:'"vec4" if tensorDtypes.qT == "float16" else "vec4"',cacheVec4:'"vec4" if tensorDtypes.cacheKeysT == "float16" else "vec4"',cacheScalar:"dtypes.C",layer:"args.layer",cacheLen:"args.cacheLen",numHeads:"args.numHeads",numKvHeads:"args.numKvHeads",numKvGroups:"args.numHeads / args.numKvHeads",headDim:"args.headDim",headDimVec4:"args.headDim / 4",scale:"args.scale",workgroupSize:"args.workgroupSize",tileSize:"args.tileSize",numKvChunks:"args.numKvChunks",minKeysPerChunk:"args.minKeysPerChunk",dualOutput:"args.headDim == args.workgroupSize * 2",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeAttentionSplitK",source:{kind:"template",shader:"decode-flash-attention-split-k.wgsl.jinja",version:1,inputs:{optimized:!0}},bindings:[{name:"q",arg:"qT",semantic:"Q",role:"input",buffer:{type:"read-only-storage"},elementType:"$qVec4"},{name:"cache_keys",arg:"cacheKeysT",semantic:"CacheKeys",role:"input",buffer:{type:"read-only-storage"},elementType:"$cacheVec4"},{name:"cache_values",arg:"cacheValuesT",semantic:"CacheValues",role:"input",buffer:{type:"read-only-storage"},elementType:"$cacheScalar"},{name:"partial_out",arg:"partialOutT",semantic:"PartialOut",role:"output",buffer:{type:"storage"},elementType:"f32"},{name:"partial_meta",arg:"partialMetaT",semantic:"PartialMeta",role:"output",buffer:{type:"storage"},elementType:"vec2"},{name:"params",arg:"paramsT",semantic:"kernel.params",buffer:{type:"uniform"},struct:{name:"Params",fields:[{name:"past_len",type:"u32",value:"args.pastLen if args.pastLen else 0"},{name:"cache_len",type:"u32",value:"args.cacheLen"}]}}],dispatch:{x:"args.numHeads",y:"args.numKvChunks",z:1},reads:["Q","CacheKeys","CacheValues"],writes:["PartialOut","PartialMeta"]}]}]},assets:[["decode-flash-attention-split-k.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {%- if useSubgroups %} enable subgroups; {% endif -%} {{ env.wgsl.resourceDeclarations }} const LAYER: u32 = {{ layer }}u; const CACHE_LEN: u32 = {{ cacheLen }}u; const NUM_HEADS: u32 = {{ numHeads }}u; const NUM_KV_HEADS: u32 = {{ numKvHeads }}u; const NUM_KV_GROUPS: u32 = {{ numKvGroups }}u; const HEAD_DIM: u32 = {{ headDim }}u; const HEAD_DIM_VEC4: u32 = {{ headDimVec4 }}u; const ATTN_SCALING: f32 = {{ scale }}; const WORKGROUP_SIZE: u32 = {{ workgroupSize }}u; const TILE_SIZE: u32 = {{ tileSize }}u; const NUM_KV_CHUNKS: u32 = {{ numKvChunks }}u; const MIN_KEYS_PER_CHUNK: u32 = {{ minKeysPerChunk }}u; const F32_MIN: f32 = {{ f32Min }}; var partials: array; var tile_scores: array; var shared_q: array, {{ headDimVec4 }}>; fn cache_index(pos: u32, head: u32, dim: u32) -> u32 { return (((LAYER * CACHE_LEN + pos) * NUM_KV_HEADS + head) * HEAD_DIM + dim); } fn cache_index_vec4(pos: u32, head: u32, dim4: u32) -> u32 { return ((LAYER * CACHE_LEN + pos) * NUM_KV_HEADS + head) * HEAD_DIM_VEC4 + dim4; } fn load_q(value: {{ qVec4 }}) -> vec4 { return vec4(value); } fn load_key(value: {{ cacheVec4 }}) -> vec4 { return vec4(value); } fn load_value(value: {{ cacheScalar }}) -> f32 { return f32(value); } fn exp_fast(value: f32) -> f32 { return exp2(value * 1.4426950408889634); } fn reduce_sum( value: f32, lid: u32 {%- if useSubgroups %}, sg_lid: u32, sg_size: u32 {%- endif %} ) -> f32 { {%- if useSubgroups %} let subgroup_sum = subgroupAdd(value); if (WORKGROUP_SIZE == sg_size) { if (lid == 0u) { partials[0] = subgroup_sum; } workgroupBarrier(); } else { if (sg_lid == 0u) { partials[lid / sg_size] = subgroup_sum; } workgroupBarrier(); if (lid == 0u) { var total = 0.0; let subgroup_count = WORKGROUP_SIZE / sg_size; for (var i = 0u; i < subgroup_count; i = i + 1u) { total = total + partials[i]; } partials[0] = total; } workgroupBarrier(); } {%- else %} partials[lid] = value; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = partials[lid] + partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } {%- endif %} // Trailing barrier so back-to-back reductions can't race: reduce_max and reduce_sum share // \`partials\`, so the next reduction's stores must wait until every invocation has read slot 0 // here. Without it, a fast lane's next-reduction write to partials[0] can clobber a slow lane's // read of this result \u2014 benign when the workgroup advances in lockstep, but a wrong-result race // under GPU scheduling pressure (concurrent decode). let reduced_sum = partials[0]; workgroupBarrier(); return reduced_sum; } fn reduce_max( value: f32, lid: u32 {%- if useSubgroups %}, sg_lid: u32, sg_size: u32 {%- endif %} ) -> f32 { {%- if useSubgroups %} let subgroup_max = subgroupMax(value); if (WORKGROUP_SIZE == sg_size) { if (lid == 0u) { partials[0] = subgroup_max; } workgroupBarrier(); } else { if (sg_lid == 0u) { partials[lid / sg_size] = subgroup_max; } workgroupBarrier(); if (lid == 0u) { var total = F32_MIN; let subgroup_count = WORKGROUP_SIZE / sg_size; for (var i = 0u; i < subgroup_count; i = i + 1u) { total = max(total, partials[i]); } partials[0] = total; } workgroupBarrier(); } {%- else %} partials[lid] = value; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = max(partials[lid], partials[lid + stride]); } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } {%- endif %} // Trailing barrier (see reduce_sum): reduce_max's result is read by every lane here, and the // immediately-following reduce_sum reuses \`partials\`, so its stores must not run until this read // completes for all lanes. let reduced_max = partials[0]; workgroupBarrier(); return reduced_max; } @compute @workgroup_size({{ workgroupSize }}) fn main( @builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3 {%- if useSubgroups %}, @builtin(subgroup_invocation_id) sg_lid: u32, @builtin(subgroup_size) sg_size: u32 {%- endif %} ) { let head = wid.x; let chunk = wid.y; let lid = lid3.x; if (head >= NUM_HEADS || chunk >= NUM_KV_CHUNKS || params.past_len >= CACHE_LEN) { return; } let total_len = params.past_len + 1u; let even = (total_len + NUM_KV_CHUNKS - 1u) / NUM_KV_CHUNKS; let chunk_size = max(even, MIN_KEYS_PER_CHUNK); let chunk_start = chunk * chunk_size; let chunk_end = min(chunk_start + chunk_size, total_len); let kv_head = head / NUM_KV_GROUPS; let q_base_vec4 = head * HEAD_DIM_VEC4; for (var dim4 = lid; dim4 < HEAD_DIM_VEC4; dim4 = dim4 + WORKGROUP_SIZE) { shared_q[dim4] = load_q(q[q_base_vec4 + dim4]); } workgroupBarrier(); var running_max = F32_MIN; var running_denom = 0.0; {%- if dualOutput %} var output0 = 0.0; var output1 = 0.0; {%- else %} var output = 0.0; {%- endif %} if (chunk_start < chunk_end) { for (var tile_start = chunk_start; tile_start < chunk_end; tile_start = tile_start + TILE_SIZE) { let score_src = tile_start + lid; var score = F32_MIN; if (lid < TILE_SIZE && score_src < chunk_end) { var acc = 0.0; for (var dim4 = 0u; dim4 < HEAD_DIM_VEC4; dim4 = dim4 + 1u) { let q_v = shared_q[dim4]; let k_v = load_key(cache_keys[cache_index_vec4(score_src, kv_head, dim4)]); acc = acc + dot(q_v, k_v); } score = acc * ATTN_SCALING; } if (lid < TILE_SIZE) { tile_scores[lid] = score; } let tile_max = reduce_max(score, lid{% if useSubgroups %}, sg_lid, sg_size{% endif %}); var exp_score = 0.0; if (lid < TILE_SIZE) { exp_score = select(0.0, exp_fast(tile_scores[lid] - tile_max), tile_start + lid < chunk_end); } let tile_denom = reduce_sum(exp_score, lid{% if useSubgroups %}, sg_lid, sg_size{% endif %}); let next_max = max(running_max, tile_max); let previous_scale = select(0.0, exp_fast(running_max - next_max), running_denom > 0.0); let tile_scale = exp_fast(tile_max - next_max); let next_denom = running_denom * previous_scale + tile_denom * tile_scale; {%- if dualOutput %} if (lid < WORKGROUP_SIZE) { var tile_output0 = 0.0; var tile_output1 = 0.0; for (var offset = 0u; offset < TILE_SIZE; offset = offset + 1u) { let value_src = tile_start + offset; if (value_src < chunk_end) { let prob = exp_fast(tile_scores[offset] - tile_max); let value0 = load_value(cache_values[cache_index(value_src, kv_head, lid)]); let value1 = load_value(cache_values[cache_index(value_src, kv_head, lid + WORKGROUP_SIZE)]); tile_output0 = fma(prob, value0, tile_output0); tile_output1 = fma(prob, value1, tile_output1); } } output0 = output0 * previous_scale + tile_scale * tile_output0; output1 = output1 * previous_scale + tile_scale * tile_output1; } {%- else %} if (lid < HEAD_DIM) { var tile_output = 0.0; for (var offset = 0u; offset < TILE_SIZE; offset = offset + 1u) { let value_src = tile_start + offset; if (value_src < chunk_end) { let value = load_value(cache_values[cache_index(value_src, kv_head, lid)]); tile_output = fma(exp_fast(tile_scores[offset] - tile_max), value, tile_output); } } output = output * previous_scale + tile_scale * tile_output; } {%- endif %} running_max = next_max; running_denom = next_denom; workgroupBarrier(); } } let partial_out_base = (head * NUM_KV_CHUNKS + chunk) * HEAD_DIM; {%- if dualOutput %} if (lid < WORKGROUP_SIZE) { partial_out[partial_out_base + lid] = output0; partial_out[partial_out_base + lid + WORKGROUP_SIZE] = output1; } {%- else %} if (lid < HEAD_DIM) { partial_out[partial_out_base + lid] = output; } {%- endif %} if (lid == 0u) { let meta_idx = head * NUM_KV_CHUNKS + chunk; partial_meta[meta_idx] = vec2(running_max, running_denom); } } `]]}],["com.xenova.LlamaDecodeAttentionSplitKMerge",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeAttentionSplitKMerge",sinceVersion:1,inputs:[{role:"PartialOut",dtype:"float32",rank:1},{role:"PartialMeta",dtype:"float32",rank:1}],outputs:[{role:"Attn",dtype:"O",rank:1,shape:["args.numHeads * args.headDim"]}],typeConstraints:{O:["float32","float16"]},args:{partialOutT:{kind:"tensor",semantic:"PartialOut",role:"input"},partialMetaT:{kind:"tensor",semantic:"PartialMeta",role:"input"},attnT:{kind:"tensor",semantic:"Attn",role:"output"},numHeads:{kind:"u32",semantic:"num_heads"},headDim:{kind:"u32",semantic:"head_dim"},numKvChunks:{kind:"u32",semantic:"num_kv_chunks"}},variants:[{id:"merge",priority:0,when:["ranks.partialOutT == 1","ranks.partialMetaT == 1","ranks.attnT == 1",'tensorDtypes.partialOutT == "float32"','tensorDtypes.partialMetaT == "float32"','(tensorDtypes.attnT == "float32" or tensorDtypes.attnT == "float16")','(tensorDtypes.attnT != "float16" or device.features.has("shader-f16"))',"args.numHeads > 0","args.headDim > 0","args.numKvChunks > 0","(args.headDim == 4 or args.headDim == 8 or args.headDim == 16 or args.headDim == 32 or args.headDim == 64 or args.headDim == 128 or args.headDim == 256)","dim(shapes.partialOutT, 0) == args.numHeads * args.numKvChunks * args.headDim","dim(shapes.partialMetaT, 0) == args.numHeads * args.numKvChunks * 2","dim(shapes.attnT, 0) == args.numHeads * args.headDim"],constants:{usesF16:'tensorDtypes.attnT == "float16"',useSubgroups:'device.features.has("subgroups")',outScalar:"dtypes.O",numHeads:"args.numHeads",headDim:"args.headDim",numKvChunks:"args.numKvChunks",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeAttentionSplitKMerge",source:{kind:"template",shader:"decode-flash-attention-merge.wgsl.jinja",version:1,inputs:{optimized:!0}},bindings:[{name:"partial_out",arg:"partialOutT",semantic:"PartialOut",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"partial_meta",arg:"partialMetaT",semantic:"PartialMeta",role:"input",buffer:{type:"read-only-storage"},elementType:"vec2"},{name:"attn_out",arg:"attnT",semantic:"Attn",role:"output",buffer:{type:"storage"},elementType:"$outScalar"}],dispatch:{x:"args.numHeads",y:1,z:1},reads:["PartialOut","PartialMeta"],writes:["Attn"]}]}]},assets:[["decode-flash-attention-merge.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {%- if useSubgroups %} enable subgroups; {% endif -%} {{ env.wgsl.resourceDeclarations }} const NUM_HEADS: u32 = {{ numHeads }}u; const HEAD_DIM: u32 = {{ headDim }}u; const NUM_KV_CHUNKS: u32 = {{ numKvChunks }}u; const F32_MIN: f32 = {{ f32Min }}; fn exp_fast(value: f32) -> f32 { return exp2(value * 1.4426950408889634); } fn store_attn(value: f32) -> {{ outScalar }} { return {{ outScalar }}(value); } @compute @workgroup_size({{ headDim }}) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let head = wid.x; let lid = lid3.x; if (head >= NUM_HEADS) { return; } var global_max = F32_MIN; for (var c = 0u; c < NUM_KV_CHUNKS; c = c + 1u) { let m = partial_meta[head * NUM_KV_CHUNKS + c].x; global_max = max(global_max, m); } var combined_output = 0.0; var combined_denom = 0.0; for (var c = 0u; c < NUM_KV_CHUNKS; c = c + 1u) { let chunk_meta = partial_meta[head * NUM_KV_CHUNKS + c]; let m = chunk_meta.x; let d = chunk_meta.y; if (d > 0.0) { let rescale = exp_fast(m - global_max); let partial = partial_out[(head * NUM_KV_CHUNKS + c) * HEAD_DIM + lid]; combined_output = combined_output + rescale * partial; combined_denom = combined_denom + rescale * d; } } let denom = max(combined_denom, 1.0e-20); attn_out[head * HEAD_DIM + lid] = store_attn(combined_output / denom); } `]]}],["com.xenova.LlamaDecodeBestArgmax",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeBestArgmax",sinceVersion:1,inputs:[{role:"BestValues",dtype:"float32",rank:1},{role:"BestIds",dtype:"uint32",rank:1}],outputs:[{role:"Output",dtype:"uint32",rank:1,shape:[1]}],args:{bestValuesT:{kind:"tensor",semantic:"BestValues",role:"input"},bestIdsT:{kind:"tensor",semantic:"BestIds",role:"input"},outputT:{kind:"tensor",semantic:"Output",role:"output"},outputOffset:{kind:"u32",semantic:"output_offset",required:!1},workgroupSize:{kind:"u32",semantic:"workgroup_size"},inputCount:{kind:"u32",semantic:"input_count",required:!1}},variants:[{id:"reduce",priority:0,when:["ranks.bestValuesT == 1","ranks.bestIdsT == 1","ranks.outputT == 1",'tensorDtypes.bestValuesT == "float32"','tensorDtypes.bestIdsT == "uint32"','tensorDtypes.outputT == "uint32"',"args.workgroupSize > 0","args.workgroupSize <= 256","(args.workgroupSize == 1 or args.workgroupSize == 2 or args.workgroupSize == 4 or args.workgroupSize == 8 or args.workgroupSize == 16 or args.workgroupSize == 32 or args.workgroupSize == 64 or args.workgroupSize == 128 or args.workgroupSize == 256)","(args.inputCount if args.inputCount else args.workgroupSize) > 0","(args.inputCount if args.inputCount else args.workgroupSize) <= dim(shapes.bestValuesT, 0)","dim(shapes.bestIdsT, 0) >= (args.inputCount if args.inputCount else args.workgroupSize)","dim(shapes.outputT, 0) > (args.outputOffset if args.outputOffset else 0)"],constants:{workgroupSize:"args.workgroupSize",inputCount:"args.inputCount if args.inputCount else args.workgroupSize",outputOffset:"args.outputOffset if args.outputOffset else 0",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeBestArgmax",shader:"decode-best-argmax.wgsl.jinja",bindings:[{name:"best_values_in",arg:"bestValuesT",semantic:"BestValues",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"best_ids_in",arg:"bestIdsT",semantic:"BestIds",role:"input",buffer:{type:"read-only-storage"},elementType:"u32"},{name:"output",arg:"outputT",semantic:"Output",role:"output",buffer:{type:"storage"},elementType:"u32"}],dispatch:{x:1,y:1,z:1},reads:["BestValues","BestIds"],writes:["Output"]}]}]},assets:[["decode-best-argmax.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} const WORKGROUP_SIZE: u32 = {{ workgroupSize }}u; const INPUT_COUNT: u32 = {{ inputCount }}u; const OUTPUT_OFFSET: u32 = {{ outputOffset }}u; var best_values: array; var best_indices: array; @compute @workgroup_size({{ workgroupSize }}) fn main(@builtin(local_invocation_id) lid3: vec3) { let lid = lid3.x; var value = {{ f32Min }}; var index = 0u; for (var input = lid; input < INPUT_COUNT; input = input + WORKGROUP_SIZE) { let candidate = best_values_in[input]; if (candidate > value) { value = candidate; index = best_ids_in[input]; } } best_values[lid] = value; best_indices[lid] = index; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { let other_value = best_values[lid + stride]; let other_index = best_indices[lid + stride]; if (other_value > best_values[lid]) { best_values[lid] = other_value; best_indices[lid] = other_index; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { output[OUTPUT_OFFSET] = best_indices[0]; } } `]]}],["com.xenova.LlamaDecodeConvDepthwise",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeConvDepthwise",sinceVersion:1,inputs:[{role:"ConvProj",dtype:"float32",rank:1},{role:"Weights",dtype:"W",rank:1},{role:"ConvStates",dtype:"float32",rank:1}],outputs:[{role:"ConvStates",dtype:"float32",rank:1,shape:["args.hiddenSize * args.convLCache"]},{role:"ConvY",dtype:"float32",rank:1,shape:["args.hiddenSize"]}],typeConstraints:{W:["float32","float16"]},args:{convProjT:{kind:"tensor",semantic:"ConvProj",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},convStatesT:{kind:"tensor",semantic:"ConvStates",role:"inout"},convYT:{kind:"tensor",semantic:"ConvY",role:"output"},layer:{kind:"u32",semantic:"layer"},hiddenSize:{kind:"u32",semantic:"hidden_size"},convLCache:{kind:"u32",semantic:"conv_l_cache"},convWeightOffset:{kind:"u32",semantic:"conv_weight_offset"}},variants:[{id:"main",priority:0,when:["ranks.convProjT == 1","ranks.weightsT == 1","ranks.convStatesT == 1","ranks.convYT == 1",'tensorDtypes.convProjT == "float32"','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','tensorDtypes.convStatesT == "float32"','tensorDtypes.convYT == "float32"','(tensorDtypes.weightsT != "float16" or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.convLCache > 0","args.convWeightOffset % 4 == 0","dim(shapes.convProjT, 0) == 3 * args.hiddenSize","dim(shapes.convYT, 0) == args.hiddenSize","dim(shapes.convStatesT, 0) >= (args.layer + 1) * args.hiddenSize * args.convLCache","dim(shapes.weightsT, 0) >= args.convWeightOffset + args.hiddenSize * args.convLCache"],constants:{usesF16:'tensorDtypes.weightsT == "float16"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',layer:"args.layer",hiddenSize:"args.hiddenSize",convLCache:"args.convLCache",convWeightOffsetVec4:"args.convWeightOffset / 4"},passes:[{id:"main",name:"LlamaDecodeConvDepthwise",shader:"decode-conv-depthwise.wgsl.jinja",bindings:[{name:"conv_proj",arg:"convProjT",semantic:"ConvProj",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"conv_states",arg:"convStatesT",semantic:"ConvStates",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"conv_y",arg:"convYT",semantic:"ConvY",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:"ceil(args.hiddenSize / 256)",y:1,z:1},reads:["ConvProj","Weights","ConvStates"],writes:["ConvStates","ConvY"]}]}]},assets:[["decode-conv-depthwise.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const LAYER: u32 = {{ layer }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const CONV_L_CACHE: u32 = {{ convLCache }}u; const W_CONV_VEC4: u32 = {{ convWeightOffsetVec4 }}u; // conv depthwise weight (dense f16/f32) fn state_index(dim: u32, tap: u32) -> u32 { return (LAYER * HIDDEN_SIZE + dim) * CONV_L_CACHE + tap; } fn conv_weight(dim: u32, tap: u32) -> f32 { let packed = vec4(weights[W_CONV_VEC4 + (dim * CONV_L_CACHE + tap) / 4u]); let lane = (dim * CONV_L_CACHE + tap) % 4u; if (lane == 0u) { return packed.x; } if (lane == 1u) { return packed.y; } if (lane == 2u) { return packed.z; } return packed.w; } // LFM2 short-conv depthwise + gating tail. The in_proj GEMV (decode-conv-in-proj-norm-q4) has // already written the rms-scaled B|C|x gates to conv_proj ([B(hidden) | C(hidden) | x(hidden)]). // One thread per channel computes bx = B*x, the causal depthwise conv over the per-channel state // (newest tap holds the current bx), shifts the state, and gates by C. Cheap and memory-light, so it // runs as its own pass with no cooperation/reduction \u2014 one lane per channel, all lanes busy. @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3) { let dim_out = gid.x; if (dim_out >= HIDDEN_SIZE) { return; } let proj_b = conv_proj[dim_out]; let proj_c = conv_proj[HIDDEN_SIZE + dim_out]; let proj_x = conv_proj[2u * HIDDEN_SIZE + dim_out]; let bx = proj_b * proj_x; var conv_out = bx * conv_weight(dim_out, CONV_L_CACHE - 1u); for (var tap = 0u; tap + 1u < CONV_L_CACHE; tap = tap + 1u) { let next = conv_states[state_index(dim_out, tap + 1u)]; conv_states[state_index(dim_out, tap)] = next; conv_out = fma(next, conv_weight(dim_out, tap), conv_out); } conv_states[state_index(dim_out, CONV_L_CACHE - 1u)] = bx; conv_y[dim_out] = proj_c * conv_out; } `]]}],["com.xenova.LlamaDecodeConvInProjNormQ4",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeConvInProjNormQ4",sinceVersion:1,inputs:[{role:"Hidden",dtype:"H",rank:1},{role:"Q4Bits",dtype:"uint32",rank:1},{role:"Q4Scales",dtype:"S",rank:1},{role:"NormWeights",dtype:"W",rank:1}],outputs:[{role:"ConvProj",dtype:"float32",rank:1,shape:["3 * args.hiddenSize"]}],typeConstraints:{H:["float32","float16"],S:["float32","float16"],W:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},q4BitsT:{kind:"tensor",semantic:"Q4Bits",role:"weights"},q4ScalesT:{kind:"tensor",semantic:"Q4Scales",role:"weights"},weightsT:{kind:"tensor",semantic:"NormWeights",role:"weights"},convProjT:{kind:"tensor",semantic:"ConvProj",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},normOffset:{kind:"u32",semantic:"input_norm_offset"},convInOffset:{kind:"u32",semantic:"conv_in_q4_block_offset"},quantBits:{kind:"u32",semantic:"packed_quant_bits"},hasMin:{kind:"u32",semantic:"kquant_has_min",required:!1}},variants:[{id:"q4",priority:0,when:["ranks.hiddenT == 1","ranks.q4BitsT == 1","ranks.q4ScalesT == 1","ranks.weightsT == 1","ranks.convProjT == 1",'(tensorDtypes.hiddenT == "float32" or tensorDtypes.hiddenT == "float16")','tensorDtypes.q4BitsT == "uint32"','(tensorDtypes.q4ScalesT == "float32" or tensorDtypes.q4ScalesT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','tensorDtypes.convProjT == "float32"','((tensorDtypes.hiddenT != "float16" and tensorDtypes.q4ScalesT != "float16" and tensorDtypes.weightsT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 32 == 0","args.normOffset % 4 == 0","(args.quantBits == 4 or args.quantBits == 8)","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.convProjT, 0) == 3 * args.hiddenSize","dim(shapes.weightsT, 0) >= args.normOffset + args.hiddenSize","dim(shapes.q4BitsT, 0) >= (args.convInOffset + 3 * args.hiddenSize * (args.hiddenSize / 32)) * args.quantBits","dim(shapes.q4ScalesT, 0) >= (args.convInOffset + 3 * args.hiddenSize * (args.hiddenSize / 32)) * (2 if args.hasMin else 1)"],constants:{useSubgroups:'device.features.has("subgroups") and has(device.adapterInfo, "subgroupMinSize") and device.adapterInfo.subgroupMinSize >= 32',usesF16:'tensorDtypes.hiddenT == "float16" or tensorDtypes.q4ScalesT == "float16" or tensorDtypes.weightsT == "float16"',scaleScalar:"dtypes.S",hiddenVec4:'"vec4" if tensorDtypes.hiddenT == "float16" else "vec4"',normWeightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',hiddenSize:"args.hiddenSize",blocksPerRow:"args.hiddenSize / 32",totalOutputs:"3 * args.hiddenSize",rmsEps:"args.rmsEps",normOffsetVec4:"args.normOffset / 4",convInOffset:"args.convInOffset",quantBits:"args.quantBits",hasMin:"args.hasMin if args.hasMin else 0"},passes:[{id:"main",name:"LlamaDecodeConvInProjNormQ4",shader:"decode-conv-in-proj-norm-q4.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"$hiddenVec4"},{name:"q4_bits",arg:"q4BitsT",semantic:"Q4Bits",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"q4_scales",arg:"q4ScalesT",semantic:"Q4Scales",role:"weights",buffer:{type:"read-only-storage"},elementType:"$scaleScalar"},{name:"norm_weight",arg:"weightsT",semantic:"NormWeights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$normWeightVec4"},{name:"conv_proj",arg:"convProjT",semantic:"ConvProj",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:"3 * args.hiddenSize",y:1,z:1},reads:["Hidden","Q4Bits","Q4Scales","NormWeights"],writes:["ConvProj"]}]}]},assets:[["decode-conv-in-proj-norm-q4.wgsl.jinja",`{%- if useSubgroups %} enable subgroups; {% endif -%} {%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const BPR: u32 = {{ blocksPerRow }}u; // Q4_0 blocks per weight row (hidden / 32) const TOTAL_OUTPUTS: u32 = {{ totalOutputs }}u; // 3 * hidden (B | C | x rows of conv in_proj) const RMS_EPS: f32 = {{ rmsEps }}; const W_NORM_VEC4: u32 = {{ normOffsetVec4 }}u; const W_IN_Q4: u32 = {{ convInOffset }}u; const WORKGROUP_SIZE: u32 = 32u; {%- if not useSubgroups %} var partials: array; var partials_ss: array; {% endif %} {%- if quantBits == 8 %} // Q8_0 dequant: a u32 word holds 4 signed int8 in contiguous element order (one block = 32 elements // = 2 vec4); dequant = q (scale applied once per block by the caller). fn q8dot(word: u32, xv: vec4) -> f32 { return dot(vec4(unpack4xI8(word)), xv); } {%- else %} fn q4_lo(word: u32) -> vec4 { return vec4(unpack4xU8(word & 0x0F0F0F0Fu)) - 8.0; } fn q4_hi(word: u32) -> vec4 { return vec4(unpack4xU8((word >> 4u) & 0x0F0F0F0Fu)) - 8.0; } fn q4wp(word: u32, lo: vec4, hi: vec4) -> f32 { return dot(lo, q4_lo(word)) + dot(hi, q4_hi(word)); } {%- endif %} // Fused input RMSNorm + LFM2 conv in_proj GEMV (Q4_0). The conv in_proj is [3*hidden, hidden] // (B | C | x rows); this computes one rms-scaled output row per workgroup over the concatenated // 3*hidden space and writes B/C/x to the conv_proj scratch \u2014 high parallelism (3*hidden workgroups, // like gate/up), unlike the single-channel-per-workgroup fused kernel. The cheap nonlinear // depthwise+gating runs as a separate pass (decode-conv-depthwise) over conv_proj. The RMS scale // is a per-token scalar that factors out of the linear GEMV (GEMV on hidden*norm_weight, accumulate // sum(hidden^2), apply inverseSqrt(ss/H+eps) at the end). One subgroupAdd reduces each row. @compute @workgroup_size(32) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let index = wid.x; let lid = lid3.x; if (index >= TOTAL_OUTPUTS) { return; } let row_block_base = W_IN_Q4 + index * BPR; var acc = 0.0; var ss = 0.0; for (var b = lid; b < BPR; b = b + WORKGROUP_SIZE) { let hbase = b * 8u; let h0 = vec4(hidden[hbase]); let h1 = vec4(hidden[hbase + 1u]); let h2 = vec4(hidden[hbase + 2u]); let h3 = vec4(hidden[hbase + 3u]); let h4 = vec4(hidden[hbase + 4u]); let h5 = vec4(hidden[hbase + 5u]); let h6 = vec4(hidden[hbase + 6u]); let h7 = vec4(hidden[hbase + 7u]); ss = ss + dot(h0, h0) + dot(h1, h1) + dot(h2, h2) + dot(h3, h3) + dot(h4, h4) + dot(h5, h5) + dot(h6, h6) + dot(h7, h7); let nb = W_NORM_VEC4 + hbase; let n0 = h0 * vec4(norm_weight[nb]); let n1 = h1 * vec4(norm_weight[nb + 1u]); let n2 = h2 * vec4(norm_weight[nb + 2u]); let n3 = h3 * vec4(norm_weight[nb + 3u]); let n4 = h4 * vec4(norm_weight[nb + 4u]); let n5 = h5 * vec4(norm_weight[nb + 5u]); let n6 = h6 * vec4(norm_weight[nb + 6u]); let n7 = h7 * vec4(norm_weight[nb + 7u]); let scale = f32(q4_scales[{% if hasMin %}(row_block_base + b) * 2u{% else %}row_block_base + b{% endif %}]); {%- if hasMin %} let bias = f32(q4_scales[(row_block_base + b) * 2u + 1u]); let sn = dot(n0 + n1 + n2 + n3 + n4 + n5 + n6 + n7, vec4(1.0)); let words = q4_bits[row_block_base + b]; acc = acc + scale * ( q4wp(words.x, n0, n4) + q4wp(words.y, n1, n5) + q4wp(words.z, n2, n6) + q4wp(words.w, n3, n7)) + bias * sn; {%- elif quantBits == 8 %} let w0 = q4_bits[(row_block_base + b) * 2u]; let w1 = q4_bits[(row_block_base + b) * 2u + 1u]; acc = acc + scale * ( q8dot(w0.x, n0) + q8dot(w0.y, n1) + q8dot(w0.z, n2) + q8dot(w0.w, n3) + q8dot(w1.x, n4) + q8dot(w1.y, n5) + q8dot(w1.z, n6) + q8dot(w1.w, n7)); {%- else %} let words = q4_bits[row_block_base + b]; acc = acc + scale * ( q4wp(words.x, n0, n4) + q4wp(words.y, n1, n5) + q4wp(words.z, n2, n6) + q4wp(words.w, n3, n7)); {%- endif %} } {%- if useSubgroups %} let acc_total = subgroupAdd(acc); let ss_total = subgroupAdd(ss); {% else %} partials[lid] = acc; partials_ss[lid] = ss; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = partials[lid] + partials[lid + stride]; partials_ss[lid] = partials_ss[lid] + partials_ss[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let acc_total = partials[0]; let ss_total = partials_ss[0]; {% endif %} if (lid == 0u) { conv_proj[index] = acc_total * inverseSqrt(ss_total / f32(HIDDEN_SIZE) + RMS_EPS); } } `]]}],["com.xenova.LlamaDecodeConvInUpdate",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeConvInUpdate",sinceVersion:1,inputs:[{role:"Normed",dtype:"N",rank:1},{role:"Weights",dtype:"W",rank:1},{role:"ConvStates",dtype:"float32",rank:1}],outputs:[{role:"ConvStates",dtype:"float32",rank:1,shape:["args.hiddenSize * args.convLCache"]},{role:"ConvY",dtype:"float32",rank:1,shape:["args.hiddenSize"]}],typeConstraints:{N:["float32","float16"],W:["float32","float16"]},args:{normedT:{kind:"tensor",semantic:"Normed",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},convStatesT:{kind:"tensor",semantic:"ConvStates",role:"inout"},convYT:{kind:"tensor",semantic:"ConvY",role:"output"},layer:{kind:"u32",semantic:"layer"},hiddenSize:{kind:"u32",semantic:"hidden_size"},convLCache:{kind:"u32",semantic:"conv_l_cache"},convInOffset:{kind:"u32",semantic:"conv_in_offset"},convWeightOffset:{kind:"u32",semantic:"conv_weight_offset"}},variants:[{id:"dense",priority:0,when:["ranks.normedT == 1","ranks.weightsT == 1","ranks.convStatesT == 1","ranks.convYT == 1",'(tensorDtypes.normedT == "float32" or tensorDtypes.normedT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','tensorDtypes.convStatesT == "float32"','tensorDtypes.convYT == "float32"','((tensorDtypes.normedT != "float16" and tensorDtypes.weightsT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.convLCache > 0","args.convInOffset % 4 == 0","args.convWeightOffset % 4 == 0","dim(shapes.normedT, 0) == args.hiddenSize","dim(shapes.convYT, 0) == args.hiddenSize","dim(shapes.convStatesT, 0) >= (args.layer + 1) * args.hiddenSize * args.convLCache","dim(shapes.weightsT, 0) >= max(args.convInOffset + 3 * args.hiddenSize * args.hiddenSize, args.convWeightOffset + args.hiddenSize * args.convLCache)"],constants:{usesF16:'tensorDtypes.normedT == "float16" or tensorDtypes.weightsT == "float16"',normedVec4:'"vec4" if tensorDtypes.normedT == "float16" else "vec4"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',weightScalar:"dtypes.W",layer:"args.layer",hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",convLCache:"args.convLCache",convInOffsetVec4:"args.convInOffset / 4",convWeightOffsetVec4:"args.convWeightOffset / 4"},passes:[{id:"main",name:"LlamaDecodeConvInUpdate",shader:"decode-conv-in-update.wgsl.jinja",bindings:[{name:"normed",arg:"normedT",semantic:"Normed",role:"input",buffer:{type:"read-only-storage"},elementType:"$normedVec4"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"conv_states",arg:"convStatesT",semantic:"ConvStates",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"conv_y",arg:"convYT",semantic:"ConvY",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:"args.hiddenSize",y:1,z:1},reads:["Normed","Weights","ConvStates"],writes:["ConvStates","ConvY"]}]}]},assets:[["decode-conv-in-update.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const LAYER: u32 = {{ layer }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const CONV_L_CACHE: u32 = {{ convLCache }}u; const W_IN_VEC4: u32 = {{ convInOffsetVec4 }}u; const W_CONV_VEC4: u32 = {{ convWeightOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 32u; var partials0: array; var partials1: array; var partials2: array; fn state_index(dim: u32, tap: u32) -> u32 { return (LAYER * HIDDEN_SIZE + dim) * CONV_L_CACHE + tap; } fn load_normed(value: {{ normedVec4 }}) -> vec4 { return vec4(value); } fn conv_weight(dim: u32, tap: u32) -> f32 { let packed = vec4(weights[W_CONV_VEC4 + (dim * CONV_L_CACHE + tap) / 4u]); let lane = (dim * CONV_L_CACHE + tap) % 4u; if (lane == 0u) { return packed.x; } if (lane == 1u) { return packed.y; } if (lane == 2u) { return packed.z; } return packed.w; } fn dot_weight(x: vec4, w: {{ weightVec4 }}) -> f32 { {%- if weightScalar == "f16" %} return f32(dot(vec4(x), w)); {%- else %} return dot(x, w); {%- endif %} } fn reduce_three(lid: u32, acc0: f32, acc1: f32, acc2: f32) { partials0[lid] = acc0; partials1[lid] = acc1; partials2[lid] = acc2; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials0[lid] = partials0[lid] + partials0[lid + stride]; partials1[lid] = partials1[lid] + partials1[lid + stride]; partials2[lid] = partials2[lid] + partials2[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } } @compute @workgroup_size(32) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let dim_out = wid.x; let lid = lid3.x; if (dim_out >= HIDDEN_SIZE) { return; } let weight_base_b = W_IN_VEC4 + dim_out * HIDDEN_SIZE_VEC4; let weight_base_c = W_IN_VEC4 + (HIDDEN_SIZE + dim_out) * HIDDEN_SIZE_VEC4; let weight_base_x = W_IN_VEC4 + (2u * HIDDEN_SIZE + dim_out) * HIDDEN_SIZE_VEC4; var acc0 = 0.0; var acc1 = 0.0; var acc2 = 0.0; for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let x = load_normed(normed[dim]); acc0 = acc0 + dot_weight(x, weights[weight_base_b + dim]); acc1 = acc1 + dot_weight(x, weights[weight_base_c + dim]); acc2 = acc2 + dot_weight(x, weights[weight_base_x + dim]); } reduce_three(lid, acc0, acc1, acc2); if (lid == 0u) { let bx = partials0[0] * partials2[0]; var conv_out = bx * conv_weight(dim_out, CONV_L_CACHE - 1u); for (var tap = 0u; tap + 1u < CONV_L_CACHE; tap = tap + 1u) { let next = conv_states[state_index(dim_out, tap + 1u)]; conv_states[state_index(dim_out, tap)] = next; conv_out = fma(next, conv_weight(dim_out, tap), conv_out); } conv_states[state_index(dim_out, CONV_L_CACHE - 1u)] = bx; conv_y[dim_out] = partials1[0] * conv_out; } } `]]}],["com.xenova.LlamaDecodeDownProj",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeDownProj",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Weights",dtype:"W",rank:1},{role:"Intermediate",dtype:"I",rank:1}],outputs:[{role:"Hidden",dtype:"float32",rank:1,shape:["args.hiddenSize"]}],tunables:{OUTPUTS_PER_WG:2},typeConstraints:{W:["float32","float16"],I:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"inout"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"input"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},downOffset:{kind:"u32",semantic:"down_proj_offset"}},variants:[{id:"dense",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.intermediateT == 1",'tensorDtypes.hiddenT == "float32"','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','((tensorDtypes.weightsT != "float16" and tensorDtypes.intermediateT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.intermediateSize > 0","args.intermediateSize % 4 == 0","args.downOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.weightsT, 0) >= args.downOffset + args.hiddenSize * args.intermediateSize"],constants:{usesF16:'tensorDtypes.weightsT == "float16" or tensorDtypes.intermediateT == "float16"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',weightScalar:"dtypes.W",intermediateVec4:'"vec4" if tensorDtypes.intermediateT == "float16" else "vec4"',hiddenSize:"args.hiddenSize",intermediateSize:"args.intermediateSize",intermediateSizeVec4:"args.intermediateSize / 4",downOffsetVec4:"args.downOffset / 4",outputsPerWg:"tunables.OUTPUTS_PER_WG",assumeFullBlocks:"args.hiddenSize % tunables.OUTPUTS_PER_WG == 0"},passes:[{id:"main",name:"LlamaDecodeDownProj",shader:"decode-down-proj.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"input",buffer:{type:"read-only-storage"},elementType:"$intermediateVec4"}],dispatch:{x:"ceilDiv(args.hiddenSize, tunables.OUTPUTS_PER_WG)",y:1,z:1},reads:["Hidden","Weights","Intermediate"],writes:["Hidden"]}]}]},assets:[["decode-down-proj.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} {%- if not assumeFullBlocks %} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; {%- endif %} const INTERMEDIATE_SIZE_VEC4: u32 = {{ intermediateSizeVec4 }}u; const W_DOWN_VEC4: u32 = {{ downOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 64u; // Output rows computed per workgroup. Each thread reads the shared intermediate (activation) // vec4 once per k-step and dots it against N_ROWS contiguous weight rows, so the activation // re-read and the workgroup/reduction count both drop by N_ROWS. const N_ROWS: u32 = {{ outputsPerWg }}u; var partials: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let dim0 = wid.x * N_ROWS; let lid = lid3.x; {%- if not assumeFullBlocks %} if (dim0 >= HIDDEN_SIZE) { return; } {%- endif %} var acc: array; for (var n = 0u; n < N_ROWS; n = n + 1u) { acc[n] = 0.0; } for (var j = lid; j < INTERMEDIATE_SIZE_VEC4; j = j + WORKGROUP_SIZE) { let x = vec4(intermediate[j]); {%- if weightScalar == "f16" %} let xh = vec4(x); for (var n = 0u; n < N_ROWS; n = n + 1u) { {%- if not assumeFullBlocks %} if (dim0 + n < HIDDEN_SIZE) { {%- endif %} acc[n] = acc[n] + f32(dot(xh, weights[W_DOWN_VEC4 + (dim0 + n) * INTERMEDIATE_SIZE_VEC4 + j])); {%- if not assumeFullBlocks %} } {%- endif %} } {%- else %} for (var n = 0u; n < N_ROWS; n = n + 1u) { {%- if not assumeFullBlocks %} if (dim0 + n < HIDDEN_SIZE) { {%- endif %} acc[n] = acc[n] + dot(x, weights[W_DOWN_VEC4 + (dim0 + n) * INTERMEDIATE_SIZE_VEC4 + j]); {%- if not assumeFullBlocks %} } {%- endif %} } {%- endif %} } for (var n = 0u; n < N_ROWS; n = n + 1u) { partials[lid * N_ROWS + n] = acc[n]; } workgroupBarrier(); // Tree reduction over the 64 lanes for all N_ROWS outputs at once (the 6 barriers are // shared across the rows, so each output costs a fraction of a reduction). var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { for (var n = 0u; n < N_ROWS; n = n + 1u) { partials[lid * N_ROWS + n] = partials[lid * N_ROWS + n] + partials[(lid + stride) * N_ROWS + n]; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } // Lanes 0..N_ROWS-1 each emit one output row; partials[n] holds row n's total. if (lid < N_ROWS) { let dim = dim0 + lid; {%- if not assumeFullBlocks %} if (dim < HIDDEN_SIZE) { hidden[dim] = hidden[dim] + partials[lid]; } {%- else %} hidden[dim] = hidden[dim] + partials[lid]; {%- endif %} } } `]]}],["com.xenova.LlamaDecodeDownProjQ1",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeDownProjQ1",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Q1Bits",dtype:"uint32",rank:1},{role:"Q1Scales",dtype:"S",rank:1},{role:"Intermediate",dtype:"I",rank:1}],outputs:[{role:"Hidden",dtype:"float32",rank:1,shape:["args.hiddenSize"]}],typeConstraints:{I:["float32","float16"],S:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"inout"},q1BitsT:{kind:"tensor",semantic:"Q1Bits",role:"weights"},q1ScalesT:{kind:"tensor",semantic:"Q1Scales",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"input"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},downOffset:{kind:"u32",semantic:"down_proj_q1_block_offset"}},variants:[{id:"q1",priority:0,when:["ranks.hiddenT == 1","ranks.q1BitsT == 1","ranks.q1ScalesT == 1","ranks.intermediateT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.q1BitsT == "uint32"','(tensorDtypes.q1ScalesT == "float32" or tensorDtypes.q1ScalesT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','((tensorDtypes.q1ScalesT != "float16" and tensorDtypes.intermediateT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.intermediateSize > 0","args.intermediateSize % 128 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.q1BitsT, 0) >= (args.downOffset + args.hiddenSize * (args.intermediateSize / 128)) * 4","dim(shapes.q1ScalesT, 0) >= args.downOffset + args.hiddenSize * (args.intermediateSize / 128)"],constants:{usesF16:'tensorDtypes.q1ScalesT == "float16" or tensorDtypes.intermediateT == "float16"',useSubgroups:'device.features.has("subgroups")',intermediateVec4:'"vec4" if tensorDtypes.intermediateT == "float16" else "vec4"',scaleScalar:"dtypes.S",hiddenSize:"args.hiddenSize",intermediateSizeQ1Words:"args.intermediateSize / 32",blocksPerRow:"args.intermediateSize / 128",downOffset:"args.downOffset"},passes:[{id:"main",name:"LlamaDecodeDownProjQ1",source:{kind:"template",shader:"decode-down-proj-q1.wgsl.jinja",version:1,inputs:{optimized:!0}},bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"q1_bits",arg:"q1BitsT",semantic:"Q1Bits",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"q1_scales",arg:"q1ScalesT",semantic:"Q1Scales",role:"weights",buffer:{type:"read-only-storage"},elementType:"$scaleScalar"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"input",buffer:{type:"read-only-storage"},elementType:"$intermediateVec4"}],dispatch:{x:"ceil(args.hiddenSize / 4)",y:1,z:1},reads:["Hidden","Q1Bits","Q1Scales","Intermediate"],writes:["Hidden"]}]}]},assets:[["decode-down-proj-q1.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {%- if useSubgroups %} enable subgroups; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const INTERMEDIATE_SIZE_Q1_WORDS: u32 = {{ intermediateSizeQ1Words }}u; const BPR: u32 = {{ blocksPerRow }}u; const W_DOWN_Q1: u32 = {{ downOffset }}u; const WORKGROUP_SIZE: u32 = 64u; const TILE_ROWS: u32 = 4u; var partials0: array; var partials1: array; var partials2: array; var partials3: array; fn q1_signs4_unit(word: u32, shift: u32) -> vec4 { let bits = (vec4(word) >> vec4(shift, shift + 1u, shift + 2u, shift + 3u)) & vec4(1u); return select(vec4(-1.0), vec4(1.0), bits == vec4(1u)); } fn q1_dot_word_t4( block_offset: u32, tile: u32, blocks_per_row: u32, col_block: u32, word_id: u32, a0: vec4, a1: vec4, a2: vec4, a3: vec4, a4: vec4, a5: vec4, a6: vec4, a7: vec4 ) -> vec4 { let group_idx = tile * blocks_per_row + col_block; let bit_vec = q1_bits[block_offset + group_idx * 4u + word_id]; {%- if scaleScalar == "f32" %} let s0 = q1_scales[block_offset + group_idx * 4u + 0u]; let s1 = q1_scales[block_offset + group_idx * 4u + 1u]; let s2 = q1_scales[block_offset + group_idx * 4u + 2u]; let s3 = q1_scales[block_offset + group_idx * 4u + 3u]; {%- else %} let s0 = f32(q1_scales[block_offset + group_idx * 4u + 0u]); let s1 = f32(q1_scales[block_offset + group_idx * 4u + 1u]); let s2 = f32(q1_scales[block_offset + group_idx * 4u + 2u]); let s3 = f32(q1_scales[block_offset + group_idx * 4u + 3u]); {%- endif %} let unscaled0 = dot(a0, q1_signs4_unit(bit_vec.x, 0u)) + dot(a1, q1_signs4_unit(bit_vec.x, 4u)) + dot(a2, q1_signs4_unit(bit_vec.x, 8u)) + dot(a3, q1_signs4_unit(bit_vec.x, 12u)) + dot(a4, q1_signs4_unit(bit_vec.x, 16u)) + dot(a5, q1_signs4_unit(bit_vec.x, 20u)) + dot(a6, q1_signs4_unit(bit_vec.x, 24u)) + dot(a7, q1_signs4_unit(bit_vec.x, 28u)); let unscaled1 = dot(a0, q1_signs4_unit(bit_vec.y, 0u)) + dot(a1, q1_signs4_unit(bit_vec.y, 4u)) + dot(a2, q1_signs4_unit(bit_vec.y, 8u)) + dot(a3, q1_signs4_unit(bit_vec.y, 12u)) + dot(a4, q1_signs4_unit(bit_vec.y, 16u)) + dot(a5, q1_signs4_unit(bit_vec.y, 20u)) + dot(a6, q1_signs4_unit(bit_vec.y, 24u)) + dot(a7, q1_signs4_unit(bit_vec.y, 28u)); let unscaled2 = dot(a0, q1_signs4_unit(bit_vec.z, 0u)) + dot(a1, q1_signs4_unit(bit_vec.z, 4u)) + dot(a2, q1_signs4_unit(bit_vec.z, 8u)) + dot(a3, q1_signs4_unit(bit_vec.z, 12u)) + dot(a4, q1_signs4_unit(bit_vec.z, 16u)) + dot(a5, q1_signs4_unit(bit_vec.z, 20u)) + dot(a6, q1_signs4_unit(bit_vec.z, 24u)) + dot(a7, q1_signs4_unit(bit_vec.z, 28u)); let unscaled3 = dot(a0, q1_signs4_unit(bit_vec.w, 0u)) + dot(a1, q1_signs4_unit(bit_vec.w, 4u)) + dot(a2, q1_signs4_unit(bit_vec.w, 8u)) + dot(a3, q1_signs4_unit(bit_vec.w, 12u)) + dot(a4, q1_signs4_unit(bit_vec.w, 16u)) + dot(a5, q1_signs4_unit(bit_vec.w, 20u)) + dot(a6, q1_signs4_unit(bit_vec.w, 24u)) + dot(a7, q1_signs4_unit(bit_vec.w, 28u)); return vec4(s0 * unscaled0, s1 * unscaled1, s2 * unscaled2, s3 * unscaled3); } @compute @workgroup_size(64) fn main( @builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3 {%- if useSubgroups %}, @builtin(subgroup_invocation_id) sg_lid: u32, @builtin(subgroup_size) sg_size: u32 {%- endif %} ) { let dim0 = wid.x * TILE_ROWS; let lid = lid3.x; if (dim0 >= HIDDEN_SIZE) { return; } let tile = dim0 / TILE_ROWS; var acc0 = 0.0; var acc1 = 0.0; var acc2 = 0.0; var acc3 = 0.0; for (var word_index = lid; word_index < INTERMEDIATE_SIZE_Q1_WORDS; word_index = word_index + WORKGROUP_SIZE) { let col_block = word_index / 4u; let word_id = word_index % 4u; let base4 = word_index * 8u; {%- if intermediateVec4 == "vec4" %} let v0 = intermediate[base4]; let v1 = intermediate[base4 + 1u]; let v2 = intermediate[base4 + 2u]; let v3 = intermediate[base4 + 3u]; let v4 = intermediate[base4 + 4u]; let v5 = intermediate[base4 + 5u]; let v6 = intermediate[base4 + 6u]; let v7 = intermediate[base4 + 7u]; {%- else %} let v0 = vec4(intermediate[base4]); let v1 = vec4(intermediate[base4 + 1u]); let v2 = vec4(intermediate[base4 + 2u]); let v3 = vec4(intermediate[base4 + 3u]); let v4 = vec4(intermediate[base4 + 4u]); let v5 = vec4(intermediate[base4 + 5u]); let v6 = vec4(intermediate[base4 + 6u]); let v7 = vec4(intermediate[base4 + 7u]); {%- endif %} let dot4 = q1_dot_word_t4(W_DOWN_Q1, tile, BPR, col_block, word_id, v0, v1, v2, v3, v4, v5, v6, v7); acc0 += dot4.x; acc1 += dot4.y; acc2 += dot4.z; acc3 += dot4.w; } {%- if useSubgroups %} let subgroup_sum0 = subgroupAdd(acc0); let subgroup_sum1 = subgroupAdd(acc1); let subgroup_sum2 = subgroupAdd(acc2); let subgroup_sum3 = subgroupAdd(acc3); if (WORKGROUP_SIZE == sg_size) { if (lid == 0u) { partials0[0] = subgroup_sum0; partials1[0] = subgroup_sum1; partials2[0] = subgroup_sum2; partials3[0] = subgroup_sum3; } workgroupBarrier(); } else { if (sg_lid == 0u) { let subgroup_index = lid / sg_size; partials0[subgroup_index] = subgroup_sum0; partials1[subgroup_index] = subgroup_sum1; partials2[subgroup_index] = subgroup_sum2; partials3[subgroup_index] = subgroup_sum3; } workgroupBarrier(); if (lid == 0u) { var total0 = 0.0; var total1 = 0.0; var total2 = 0.0; var total3 = 0.0; let subgroup_count = WORKGROUP_SIZE / sg_size; for (var i = 0u; i < subgroup_count; i = i + 1u) { total0 = total0 + partials0[i]; total1 = total1 + partials1[i]; total2 = total2 + partials2[i]; total3 = total3 + partials3[i]; } partials0[0] = total0; partials1[0] = total1; partials2[0] = total2; partials3[0] = total3; } workgroupBarrier(); } {%- else %} partials0[lid] = acc0; partials1[lid] = acc1; partials2[lid] = acc2; partials3[lid] = acc3; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials0[lid] = partials0[lid] + partials0[lid + stride]; partials1[lid] = partials1[lid] + partials1[lid + stride]; partials2[lid] = partials2[lid] + partials2[lid + stride]; partials3[lid] = partials3[lid] + partials3[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } {%- endif %} if (lid == 0u) { hidden[dim0 + 0u] = hidden[dim0 + 0u] + partials0[0]; hidden[dim0 + 1u] = hidden[dim0 + 1u] + partials1[0]; hidden[dim0 + 2u] = hidden[dim0 + 2u] + partials2[0]; hidden[dim0 + 3u] = hidden[dim0 + 3u] + partials3[0]; } } `]]}],["com.xenova.LlamaDecodeDownProjQ4",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeDownProjQ4",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Q4Bits",dtype:"uint32",rank:1},{role:"Q4Scales",dtype:"S",rank:1},{role:"Intermediate",dtype:"I",rank:1}],outputs:[{role:"Hidden",dtype:"float32",rank:1,shape:["args.hiddenSize"]}],typeConstraints:{S:["float32","float16"],I:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"inout"},q4BitsT:{kind:"tensor",semantic:"Q4Bits",role:"weights"},q4ScalesT:{kind:"tensor",semantic:"Q4Scales",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"input"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},downOffset:{kind:"u32",semantic:"down_proj_q4_block_offset"},quantBits:{kind:"u32",semantic:"packed_quant_bits"},hasMin:{kind:"u32",semantic:"kquant_has_min",required:!1}},variants:[{id:"q4",priority:0,when:["ranks.hiddenT == 1","ranks.q4BitsT == 1","ranks.q4ScalesT == 1","ranks.intermediateT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.q4BitsT == "uint32"','(tensorDtypes.q4ScalesT == "float32" or tensorDtypes.q4ScalesT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','((tensorDtypes.q4ScalesT != "float16" and tensorDtypes.intermediateT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.intermediateSize > 0","args.intermediateSize % 32 == 0","(args.quantBits == 4 or args.quantBits == 8)","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.q4BitsT, 0) >= (args.downOffset + args.hiddenSize * (args.intermediateSize / 32)) * args.quantBits","dim(shapes.q4ScalesT, 0) >= (args.downOffset + args.hiddenSize * (args.intermediateSize / 32)) * (2 if args.hasMin else 1)"],constants:{useSubgroups:'device.features.has("subgroups") and has(device.adapterInfo, "subgroupMinSize") and device.adapterInfo.subgroupMinSize >= 32',usesF16:'tensorDtypes.q4ScalesT == "float16" or tensorDtypes.intermediateT == "float16"',scaleScalar:"dtypes.S",intermediateVec4:'"vec4" if tensorDtypes.intermediateT == "float16" else "vec4"',hiddenSize:"args.hiddenSize",intermediateSize:"args.intermediateSize",blocksPerRow:"args.intermediateSize / 32",downOffset:"args.downOffset",quantBits:"args.quantBits",hasMin:"args.hasMin if args.hasMin else 0"},passes:[{id:"main",name:"LlamaDecodeDownProjQ4",shader:"decode-down-proj-q4.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"inout",buffer:{type:"storage"},elementType:"f32"},{name:"q4_bits",arg:"q4BitsT",semantic:"Q4Bits",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"q4_scales",arg:"q4ScalesT",semantic:"Q4Scales",role:"weights",buffer:{type:"read-only-storage"},elementType:"$scaleScalar"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"input",buffer:{type:"read-only-storage"},elementType:"$intermediateVec4"}],dispatch:{x:"args.hiddenSize",y:1,z:1},reads:["Hidden","Q4Bits","Q4Scales","Intermediate"],writes:["Hidden"]}]}]},assets:[["decode-down-proj-q4.wgsl.jinja",`{%- if useSubgroups %} enable subgroups; {% endif -%} {%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const BPR: u32 = {{ blocksPerRow }}u; // Q4_0 blocks per weight row (intermediate / 32) const W_DOWN_Q4: u32 = {{ downOffset }}u; // block offset of down_proj in the packed buffer const WORKGROUP_SIZE: u32 = 32u; {%- if not useSubgroups %} var partials: array; {% endif %} {%- if quantBits == 8 %} // Q8_0 dequant: a u32 word holds 4 signed int8 in contiguous element order; dequant = q (scale // applied once per block by the caller). One block = 32 elements = 2 vec4 = 8 int8 words. fn q8dot(word: u32, xv: vec4) -> f32 { return dot(vec4(unpack4xI8(word)), xv); } {%- else %} // Q4_0 nibble dequant: a u32 word holds 4 low nibbles (byte k -> value k) and 4 high nibbles // (byte k -> value k+16); dequant = nibble - 8 (scale applied once per block by the caller). fn q4_lo(word: u32) -> vec4 { return vec4(unpack4xU8(word & 0x0F0F0F0Fu)) - 8.0; } fn q4_hi(word: u32) -> vec4 { return vec4(unpack4xU8((word >> 4u) & 0x0F0F0F0Fu)) - 8.0; } fn q4wp(word: u32, lo: vec4, hi: vec4) -> f32 { return dot(lo, q4_lo(word)) + dot(hi, q4_hi(word)); } {%- endif %} // down_proj GEMV with in-kernel Q4_0 dequant: one output (hidden) row per workgroup, threads // stride over the row's 32-element blocks, dot the dequantized weights against the activation, // reduce, and add into the residual. Mirrors decode-down-proj (f16) but reads packed weights. // WG=32 = one subgroup so a single subgroupAdd reduces the row (no barrier tree). @compute @workgroup_size(32) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let dim = wid.x; let lid = lid3.x; if (dim >= HIDDEN_SIZE) { return; } let row_block_base = W_DOWN_Q4 + dim * BPR; var acc = 0.0; for (var b = lid; b < BPR; b = b + WORKGROUP_SIZE) { let blk = row_block_base + b; let scale = f32(q4_scales[{% if hasMin %}blk * 2u{% else %}blk{% endif %}]); let hbase = b * 8u; // intermediate vec4 base for this block's 32 elements let x0 = vec4(intermediate[hbase]); let x1 = vec4(intermediate[hbase + 1u]); let x2 = vec4(intermediate[hbase + 2u]); let x3 = vec4(intermediate[hbase + 3u]); let x4 = vec4(intermediate[hbase + 4u]); let x5 = vec4(intermediate[hbase + 5u]); let x6 = vec4(intermediate[hbase + 6u]); let x7 = vec4(intermediate[hbase + 7u]); {%- if hasMin %} let bias = f32(q4_scales[blk * 2u + 1u]); // Q4_K: scale=d1, bias=8*d1 - dmin*m (interleaved) let words = q4_bits[blk]; let sa = dot(x0 + x1 + x2 + x3 + x4 + x5 + x6 + x7, vec4(1.0)); acc = acc + scale * ( q4wp(words.x, x0, x4) + q4wp(words.y, x1, x5) + q4wp(words.z, x2, x6) + q4wp(words.w, x3, x7)) + bias * sa; {%- elif quantBits == 8 %} let w0 = q4_bits[blk * 2u]; let w1 = q4_bits[blk * 2u + 1u]; acc = acc + scale * ( q8dot(w0.x, x0) + q8dot(w0.y, x1) + q8dot(w0.z, x2) + q8dot(w0.w, x3) + q8dot(w1.x, x4) + q8dot(w1.y, x5) + q8dot(w1.z, x6) + q8dot(w1.w, x7)); {%- else %} let words = q4_bits[blk]; acc = acc + scale * ( q4wp(words.x, x0, x4) + q4wp(words.y, x1, x5) + q4wp(words.z, x2, x6) + q4wp(words.w, x3, x7)); {%- endif %} } {%- if useSubgroups %} let total = subgroupAdd(acc); {% else %} partials[lid] = acc; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = partials[lid] + partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let total = partials[0]; {% endif %} if (lid == 0u) { hidden[dim] = hidden[dim] + total; } } `]]}],["com.xenova.LlamaDecodeFinal",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeFinal",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Weights",dtype:"float32",rank:1}],outputs:[{role:"Logits",dtype:"float32",rank:1}],args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},outputT:{kind:"tensor",semantic:"Logits",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},vocabSize:{kind:"u32",semantic:"vocab_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},finalNormOffset:{kind:"u32",semantic:"final_norm_offset"},lmHeadOffset:{kind:"u32",semantic:"lm_head_offset"}},variants:[{id:"logits_tiled",priority:10,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.outputT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.weightsT == "float32"','tensorDtypes.outputT == "float32"',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.vocabSize > 0","args.finalNormOffset % 4 == 0","args.lmHeadOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.outputT, 0) == args.vocabSize","dim(shapes.weightsT, 0) >= max(args.finalNormOffset + args.hiddenSize, args.lmHeadOffset + args.vocabSize * args.hiddenSize)"],constants:{hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",vocabSize:"args.vocabSize",rmsEps:"args.rmsEps",finalNormOffsetVec4:"args.finalNormOffset / 4",lmHeadOffsetVec4:"args.lmHeadOffset / 4",numBlocks:"256",unroll4:"(args.hiddenSize / 4) % 4 == 0"},passes:[{id:"main",name:"LlamaDecodeFinal",shader:"decode-final-logits-tiled.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"output",arg:"outputT",semantic:"Logits",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:256,y:1,z:1},reads:["Hidden","Weights"],writes:["Logits"]}]},{id:"logits",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.outputT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.weightsT == "float32"','tensorDtypes.outputT == "float32"',"args.hiddenSize > 0","args.vocabSize > 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.outputT, 0) == args.vocabSize","dim(shapes.weightsT, 0) >= max(args.finalNormOffset + args.hiddenSize, args.lmHeadOffset + args.vocabSize * args.hiddenSize)"],constants:{hiddenSize:"args.hiddenSize",vocabSize:"args.vocabSize",rmsEps:"args.rmsEps",wFinalNorm:"args.finalNormOffset",wLmHead:"args.lmHeadOffset"},passes:[{id:"main",name:"LlamaDecodeFinal",shader:"decode-final.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"output",arg:"outputT",semantic:"Logits",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:1,y:1,z:1},reads:["Hidden","Weights"],writes:["Logits"]}]}]},assets:[["decode-final-logits-tiled.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} // Grid-parallel logits projection: every workgroup cooperatively recomputes the // (cheap) RMS norm of the 1xH hidden row, then the WORKGROUP_SIZE * NUM_BLOCKS // threads stride over the vocabulary, each writing one logit as a vec4 dot over // the H-wide hidden row. const VOCAB_SIZE: u32 = {{ vocabSize }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM_VEC4: u32 = {{ finalNormOffsetVec4 }}u; const W_LM_HEAD_VEC4: u32 = {{ lmHeadOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 256u; const NUM_BLOCKS: u32 = {{ numBlocks }}u; var norm_partials: array; fn hidden4(dim4: u32) -> vec4 { let base = dim4 * 4u; return vec4(hidden[base], hidden[base + 1u], hidden[base + 2u], hidden[base + 3u]); } fn vocab_dot_part(dim: u32, scale: f32, weight_base: u32) -> f32 { let normed = hidden4(dim) * vec4(scale) * weights[W_FINAL_NORM_VEC4 + dim]; return dot(normed, weights[weight_base + dim]); } @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let block = wid.x; let lid = lid3.x; var sum = 0.0; for (var dim = lid; dim < HIDDEN_SIZE; dim = dim + WORKGROUP_SIZE) { let value = hidden[dim]; sum = fma(value, value, sum); } norm_partials[lid] = sum; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { norm_partials[lid] = norm_partials[lid] + norm_partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let scale = inverseSqrt(norm_partials[0] / f32(HIDDEN_SIZE) + RMS_EPS); workgroupBarrier(); for (var vocab = block * WORKGROUP_SIZE + lid; vocab < VOCAB_SIZE; vocab = vocab + WORKGROUP_SIZE * NUM_BLOCKS) { let weight_base = W_LM_HEAD_VEC4 + vocab * HIDDEN_SIZE_VEC4; var acc = 0.0; {%- if unroll4 %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 4u) { acc = acc + vocab_dot_part(dim, scale, weight_base); acc = acc + vocab_dot_part(dim + 1u, scale, weight_base); acc = acc + vocab_dot_part(dim + 2u, scale, weight_base); acc = acc + vocab_dot_part(dim + 3u, scale, weight_base); } {%- else %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 1u) { acc = acc + vocab_dot_part(dim, scale, weight_base); } {%- endif %} output[vocab] = acc; } } `],["decode-final.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} const VOCAB_SIZE: u32 = {{ vocabSize }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM: u32 = {{ wFinalNorm }}u; const W_LM_HEAD: u32 = {{ wLmHead }}u; @compute @workgroup_size(1) fn main() { var normed: array; var variance = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let value = hidden[dim]; variance = variance + value * value; } let scale = inverseSqrt(variance / f32(HIDDEN_SIZE) + RMS_EPS); for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { normed[dim] = hidden[dim] * scale * weights[W_FINAL_NORM + dim]; } for (var vocab = 0u; vocab < VOCAB_SIZE; vocab = vocab + 1u) { var acc = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { acc = acc + normed[dim] * weights[W_LM_HEAD + vocab * HIDDEN_SIZE + dim]; } output[vocab] = acc; } } `]]}],["com.xenova.LlamaDecodeFinalArgmax",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeFinalArgmax",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Weights",dtype:"float32",rank:1}],outputs:[{role:"Token",dtype:"uint32",rank:1}],args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},outputT:{kind:"tensor",semantic:"Token",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},vocabSize:{kind:"u32",semantic:"vocab_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},finalNormOffset:{kind:"u32",semantic:"final_norm_offset"},lmHeadOffset:{kind:"u32",semantic:"lm_head_offset"}},variants:[{id:"argmax_tiled",priority:10,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.outputT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.weightsT == "float32"','tensorDtypes.outputT == "uint32"',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.vocabSize > 0","args.finalNormOffset % 4 == 0","args.lmHeadOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.outputT, 0) >= 1","dim(shapes.weightsT, 0) >= max(args.finalNormOffset + args.hiddenSize, args.lmHeadOffset + args.vocabSize * args.hiddenSize)"],constants:{hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",vocabSize:"args.vocabSize",rmsEps:"args.rmsEps",finalNormOffsetVec4:"args.finalNormOffset / 4",lmHeadOffsetVec4:"args.lmHeadOffset / 4",numBlocks:"256",unroll4:"(args.hiddenSize / 4) % 4 == 0",f32Min:'"-3.4028234663852886e38"'},intermediates:[{id:"block_values",dtype:"float32",shape:"[256]"},{id:"block_ids",dtype:"uint32",shape:"[256]"}],passes:[{id:"scan",name:"LlamaDecodeFinalArgmax.Scan",shader:"decode-final-argmax-scan.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"block_values",semantic:"block_values",role:"scratch",buffer:{type:"storage"},elementType:"f32"},{name:"block_ids",semantic:"block_ids",role:"scratch",buffer:{type:"storage"},elementType:"u32"}],dispatch:{x:256,y:1,z:1},reads:["Hidden","Weights"],writes:["block_values","block_ids"]},{id:"reduce",name:"LlamaDecodeFinalArgmax.Reduce",shader:"decode-final-argmax-reduce.wgsl.jinja",bindings:[{name:"block_values",semantic:"block_values",role:"scratch",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"block_ids",semantic:"block_ids",role:"scratch",buffer:{type:"read-only-storage"},elementType:"u32"},{name:"output",arg:"outputT",semantic:"Token",role:"output",buffer:{type:"storage"},elementType:"u32"}],dispatch:{x:1,y:1,z:1},reads:["block_values","block_ids"],writes:["Token"]}]},{id:"argmax",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.outputT == 1",'tensorDtypes.hiddenT == "float32"','tensorDtypes.weightsT == "float32"','tensorDtypes.outputT == "uint32"',"args.hiddenSize > 0","args.vocabSize > 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.outputT, 0) >= 1","dim(shapes.weightsT, 0) >= max(args.finalNormOffset + args.hiddenSize, args.lmHeadOffset + args.vocabSize * args.hiddenSize)"],constants:{hiddenSize:"args.hiddenSize",vocabSize:"args.vocabSize",rmsEps:"args.rmsEps",wFinalNorm:"args.finalNormOffset",wLmHead:"args.lmHeadOffset",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeFinalArgmax",shader:"decode-final-argmax.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"output",arg:"outputT",semantic:"Token",role:"output",buffer:{type:"storage"},elementType:"u32"}],dispatch:{x:1,y:1,z:1},reads:["Hidden","Weights"],writes:["Token"]}]}]},assets:[["decode-final-argmax-reduce.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} // Pass 2 of the grid-parallel argmax: a single workgroup reduces the NUM_BLOCKS // per-block (value, id) candidates from pass 1 down to the final winning token. const NUM_BLOCKS: u32 = {{ numBlocks }}u; const F32_MIN: f32 = {{ f32Min }}; var best_values: array; var best_indices: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid3: vec3) { let lid = lid3.x; if (lid < NUM_BLOCKS) { best_values[lid] = block_values[lid]; best_indices[lid] = block_ids[lid]; } else { best_values[lid] = F32_MIN; best_indices[lid] = 0u; } workgroupBarrier(); var stride = 128u; loop { if (lid < stride) { let other_value = best_values[lid + stride]; let other_index = best_indices[lid + stride]; if (other_value > best_values[lid]) { best_values[lid] = other_value; best_indices[lid] = other_index; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { output[0] = best_indices[0]; } } `],["decode-final-argmax-scan.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} // Pass 1 of the grid-parallel argmax: NUM_BLOCKS workgroups each cooperatively // recompute the RMS norm, then stride over the vocabulary computing logits via a // vec4 dot and keep a per-block (best value, best id). Each block writes its // winner to the block_values/block_ids scratch buffers. const VOCAB_SIZE: u32 = {{ vocabSize }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM_VEC4: u32 = {{ finalNormOffsetVec4 }}u; const W_LM_HEAD_VEC4: u32 = {{ lmHeadOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 256u; const NUM_BLOCKS: u32 = {{ numBlocks }}u; const F32_MIN: f32 = {{ f32Min }}; var norm_partials: array; var best_values: array; var best_indices: array; fn hidden4(dim4: u32) -> vec4 { let base = dim4 * 4u; return vec4(hidden[base], hidden[base + 1u], hidden[base + 2u], hidden[base + 3u]); } fn vocab_dot_part(dim: u32, scale: f32, weight_base: u32) -> f32 { let normed = hidden4(dim) * vec4(scale) * weights[W_FINAL_NORM_VEC4 + dim]; return dot(normed, weights[weight_base + dim]); } @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let block = wid.x; let lid = lid3.x; var sum = 0.0; for (var dim = lid; dim < HIDDEN_SIZE; dim = dim + WORKGROUP_SIZE) { let value = hidden[dim]; sum = fma(value, value, sum); } norm_partials[lid] = sum; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { norm_partials[lid] = norm_partials[lid] + norm_partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let scale = inverseSqrt(norm_partials[0] / f32(HIDDEN_SIZE) + RMS_EPS); workgroupBarrier(); var best_token = 0u; var best_value = F32_MIN; for (var vocab = block * WORKGROUP_SIZE + lid; vocab < VOCAB_SIZE; vocab = vocab + WORKGROUP_SIZE * NUM_BLOCKS) { let weight_base = W_LM_HEAD_VEC4 + vocab * HIDDEN_SIZE_VEC4; var acc = 0.0; {%- if unroll4 %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 4u) { acc = acc + vocab_dot_part(dim, scale, weight_base); acc = acc + vocab_dot_part(dim + 1u, scale, weight_base); acc = acc + vocab_dot_part(dim + 2u, scale, weight_base); acc = acc + vocab_dot_part(dim + 3u, scale, weight_base); } {%- else %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 1u) { acc = acc + vocab_dot_part(dim, scale, weight_base); } {%- endif %} if (acc > best_value) { best_value = acc; best_token = vocab; } } best_values[lid] = best_value; best_indices[lid] = best_token; workgroupBarrier(); stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { let other_value = best_values[lid + stride]; let other_index = best_indices[lid + stride]; if (other_value > best_values[lid]) { best_values[lid] = other_value; best_indices[lid] = other_index; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { block_values[block] = best_values[0]; block_ids[block] = best_indices[0]; } } `],["decode-final-argmax.wgsl.jinja",`{{ env.wgsl.resourceDeclarations }} const VOCAB_SIZE: u32 = {{ vocabSize }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM: u32 = {{ wFinalNorm }}u; const W_LM_HEAD: u32 = {{ wLmHead }}u; const WORKGROUP_SIZE: u32 = 256u; var best_values: array; var best_indices: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid3: vec3) { let lid = lid3.x; var variance = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let value = hidden[dim]; variance = variance + value * value; } let scale = inverseSqrt(variance / f32(HIDDEN_SIZE) + RMS_EPS); var best_token = lid; var best_value = {{ f32Min }}; for (var vocab = lid; vocab < VOCAB_SIZE; vocab = vocab + WORKGROUP_SIZE) { var acc = 0.0; for (var dim = 0u; dim < HIDDEN_SIZE; dim = dim + 1u) { let normed = hidden[dim] * scale * weights[W_FINAL_NORM + dim]; acc = acc + normed * weights[W_LM_HEAD + vocab * HIDDEN_SIZE + dim]; } if (acc > best_value) { best_value = acc; best_token = vocab; } } best_values[lid] = best_value; best_indices[lid] = best_token; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { let other_value = best_values[lid + stride]; let other_index = best_indices[lid + stride]; if (other_value > best_values[lid]) { best_values[lid] = other_value; best_indices[lid] = other_index; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { output[0] = best_indices[0]; } } `]]}],["com.xenova.LlamaDecodeFinalNormLmHeadArgmaxTiled",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeFinalNormLmHeadArgmaxTiled",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Weights",dtype:"W",rank:1}],outputs:[{role:"BestValues",dtype:"float32",rank:1,shape:["args.numBlocks"]},{role:"BestIds",dtype:"uint32",rank:1,shape:["args.numBlocks"]}],typeConstraints:{W:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},bestValuesT:{kind:"tensor",semantic:"BestValues",role:"output"},bestIdsT:{kind:"tensor",semantic:"BestIds",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},vocabSize:{kind:"u32",semantic:"vocab_size"},rmsEps:{kind:"f32",semantic:"rms_epsilon"},finalNormOffset:{kind:"u32",semantic:"final_norm_offset"},lmHeadOffset:{kind:"u32",semantic:"lm_head_offset"},numBlocks:{kind:"u32",semantic:"num_blocks",required:!1}},variants:[{id:"dense",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.bestValuesT == 1","ranks.bestIdsT == 1",'tensorDtypes.hiddenT == "float32"','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','tensorDtypes.bestValuesT == "float32"','tensorDtypes.bestIdsT == "uint32"','(tensorDtypes.weightsT != "float16" or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.vocabSize > 0","args.finalNormOffset % 4 == 0","args.lmHeadOffset % 4 == 0","(not args.numBlocks or args.numBlocks > 0)","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.bestValuesT, 0) >= (args.numBlocks if args.numBlocks else 256)","dim(shapes.bestIdsT, 0) >= (args.numBlocks if args.numBlocks else 256)","dim(shapes.weightsT, 0) >= max(args.finalNormOffset + args.hiddenSize, args.lmHeadOffset + args.vocabSize * args.hiddenSize)"],constants:{usesF16:'tensorDtypes.weightsT == "float16"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',weightScalar:"dtypes.W",hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",vocabSize:"args.vocabSize",rmsEps:"args.rmsEps",finalNormOffsetVec4:"args.finalNormOffset / 4",lmHeadOffsetVec4:"args.lmHeadOffset / 4",numBlocks:"args.numBlocks if args.numBlocks else 256",unroll4:"(args.hiddenSize / 4) % 4 == 0",f32Min:'"-3.4028234663852886e38"'},passes:[{id:"main",name:"LlamaDecodeFinalNormLmHeadArgmaxTiled",shader:"decode-final-norm-lm-head-argmax-tiled.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"f32"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"best_values_out",arg:"bestValuesT",semantic:"BestValues",role:"output",buffer:{type:"storage"},elementType:"f32"},{name:"best_ids_out",arg:"bestIdsT",semantic:"BestIds",role:"output",buffer:{type:"storage"},elementType:"u32"}],dispatch:{x:"args.numBlocks if args.numBlocks else 256",y:1,z:1},reads:["Hidden","Weights"],writes:["BestValues","BestIds"]}]}]},assets:[["decode-final-norm-lm-head-argmax-tiled.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const VOCAB_SIZE: u32 = {{ vocabSize }}u; const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM_VEC4: u32 = {{ finalNormOffsetVec4 }}u; const W_LM_HEAD_VEC4: u32 = {{ lmHeadOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 256u; const NUM_BLOCKS: u32 = {{ numBlocks }}u; const F32_MIN: f32 = {{ f32Min }}; var norm_partials: array; var best_values: array; var best_indices: array; fn hidden4(dim4: u32) -> vec4 { let base = dim4 * 4u; return vec4(hidden[base], hidden[base + 1u], hidden[base + 2u], hidden[base + 3u]); } @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let block = wid.x; let lid = lid3.x; var sum = 0.0; for (var dim = lid; dim < HIDDEN_SIZE; dim = dim + WORKGROUP_SIZE) { let value = hidden[dim]; sum = fma(value, value, sum); } norm_partials[lid] = sum; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { norm_partials[lid] = norm_partials[lid] + norm_partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } let scale = inverseSqrt(norm_partials[0] / f32(HIDDEN_SIZE) + RMS_EPS); workgroupBarrier(); var best_token = 0u; var best_value = F32_MIN; for (var vocab = block * WORKGROUP_SIZE + lid; vocab < VOCAB_SIZE; vocab = vocab + WORKGROUP_SIZE * NUM_BLOCKS) { let weight_base = W_LM_HEAD_VEC4 + vocab * HIDDEN_SIZE_VEC4; var acc = 0.0; {%- if unroll4 %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 4u) { acc = acc + vocab_dot_part(dim, scale, weight_base); acc = acc + vocab_dot_part(dim + 1u, scale, weight_base); acc = acc + vocab_dot_part(dim + 2u, scale, weight_base); acc = acc + vocab_dot_part(dim + 3u, scale, weight_base); } {%- else %} for (var dim = 0u; dim < HIDDEN_SIZE_VEC4; dim = dim + 1u) { acc = acc + vocab_dot_part(dim, scale, weight_base); } {%- endif %} if (acc > best_value) { best_value = acc; best_token = vocab; } } best_values[lid] = best_value; best_indices[lid] = best_token; workgroupBarrier(); stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { let other_value = best_values[lid + stride]; let other_index = best_indices[lid + stride]; if (other_value > best_values[lid]) { best_values[lid] = other_value; best_indices[lid] = other_index; } } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { best_values_out[block] = best_values[0]; best_ids_out[block] = best_indices[0]; } } fn vocab_dot_part(dim: u32, scale: f32, weight_base: u32) -> f32 { {%- if weightScalar == "f16" %} let normed = vec4(hidden4(dim) * vec4(scale)) * weights[W_FINAL_NORM_VEC4 + dim]; return f32(dot(normed, weights[weight_base + dim])); {%- else %} let normed = hidden4(dim) * vec4(scale) * weights[W_FINAL_NORM_VEC4 + dim]; return dot(normed, weights[weight_base + dim]); {%- endif %} } `]]}],["com.xenova.LlamaDecodeFinalNormQuantizeQ8",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeFinalNormQuantizeQ8",sinceVersion:1,inputs:[{role:"Hidden",dtype:"float32",rank:1},{role:"Weights",dtype:"W",rank:1}],outputs:[{role:"NormQ8",dtype:"uint32",rank:1},{role:"NormScale",dtype:"float32",rank:1}],typeConstraints:{W:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},normQ8T:{kind:"tensor",semantic:"NormQ8",role:"output"},normScaleT:{kind:"tensor",semantic:"NormScale",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},finalNormOffset:{kind:"u32",semantic:"final_norm_offset"}},variants:[{id:"scalar",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.normQ8T == 1","ranks.normScaleT == 1",'tensorDtypes.hiddenT == "float32"','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','tensorDtypes.normQ8T == "uint32"','tensorDtypes.normScaleT == "float32"',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.finalNormOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.weightsT, 0) >= args.finalNormOffset + args.hiddenSize","dim(shapes.normQ8T, 0) == args.hiddenSize / 4","dim(shapes.normScaleT, 0) == 1",'(tensorDtypes.weightsT != "float16" or device.features.has("shader-f16"))'],constants:{usesF16:'tensorDtypes.weightsT == "float16"',wScalar:"dtypes.W",wVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",rmsEps:"args.rmsEps",wFinalNormVec4:"args.finalNormOffset / 4",weightLoad:'"vec4(weights[W_FINAL_NORM_VEC4 + dim])" if tensorDtypes.weightsT == "float16" else "weights[W_FINAL_NORM_VEC4 + dim]"'},passes:[{id:"main",name:"LlamaDecodeFinalNormQuantizeQ8",shader:"decode-final-norm-quantize-q8.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$wVec4"},{name:"norm_q8",arg:"normQ8T",semantic:"NormQ8",role:"output",buffer:{type:"storage"},elementType:"u32"},{name:"norm_scale_out",arg:"normScaleT",semantic:"NormScale",role:"output",buffer:{type:"storage"},elementType:"f32"}],dispatch:{x:1,y:1,z:1},reads:["Hidden","Weights"],writes:["NormQ8","NormScale"]}]}]},assets:[["decode-final-norm-quantize-q8.wgsl.jinja",`{% if usesF16 %} enable f16; {% endif %} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_FINAL_NORM_VEC4: u32 = {{ wFinalNormVec4 }}u; const WORKGROUP_SIZE: u32 = 256u; var partials: array; fn sum4(value: vec4) -> f32 { return value.x + value.y + value.z + value.w; } fn max4(value: vec4) -> f32 { return max(max(abs(value.x), abs(value.y)), max(abs(value.z), abs(value.w))); } fn quantize4(value: vec4, scale: f32) -> u32 { let q = vec4(round(clamp(value / vec4(scale), vec4(-127.0), vec4(127.0)))); return pack4xI8(q); } fn reduce_sum(value: f32, lid: u32) -> f32 { partials[lid] = value; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = partials[lid] + partials[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } return partials[0]; } fn reduce_max(value: f32, lid: u32) -> f32 { partials[lid] = value; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials[lid] = max(partials[lid], partials[lid + stride]); } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } return partials[0]; } @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid3: vec3) { let lid = lid3.x; var sum = 0.0; for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let value = hidden[dim]; sum = sum + sum4(value * value); } let total_sum = reduce_sum(sum, lid); let rms_scale = inverseSqrt(total_sum / f32(HIDDEN_SIZE) + RMS_EPS); workgroupBarrier(); var local_max = 0.0; for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let normed = hidden[dim] * vec4(rms_scale) * {{ weightLoad }}; local_max = max(local_max, max4(normed)); } let max_abs = reduce_max(local_max, lid); let q_scale = max(max_abs / 127.0, 1.0e-12); if (lid == 0u) { norm_scale_out[0] = q_scale; } workgroupBarrier(); for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let normed = hidden[dim] * vec4(rms_scale) * {{ weightLoad }}; norm_q8[dim] = quantize4(normed, q_scale); } } `]]}],["com.xenova.LlamaDecodeGateUp",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeGateUp",sinceVersion:1,inputs:[{role:"Normed",dtype:"N",rank:1},{role:"Weights",dtype:"W",rank:1}],outputs:[{role:"Intermediate",dtype:"I",rank:1,shape:["args.intermediateSize"]}],typeConstraints:{N:["float32","float16"],W:["float32","float16"],I:["float32","float16"]},args:{normedT:{kind:"tensor",semantic:"Normed",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},gateOffset:{kind:"u32",semantic:"gate_proj_offset"},upOffset:{kind:"u32",semantic:"up_proj_offset"}},variants:[{id:"dense",priority:0,when:["ranks.normedT == 1","ranks.weightsT == 1","ranks.intermediateT == 1",'(tensorDtypes.normedT == "float32" or tensorDtypes.normedT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','((tensorDtypes.normedT != "float16" and tensorDtypes.weightsT != "float16" and tensorDtypes.intermediateT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.intermediateSize > 0","args.gateOffset % 4 == 0","args.upOffset % 4 == 0","dim(shapes.normedT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.weightsT, 0) >= max(args.gateOffset + args.intermediateSize * args.hiddenSize, args.upOffset + args.intermediateSize * args.hiddenSize)"],constants:{usesF16:'tensorDtypes.normedT == "float16" or tensorDtypes.weightsT == "float16" or tensorDtypes.intermediateT == "float16"',normedVec4:'"vec4" if tensorDtypes.normedT == "float16" else "vec4"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',weightScalar:"dtypes.W",intermediateScalar:"dtypes.I",hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",intermediateSize:"args.intermediateSize",gateOffsetVec4:"args.gateOffset / 4",upOffsetVec4:"args.upOffset / 4"},passes:[{id:"main",name:"LlamaDecodeGateUp",shader:"decode-gate-up.wgsl.jinja",bindings:[{name:"normed",arg:"normedT",semantic:"Normed",role:"input",buffer:{type:"read-only-storage"},elementType:"$normedVec4"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"output",buffer:{type:"storage"},elementType:"$intermediateScalar"}],dispatch:{x:"args.intermediateSize",y:1,z:1},reads:["Normed","Weights"],writes:["Intermediate"]}]}]},assets:[["decode-gate-up.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const INTERMEDIATE_SIZE: u32 = {{ intermediateSize }}u; const W_GATE_VEC4: u32 = {{ gateOffsetVec4 }}u; const W_UP_VEC4: u32 = {{ upOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 64u; var partials0: array; var partials1: array; fn silu(x: f32) -> f32 { return x / (1.0 + exp(-x)); } fn load_normed(value: {{ normedVec4 }}) -> vec4 { return vec4(value); } fn store_intermediate(value: f32) -> {{ intermediateScalar }} { return {{ intermediateScalar }}(value); } @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let j = wid.x; let lid = lid3.x; if (j >= INTERMEDIATE_SIZE) { return; } let gate_base = W_GATE_VEC4 + j * HIDDEN_SIZE_VEC4; let up_base = W_UP_VEC4 + j * HIDDEN_SIZE_VEC4; var acc0 = 0.0; var acc1 = 0.0; for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let n = load_normed(normed[dim]); {%- if weightScalar == "f16" %} acc0 = acc0 + f32(dot(vec4(n), weights[gate_base + dim])); acc1 = acc1 + f32(dot(vec4(n), weights[up_base + dim])); {%- else %} acc0 = acc0 + dot(n, weights[gate_base + dim]); acc1 = acc1 + dot(n, weights[up_base + dim]); {%- endif %} } partials0[lid] = acc0; partials1[lid] = acc1; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials0[lid] = partials0[lid] + partials0[lid + stride]; partials1[lid] = partials1[lid] + partials1[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { intermediate[j] = store_intermediate(silu(partials0[0]) * partials1[0]); } } `]]}],["com.xenova.LlamaDecodeGateUpNorm",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeGateUpNorm",sinceVersion:1,inputs:[{role:"Hidden",dtype:"H",rank:1},{role:"Weights",dtype:"W",rank:1}],outputs:[{role:"Intermediate",dtype:"I",rank:1,shape:["args.intermediateSize"]}],typeConstraints:{H:["float32","float16"],W:["float32","float16"],I:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},weightsT:{kind:"tensor",semantic:"Weights",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"output"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},normOffset:{kind:"u32",semantic:"post_attention_norm_offset"},gateOffset:{kind:"u32",semantic:"gate_proj_offset"},upOffset:{kind:"u32",semantic:"up_proj_offset"}},variants:[{id:"dense",priority:0,when:["ranks.hiddenT == 1","ranks.weightsT == 1","ranks.intermediateT == 1",'(tensorDtypes.hiddenT == "float32" or tensorDtypes.hiddenT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','((tensorDtypes.hiddenT != "float16" and tensorDtypes.weightsT != "float16" and tensorDtypes.intermediateT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 4 == 0","args.intermediateSize > 0","args.normOffset % 4 == 0","args.gateOffset % 4 == 0","args.upOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.weightsT, 0) >= max(args.normOffset + args.hiddenSize, max(args.gateOffset + args.intermediateSize * args.hiddenSize, args.upOffset + args.intermediateSize * args.hiddenSize))"],constants:{usesF16:'tensorDtypes.hiddenT == "float16" or tensorDtypes.weightsT == "float16" or tensorDtypes.intermediateT == "float16"',hiddenVec4:'"vec4" if tensorDtypes.hiddenT == "float16" else "vec4"',weightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',weightScalar:"dtypes.W",intermediateScalar:"dtypes.I",hiddenSize:"args.hiddenSize",hiddenSizeVec4:"args.hiddenSize / 4",intermediateSize:"args.intermediateSize",rmsEps:"args.rmsEps",normOffsetVec4:"args.normOffset / 4",gateOffsetVec4:"args.gateOffset / 4",upOffsetVec4:"args.upOffset / 4"},passes:[{id:"main",name:"LlamaDecodeGateUpNorm",shader:"decode-gate-up-norm.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"$hiddenVec4"},{name:"weights",arg:"weightsT",semantic:"Weights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$weightVec4"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"output",buffer:{type:"storage"},elementType:"$intermediateScalar"}],dispatch:{x:"args.intermediateSize",y:1,z:1},reads:["Hidden","Weights"],writes:["Intermediate"]}]}]},assets:[["decode-gate-up-norm.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_VEC4: u32 = {{ hiddenSizeVec4 }}u; const INTERMEDIATE_SIZE: u32 = {{ intermediateSize }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_NORM_VEC4: u32 = {{ normOffsetVec4 }}u; const W_GATE_VEC4: u32 = {{ gateOffsetVec4 }}u; const W_UP_VEC4: u32 = {{ upOffsetVec4 }}u; const WORKGROUP_SIZE: u32 = 64u; // Fused post-attention RMSNorm + gate/up GEMV (decode, M == 1). The RMSNorm scale is a per-token // scalar that factors out of the linear GEMV, so we GEMV on hidden*norm_weight, accumulate // sum(hidden^2) in the same loop, and apply inverseSqrt(ss/H+eps) to the gate/up sums at the end. // One output row per workgroup with a simple WG + tree reduction: the M==1 decode GEMV is already at // its achievable peak for this access pattern. var partials0: array; var partials1: array; var partials_ss: array; fn silu(x: f32) -> f32 { return x / (1.0 + exp(-x)); } @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let j = wid.x; let lid = lid3.x; if (j >= INTERMEDIATE_SIZE) { return; } let gate_base = W_GATE_VEC4 + j * HIDDEN_SIZE_VEC4; let up_base = W_UP_VEC4 + j * HIDDEN_SIZE_VEC4; var acc0 = 0.0; var acc1 = 0.0; var ss = 0.0; for (var dim = lid; dim < HIDDEN_SIZE_VEC4; dim = dim + WORKGROUP_SIZE) { let h = vec4(hidden[dim]); ss = ss + dot(h, h); let n = h * vec4(weights[W_NORM_VEC4 + dim]); {%- if weightScalar == "f16" %} let nh = vec4(n); acc0 = acc0 + f32(dot(nh, weights[gate_base + dim])); acc1 = acc1 + f32(dot(nh, weights[up_base + dim])); {%- else %} acc0 = acc0 + dot(n, weights[gate_base + dim]); acc1 = acc1 + dot(n, weights[up_base + dim]); {%- endif %} } partials0[lid] = acc0; partials1[lid] = acc1; partials_ss[lid] = ss; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials0[lid] = partials0[lid] + partials0[lid + stride]; partials1[lid] = partials1[lid] + partials1[lid + stride]; partials_ss[lid] = partials_ss[lid] + partials_ss[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } if (lid == 0u) { let scale = inverseSqrt(partials_ss[0] / f32(HIDDEN_SIZE) + RMS_EPS); intermediate[j] = {{ intermediateScalar }}(silu(partials0[0] * scale) * (partials1[0] * scale)); } } `]]}],["com.xenova.LlamaDecodeGateUpNormQ1",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeGateUpNormQ1",sinceVersion:1,inputs:[{role:"Hidden",dtype:"H",rank:1},{role:"Q1Bits",dtype:"uint32",rank:1},{role:"Q1Scales",dtype:"S",rank:1},{role:"NormWeights",dtype:"W",rank:1}],outputs:[{role:"Intermediate",dtype:"I",rank:1,shape:["args.intermediateSize"]}],typeConstraints:{H:["float32","float16"],S:["float32","float16"],W:["float32","float16"],I:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},q1BitsT:{kind:"tensor",semantic:"Q1Bits",role:"weights"},q1ScalesT:{kind:"tensor",semantic:"Q1Scales",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"output"},weightsT:{kind:"tensor",semantic:"NormWeights",role:"weights"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},normOffset:{kind:"u32",semantic:"post_attention_norm_offset"},gateOffset:{kind:"u32",semantic:"gate_proj_q1_block_offset"},upOffset:{kind:"u32",semantic:"up_proj_q1_block_offset"}},variants:[{id:"q1",priority:0,when:["ranks.hiddenT == 1","ranks.q1BitsT == 1","ranks.q1ScalesT == 1","ranks.intermediateT == 1","ranks.weightsT == 1",'(tensorDtypes.hiddenT == "float32" or tensorDtypes.hiddenT == "float16")','tensorDtypes.q1BitsT == "uint32"','(tensorDtypes.q1ScalesT == "float32" or tensorDtypes.q1ScalesT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','((tensorDtypes.hiddenT != "float16" and tensorDtypes.q1ScalesT != "float16" and tensorDtypes.intermediateT != "float16" and tensorDtypes.weightsT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 128 == 0","args.intermediateSize > 0","args.intermediateSize % 4 == 0","args.normOffset % 4 == 0","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.weightsT, 0) >= args.normOffset + args.hiddenSize","dim(shapes.q1BitsT, 0) >= max(args.gateOffset + args.intermediateSize * (args.hiddenSize / 128), args.upOffset + args.intermediateSize * (args.hiddenSize / 128)) * 4","dim(shapes.q1ScalesT, 0) >= max(args.gateOffset + args.intermediateSize * (args.hiddenSize / 128), args.upOffset + args.intermediateSize * (args.hiddenSize / 128))"],constants:{usesF16:'tensorDtypes.hiddenT == "float16" or tensorDtypes.q1ScalesT == "float16" or tensorDtypes.intermediateT == "float16" or tensorDtypes.weightsT == "float16"',useSubgroups:'device.features.has("subgroups")',hiddenVec4:'"vec4" if tensorDtypes.hiddenT == "float16" else "vec4"',normWeightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',scaleScalar:"dtypes.S",intermediateScalar:"dtypes.I",hiddenSize:"args.hiddenSize",hiddenSizeQ1Words:"args.hiddenSize / 32",blocksPerRow:"args.hiddenSize / 128",intermediateSize:"args.intermediateSize",rmsEps:"args.rmsEps",normOffsetVec4:"args.normOffset / 4",gateOffset:"args.gateOffset",upOffset:"args.upOffset"},passes:[{id:"main",name:"LlamaDecodeGateUpNormQ1",source:{kind:"template",shader:"decode-gate-up-norm-q1.wgsl.jinja",version:1,inputs:{optimized:!0}},bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"$hiddenVec4"},{name:"q1_bits",arg:"q1BitsT",semantic:"Q1Bits",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"q1_scales",arg:"q1ScalesT",semantic:"Q1Scales",role:"weights",buffer:{type:"read-only-storage"},elementType:"$scaleScalar"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"output",buffer:{type:"storage"},elementType:"$intermediateScalar"},{name:"norm_weight",arg:"weightsT",semantic:"NormWeights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$normWeightVec4"}],dispatch:{x:"ceil(args.intermediateSize / 4)",y:1,z:1},reads:["Hidden","Q1Bits","Q1Scales","NormWeights"],writes:["Intermediate"]}]}]},assets:[["decode-gate-up-norm-q1.wgsl.jinja",`{%- if usesF16 %} enable f16; {% endif -%} {%- if useSubgroups %} enable subgroups; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const HIDDEN_SIZE_Q1_WORDS: u32 = {{ hiddenSizeQ1Words }}u; const BPR: u32 = {{ blocksPerRow }}u; const INTERMEDIATE_SIZE: u32 = {{ intermediateSize }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_NORM_VEC4: u32 = {{ normOffsetVec4 }}u; const W_GATE_Q1: u32 = {{ gateOffset }}u; const W_UP_Q1: u32 = {{ upOffset }}u; const WORKGROUP_SIZE: u32 = 64u; const TILE_ROWS: u32 = 4u; var partials_g0: array; var partials_g1: array; var partials_g2: array; var partials_g3: array; var partials_u0: array; var partials_u1: array; var partials_u2: array; var partials_u3: array; var partials_ss: array; fn silu(x: f32) -> f32 { let sigmoid = 0.5 + 0.5 * x / (1.0 + abs(x)); return x * sigmoid; } fn q1_signs4_unit(word: u32, shift: u32) -> vec4 { let bits = (vec4(word) >> vec4(shift, shift + 1u, shift + 2u, shift + 3u)) & vec4(1u); return select(vec4(-1.0), vec4(1.0), bits == vec4(1u)); } fn q1_dot_word_t4( block_offset: u32, tile: u32, blocks_per_row: u32, col_block: u32, word_id: u32, a0: vec4, a1: vec4, a2: vec4, a3: vec4, a4: vec4, a5: vec4, a6: vec4, a7: vec4 ) -> vec4 { let group_idx = tile * blocks_per_row + col_block; let bit_vec = q1_bits[block_offset + group_idx * 4u + word_id]; {%- if scaleScalar == "f32" %} let s0 = q1_scales[block_offset + group_idx * 4u + 0u]; let s1 = q1_scales[block_offset + group_idx * 4u + 1u]; let s2 = q1_scales[block_offset + group_idx * 4u + 2u]; let s3 = q1_scales[block_offset + group_idx * 4u + 3u]; {%- else %} let s0 = f32(q1_scales[block_offset + group_idx * 4u + 0u]); let s1 = f32(q1_scales[block_offset + group_idx * 4u + 1u]); let s2 = f32(q1_scales[block_offset + group_idx * 4u + 2u]); let s3 = f32(q1_scales[block_offset + group_idx * 4u + 3u]); {%- endif %} let unscaled0 = dot(a0, q1_signs4_unit(bit_vec.x, 0u)) + dot(a1, q1_signs4_unit(bit_vec.x, 4u)) + dot(a2, q1_signs4_unit(bit_vec.x, 8u)) + dot(a3, q1_signs4_unit(bit_vec.x, 12u)) + dot(a4, q1_signs4_unit(bit_vec.x, 16u)) + dot(a5, q1_signs4_unit(bit_vec.x, 20u)) + dot(a6, q1_signs4_unit(bit_vec.x, 24u)) + dot(a7, q1_signs4_unit(bit_vec.x, 28u)); let unscaled1 = dot(a0, q1_signs4_unit(bit_vec.y, 0u)) + dot(a1, q1_signs4_unit(bit_vec.y, 4u)) + dot(a2, q1_signs4_unit(bit_vec.y, 8u)) + dot(a3, q1_signs4_unit(bit_vec.y, 12u)) + dot(a4, q1_signs4_unit(bit_vec.y, 16u)) + dot(a5, q1_signs4_unit(bit_vec.y, 20u)) + dot(a6, q1_signs4_unit(bit_vec.y, 24u)) + dot(a7, q1_signs4_unit(bit_vec.y, 28u)); let unscaled2 = dot(a0, q1_signs4_unit(bit_vec.z, 0u)) + dot(a1, q1_signs4_unit(bit_vec.z, 4u)) + dot(a2, q1_signs4_unit(bit_vec.z, 8u)) + dot(a3, q1_signs4_unit(bit_vec.z, 12u)) + dot(a4, q1_signs4_unit(bit_vec.z, 16u)) + dot(a5, q1_signs4_unit(bit_vec.z, 20u)) + dot(a6, q1_signs4_unit(bit_vec.z, 24u)) + dot(a7, q1_signs4_unit(bit_vec.z, 28u)); let unscaled3 = dot(a0, q1_signs4_unit(bit_vec.w, 0u)) + dot(a1, q1_signs4_unit(bit_vec.w, 4u)) + dot(a2, q1_signs4_unit(bit_vec.w, 8u)) + dot(a3, q1_signs4_unit(bit_vec.w, 12u)) + dot(a4, q1_signs4_unit(bit_vec.w, 16u)) + dot(a5, q1_signs4_unit(bit_vec.w, 20u)) + dot(a6, q1_signs4_unit(bit_vec.w, 24u)) + dot(a7, q1_signs4_unit(bit_vec.w, 28u)); return vec4(s0 * unscaled0, s1 * unscaled1, s2 * unscaled2, s3 * unscaled3); } @compute @workgroup_size(64) fn main( @builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3 {%- if useSubgroups %}, @builtin(subgroup_invocation_id) sg_lid: u32, @builtin(subgroup_size) sg_size: u32 {%- endif %} ) { let j0 = wid.x * TILE_ROWS; let lid = lid3.x; if (j0 >= INTERMEDIATE_SIZE) { return; } let tile = j0 / TILE_ROWS; var acc0 = 0.0; var acc1 = 0.0; var acc2 = 0.0; var acc3 = 0.0; var acc_u0 = 0.0; var acc_u1 = 0.0; var acc_u2 = 0.0; var acc_u3 = 0.0; var ss = 0.0; for (var word_index = lid; word_index < HIDDEN_SIZE_Q1_WORDS; word_index = word_index + WORKGROUP_SIZE) { let col_block = word_index / 4u; let word_id = word_index % 4u; let base4 = word_index * 8u; {%- if hiddenVec4 == "vec4" %} let h0 = hidden[base4]; let h1 = hidden[base4 + 1u]; let h2 = hidden[base4 + 2u]; let h3 = hidden[base4 + 3u]; let h4 = hidden[base4 + 4u]; let h5 = hidden[base4 + 5u]; let h6 = hidden[base4 + 6u]; let h7 = hidden[base4 + 7u]; {%- else %} let h0 = vec4(hidden[base4]); let h1 = vec4(hidden[base4 + 1u]); let h2 = vec4(hidden[base4 + 2u]); let h3 = vec4(hidden[base4 + 3u]); let h4 = vec4(hidden[base4 + 4u]); let h5 = vec4(hidden[base4 + 5u]); let h6 = vec4(hidden[base4 + 6u]); let h7 = vec4(hidden[base4 + 7u]); {%- endif %} ss += dot(h0, h0) + dot(h1, h1) + dot(h2, h2) + dot(h3, h3) + dot(h4, h4) + dot(h5, h5) + dot(h6, h6) + dot(h7, h7); let g_base = W_NORM_VEC4 + base4; {%- if normWeightVec4 == "vec4" %} let n0 = h0 * norm_weight[g_base]; let n1 = h1 * norm_weight[g_base + 1u]; let n2 = h2 * norm_weight[g_base + 2u]; let n3 = h3 * norm_weight[g_base + 3u]; let n4 = h4 * norm_weight[g_base + 4u]; let n5 = h5 * norm_weight[g_base + 5u]; let n6 = h6 * norm_weight[g_base + 6u]; let n7 = h7 * norm_weight[g_base + 7u]; {%- else %} let n0 = h0 * vec4(norm_weight[g_base]); let n1 = h1 * vec4(norm_weight[g_base + 1u]); let n2 = h2 * vec4(norm_weight[g_base + 2u]); let n3 = h3 * vec4(norm_weight[g_base + 3u]); let n4 = h4 * vec4(norm_weight[g_base + 4u]); let n5 = h5 * vec4(norm_weight[g_base + 5u]); let n6 = h6 * vec4(norm_weight[g_base + 6u]); let n7 = h7 * vec4(norm_weight[g_base + 7u]); {%- endif %} let gate4 = q1_dot_word_t4(W_GATE_Q1, tile, BPR, col_block, word_id, n0, n1, n2, n3, n4, n5, n6, n7); let up4 = q1_dot_word_t4(W_UP_Q1, tile, BPR, col_block, word_id, n0, n1, n2, n3, n4, n5, n6, n7); acc0 += gate4.x; acc1 += gate4.y; acc2 += gate4.z; acc3 += gate4.w; acc_u0 += up4.x; acc_u1 += up4.y; acc_u2 += up4.z; acc_u3 += up4.w; } {%- if useSubgroups %} let subgroup_sum0 = subgroupAdd(acc0); let subgroup_sum1 = subgroupAdd(acc_u0); let subgroup_sum2 = subgroupAdd(acc1); let subgroup_sum3 = subgroupAdd(acc_u1); let subgroup_sum4 = subgroupAdd(acc2); let subgroup_sum5 = subgroupAdd(acc_u2); let subgroup_sum6 = subgroupAdd(acc3); let subgroup_sum7 = subgroupAdd(acc_u3); let subgroup_sum8 = subgroupAdd(ss); if (WORKGROUP_SIZE == sg_size) { if (lid == 0u) { partials_g0[0] = subgroup_sum0; partials_u0[0] = subgroup_sum1; partials_g1[0] = subgroup_sum2; partials_u1[0] = subgroup_sum3; partials_g2[0] = subgroup_sum4; partials_u2[0] = subgroup_sum5; partials_g3[0] = subgroup_sum6; partials_u3[0] = subgroup_sum7; partials_ss[0] = subgroup_sum8; } workgroupBarrier(); } else { if (sg_lid == 0u) { let subgroup_index = lid / sg_size; partials_g0[subgroup_index] = subgroup_sum0; partials_u0[subgroup_index] = subgroup_sum1; partials_g1[subgroup_index] = subgroup_sum2; partials_u1[subgroup_index] = subgroup_sum3; partials_g2[subgroup_index] = subgroup_sum4; partials_u2[subgroup_index] = subgroup_sum5; partials_g3[subgroup_index] = subgroup_sum6; partials_u3[subgroup_index] = subgroup_sum7; partials_ss[subgroup_index] = subgroup_sum8; } workgroupBarrier(); if (lid == 0u) { var total0 = 0.0; var total1 = 0.0; var total2 = 0.0; var total3 = 0.0; var total4 = 0.0; var total5 = 0.0; var total6 = 0.0; var total7 = 0.0; var total8 = 0.0; let subgroup_count = WORKGROUP_SIZE / sg_size; for (var i = 0u; i < subgroup_count; i = i + 1u) { total0 = total0 + partials_g0[i]; total1 = total1 + partials_u0[i]; total2 = total2 + partials_g1[i]; total3 = total3 + partials_u1[i]; total4 = total4 + partials_g2[i]; total5 = total5 + partials_u2[i]; total6 = total6 + partials_g3[i]; total7 = total7 + partials_u3[i]; total8 = total8 + partials_ss[i]; } partials_g0[0] = total0; partials_u0[0] = total1; partials_g1[0] = total2; partials_u1[0] = total3; partials_g2[0] = total4; partials_u2[0] = total5; partials_g3[0] = total6; partials_u3[0] = total7; partials_ss[0] = total8; } workgroupBarrier(); } {%- else %} partials_g0[lid] = acc0; partials_u0[lid] = acc_u0; partials_g1[lid] = acc1; partials_u1[lid] = acc_u1; partials_g2[lid] = acc2; partials_u2[lid] = acc_u2; partials_g3[lid] = acc3; partials_u3[lid] = acc_u3; partials_ss[lid] = ss; workgroupBarrier(); var stride = WORKGROUP_SIZE / 2u; loop { if (lid < stride) { partials_g0[lid] = partials_g0[lid] + partials_g0[lid + stride]; partials_u0[lid] = partials_u0[lid] + partials_u0[lid + stride]; partials_g1[lid] = partials_g1[lid] + partials_g1[lid + stride]; partials_u1[lid] = partials_u1[lid] + partials_u1[lid + stride]; partials_g2[lid] = partials_g2[lid] + partials_g2[lid + stride]; partials_u2[lid] = partials_u2[lid] + partials_u2[lid + stride]; partials_g3[lid] = partials_g3[lid] + partials_g3[lid + stride]; partials_u3[lid] = partials_u3[lid] + partials_u3[lid + stride]; partials_ss[lid] = partials_ss[lid] + partials_ss[lid + stride]; } workgroupBarrier(); if (stride == 1u) { break; } stride = stride / 2u; } {%- endif %} if (lid == 0u) { let scale = inverseSqrt(partials_ss[0] / f32(HIDDEN_SIZE) + RMS_EPS); {%- if intermediateScalar == "f32" %} intermediate[j0 + 0u] = silu(partials_g0[0] * scale) * (partials_u0[0] * scale); intermediate[j0 + 1u] = silu(partials_g1[0] * scale) * (partials_u1[0] * scale); intermediate[j0 + 2u] = silu(partials_g2[0] * scale) * (partials_u2[0] * scale); intermediate[j0 + 3u] = silu(partials_g3[0] * scale) * (partials_u3[0] * scale); {%- else %} intermediate[j0 + 0u] = {{ intermediateScalar }}(silu(partials_g0[0] * scale) * (partials_u0[0] * scale)); intermediate[j0 + 1u] = {{ intermediateScalar }}(silu(partials_g1[0] * scale) * (partials_u1[0] * scale)); intermediate[j0 + 2u] = {{ intermediateScalar }}(silu(partials_g2[0] * scale) * (partials_u2[0] * scale)); intermediate[j0 + 3u] = {{ intermediateScalar }}(silu(partials_g3[0] * scale) * (partials_u3[0] * scale)); {%- endif %} } } `]]}],["com.xenova.LlamaDecodeGateUpNormQ4",{manifest:{schemaVersion:1,domain:"com.xenova",name:"LlamaDecodeGateUpNormQ4",sinceVersion:1,inputs:[{role:"Hidden",dtype:"H",rank:1},{role:"Q4Bits",dtype:"uint32",rank:1},{role:"Q4Scales",dtype:"S",rank:1},{role:"NormWeights",dtype:"W",rank:1}],outputs:[{role:"Intermediate",dtype:"I",rank:1,shape:["args.intermediateSize"]}],typeConstraints:{H:["float32","float16"],S:["float32","float16"],W:["float32","float16"],I:["float32","float16"]},args:{hiddenT:{kind:"tensor",semantic:"Hidden",role:"input"},q4BitsT:{kind:"tensor",semantic:"Q4Bits",role:"weights"},q4ScalesT:{kind:"tensor",semantic:"Q4Scales",role:"weights"},intermediateT:{kind:"tensor",semantic:"Intermediate",role:"output"},weightsT:{kind:"tensor",semantic:"NormWeights",role:"weights"},hiddenSize:{kind:"u32",semantic:"hidden_size"},intermediateSize:{kind:"u32",semantic:"intermediate_size"},rmsEps:{kind:"f32",semantic:"rms_eps"},normOffset:{kind:"u32",semantic:"post_attention_norm_offset"},gateOffset:{kind:"u32",semantic:"gate_proj_q4_block_offset"},upOffset:{kind:"u32",semantic:"up_proj_q4_block_offset"},quantBits:{kind:"u32",semantic:"packed_quant_bits"},hasMin:{kind:"u32",semantic:"kquant_has_min",required:!1}},variants:[{id:"q4",priority:0,when:["ranks.hiddenT == 1","ranks.q4BitsT == 1","ranks.q4ScalesT == 1","ranks.intermediateT == 1","ranks.weightsT == 1",'(tensorDtypes.hiddenT == "float32" or tensorDtypes.hiddenT == "float16")','tensorDtypes.q4BitsT == "uint32"','(tensorDtypes.q4ScalesT == "float32" or tensorDtypes.q4ScalesT == "float16")','(tensorDtypes.intermediateT == "float32" or tensorDtypes.intermediateT == "float16")','(tensorDtypes.weightsT == "float32" or tensorDtypes.weightsT == "float16")','((tensorDtypes.hiddenT != "float16" and tensorDtypes.q4ScalesT != "float16" and tensorDtypes.intermediateT != "float16" and tensorDtypes.weightsT != "float16") or device.features.has("shader-f16"))',"args.hiddenSize > 0","args.hiddenSize % 32 == 0","args.intermediateSize > 0","args.normOffset % 4 == 0","(args.quantBits == 4 or args.quantBits == 8)","dim(shapes.hiddenT, 0) == args.hiddenSize","dim(shapes.intermediateT, 0) == args.intermediateSize","dim(shapes.weightsT, 0) >= args.normOffset + args.hiddenSize","dim(shapes.q4BitsT, 0) >= max(args.gateOffset + args.intermediateSize * (args.hiddenSize / 32), args.upOffset + args.intermediateSize * (args.hiddenSize / 32)) * args.quantBits","dim(shapes.q4ScalesT, 0) >= max(args.gateOffset + args.intermediateSize * (args.hiddenSize / 32), args.upOffset + args.intermediateSize * (args.hiddenSize / 32)) * (2 if args.hasMin else 1)"],constants:{useSubgroups:'device.features.has("subgroups") and has(device.adapterInfo, "subgroupMinSize") and device.adapterInfo.subgroupMinSize >= 32',usesF16:'tensorDtypes.hiddenT == "float16" or tensorDtypes.q4ScalesT == "float16" or tensorDtypes.intermediateT == "float16" or tensorDtypes.weightsT == "float16"',scaleScalar:"dtypes.S",hiddenVec4:'"vec4" if tensorDtypes.hiddenT == "float16" else "vec4"',normWeightVec4:'"vec4" if tensorDtypes.weightsT == "float16" else "vec4"',intermediateScalar:"dtypes.I",hiddenSize:"args.hiddenSize",blocksPerRow:"args.hiddenSize / 32",intermediateSize:"args.intermediateSize",rmsEps:"args.rmsEps",normOffsetVec4:"args.normOffset / 4",gateOffset:"args.gateOffset",upOffset:"args.upOffset",quantBits:"args.quantBits",hasMin:"args.hasMin if args.hasMin else 0"},passes:[{id:"main",name:"LlamaDecodeGateUpNormQ4",shader:"decode-gate-up-norm-q4.wgsl.jinja",bindings:[{name:"hidden",arg:"hiddenT",semantic:"Hidden",role:"input",buffer:{type:"read-only-storage"},elementType:"$hiddenVec4"},{name:"q4_bits",arg:"q4BitsT",semantic:"Q4Bits",role:"weights",buffer:{type:"read-only-storage"},elementType:"vec4"},{name:"q4_scales",arg:"q4ScalesT",semantic:"Q4Scales",role:"weights",buffer:{type:"read-only-storage"},elementType:"$scaleScalar"},{name:"intermediate",arg:"intermediateT",semantic:"Intermediate",role:"output",buffer:{type:"storage"},elementType:"$intermediateScalar"},{name:"norm_weight",arg:"weightsT",semantic:"NormWeights",role:"weights",buffer:{type:"read-only-storage"},elementType:"$normWeightVec4"}],dispatch:{x:"args.intermediateSize",y:1,z:1},reads:["Hidden","Q4Bits","Q4Scales","NormWeights"],writes:["Intermediate"]}]}]},assets:[["decode-gate-up-norm-q4.wgsl.jinja",`{%- if useSubgroups %} enable subgroups; {% endif -%} {%- if usesF16 %} enable f16; {% endif -%} {{ env.wgsl.resourceDeclarations }} const HIDDEN_SIZE: u32 = {{ hiddenSize }}u; const BPR: u32 = {{ blocksPerRow }}u; // Q4_0 blocks per weight row (hidden / 32) const INTERMEDIATE_SIZE: u32 = {{ intermediateSize }}u; const RMS_EPS: f32 = {{ rmsEps }}; const W_NORM_VEC4: u32 = {{ normOffsetVec4 }}u; const W_GATE_Q4: u32 = {{ gateOffset }}u; const W_UP_Q4: u32 = {{ upOffset }}u; const WORKGROUP_SIZE: u32 = 32u; {%- if not useSubgroups %} var partials_g: array; var partials_u: array; var partials_ss: array; {% endif %} fn silu(x: f32) -> f32 { return x / (1.0 + exp(-x)); } {%- if quantBits == 8 %} // Q8_0 dequant: a u32 word holds 4 signed int8 in contiguous element order (one block = 32 elements // = 2 vec4); dequant = q (scale applied once per block by the caller). fn q8dot(word: u32, xv: vec4) -> f32 { return dot(vec4(unpack4xI8(word)), xv); } {%- else %} fn q4_lo(word: u32) -> vec4 { return vec4(unpack4xU8(word & 0x0F0F0F0Fu)) - 8.0; } fn q4_hi(word: u32) -> vec4 { return vec4(unpack4xU8((word >> 4u) & 0x0F0F0F0Fu)) - 8.0; } fn q4wp(word: u32, lo: vec4, hi: vec4) -> f32 { return dot(lo, q4_lo(word)) + dot(hi, q4_hi(word)); } {%- endif %} // Fused post-attention RMSNorm + gate/up GEMV with in-kernel Q4_0 dequant. The RMSNorm scale is // a per-token scalar that factors out of the linear GEMV, so we GEMV on (hidden*norm_weight), // accumulate sum(hidden^2), and apply inverseSqrt(ss/H+eps) at the end. One intermediate row per // workgroup (WG=32 = one subgroup); threads stride over the row's 32-element weight blocks and a // single subgroupAdd does the reduction (this GEMV reduces over only hidden/32 blocks, so the // barrier-tree reduction dominated \u2014 subgroupAdd removes it). Mirrors decode-gate-up-norm (f16). @compute @workgroup_size(32) fn main(@builtin(workgroup_id) wid: vec3, @builtin(local_invocation_id) lid3: vec3) { let j = wid.x; let lid = lid3.x; if (j >= INTERMEDIATE_SIZE) { return; } let gate_block_base = W_GATE_Q4 + j * BPR; let up_block_base = W_UP_Q4 + j * BPR; var acc_g = 0.0; var acc_u = 0.0; var ss = 0.0; for (var b = lid; b < BPR; b = b + WORKGROUP_SIZE) { let hbase = b * 8u; // hidden vec4 base for this block's 32 elements let h0 = vec4(hidden[hbase]); let h1 = vec4(hidden[hbase + 1u]); let h2 = vec4(hidden[hbase + 2u]); let h3 = vec4(hidden[hbase + 3u]); let h4 = vec4(hidden[hbase + 4u]); let h5 = vec4(hidden[hbase + 5u]); let h6 = vec4(hidden[hbase + 6u]); let h7 = vec4(hidden[hbase + 7u]); ss = ss + dot(h0, h0) + dot(h1, h1) + dot(h2, h2) + dot(h3, h3) + dot(h4, h4) + dot(h5, h5) + dot(h6, h6) + dot(h7, h7); let nb = W_NORM_VEC4 + hbase; let n0 = h0 * vec4(norm_weight[nb]); let n1 = h1 * vec4(norm_weight[nb + 1u]); let n2 = h2 * vec4