// QVAC WebGPU decode engine — GPU-resident inference for the int8 Llama model. // // "type-1" lean path: int8 weights + KV cache live on the GPU; each token is ONE // command buffer chaining every kernel (intermediates stay in GPU buffers, no // per-op CPU round-trip), with a single async readback of the logits. The wasm // hands over the weights via qvac_gpu_export(); JS keeps only the embedding table // for the host-side lookup. Mirrors the CPU DecodeSession op-for-op so its output // matches (greedy decode → identical tokens). // Per-block GEMV (Q8: int8 1B/weight, or Q4: nibble 2 weights/byte), weights in // [out,in] layout (K-split reads are contiguous → coalesced), with a scale per // 32-weight block (GGUF-native precision). One workgroup per output row, 64 // threads reduce over K. `add` fuses a residual: o = x·dequant(qw,sc) [+ r]. import { requant2bit, signsFor } from "./qvac-2bit.mjs"; import { getDevice } from "./holo-gpu-device.mjs"; // ONE shared WebGPU device (engine + BLAKE3 verify + Bao) const mmKernel = (bits, add, q3f = false) => ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var qw: array; @group(0) @binding(2) var sc: array; ${add ? "@group(0) @binding(3) var r: array;\n@group(0) @binding(4) var o: array;\n@group(0) @binding(5) var P: vec4;" : "@group(0) @binding(3) var o: array;\n@group(0) @binding(4) var P: vec4;"} var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let n=wg.y*65535u+wg.x; let K=P.x; let nblk=P.z; let t=lid.x; if(n>=P.y){return;} // 2D grid for N>65535 (big vocab) var acc=0.0; ${bits === 2 ? ` let words=K>>4u; let rowW=n*words; let rowS=n*nblk; var w=t; // 2-bit: 16 weights/u32 loop{ if(w>=words){break;} let packed=qw[rowW+w]; let kb=w<<4u; let sca=sc[rowS+(kb>>5u)]; for(var j=0u;j<16u;j=j+1u){ acc=acc+x[kb+j]*f32(i32((packed>>(j*2u))&3u)*2-3)*sca; } w=w+64u; }` : bits === 3 && q3f ? ` let rowB=n*nblk; var blk=t; // Q3 FIELDS: 10×3-bit per u32 (+ the 3 spare 2-bit stubs = w30/w31); 1 shift+and per weight loop{ if(blk>=nblk){break;} let bp=(rowB+blk)*3u; let p0=qw[bp]; let p1=qw[bp+1u]; let p2=qw[bp+2u]; let kb=blk<<5u; var bacc=0.0; for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[kb+j]*f32(i32((p0>>(j*3u))&7u)-3); } for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[kb+10u+j]*f32(i32((p1>>(j*3u))&7u)-3); } for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[kb+20u+j]*f32(i32((p2>>(j*3u))&7u)-3); } let sp=(p0>>30u)|((p1>>30u)<<2u)|((p2>>30u)<<4u); bacc=bacc+x[kb+30u]*f32(i32(sp&7u)-3)+x[kb+31u]*f32(i32((sp>>3u)&7u)-3); acc=acc+bacc*sc[rowB+blk]; blk=blk+64u; }` : bits === 3 ? ` let rowB=n*nblk; var blk=t; // Q3: bit-planes — 3 u32 per 32-block, level {−7…7} loop{ if(blk>=nblk){break;} let bp=(rowB+blk)*3u; let p0=qw[bp]; let p1=qw[bp+1u]; let p2=qw[bp+2u]; let sca=sc[rowB+blk]; let kb=blk<<5u; for(var j=0u;j<32u;j=j+1u){ let q=((p0>>j)&1u)|(((p1>>j)&1u)<<1u)|(((p2>>j)&1u)<<2u); acc=acc+x[kb+j]*f32(i32(q)-3)*sca; } blk=blk+64u; }` : bits === 4 ? ` let words=K>>3u; let rowW=n*words; let rowS=n*nblk; var w=t; // Q4: 8 nibbles/u32, hoisted block scale (word-oriented) loop{ if(w>=words){break;} let packed=qw[rowW+w]; let kb=w<<3u; let sca=sc[rowS+(kb>>5u)]; for(var j=0u;j<8u;j=j+1u){ acc=acc+x[kb+j]*f32(i32((packed>>(j*4u))&0xfu)-8)*sca; } w=w+64u; }` : ` var k=t; loop{ if(k>=K){break;} let g=n*K+k; let q=f32(i32(((qw[g/4u]>>((g%4u)*8u))&0xffu)<<24u)>>24u); acc=acc+x[k]*q*sc[n*nblk + (k>>5u)]; k=k+64u; }`} red[t]=acc; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(t x: array; @group(0) @binding(1) var sgn: array; @group(0) @binding(2) var xr: array; @group(0) @binding(3) var P: vec4; // K (real), Kp (padded) @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3){ let i=gid.x; let K=P.x; let Kp=P.y; if(i>=Kp){return;} var xi=0.0; if(i xr: array; @group(0) @binding(1) var P: vec4; // Kp, len @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3){ let i=gid.x; let Kp=P.x; let len=P.y; if(i>=(Kp>>1u)){return;} let blk=i/len; let j=i%len; let a=blk*(len<<1u)+j; let b=a+len; let u=xr[a]; let v=xr[b]; xr[a]=u+v; xr[b]=u-v; }`; const FWHT_NORM = ` @group(0) @binding(0) var xr: array; @group(0) @binding(1) var P: vec4; // Kp @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3){ let i=gid.x; let Kp=P.x; if(i>=Kp){return;} xr[i]=xr[i]*(1.0/sqrt(f32(Kp))); }`; const RMS = ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var gamma: array; @group(0) @binding(2) var o: array; @group(0) @binding(3) var P: vec4; // d var sh: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid:vec3){ let d=P.x; let t=lid.x; var s=0.0; var i=t; loop{ if(i>=d){break;} s=s+x[i]*x[i]; i=i+256u; } sh[t]=s; workgroupBarrier(); var stride=128u; loop{ if(stride==0u){break;} if(t=d){break;} o[j]=x[j]*inv*gamma[j]; j=j+256u; } }`; // Qwen3 QK-Norm: per-head RMSNorm over head_dim (≤128), one workgroup per head. const QKNORM = ` @group(0) @binding(0) var x: array; // [nh*hd] in place @group(0) @binding(1) var w: array; // [hd] @group(0) @binding(2) var P: vec4; // nh, hd, _, _ var sh: array; @compute @workgroup_size(128) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let h=wg.x; let hd=P.y; let t=lid.x; let base=h*hd; var v=0.0; if(t c: array>; @group(0) @binding(1) var o: array; @group(0) @binding(2) var P: vec4; var wm: array; var wi: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid:vec3){ let t=lid.x; let e=c[t]; wm[t]=bitcast(e.x); wi[t]=e.y; workgroupBarrier(); var s=128u; loop{ if(s==0u){break;} if(twm[t]||(wm[t+s]==wm[t]&&wi[t+s](wm[0]); } }`; const ARGMAX2K = ` @group(0) @binding(0) var c: array>; @group(0) @binding(1) var o: array; @group(0) @binding(2) var P: vec4; var wm: array; var wi: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid:vec3){ let t=lid.x; let e=c[t]; wm[t]=bitcast(e.x); wi[t]=e.y; workgroupBarrier(); var s=128u; loop{ if(s==0u){break;} if(twm[t]||(wm[t+s]==wm[t]&&wi[t+s] ` @group(0) @binding(0) var q: array; // [k][nh*hd] @group(0) @binding(1) var kc: array; @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; // [k][nh*hd] @group(0) @binding(4) var P: vec4; // nh, nkv, hd, basePos (wg.y = row; pos = basePos+row) var sc: array; var red: array; const S: u32 = ${kvd / 8 + kvd / 32}u; const CW: u32 = ${kvd / 8}u; fn kval(j:u32, c:u32) -> f32 { let w=kc[j*S+(c>>3u)]; return (f32((w>>((c&7u)*4u))&15u)-7.0)*bitcast(kc[j*S+CW+(c>>5u)]); } fn vval(j:u32, c:u32) -> f32 { let w=vc[j*S+(c>>3u)]; return (f32((w>>((c&7u)*4u))&15u)-7.0)*bitcast(vc[j*S+CW+(c>>5u)]); } @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let h=wg.x; let nh=P.x; let nkv=P.y; let hd=P.z; let pos=P.w+wg.y; let group=nh/nkv; let kh=h/group; let rb=wg.y*nh*hd; let scale=1.0/sqrt(f32(hd)); let qb=rb+h*hd; let kb=kh*hd; let t=lid.x; var j=t; loop{ if(j>pos){break;} var d=0.0; for(var c=0u;cpos){break;} lm=max(lm,sc[j]); j=j+64u; } red[t]=lm; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(tpos){break;} let e=exp(sc[j]-mx); sc[j]=e; ld=ld+e; j=j+64u; } red[t]=ld; workgroupBarrier(); s=32u; loop{ if(s==0u){break;} if(t=hd){break;} var acc=0.0; for(var jj=0u;jj<=pos;jj++){ acc=acc+sc[jj]*vval(jj,kb+c); } o[qb+c]=acc/dn; c=c+64u; } }`; const ATTNK = (cap) => ` @group(0) @binding(0) var q: array; // [k][nh*hd] @group(0) @binding(1) var kc: array; // f32 cache (layer 0) @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; @group(0) @binding(4) var P: vec4; // nh, nkv, hd, basePos (wg.y = row) var sc: array; var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let h=wg.x; let nh=P.x; let nkv=P.y; let hd=P.z; let pos=P.w+wg.y; let group=nh/nkv; let kh=h/group; let kvdim=nkv*hd; let rb=wg.y*nh*hd; let scale=1.0/sqrt(f32(hd)); let qb=rb+h*hd; let kb=kh*hd; let t=lid.x; var j=t; loop{ if(j>pos){break;} var d=0.0; for(var c=0u;cpos){break;} lm=max(lm,sc[j]); j=j+64u; } red[t]=lm; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(tpos){break;} let e=exp(sc[j]-mx); sc[j]=e; ld=ld+e; j=j+64u; } red[t]=ld; workgroupBarrier(); s=32u; loop{ if(s==0u){break;} if(t=hd){break;} var acc=0.0; for(var jj=0u;jj<=pos;jj++){ acc=acc+sc[jj]*vc[jj*kvdim+kb+c]; } o[qb+c]=acc/dn; c=c+64u; } }`; const RMSK = ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var gamma: array; @group(0) @binding(2) var o: array; @group(0) @binding(3) var P: vec4; // d (wg.y = row) var sh: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let d=P.x; let t=lid.x; let b=wg.y*d; var s=0.0; var i=t; loop{ if(i>=d){break;} s=s+x[b+i]*x[b+i]; i=i+256u; } sh[t]=s; workgroupBarrier(); var stride=128u; loop{ if(stride==0u){break;} if(t=d){break;} o[b+j]=x[b+j]*inv*gamma[j]; j=j+256u; } }`; const ROPEK = (theta) => ` @group(0) @binding(0) var x: array; // [k][stride] in place @group(0) @binding(1) var P: vec4; // nh, hd, basePos, stride (wg.y = row) @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let nh=P.x; let hd=P.y; let pos=f32(P.z+wg.y); let half=hd/2u; let id=wg.x*64u+lid.x; if(id>=nh*half){return;} let head=id/half; let i=id%half; let base=wg.y*P.w+head*hd; let freq=pow(${theta}, -2.0*f32(i)/f32(hd)); let ang=pos*freq; let c=cos(ang); let s=sin(ang); let a=x[base+i]; let b=x[base+i+half]; x[base+i]=a*c-b*s; x[base+i+half]=b*c+a*s; }`; const KVQK = (kvd) => ` @group(0) @binding(0) var x: array; // [k][kvd] @group(0) @binding(1) var out: array; @group(0) @binding(2) var P: vec4; // .w = basePos (wg.y = row) const S: u32 = ${kvd / 8 + kvd / 32}u; const CW: u32 = ${kvd / 8}u; const NG: u32 = ${kvd / 32}u; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let base=(P.w+wg.y)*S; let xb=wg.y*${kvd}u; var g=lid.x; loop{ if(g>=NG){break;} var mx=0.0; for(var i=0u;i<32u;i++){ let a=abs(x[xb+g*32u+i]); if(a>mx){mx=a;} } let s=max(mx/7.0, 1e-12); out[base+CW+g]=bitcast(s); for(var w=0u;w<4u;w++){ var word=0u; for(var i=0u;i<8u;i++){ let qv=clamp(i32(round(x[xb+g*32u+w*8u+i]/s)),-7,7); word=word|(u32(qv+7)<<(i*4u)); } out[base+g*4u+w]=word; } g=g+64u; } }`; // batched-x ternary GEMM: weights read once for all KX rows. o[c*N+n]; optional residual r same layout. const mmT2KK = (add, KX) => ` @group(0) @binding(0) var x: array>; // [KX][K/4] @group(0) @binding(1) var qw: array; ${add ? "@group(0) @binding(2) var r: array;\n@group(0) @binding(3) var o: array;\n@group(0) @binding(4) var P: vec4;" : "@group(0) @binding(2) var o: array;\n@group(0) @binding(3) var P: vec4;"} var red: array; ${"" /* dot16 via shared fn */} fn dot16(word:u32, v:u32) -> f32 { var s4=vec4(0.0); var x0=x[v]; s4=s4+x0*(vec4(f32(word&3u),f32((word>>2u)&3u),f32((word>>4u)&3u),f32((word>>6u)&3u))-vec4(1.0)); x0=x[v+1u]; s4=s4+x0*(vec4(f32((word>>8u)&3u),f32((word>>10u)&3u),f32((word>>12u)&3u),f32((word>>14u)&3u))-vec4(1.0)); x0=x[v+2u]; s4=s4+x0*(vec4(f32((word>>16u)&3u),f32((word>>18u)&3u),f32((word>>20u)&3u),f32((word>>22u)&3u))-vec4(1.0)); x0=x[v+3u]; s4=s4+x0*(vec4(f32((word>>24u)&3u),f32((word>>26u)&3u),f32((word>>28u)&3u),f32((word>>30u)&3u))-vec4(1.0)); return s4.x+s4.y+s4.z+s4.w; } @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let K=P.x; let nw=K>>4u; let rr=lid.x/64u; let t=lid.x%64u; let n0=(wg.y*65535u+wg.x)*4u+rr; let n=min(n0, P.y-1u); let rowW=n*nw; var acc: array; for(var c=0u;c<${KX}u;c++){ acc[c]=0.0; } var w=t; loop{ if(w>=nw){break;} let word=qw[rowW+w]; let v=w<<2u; ${Array.from({ length: 8 }, (_, c) => `if(${c}u<${KX}u){ acc[${c}]=acc[${c}]+dot16(word, ${c}u*(K>>2u)+v); }`).slice(0, KX).join("\n ")} w=w+64u; } for(var c=0u;c<${KX}u;c++){ red[lid.x]=acc[c]; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(t(P.w)${add ? "+r[c*P.y+n0]" : ""}; } workgroupBarrier(); } }`; // t2r batched (per-256-block scales) — binding order mirrors mmT2RKernel: x,qw,sc,(r),o,P const mmT2RKK = (add, KX) => ` @group(0) @binding(0) var x: array>; // [KX][K/4] @group(0) @binding(1) var qw: array; @group(0) @binding(2) var sc: array; ${add ? "@group(0) @binding(3) var r: array;\n@group(0) @binding(4) var o: array;\n@group(0) @binding(5) var P: vec4;" : "@group(0) @binding(3) var o: array;\n@group(0) @binding(4) var P: vec4;"} var red: array; ${t2Dot16} @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let K=P.x; let nw=K>>4u; let rr=lid.x/64u; let t=lid.x%64u; let n0=(wg.y*65535u+wg.x)*4u+rr; let n=min(n0, P.y-1u); let rowW=n*nw; let rowB=n*(K>>8u); var acc: array; for(var c=0u;c<${KX}u;c++){ acc[c]=0.0; } var w=t; loop{ if(w>=nw){break;} let word=qw[rowW+w]; let v=w<<2u; let s=sc[rowB+(w>>4u)]; ${Array.from({ length: KX }, (_, c) => `acc[${c}]=acc[${c}]+dot16(word, ${c}u*(K>>2u)+v)*s;`).join("\n ")} w=w+64u; } for(var c=0u;c<${KX}u;c++){ red[lid.x]=acc[c]; workgroupBarrier(); var s2=32u; loop{ if(s2==0u){break;} if(t ` @group(0) @binding(0) var x: array; // [KX][K] @group(0) @binding(1) var qw: array; @group(0) @binding(2) var sc: array; @group(0) @binding(3) var o: array; @group(0) @binding(4) var P: vec4; var red: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let K=P.x; let nblk=P.z; let rr=lid.x/64u; let t=lid.x%64u; let n0=(wg.y*65535u+wg.x)*4u+rr; let n=min(n0, P.y-1u); let rowB=n*nblk; var acc: array; for(var c=0u;c<${KX}u;c++){ acc[c]=0.0; } var blk=t; loop{ if(blk>=nblk){break;} let bp=(rowB+blk)*3u; let p0=qw[bp]; let p1=qw[bp+1u]; let p2=qw[bp+2u]; let kb=blk<<5u; let sca=sc[rowB+blk]; for(var c=0u;c<${KX}u;c++){ let xb=c*K+kb; var bacc=0.0; for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[xb+j]*f32(i32((p0>>(j*3u))&7u)-3); } for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[xb+10u+j]*f32(i32((p1>>(j*3u))&7u)-3); } for(var j=0u;j<10u;j=j+1u){ bacc=bacc+x[xb+20u+j]*f32(i32((p2>>(j*3u))&7u)-3); } let sp=(p0>>30u)|((p1>>30u)<<2u)|((p2>>30u)<<4u); bacc=bacc+x[xb+30u]*f32(i32(sp&7u)-3)+x[xb+31u]*f32(i32((sp>>3u)&7u)-3); acc[c]=acc[c]+bacc*sca; } blk=blk+64u; } for(var c=0u;c<${KX}u;c++){ red[lid.x]=acc[c]; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(t ` @group(0) @binding(0) var x: array; // [nh*hd] in place @group(0) @binding(1) var P: vec4; // nh, hd, pos, _ @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) g:vec3){ let nh=P.x; let hd=P.y; let pos=f32(P.z); let half=hd/2u; let id=g.x; if(id>=nh*half){return;} let head=id/half; let i=id%half; let base=head*hd; let freq=pow(${theta}, -2.0*f32(i)/f32(hd)); let ang=pos*freq; let c=cos(ang); let s=sin(ang); let a=x[base+i]; let b=x[base+i+half]; x[base+i]=a*c-b*s; x[base+i+half]=b*c+a*s; }`; // One workgroup per head; 64 threads cooperate on scores → softmax → weighted V. // The score tile is sized to the KV allocation (the old fixed 1024 silently broke ctx > 1024); // workgroup storage caps this at ~4000 positions (cap·4B + reductions ≤ 16 KB). const ATTN = (cap) => ` @group(0) @binding(0) var q: array; // [nh*hd] @group(0) @binding(1) var kc: array; // [cap*kvdim] position-major @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; // [nh*hd] @group(0) @binding(4) var P: vec4; // nh, nkv, hd, pos(attend 0..pos) var sc: array; // score tile = full KV allocation var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let h=wg.x; let nh=P.x; let nkv=P.y; let hd=P.z; let pos=P.w; let group=nh/nkv; let kh=h/group; let kvdim=nkv*hd; let scale=1.0/sqrt(f32(hd)); let qb=h*hd; let kb=kh*hd; let t=lid.x; var j=t; loop{ if(j>pos){break;} var d=0.0; for(var c=0u;cpos){break;} lm=max(lm,sc[j]); j=j+64u; } red[t]=lm; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(tpos){break;} let e=exp(sc[j]-mx); sc[j]=e; ld=ld+e; j=j+64u; } red[t]=ld; workgroupBarrier(); s=32u; loop{ if(s==0u){break;} if(t=hd){break;} var acc=0.0; for(var jj=0u;jj<=pos;jj++){ acc=acc+sc[jj]*vc[jj*kvdim+kb+c]; } o[qb+c]=acc/dn; c=c+64u; } }`; // ── int4 KV cache (E6, measured: ≈0.1 rel-err @4.5 bits, ~6.4× KV memory/traffic) ── // Layers 1+ store K/V as symmetric int4 (codes nib−7 ∈ [−7,7]) with one f32 scale per 32 // channels; layer 0 stays f32 (measured pathological at low bits). Per-token record in u32s: // [codes kv_dim/8][scale bits kv_dim/32]. Same attention flow; dequant inline. const ATTNQ = (cap, kvd) => ` @group(0) @binding(0) var q: array; @group(0) @binding(1) var kc: array; @group(0) @binding(2) var vc: array; @group(0) @binding(3) var o: array; @group(0) @binding(4) var P: vec4; // nh, nkv, hd, pos var sc: array; var red: array; const S: u32 = ${kvd / 8 + kvd / 32}u; const CW: u32 = ${kvd / 8}u; fn kval(j:u32, c:u32) -> f32 { let w=kc[j*S+(c>>3u)]; return (f32((w>>((c&7u)*4u))&15u)-7.0)*bitcast(kc[j*S+CW+(c>>5u)]); } fn vval(j:u32, c:u32) -> f32 { let w=vc[j*S+(c>>3u)]; return (f32((w>>((c&7u)*4u))&15u)-7.0)*bitcast(vc[j*S+CW+(c>>5u)]); } @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let h=wg.x; let nh=P.x; let nkv=P.y; let hd=P.z; let pos=P.w; let group=nh/nkv; let kh=h/group; let scale=1.0/sqrt(f32(hd)); let qb=h*hd; let kb=kh*hd; let t=lid.x; var j=t; loop{ if(j>pos){break;} var d=0.0; for(var c=0u;cpos){break;} lm=max(lm,sc[j]); j=j+64u; } red[t]=lm; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(tpos){break;} let e=exp(sc[j]-mx); sc[j]=e; ld=ld+e; j=j+64u; } red[t]=ld; workgroupBarrier(); s=32u; loop{ if(s==0u){break;} if(t=hd){break;} var acc=0.0; for(var jj=0u;jj<=pos;jj++){ acc=acc+sc[jj]*vval(jj,kb+c); } o[qb+c]=acc/dn; c=c+64u; } }`; // quantize+pack ONE token's K or V row into the int4 cache record at position P.w (binds the // attention uniform — its .w is already the position on every path, step and batched decode) const KVQ = (kvd) => ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var out: array; @group(0) @binding(2) var P: vec4; // .w = pos const S: u32 = ${kvd / 8 + kvd / 32}u; const CW: u32 = ${kvd / 8}u; const NG: u32 = ${kvd / 32}u; @compute @workgroup_size(64) fn main(@builtin(local_invocation_id) lid:vec3){ let base=P.w*S; var g=lid.x; loop{ if(g>=NG){break;} var mx=0.0; for(var i=0u;i<32u;i++){ let a=abs(x[g*32u+i]); if(a>mx){mx=a;} } let s=max(mx/7.0, 1e-12); out[base+CW+g]=bitcast(s); for(var w=0u;w<4u;w++){ var word=0u; for(var i=0u;i<8u;i++){ let qv=clamp(i32(round(x[g*32u+w*8u+i]/s)),-7,7); word=word|(u32(qv+7)<<(i*4u)); } out[base+g*4u+w]=word; } g=g+64u; } }`; const SILUMUL = ` @group(0) @binding(0) var gate: array; @group(0) @binding(1) var up: array; @group(0) @binding(2) var o: array; @group(0) @binding(3) var P: vec4; // ff @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) g:vec3){ let i=g.x; if(i>=P.x){return;} let v=gate[i]; o[i]=(v/(1.0+exp(-v)))*up[i]; }`; const ADD = ` @group(0) @binding(0) var a: array; @group(0) @binding(1) var b: array; @group(0) @binding(2) var o: array; @group(0) @binding(3) var P: vec4; // n @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) g:vec3){ let i=g.x; if(i>=P.x){return;} o[i]=a[i]+b[i]; }`; // MoE accumulate: o += w · x (w = router weight, passed as f32 bits in P.y). Sums // each active expert's contribution into the residual without a separate add. const AXPY = ` @group(0) @binding(0) var o: array; @group(0) @binding(1) var x: array; @group(0) @binding(2) var P: vec4; // n, f32bits(w) @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) g:vec3){ let i=g.x; if(i>=P.x){return;} o[i]=o[i]+bitcast(P.y)*x[i]; }`; // ── BATCHED-EXPERT MoE kernels (G5c): collapse the per-expert dispatch storm into ONE dispatch per // stage by looping the nUsed chosen experts INSIDE the kernel, indexing each expert's slab via an // id table. 640 tiny dispatches/token → ~64. The expert slab is ONE resident buffer (all nExp experts // contiguous: expert e at u32 offset e·(N·K/8) for q, e·(N·K/32) for f32 scales). q4 decode, verbatim. ── const MOE_GU = ` @group(0) @binding(0) var x: array; // [K=d] shared input (normed2) @group(0) @binding(1) var qw: array; // WHOLE gate|up slab (all experts) @group(0) @binding(2) var sc: array; @group(0) @binding(3) var o: array; // [nUsed·ff] @group(0) @binding(4) var P: vec4; // K=d, ff(rows/expert), nblk=d/32, nUsed @group(0) @binding(5) var idx: array,2>; // chosen expert ids (≤8) var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let r=wg.y*65535u+wg.x; let K=P.x; let ff=P.y; let nblk=P.z; let t=lid.x; if(r>=P.w*ff){return;} // row r → expert slot s, local row i let s=r/ff; let i=r-s*ff; let e=idx[s>>2u][s&3u]; let qStride=(ff*K)>>3u; let sStride=(ff*K)>>5u; let words=K>>3u; let rowW=e*qStride+i*words; let rowS=e*sStride+i*nblk; var acc=0.0; var w=t; loop{ if(w>=words){break;} let packed=qw[rowW+w]; let kb=w<<3u; let sca=sc[rowS+(kb>>5u)]; for(var j=0u;j<8u;j=j+1u){ acc=acc+x[kb+j]*f32(i32((packed>>(j*4u))&0xfu)-8)*sca; } w=w+64u; } red[t]=acc; workgroupBarrier(); var st=32u; loop{ if(st==0u){break;} if(t hid: array; // [nUsed·ff] (silu(gate)·up per expert) @group(0) @binding(1) var qw: array; // WHOLE down slab @group(0) @binding(2) var sc: array; @group(0) @binding(3) var res: array; // residual [N=d] @group(0) @binding(4) var o: array; // [N=d] = res + Σ_s w_s·down_s @group(0) @binding(5) var P: vec4; // K=ff, N=d, nblk=ff/32, nUsed @group(0) @binding(6) var idx: array,2>; @group(0) @binding(7) var wts: array,2>; // router weights var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let n=wg.y*65535u+wg.x; let K=P.x; let N=P.y; let nblk=P.z; let nUsed=P.w; let t=lid.x; if(n>=N){return;} let qStride=(K*N)>>3u; let sStride=(K*N)>>5u; let words=K>>3u; var acc=0.0; for(var s=0u;s>2u][s&3u]; let wv=wts[s>>2u][s&3u]; let hb=s*K; let rowW=e*qStride+n*words; let rowS=e*sStride+n*nblk; var ww=t; loop{ if(ww>=words){break;} let packed=qw[rowW+ww]; let kb=ww<<3u; let sca=sc[rowS+(kb>>5u)]; for(var j=0u;j<8u;j=j+1u){ acc=acc+wv*hid[hb+kb+j]*f32(i32((packed>>(j*4u))&0xfu)-8)*sca; } ww=ww+64u; } } red[t]=acc; workgroupBarrier(); var st=32u; loop{ if(st==0u){break;} if(t l: array; @group(0) @binding(1) var ids: array; @group(0) @binding(2) var P: vec4; // count, f32bits(rp) @compute @workgroup_size(64) fn main(@builtin(global_invocation_id) g:vec3){ let i=g.x; if(i>=P.x){return;} let id=ids[i]; let rp=bitcast(P.y); let v=l[id]; if(v>0.0){ l[id]=v/rp; } else { l[id]=v*rp; } }`; // two-stage argmax; tie-break = smallest index on equal value (matches the JS first-max scan exactly) const ARGMAX1 = ` @group(0) @binding(0) var l: array; @group(0) @binding(1) var o: array>; // (f32bits(max), idx) per workgroup @group(0) @binding(2) var P: vec4; // vocab var wm: array; var wi: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let V=P.x; let t=lid.x; var bm=-3.0e38; var bi=0xffffffffu; var i=wg.x*256u+t; loop{ if(i>=V){break;} let v=l[i]; if(v>bm||(v==bm&&iwm[t]||(wm[t+s]==wm[t]&&wi[t+s](bitcast(wm[0]),wi[0]); } }`; const ARGMAX2 = ` @group(0) @binding(0) var c: array>; @group(0) @binding(1) var o: array; var wm: array; var wi: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid:vec3){ let t=lid.x; let e=c[t]; wm[t]=bitcast(e.x); wi[t]=e.y; workgroupBarrier(); var s=128u; loop{ if(s==0u){break;} if(twm[t]||(wm[t+s]==wm[t]&&wi[t+s] ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var qw: array; @group(0) @binding(2) var sc: array; @group(0) @binding(3) var lut: array; ${add ? "@group(0) @binding(4) var r: array;\n@group(0) @binding(5) var o: array;\n@group(0) @binding(6) var P: vec4;" : "@group(0) @binding(4) var o: array;\n@group(0) @binding(5) var P: vec4;"} var red: array; @compute @workgroup_size(64) fn main(@builtin(workgroup_id) wg:vec3, @builtin(local_invocation_id) lid:vec3){ let n=wg.y*65535u+wg.x; let K=P.x; let nblk=P.z; let t=lid.x; if(n>=P.y){return;} var acc=0.0; let rowC=n*nblk*2u; let rowS=n*nblk; var blk=t; loop{ if(blk>=nblk){break;} let si=rowS+blk; let s2=sc[si>>1u]; let sca=select(unpack2x16float(s2).x, unpack2x16float(s2).y, (si&1u)==1u); let kb=blk<<5u; var bacc=0.0; for(var c=0u;c<2u;c=c+1u){ let w2=qw[rowC+blk*2u+c]; for(var h2=0u;h2<2u;h2=h2+1u){ let code=(w2>>(h2*16u))&0xffffu; let shp=(code&0xffu)<<3u; let sgn=code>>8u; let kk=kb+(c*2u+h2)*8u; for(var j=0u;j<8u;j=j+1u){ let mag=lut[shp+j]; bacc=bacc+x[kk+j]*select(mag,-mag,((sgn>>j)&1u)==1u); } } } acc=acc+bacc*sca; blk=blk+64u; } red[t]=acc; workgroupBarrier(); var s=32u; loop{ if(s==0u){break;} if(t ` @group(0) @binding(0) var x: array; @group(0) @binding(1) var