(function(){const e=document.createElement("link").relList;if(e&&e.supports&&e.supports("modulepreload"))return;for(const r of document.querySelectorAll('link[rel="modulepreload"]'))t(r);new MutationObserver(r=>{for(const a of r)if(a.type==="childList")for(const i of a.addedNodes)i.tagName==="LINK"&&i.rel==="modulepreload"&&t(i)}).observe(document,{childList:!0,subtree:!0});function u(r){const a={};return r.integrity&&(a.integrity=r.integrity),r.referrerPolicy&&(a.referrerPolicy=r.referrerPolicy),r.crossOrigin==="use-credentials"?a.credentials="include":r.crossOrigin==="anonymous"?a.credentials="omit":a.credentials="same-origin",a}function t(r){if(r.ep)return;r.ep=!0;const a=u(r);fetch(r.href,a)}})();class b{constructor(){this.device=null,this.adapter=null,this.adapterInfo=null,this.pipelineCache=new Map,this.bufferCache=new Map,this.bindGroupCache=new Map}async init(){if(!navigator.gpu)throw new Error("WebGPU not supported");if(this.adapter=await navigator.gpu.requestAdapter({powerPreference:"high-performance"}),!this.adapter)throw new Error("No WebGPU adapter found");this.adapterInfo=await this.adapter.requestAdapterInfo?.()??{};const e={},u={maxBufferSize:4*1024*1024*1024,maxStorageBufferBindingSize:4*1024*1024*1024,maxComputeWorkgroupStorageSize:32768,maxComputeInvocationsPerWorkgroup:256,maxComputeWorkgroupSizeX:256,maxStorageBuffersPerShaderStage:10};for(const[r,a]of Object.entries(u))this.adapter.limits[r]!==void 0&&(e[r]=Math.min(a,this.adapter.limits[r]));const t=[];return this.adapter.features.has("shader-f16")&&t.push("shader-f16"),this.adapter.features.has("subgroups")&&t.push("subgroups"),this.device=await this.adapter.requestDevice({requiredLimits:e,requiredFeatures:t}),this.hasF16=this.device.features.has("shader-f16"),this.hasSubgroups=this.device.features.has("subgroups"),this.device.lost.then(r=>console.error("WebGPU device lost:",r)),this}createBuffer(e,u,t=GPUBufferUsage.STORAGE|GPUBufferUsage.COPY_DST){const r=Math.ceil(u/4)*4,a=this.device.createBuffer({size:r,usage:t,label:e});return this.bufferCache.set(e,a),a}createBufferFromData(e,u,t=GPUBufferUsage.STORAGE|GPUBufferUsage.COPY_DST|GPUBufferUsage.COPY_SRC){const r=this.createBuffer(e,u.byteLength,t);return this.device.queue.writeBuffer(r,0,u),r}createReadbackBuffer(e,u){const t=Math.ceil(u/4)*4;return this.device.createBuffer({size:t,usage:GPUBufferUsage.MAP_READ|GPUBufferUsage.COPY_DST,label:e+"_readback"})}getOrCreatePipeline(e,u,t="main"){if(this.pipelineCache.has(e))return this.pipelineCache.get(e);const r=this.device.createShaderModule({code:u,label:e}),a=this.device.createComputePipeline({layout:"auto",compute:{module:r,entryPoint:t},label:e});return this.pipelineCache.set(e,a),a}initTimestamps(){this.device.features.has("timestamp-query")&&(this._tsQuerySet=this.device.createQuerySet({type:"timestamp",count:2}),this._tsResolveBuf=this.device.createBuffer({size:16,usage:GPUBufferUsage.QUERY_RESOLVE|GPUBufferUsage.COPY_SRC}),this._tsReadBuf=this.device.createBuffer({size:16,usage:GPUBufferUsage.MAP_READ|GPUBufferUsage.COPY_DST}),this._tsEnabled=!0,this._tsResults=[])}beginBatch(){this._encoder=this.device.createCommandEncoder(),this._passCount=0,this.singlePassMode&&(this._singlePass=this._encoder.beginComputePass()),this._tsEnabled&&this._encoder.beginComputePass({timestampWrites:{querySet:this._tsQuerySet,beginningOfPassWriteIndex:0}}).end()}endBatch(){this._singlePass&&(this._singlePass.end(),this._singlePass=null),this._tsEnabled&&this._encoder&&(this._encoder.beginComputePass({timestampWrites:{querySet:this._tsQuerySet,beginningOfPassWriteIndex:1}}).end(),this._encoder.resolveQuerySet(this._tsQuerySet,0,2,this._tsResolveBuf,0),this._encoder.copyBufferToBuffer(this._tsResolveBuf,0,this._tsReadBuf,0,16)),this._encoder&&(this.device.queue.submit([this._encoder.finish()]),this._encoder=null)}async readTimestamp(){if(!this._tsEnabled)return null;await this._tsReadBuf.mapAsync(GPUMapMode.READ);const e=new BigInt64Array(this._tsReadBuf.getMappedRange().slice(0));this._tsReadBuf.unmap();const t=Number(e[1]-e[0])/1e6;return this._tsResults.push(t),t}copyBuffer(e,u,t,r=0,a=0){if(this._singlePass){this._singlePass.end(),this._encoder.copyBufferToBuffer(e,r,u,a,t),this._singlePass=this._encoder.beginComputePass();return}const i=this._encoder||this.device.createCommandEncoder();i.copyBufferToBuffer(e,r,u,a,t),this._encoder||this.device.queue.submit([i.finish()])}startRecording(){this._recording=[]}stopRecording(){const e=this._recording;return this._recording=null,e}replay(e,u){if(u)for(const r of u)this.device.queue.writeBuffer(r.buffer,r.offset,r.data,r.dataOffset,r.size);const t=this._encoder;for(let r=0;r({pipeline:r.pipeline,bindGroup:r.bindGroups[0],wgX:r.workgroupsX,wgY:r.workgroupsY||1}))}),this._singlePass){this._passCount!==void 0&&this._passCount++;for(const r of e){this._singlePass.setPipeline(r.pipeline);for(let a=0;a({binding:a,resource:{buffer:r}}))})}createBindGroupWithOffsets(e,u,t){return this.device.createBindGroup({layout:e.getBindGroupLayout(u),entries:t.map((r,a)=>({binding:a,resource:r.buffer?{buffer:r.buffer,offset:r.offset||0,size:r.size}:{buffer:r}}))})}getCachedBindGroup(e,u,t,r){let a=this.bindGroupCache.get(e);return a||(a=this.createBindGroup(u,t,r),this.bindGroupCache.set(e,a)),a}destroy(){for(const e of this.bufferCache.values())e.destroy();this.bufferCache.clear(),this.bindGroupCache.clear(),this.device?.destroy()}}const Tr=Object.freeze(Object.defineProperty({__proto__:null,GPUContext:b},Symbol.toStringTag,{value:"Module"})),v="modulepreload",m=function(d){return"/"+d},f={},Hr=function(e,u,t){let r=Promise.resolve();if(u&&u.length>0){let n=function(s){return Promise.all(s.map(l=>Promise.resolve(l).then(p=>({status:"fulfilled",value:p}),p=>({status:"rejected",reason:p}))))};document.getElementsByTagName("link");const i=document.querySelector("meta[property=csp-nonce]"),o=i?.nonce||i?.getAttribute("nonce");r=n(u.map(s=>{if(s=m(s),s in f)return;f[s]=!0;const l=s.endsWith(".css"),p=l?'[rel="stylesheet"]':"";if(document.querySelector(`link[href="${s}"]${p}`))return;const g=document.createElement("link");if(g.rel=l?"stylesheet":v,l||(g.as="script"),g.crossOrigin="",g.href=s,o&&g.setAttribute("nonce",o),document.head.appendChild(g),l)return new Promise((c,w)=>{g.addEventListener("load",c),g.addEventListener("error",()=>w(new Error(`Unable to preload CSS for ${s}`)))})}))}function a(i){const o=new Event("vite:preloadError",{cancelable:!0});if(o.payload=i,window.dispatchEvent(o),!o.defaultPrevented)throw i}return r.then(i=>{for(const o of i||[])o.status==="rejected"&&a(o.reason);return e().catch(a)})},k=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight: array; @group(0) @binding(2) var scales: array; @group(0) @binding(3) var output: array; @group(0) @binding(4) var params: Params; fn dq(w: u32, bk: u32) -> f32 { return dot(vec4(input[bk], input[bk+1u], input[bk+2u], input[bk+3u]), vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(vec4(input[bk+4u], input[bk+5u], input[bk+6u], input[bk+7u]), vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off + N]; let w2 = qweight[off + 2u * N]; let w3 = qweight[off + 3u * N]; let bk = pr * 8u; sum += s * (dq(w0, bk) + dq(w1, bk+8u) + dq(w2, bk+16u) + dq(w3, bk+24u)); } } output[col] = sum; }`,h=` enable f16; struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight: array; @group(0) @binding(2) var scales: array; @group(0) @binding(3) var output: array; @group(0) @binding(4) var params: Params; fn dq16(w: u32, bk: u32) -> f32 { let i0 = vec4(f16(input[bk]), f16(input[bk+1u]), f16(input[bk+2u]), f16(input[bk+3u])); let w0 = vec4(f16(f32(w&0xFu)-8.), f16(f32((w>>4u)&0xFu)-8.), f16(f32((w>>8u)&0xFu)-8.), f16(f32((w>>12u)&0xFu)-8.)); let i1 = vec4(f16(input[bk+4u]), f16(input[bk+5u]), f16(input[bk+6u]), f16(input[bk+7u])); let w1 = vec4(f16(f32((w>>16u)&0xFu)-8.), f16(f32((w>>20u)&0xFu)-8.), f16(f32((w>>24u)&0xFu)-8.), f16(f32((w>>28u)&0xFu)-8.)); return f32(dot(i0, w0)) + f32(dot(i1, w1)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off + N]; let w2 = qweight[off + 2u * N]; let w3 = qweight[off + 3u * N]; let bk = pr * 8u; sum += s * (dq16(w0, bk) + dq16(w1, bk+8u) + dq16(w2, bk+16u) + dq16(w3, bk+24u)); } } output[col] = sum; }`,x=` struct Params { K: u32, N: u32, group_size: u32, num_splits: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight: array; @group(0) @binding(2) var scales: array; @group(0) @binding(3) var partials: array; @group(0) @binding(4) var params: Params; fn dq(w: u32, bk: u32) -> f32 { return dot(vec4(input[bk], input[bk+1u], input[bk+2u], input[bk+3u]), vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(vec4(input[bk+4u], input[bk+5u], input[bk+6u], input[bk+7u]), vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u, @builtin(workgroup_id) wgid: vec3u) { let col = gid.x; let split_id = wgid.y; let K = params.K; let N = params.N; let gs = params.group_size; let ns = params.num_splits; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } let groups_per_split = num_groups / ns; let g_start = split_id * groups_per_split; let g_end = select(g_start + groups_per_split, num_groups, split_id >= ns - 1u); var sum: f32 = 0.0; for (var g = g_start; g < g_end; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off + N]; let w2 = qweight[off + 2u * N]; let w3 = qweight[off + 3u * N]; let bk = pr * 8u; sum += s * (dq(w0, bk) + dq(w1, bk+8u) + dq(w2, bk+16u) + dq(w3, bk+24u)); } } partials[split_id * N + col] = sum; }`,q=` struct Params { N: u32, num_splits: u32, } @group(0) @binding(0) var partials: array; @group(0) @binding(1) var output: array; @group(0) @binding(2) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; if (col >= params.N) { return; } var sum: f32 = 0.0; for (var s = 0u; s < params.num_splits; s++) { sum += partials[s * params.N + col]; } output[col] = sum; }`,y=` struct Params { K: u32, N: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var weight: array; @group(0) @binding(2) var output: array; @group(0) @binding(3) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; if (col >= params.N) { return; } var sum: f32 = 0.0; let K = params.K; let base = col * K / 2u; // Process 4 BF16 values (2 u32 reads) per iteration for (var k: u32 = 0u; k < K; k += 4u) { let p0 = weight[base + k / 2u]; let p1 = weight[base + k / 2u + 1u]; let w0 = bitcast((p0 & 0xFFFFu) << 16u); let w1 = bitcast(p0 & 0xFFFF0000u); let w2 = bitcast((p1 & 0xFFFFu) << 16u); let w3 = bitcast(p1 & 0xFFFF0000u); sum += input[k] * w0 + input[k + 1u] * w1 + input[k + 2u] * w2 + input[k + 3u] * w3; } output[col] = sum; }`,F=` struct Params { N: u32, eps: f32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var weight: array; @group(0) @binding(2) var output: array; @group(0) @binding(3) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; // Parallel sum of squares var ss: f32 = 0.0; for (var i = tid; i < N; i += 256u) { ss += input[i] * input[i]; } wg_scratch[tid] = ss; workgroupBarrier(); // Tree reduction for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(N) + params.eps); // Parallel normalize for (var i = tid; i < N; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); output[i] = input[i] * rms * (1.0 + w); } }`,N=` struct Params { N: u32, } @group(0) @binding(0) var gate: array; @group(0) @binding(1) var up: array; @group(0) @binding(2) var output: array; @group(0) @binding(3) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.N) { return; } let x = gate[i]; output[i] = (x / (1.0 + exp(-x))) * up[i]; }`,P=` struct Params { N: u32, } @group(0) @binding(0) var a: array; @group(0) @binding(1) var b: array; @group(0) @binding(2) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.N) { return; } a[i] = a[i] + b[i]; }`,E=` struct Params { N: u32, num_heads: u32, head_dim: u32, } @group(0) @binding(0) var src: array; @group(0) @binding(1) var dst_a: array; @group(0) @binding(2) var dst_b: array; @group(0) @binding(3) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.N) { return; } let hd = params.head_dim; let head = i / hd; let d = i % hd; dst_a[i] = src[head * hd * 2u + d]; dst_b[i] = src[head * hd * 2u + hd + d]; }`,S=` struct Params { N: u32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var gate: array; @group(0) @binding(2) var output: array; @group(0) @binding(3) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.N) { return; } output[i] = x[i] / (1.0 + exp(-gate[i])); }`,R=` struct Params { token_id: u32, dim: u32, } @group(0) @binding(0) var embeddings: array; @group(0) @binding(1) var output: array; @group(0) @binding(2) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.dim) { return; } let flat = params.token_id * params.dim + i; output[i] = unpack_bf16(embeddings[flat / 2u], flat % 2u); }`,K=` struct ArgmaxResult { idx: u32, val: f32, } struct Params { dim: u32, } @group(0) @binding(0) var embeddings: array; @group(0) @binding(1) var output: array; @group(0) @binding(2) var argmax_result: ArgmaxResult; @group(0) @binding(3) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; if (i >= params.dim) { return; } let flat = argmax_result.idx * params.dim + i; output[i] = unpack_bf16(embeddings[flat / 2u], flat % 2u); }`,B=` struct Params { N: u32, } struct Result { idx: u32, val: f32, } @group(0) @binding(0) var logits: array; @group(0) @binding(1) var result: Result; @group(0) @binding(2) var params: Params; var s_val: array; var s_idx: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; // Each thread scans its portion var best_val: f32 = -1e30; var best_idx: u32 = 0u; for (var i = tid; i < N; i += 256u) { if (logits[i] > best_val) { best_val = logits[i]; best_idx = i; } } s_val[tid] = best_val; s_idx[tid] = best_idx; workgroupBarrier(); // Tree reduction for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s && s_val[tid + s] > s_val[tid]) { s_val[tid] = s_val[tid + s]; s_idx[tid] = s_idx[tid + s]; } workgroupBarrier(); } if (tid == 0u) { result.idx = s_idx[0]; result.val = s_val[0]; } }`,D=` struct Params { N: u32, } @group(0) @binding(0) var logits: array; @group(0) @binding(1) var result: array; @group(0) @binding(2) var params: Params; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; // Each thread scans its portion, keeping best 1 var best_val: f32 = -1e30; var best_idx: u32 = 0u; for (var i = tid; i < N; i += 256u) { if (logits[i] > best_val) { best_val = logits[i]; best_idx = i; } } // Output (idx, val) pair — 256 candidates total result[tid * 2u] = best_idx; result[tid * 2u + 1u] = bitcast(best_val); }`,A=` struct ArgmaxResult { idx: u32, val: f32, } struct Params { recent_count: u32, history_slot: u32, } @group(0) @binding(0) var argmax_result: ArgmaxResult; @group(0) @binding(1) var recent_tokens: array; @group(0) @binding(2) var token_history: array; @group(0) @binding(3) var params: Params; @compute @workgroup_size(1) fn main() { let tok = argmax_result.idx; recent_tokens[params.recent_count] = tok; token_history[params.history_slot] = tok; }`,z=` struct Params { position: u32, num_kv_heads: u32, head_dim: u32, } @group(0) @binding(0) var k_proj: array; @group(0) @binding(1) var v_proj: array; @group(0) @binding(2) var k_cache: array; @group(0) @binding(3) var v_cache: array; @group(0) @binding(4) var params: Params; @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let i = gid.x; let total = params.num_kv_heads * params.head_dim; if (i >= total) { return; } let offset = params.position * total + i; k_cache[offset] = k_proj[i]; v_cache[offset] = v_proj[i]; }`,T=` struct Params { seq_len: u32, head_dim: u32, num_kv_heads: u32, num_q_heads: u32, heads_per_kv: u32, num_splits: u32, _pad0: u32, _pad1: u32, } @group(0) @binding(0) var q_full: array; @group(0) @binding(1) var k_cache: array; @group(0) @binding(2) var v_cache: array; @group(0) @binding(3) var output: array; @group(0) @binding(4) var params: Params; var s_dot: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let split = wg.y; let tid = lid.x; let hd = params.head_dim; let kv_head = h / params.heads_per_kv; let q_offset = h * hd; let kv_stride = params.num_kv_heads * hd; let kv_offset = kv_head * hd; let scale = 1.0 / sqrt(f32(hd)); let ns = params.num_splits; // Compute this split's range of KV positions let chunk = (params.seq_len + ns - 1u) / ns; let pos_start = split * chunk; let pos_end = min(pos_start + chunk, params.seq_len); // Load Q (already RoPE'd) let q_val = q_full[q_offset + tid]; // Online softmax over this split's positions var running_max: f32 = -1e30; var running_sum: f32 = 0.0; var running_out: f32 = 0.0; for (var pos = pos_start; pos < pos_end; pos++) { let k_base = pos * kv_stride + kv_offset; // K is already RoPE'd in cache let k_val = k_cache[k_base + tid]; s_dot[tid] = q_val * k_val; workgroupBarrier(); for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { s_dot[tid] += s_dot[tid + s]; } workgroupBarrier(); } let score = s_dot[0] * scale; let v_val = v_cache[pos * kv_stride + kv_offset + tid]; let new_max = max(running_max, score); let correction = exp(running_max - new_max); running_sum = running_sum * correction + exp(score - new_max); running_out = running_out * correction + exp(score - new_max) * v_val; running_max = new_max; } if (ns == 1u) { // Single split: write final output directly (no reduction needed) if (running_sum > 0.0) { output[q_offset + tid] = running_out / running_sum; } else { output[q_offset + tid] = 0.0; } } else { // Multi-split: write partial results for reduction kernel // Layout: [num_heads * num_splits * (head_dim + 2)] // Per split: [partial_out[head_dim], log_sum_exp, running_max] let stride = hd + 2u; let base = (h * ns + split) * stride; if (running_sum > 0.0) { output[base + tid] = running_out / running_sum; } else { output[base + tid] = 0.0; } if (tid == 0u) { output[base + hd] = log(running_sum) + running_max; // LSE output[base + hd + 1u] = running_max; } } }`,H=` struct Params { head_dim: u32, num_splits: u32, num_heads: u32, _pad: u32, } @group(0) @binding(0) var partials: array; @group(0) @binding(1) var output: array; @group(0) @binding(2) var params: Params; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let tid = lid.x; let hd = params.head_dim; let ns = params.num_splits; let stride = hd + 2u; // Find global max LSE across splits var global_max_lse: f32 = -1e30; for (var s: u32 = 0u; s < ns; s++) { let base = (h * ns + s) * stride; let lse = partials[base + hd]; global_max_lse = max(global_max_lse, lse); } // Weighted combination using LSE rescaling var acc: f32 = 0.0; var weight_sum: f32 = 0.0; for (var s: u32 = 0u; s < ns; s++) { let base = (h * ns + s) * stride; let lse = partials[base + hd]; let w = exp(lse - global_max_lse); acc += w * partials[base + tid]; if (tid == 0u) { weight_sum += w; } } // Broadcast weight_sum from thread 0 // (all threads computed same weight_sum since lse is scalar, but only tid==0 accumulated) // Actually all threads can compute weight_sum independently var ws: f32 = 0.0; for (var s: u32 = 0u; s < ns; s++) { let base = (h * ns + s) * stride; let lse = partials[base + hd]; ws += exp(lse - global_max_lse); } output[h * hd + tid] = acc / ws; }`,M=` struct Params { num_heads: u32, key_dim: u32, value_dim: u32, } @group(0) @binding(0) var qkv: array; @group(0) @binding(1) var state: array; @group(0) @binding(2) var output: array; @group(0) @binding(3) var a_proj: array; @group(0) @binding(4) var b_proj: array; @group(0) @binding(5) var A_log: array; @group(0) @binding(6) var dt_bias: array; @group(0) @binding(7) var params: Params; fn sigmoid(x: f32) -> f32 { return 1.0 / (1.0 + exp(-x)); } fn softplus(x: f32) -> f32 { if (x > 20.0) { return x; } return log(1.0 + exp(x)); } fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let tid = lid.x; let nh = params.num_heads; let kd = params.key_dim; let vd = params.value_dim; if (h >= nh) { return; } let qh_off = h * kd; let kh_off = nh * kd + h * kd; let vh_off = 2u * nh * kd + h * vd; let state_off = h * kd * vd; // Compute Q/K L2 norms (all threads compute redundantly — cheap) var q_ss: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { q_ss += qkv[qh_off + ki] * qkv[qh_off + ki]; } let q_inv_norm = 1.0 / max(sqrt(q_ss), 1e-6); var k_ss: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { k_ss += qkv[kh_off + ki] * qkv[kh_off + ki]; } let k_inv_norm = 1.0 / max(sqrt(k_ss), 1e-6); // Decay and gate (same for all threads in this head) let a_log_val = unpack_bf16(A_log[h / 2u], h % 2u); let dt_bias_val = unpack_bf16(dt_bias[h / 2u], h % 2u); let decay = exp(-exp(a_log_val) * softplus(a_proj[h] + dt_bias_val)); let beta = sigmoid(b_proj[h]); // Each thread handles value dimensions in stride for (var vi = tid; vi < vd; vi += 256u) { // Step 1: Decay state column for (var ki: u32 = 0u; ki < kd; ki++) { let idx = state_off + ki * vd + vi; state[idx] *= decay; } // Step 2: kv_mem = S^T @ k_normalized (for this vi) var kv_mem: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { kv_mem += state[state_off + ki * vd + vi] * qkv[kh_off + ki] * k_inv_norm; } // Step 3: delta rule update let v_val = qkv[vh_off + vi]; let delta = (v_val - kv_mem) * beta; for (var ki: u32 = 0u; ki < kd; ki++) { let idx = state_off + ki * vd + vi; state[idx] += qkv[kh_off + ki] * k_inv_norm * delta; } // Step 4: Output = S^T @ (q_normalized * scale) let scale = 1.0 / sqrt(f32(kd)); var o_val: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { o_val += state[state_off + ki * vd + vi] * qkv[qh_off + ki] * q_inv_norm * scale; } output[h * vd + vi] = o_val; } }`,G=` struct Params { num_heads: u32, head_dim: u32, eps: f32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var weight: array; @group(0) @binding(2) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let tid = lid.x; let hd = params.head_dim; if (h >= params.num_heads) { return; } let off = h * hd; // Parallel sum of squares var ss: f32 = 0.0; for (var i = tid; i < hd; i += 256u) { ss += x[off + i] * x[off + i]; } wg_scratch[tid] = ss; workgroupBarrier(); for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(hd) + params.eps); // Parallel normalize for (var i = tid; i < hd; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); x[off + i] = x[off + i] * rms * (1.0 + w); } }`,O=` struct Params { num_heads: u32, head_dim: u32, eps: f32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var weight: array; @group(0) @binding(2) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let tid = lid.x; let hd = params.head_dim; if (h >= params.num_heads) { return; } let off = h * hd; var ss: f32 = 0.0; for (var i = tid; i < hd; i += 256u) { ss += x[off + i] * x[off + i]; } wg_scratch[tid] = ss; workgroupBarrier(); for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(hd) + params.eps); for (var i = tid; i < hd; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); x[off + i] = x[off + i] * rms * w; } }`,U=` struct Params { channels: u32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var hist: array; @group(0) @binding(2) var weight: array; @group(0) @binding(3) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } @compute @workgroup_size(256) fn main(@builtin(global_invocation_id) gid: vec3u) { let c = gid.x; if (c >= params.channels) { return; } let ch = params.channels; let h0 = hist[c]; let h1 = hist[ch + c]; let h2 = hist[2u * ch + c]; let cur = x[c]; let w_base = c * 4u; let w0 = unpack_bf16(weight[w_base / 2u], w_base % 2u); let w1 = unpack_bf16(weight[(w_base + 1u) / 2u], (w_base + 1u) % 2u); let w2 = unpack_bf16(weight[(w_base + 2u) / 2u], (w_base + 2u) % 2u); let w3 = unpack_bf16(weight[(w_base + 3u) / 2u], (w_base + 3u) % 2u); let conv_out = w0 * h0 + w1 * h1 + w2 * h2 + w3 * cur; x[c] = conv_out / (1.0 + exp(-conv_out)); hist[c] = h1; hist[ch + c] = h2; hist[2u * ch + c] = cur; }`,I=` struct Params { num_heads: u32, key_dim: u32, value_dim: u32, total_channels: u32, eps: f32, hidden_size: u32, num_value_heads: u32, } @group(0) @binding(0) var qkv: array; @group(0) @binding(1) var hist: array; @group(0) @binding(2) var conv_weight: array; @group(0) @binding(3) var state: array; @group(0) @binding(4) var output: array; @group(0) @binding(5) var hidden_input: array; @group(0) @binding(6) var ab_weight: array; @group(0) @binding(7) var A_log: array; @group(0) @binding(8) var dt_bias: array; @group(0) @binding(9) var norm_weight: array; @group(0) @binding(10) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } fn sigmoid_f(x: f32) -> f32 { return 1.0 / (1.0 + exp(-x)); } fn softplus_f(x: f32) -> f32 { if (x > 20.0) { return x; } return log(1.0 + exp(x)); } var wg_scratch: array; @compute @workgroup_size(128) fn main(@builtin(workgroup_id) wg: vec3u, @builtin(local_invocation_id) lid: vec3u) { let h = wg.x; let tid = lid.x; let nh = params.num_heads; let kd = params.key_dim; let vd = params.value_dim; let ch = params.total_channels; let H = params.hidden_size; let nhv = params.num_value_heads; let vpk = nhv / nh; // value heads per key head (1 for 2B, 2 for 4B) let evd = vpk * vd; // effective value dim per key head if (h >= nh) { return; } // Alpha/beta computed per value head inside the vpk loop (Phase 2). // When H > 0: inline BF16 dot product (a_proj/b_proj are BF16 in merged ab_weight) // When H == 0: pre-computed via GPTQ dispatches, alpha/beta read per-value-head // ── Phase 1: Conv1d for this head's channels ── // Head h has 3 blocks: Q[h*kd..], K[nh*kd + h*kd..], V[2*nh*kd + h*evd..] // evd = vpk * vd (effective value dim per key head, handles asymmetric heads) let cpb = kd + kd + evd; // channels per key head block for (var i = tid; i < cpb; i += 128u) { // Map local channel to global channel index var c: u32; if (i < kd) { c = h * kd + i; } else if (i < 2u * kd) { c = nh * kd + h * kd + (i - kd); } else { c = 2u * nh * kd + h * evd + (i - 2u * kd); } // Conv1d kernel=4 with history let h0 = hist[c]; let h1 = hist[ch + c]; let h2 = hist[2u * ch + c]; let cur = qkv[c]; let wb = c * 4u; let w0 = unpack_bf16(conv_weight[wb / 2u], wb % 2u); let w1 = unpack_bf16(conv_weight[(wb + 1u) / 2u], (wb + 1u) % 2u); let w2 = unpack_bf16(conv_weight[(wb + 2u) / 2u], (wb + 2u) % 2u); let w3 = unpack_bf16(conv_weight[(wb + 3u) / 2u], (wb + 3u) % 2u); let conv_out = w0 * h0 + w1 * h1 + w2 * h2 + w3 * cur; qkv[c] = conv_out / (1.0 + exp(-conv_out)); // SiLU hist[c] = h1; hist[ch + c] = h2; hist[2u * ch + c] = cur; } workgroupBarrier(); // ── Phase 2+3: DeltaNet recurrent + RMSNorm, looped over vpk value heads ── // Q/K are shared across value heads within this key head let qh_off = h * kd; let kh_off = nh * kd + h * kd; // Q/K L2 norms (all threads compute redundantly, shared across value heads) var q_ss: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { q_ss += qkv[qh_off + ki] * qkv[qh_off + ki]; } let q_inv_norm = 1.0 / max(sqrt(q_ss), 1e-6); var k_ss: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { k_ss += qkv[kh_off + ki] * qkv[kh_off + ki]; } let k_inv_norm = 1.0 / max(sqrt(k_ss), 1e-6); let qk_scale = 1.0 / sqrt(f32(kd)); // Loop over vpk value heads per key head (1 for 2B, 2 for 4B) for (var vhi: u32 = 0u; vhi < vpk; vhi++) { let vh = h * vpk + vhi; // global value head index // Get per-value-head alpha/beta var alpha: f32; var beta_raw: f32; if (H == 0u) { // Quantized path: alpha/beta pre-computed per value head alpha = hidden_input[vh]; beta_raw = bitcast(ab_weight[vh]); } else { // BF16 inline: dot product per value head let half_H = H / 2u; let a_base = vh * half_H; let b_base = (nhv + vh) * half_H; var a_sum: f32 = 0.0; var b_sum: f32 = 0.0; for (var k = tid * 4u; k < H; k += 512u) { let hv0 = hidden_input[k]; let hv1 = hidden_input[k + 1u]; let hv2 = hidden_input[k + 2u]; let hv3 = hidden_input[k + 3u]; let ap0 = ab_weight[a_base + k / 2u]; let ap1 = ab_weight[a_base + k / 2u + 1u]; a_sum += hv0 * bitcast((ap0 & 0xFFFFu) << 16u) + hv1 * bitcast(ap0 & 0xFFFF0000u) + hv2 * bitcast((ap1 & 0xFFFFu) << 16u) + hv3 * bitcast(ap1 & 0xFFFF0000u); let bp0 = ab_weight[b_base + k / 2u]; let bp1 = ab_weight[b_base + k / 2u + 1u]; b_sum += hv0 * bitcast((bp0 & 0xFFFFu) << 16u) + hv1 * bitcast(bp0 & 0xFFFF0000u) + hv2 * bitcast((bp1 & 0xFFFFu) << 16u) + hv3 * bitcast(bp1 & 0xFFFF0000u); } wg_scratch[tid] = a_sum; workgroupBarrier(); for (var s = 64u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } alpha = wg_scratch[0]; wg_scratch[tid] = b_sum; workgroupBarrier(); for (var s = 64u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } beta_raw = wg_scratch[0]; } // Per-value-head decay and gate let a_log_val = unpack_bf16(A_log[vh / 2u], vh % 2u); let dt_bias_val = unpack_bf16(dt_bias[vh / 2u], vh % 2u); let decay = exp(-exp(a_log_val) * softplus_f(alpha + dt_bias_val)); let beta = sigmoid_f(beta_raw); // Per-value-head V offset, state offset, output offset let v_off = 2u * nh * kd + vh * vd; let s_off = vh * kd * vd; let o_off = vh * vd; // DeltaNet recurrent update for this value head for (var vi = tid; vi < vd; vi += 128u) { for (var ki: u32 = 0u; ki < kd; ki++) { state[s_off + ki * vd + vi] *= decay; } var kv_mem: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { kv_mem += state[s_off + ki * vd + vi] * qkv[kh_off + ki] * k_inv_norm; } let v_val = qkv[v_off + vi]; let delta = (v_val - kv_mem) * beta; for (var ki: u32 = 0u; ki < kd; ki++) { state[s_off + ki * vd + vi] += qkv[kh_off + ki] * k_inv_norm * delta; } var o_val: f32 = 0.0; for (var ki: u32 = 0u; ki < kd; ki++) { o_val += state[s_off + ki * vd + vi] * qkv[qh_off + ki] * q_inv_norm * qk_scale; } output[o_off + vi] = o_val; } workgroupBarrier(); // ── RMSNorm for this value head (nogated, w formula) ── // norm_weight is shared across all value heads (just vd weights) var ss: f32 = 0.0; for (var i = tid; i < vd; i += 128u) { ss += output[o_off + i] * output[o_off + i]; } wg_scratch[tid] = ss; workgroupBarrier(); for (var s = 64u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(vd) + params.eps); for (var i = tid; i < vd; i += 128u) { let w = unpack_bf16(norm_weight[i / 2u], i % 2u); output[o_off + i] = output[o_off + i] * rms * w; } workgroupBarrier(); } }`,C=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight_gate: array; @group(0) @binding(2) var scales_gate: array; @group(0) @binding(3) var qweight_up: array; @group(0) @binding(4) var scales_up: array; @group(0) @binding(5) var output: array; @group(0) @binding(6) var params: Params; fn dq_in(w: u32, bk: u32) -> f32 { return dot(vec4(input[bk], input[bk+1u], input[bk+2u], input[bk+3u]), vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(vec4(input[bk+4u], input[bk+5u], input[bk+6u], input[bk+7u]), vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var gate_sum: f32 = 0.0; var up_sum: f32 = 0.0; for (var grp: u32 = 0u; grp < num_groups; grp++) { let sf = grp * N + col; let sg = unpack2x16float(scales_gate[sf >> 1u])[sf & 1u]; let su = unpack2x16float(scales_up[sf >> 1u])[sf & 1u]; let gstart = grp * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let gw0 = qweight_gate[off]; let uw0 = qweight_up[off]; let gw1 = qweight_gate[off+N]; let uw1 = qweight_up[off+N]; let gw2 = qweight_gate[off+2u*N]; let uw2 = qweight_up[off+2u*N]; let gw3 = qweight_gate[off+3u*N]; let uw3 = qweight_up[off+3u*N]; let bk = pr * 8u; gate_sum += sg * (dq_in(gw0,bk) + dq_in(gw1,bk+8u) + dq_in(gw2,bk+16u) + dq_in(gw3,bk+24u)); up_sum += su * (dq_in(uw0,bk) + dq_in(uw1,bk+8u) + dq_in(uw2,bk+16u) + dq_in(uw3,bk+24u)); } } output[col] = (gate_sum / (1.0 + exp(-gate_sum))) * up_sum; }`,L=` enable f16; struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight_gate: array; @group(0) @binding(2) var scales_gate: array; @group(0) @binding(3) var qweight_up: array; @group(0) @binding(4) var scales_up: array; @group(0) @binding(5) var output: array; @group(0) @binding(6) var params: Params; fn dq16(w: u32, bk: u32) -> f32 { let i0 = vec4(f16(input[bk]), f16(input[bk+1u]), f16(input[bk+2u]), f16(input[bk+3u])); let w0 = vec4(f16(f32(w&0xFu)-8.), f16(f32((w>>4u)&0xFu)-8.), f16(f32((w>>8u)&0xFu)-8.), f16(f32((w>>12u)&0xFu)-8.)); let i1 = vec4(f16(input[bk+4u]), f16(input[bk+5u]), f16(input[bk+6u]), f16(input[bk+7u])); let w1 = vec4(f16(f32((w>>16u)&0xFu)-8.), f16(f32((w>>20u)&0xFu)-8.), f16(f32((w>>24u)&0xFu)-8.), f16(f32((w>>28u)&0xFu)-8.)); return f32(dot(i0, w0)) + f32(dot(i1, w1)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var gate_sum: f32 = 0.0; var up_sum: f32 = 0.0; for (var grp: u32 = 0u; grp < num_groups; grp++) { let sf = grp * N + col; let sg = unpack2x16float(scales_gate[sf >> 1u])[sf & 1u]; let su = unpack2x16float(scales_up[sf >> 1u])[sf & 1u]; let gstart = grp * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let gw0 = qweight_gate[off]; let uw0 = qweight_up[off]; let gw1 = qweight_gate[off+N]; let uw1 = qweight_up[off+N]; let gw2 = qweight_gate[off+2u*N]; let uw2 = qweight_up[off+2u*N]; let gw3 = qweight_gate[off+3u*N]; let uw3 = qweight_up[off+3u*N]; let bk = pr * 8u; gate_sum += sg * (dq16(gw0,bk) + dq16(gw1,bk+8u) + dq16(gw2,bk+16u) + dq16(gw3,bk+24u)); up_sum += su * (dq16(uw0,bk) + dq16(uw1,bk+8u) + dq16(uw2,bk+16u) + dq16(uw3,bk+24u)); } } output[col] = (gate_sum / (1.0 + exp(-gate_sum))) * up_sum; }`,Q=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight_gate: array; @group(0) @binding(2) var scales_gate: array; @group(0) @binding(3) var qweight_up: array; @group(0) @binding(4) var scales_up: array; @group(0) @binding(5) var output: array; @group(0) @binding(6) var params: Params; var partial: array; fn dq_in(w: u32, bk: u32) -> f32 { return dot(vec4(input[bk], input[bk+1u], input[bk+2u], input[bk+3u]), vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(vec4(input[bk+4u], input[bk+5u], input[bk+6u], input[bk+7u]), vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(local_invocation_id) lid: vec3u, @builtin(workgroup_id) wid: vec3u) { let tid = lid.x; let col = wid.x * 8u + (tid / 4u); let lane = tid & 3u; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; let gpl = num_groups / 4u; let g_start = lane * gpl; let g_end = g_start + gpl; var gate_sum: f32 = 0.0; var up_sum: f32 = 0.0; if (col < N) { for (var grp = g_start; grp < g_end; grp++) { let sf = grp * N + col; let sg = unpack2x16float(scales_gate[sf >> 1u])[sf & 1u]; let su = unpack2x16float(scales_up[sf >> 1u])[sf & 1u]; let gstart_row = grp * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart_row + r; let off = pr * N + col; let gw0 = qweight_gate[off]; let uw0 = qweight_up[off]; let gw1 = qweight_gate[off+N]; let uw1 = qweight_up[off+N]; let gw2 = qweight_gate[off+2u*N]; let uw2 = qweight_up[off+2u*N]; let gw3 = qweight_gate[off+3u*N]; let uw3 = qweight_up[off+3u*N]; let bk = pr * 8u; gate_sum += sg * (dq_in(gw0,bk) + dq_in(gw1,bk+8u) + dq_in(gw2,bk+16u) + dq_in(gw3,bk+24u)); up_sum += su * (dq_in(uw0,bk) + dq_in(uw1,bk+8u) + dq_in(uw2,bk+16u) + dq_in(uw3,bk+24u)); } } } partial[tid] = gate_sum; partial[32u + tid] = up_sum; workgroupBarrier(); if (lane == 0u && col < N) { let g = partial[tid] + partial[tid+1u] + partial[tid+2u] + partial[tid+3u]; let u = partial[32u+tid] + partial[32u+tid+1u] + partial[32u+tid+2u] + partial[32u+tid+3u]; output[col] = (g / (1.0 + exp(-g))) * u; } }`,j=` enable f16; struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var input: array; @group(0) @binding(1) var qweight_gate: array; @group(0) @binding(2) var scales_gate: array; @group(0) @binding(3) var qweight_up: array; @group(0) @binding(4) var scales_up: array; @group(0) @binding(5) var output: array; @group(0) @binding(6) var params: Params; var partial: array; fn dq16(w: u32, bk: u32) -> f32 { let i0 = vec4(f16(input[bk]), f16(input[bk+1u]), f16(input[bk+2u]), f16(input[bk+3u])); let w0 = vec4(f16(f32(w&0xFu)-8.), f16(f32((w>>4u)&0xFu)-8.), f16(f32((w>>8u)&0xFu)-8.), f16(f32((w>>12u)&0xFu)-8.)); let i1 = vec4(f16(input[bk+4u]), f16(input[bk+5u]), f16(input[bk+6u]), f16(input[bk+7u])); let w1 = vec4(f16(f32((w>>16u)&0xFu)-8.), f16(f32((w>>20u)&0xFu)-8.), f16(f32((w>>24u)&0xFu)-8.), f16(f32((w>>28u)&0xFu)-8.)); return f32(dot(i0, w0)) + f32(dot(i1, w1)); } @compute @workgroup_size(32) fn main(@builtin(local_invocation_id) lid: vec3u, @builtin(workgroup_id) wid: vec3u) { let tid = lid.x; let col = wid.x * 8u + (tid / 4u); let lane = tid & 3u; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; let gpl = num_groups / 4u; let g_start = lane * gpl; let g_end = g_start + gpl; var gate_sum: f32 = 0.0; var up_sum: f32 = 0.0; if (col < N) { for (var grp = g_start; grp < g_end; grp++) { let sf = grp * N + col; let sg = unpack2x16float(scales_gate[sf >> 1u])[sf & 1u]; let su = unpack2x16float(scales_up[sf >> 1u])[sf & 1u]; let gstart_row = grp * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart_row + r; let off = pr * N + col; let gw0 = qweight_gate[off]; let uw0 = qweight_up[off]; let gw1 = qweight_gate[off+N]; let uw1 = qweight_up[off+N]; let gw2 = qweight_gate[off+2u*N]; let uw2 = qweight_up[off+2u*N]; let gw3 = qweight_gate[off+3u*N]; let uw3 = qweight_up[off+3u*N]; let bk = pr * 8u; gate_sum += sg * (dq16(gw0,bk) + dq16(gw1,bk+8u) + dq16(gw2,bk+16u) + dq16(gw3,bk+24u)); up_sum += su * (dq16(uw0,bk) + dq16(uw1,bk+8u) + dq16(uw2,bk+16u) + dq16(uw3,bk+24u)); } } } partial[tid] = gate_sum; partial[32u + tid] = up_sum; workgroupBarrier(); if (lane == 0u && col < N) { let g = partial[tid] + partial[tid+1u] + partial[tid+2u] + partial[tid+3u]; let u = partial[32u+tid] + partial[32u+tid+1u] + partial[32u+tid+2u] + partial[32u+tid+3u]; output[col] = (g / (1.0 + exp(-g))) * u; } }`,V=` struct Params { N: u32, eps: f32, } @group(0) @binding(0) var hidden: array; @group(0) @binding(1) var addend: array; @group(0) @binding(2) var weight: array; @group(0) @binding(3) var output: array; @group(0) @binding(4) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; // Phase 1: Add + compute sum of squares var ss: f32 = 0.0; for (var i = tid; i < N; i += 256u) { let val = hidden[i] + addend[i]; hidden[i] = val; ss += val * val; } wg_scratch[tid] = ss; workgroupBarrier(); // Tree reduction for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(N) + params.eps); // Phase 2: Normalize for (var i = tid; i < N; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); output[i] = hidden[i] * rms * (1.0 + w); } }`,W=` struct Params { N: u32, eps: f32, } @group(0) @binding(0) var hidden: array; @group(0) @binding(1) var addend: array; @group(0) @binding(2) var weight: array; @group(0) @binding(3) var output: array; @group(0) @binding(4) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_vals: array; var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; var ss: f32 = 0.0; for (var i = tid; i < N; i += 256u) { let val = hidden[i] + addend[i]; wg_vals[i] = val; ss += val * val; } wg_scratch[tid] = ss; workgroupBarrier(); for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(N) + params.eps); for (var i = tid; i < N; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); output[i] = wg_vals[i] * rms * (1.0 + w); } }`,Y=` struct Params { N: u32, eps: f32, } @group(0) @binding(0) var input_a: array; @group(0) @binding(1) var input_b: array; @group(0) @binding(2) var input_c: array; @group(0) @binding(3) var weight: array; @group(0) @binding(4) var hidden_out: array; @group(0) @binding(5) var normed: array; @group(0) @binding(6) var params: Params; fn unpack_bf16(packed: u32, idx: u32) -> f32 { let bits = (packed >> (idx * 16u)) & 0xFFFFu; return bitcast(bits << 16u); } var wg_vals: array; var wg_scratch: array; @compute @workgroup_size(256) fn main(@builtin(local_invocation_id) lid: vec3u) { let tid = lid.x; let N = params.N; var ss: f32 = 0.0; for (var i = tid; i < N; i += 256u) { let val = input_a[i] + input_b[i] + input_c[i]; wg_vals[i] = val; hidden_out[i] = val; ss += val * val; } wg_scratch[tid] = ss; workgroupBarrier(); for (var s = 128u; s > 0u; s >>= 1u) { if (tid < s) { wg_scratch[tid] += wg_scratch[tid + s]; } workgroupBarrier(); } let rms = 1.0 / sqrt(wg_scratch[0] / f32(N) + params.eps); for (var i = tid; i < N; i += 256u) { let w = unpack_bf16(weight[i / 2u], i % 2u); normed[i] = wg_vals[i] * rms * (1.0 + w); } }`,X=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var gate: array; @group(0) @binding(2) var qweight: array; @group(0) @binding(3) var scales: array; @group(0) @binding(4) var output: array; @group(0) @binding(5) var params: Params; fn sig(v: f32) -> f32 { return 1.0 / (1.0 + exp(-v)); } fn dq_sg(w: u32, bk: u32) -> f32 { let il = vec4(x[bk]*sig(gate[bk]), x[bk+1u]*sig(gate[bk+1u]), x[bk+2u]*sig(gate[bk+2u]), x[bk+3u]*sig(gate[bk+3u])); let ih = vec4(x[bk+4u]*sig(gate[bk+4u]), x[bk+5u]*sig(gate[bk+5u]), x[bk+6u]*sig(gate[bk+6u]), x[bk+7u]*sig(gate[bk+7u])); return dot(il, vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(ih, vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off+N]; let w2 = qweight[off+2u*N]; let w3 = qweight[off+3u*N]; let bk = pr * 8u; sum += s * (dq_sg(w0,bk) + dq_sg(w1,bk+8u) + dq_sg(w2,bk+16u) + dq_sg(w3,bk+24u)); } } output[col] = sum; }`,$=` enable f16; struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var x: array; @group(0) @binding(1) var gate: array; @group(0) @binding(2) var qweight: array; @group(0) @binding(3) var scales: array; @group(0) @binding(4) var output: array; @group(0) @binding(5) var params: Params; fn sig(v: f32) -> f32 { return 1.0 / (1.0 + exp(-v)); } fn dq16_sg(w: u32, bk: u32) -> f32 { let i0 = vec4(f16(x[bk]*sig(gate[bk])), f16(x[bk+1u]*sig(gate[bk+1u])), f16(x[bk+2u]*sig(gate[bk+2u])), f16(x[bk+3u]*sig(gate[bk+3u]))); let w0 = vec4(f16(f32(w&0xFu)-8.), f16(f32((w>>4u)&0xFu)-8.), f16(f32((w>>8u)&0xFu)-8.), f16(f32((w>>12u)&0xFu)-8.)); let i1 = vec4(f16(x[bk+4u]*sig(gate[bk+4u])), f16(x[bk+5u]*sig(gate[bk+5u])), f16(x[bk+6u]*sig(gate[bk+6u])), f16(x[bk+7u]*sig(gate[bk+7u]))); let w1 = vec4(f16(f32((w>>16u)&0xFu)-8.), f16(f32((w>>20u)&0xFu)-8.), f16(f32((w>>24u)&0xFu)-8.), f16(f32((w>>28u)&0xFu)-8.)); return f32(dot(i0, w0)) + f32(dot(i1, w1)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off+N]; let w2 = qweight[off+2u*N]; let w3 = qweight[off+3u*N]; let bk = pr * 8u; sum += s * (dq16_sg(w0,bk) + dq16_sg(w1,bk+8u) + dq16_sg(w2,bk+16u) + dq16_sg(w3,bk+24u)); } } output[col] = sum; }`,Z=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var a: array; @group(0) @binding(1) var b: array; @group(0) @binding(2) var qweight: array; @group(0) @binding(3) var scales: array; @group(0) @binding(4) var output: array; @group(0) @binding(5) var params: Params; fn silu(v: f32) -> f32 { return v / (1.0 + exp(-v)); } fn dq_sl(w: u32, bk: u32) -> f32 { let il = vec4(silu(a[bk])*b[bk], silu(a[bk+1u])*b[bk+1u], silu(a[bk+2u])*b[bk+2u], silu(a[bk+3u])*b[bk+3u]); let ih = vec4(silu(a[bk+4u])*b[bk+4u], silu(a[bk+5u])*b[bk+5u], silu(a[bk+6u])*b[bk+6u], silu(a[bk+7u])*b[bk+7u]); return dot(il, vec4(f32(w&0xFu)-8., f32((w>>4u)&0xFu)-8., f32((w>>8u)&0xFu)-8., f32((w>>12u)&0xFu)-8.)) + dot(ih, vec4(f32((w>>16u)&0xFu)-8., f32((w>>20u)&0xFu)-8., f32((w>>24u)&0xFu)-8., f32((w>>28u)&0xFu)-8.)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off+N]; let w2 = qweight[off+2u*N]; let w3 = qweight[off+3u*N]; let bk = pr * 8u; sum += s * (dq_sl(w0,bk) + dq_sl(w1,bk+8u) + dq_sl(w2,bk+16u) + dq_sl(w3,bk+24u)); } } output[col] = sum; }`,J=` enable f16; struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var a: array; @group(0) @binding(1) var b: array; @group(0) @binding(2) var qweight: array; @group(0) @binding(3) var scales: array; @group(0) @binding(4) var output: array; @group(0) @binding(5) var params: Params; fn silu(v: f32) -> f32 { return v / (1.0 + exp(-v)); } fn dq16_sl(w: u32, bk: u32) -> f32 { let i0 = vec4(f16(silu(a[bk])*b[bk]), f16(silu(a[bk+1u])*b[bk+1u]), f16(silu(a[bk+2u])*b[bk+2u]), f16(silu(a[bk+3u])*b[bk+3u])); let w0 = vec4(f16(f32(w&0xFu)-8.), f16(f32((w>>4u)&0xFu)-8.), f16(f32((w>>8u)&0xFu)-8.), f16(f32((w>>12u)&0xFu)-8.)); let i1 = vec4(f16(silu(a[bk+4u])*b[bk+4u]), f16(silu(a[bk+5u])*b[bk+5u]), f16(silu(a[bk+6u])*b[bk+6u]), f16(silu(a[bk+7u])*b[bk+7u])); let w1 = vec4(f16(f32((w>>16u)&0xFu)-8.), f16(f32((w>>20u)&0xFu)-8.), f16(f32((w>>24u)&0xFu)-8.), f16(f32((w>>28u)&0xFu)-8.)); return f32(dot(i0, w0)) + f32(dot(i1, w1)); } @compute @workgroup_size(32) fn main(@builtin(global_invocation_id) gid: vec3u) { let col = gid.x; let K = params.K; let N = params.N; let gs = params.group_size; let packed_rows = K / 8u; let rows_per_group = gs / 8u; let num_groups = packed_rows / rows_per_group; if (col >= N) { return; } var sum: f32 = 0.0; for (var g: u32 = 0u; g < num_groups; g++) { let sf = g * N + col; let s = unpack2x16float(scales[sf >> 1u])[sf & 1u]; let gstart = g * rows_per_group; for (var r: u32 = 0u; r < rows_per_group; r += 4u) { let pr = gstart + r; let off = pr * N + col; let w0 = qweight[off]; let w1 = qweight[off+N]; let w2 = qweight[off+2u*N]; let w3 = qweight[off+3u*N]; let bk = pr * 8u; sum += s * (dq16_sl(w0,bk) + dq16_sl(w1,bk+8u) + dq16_sl(w2,bk+16u) + dq16_sl(w3,bk+24u)); } } output[col] = sum; }`,rr=` struct Params { K: u32, N: u32, group_size: u32, } @group(0) @binding(0) var