"use strict";

const dynamicI8BundleCache = new Map();
const arrayBufferFetchCache = new Map();
const immutableGpuBufferCache = new WeakMap();
const scratchGpuBufferCache = new WeakMap();
const computePipelineCache = new WeakMap();
const stageObjectCache = new WeakMap();
const textProjectionGpuCache = new WeakMap();
let browserCacheDbPromise = null;
let customWebGpuDevicePromise = null;
let customWebGpuDevice = null;
let customWebGpuDeviceDescriptorKey = "";

function resetCustomLowbitWebGpuDevice() {
  const device = customWebGpuDevice;
  customWebGpuDevicePromise = null;
  customWebGpuDevice = null;
  customWebGpuDeviceDescriptorKey = "";
  if (device && typeof device.destroy === "function") {
    try {
      device.destroy();
    } catch (_) {
      // Best-effort cleanup after large benchmark sweeps.
    }
  }
}

function median(values) {
  const sorted = [...values].sort((a, b) => a - b);
  const mid = Math.floor(sorted.length / 2);
  return sorted.length % 2 ? sorted[mid] : (sorted[mid - 1] + sorted[mid]) / 2;
}

function roundToNearest(value) {
  return value < 0 ? Math.ceil(value - 0.5) : Math.floor(value + 0.5);
}

function float32ToFloat16Bits(value) {
  const floatView = new Float32Array(1);
  const intView = new Uint32Array(floatView.buffer);
  floatView[0] = value;
  const x = intView[0];
  const sign = (x >>> 16) & 0x8000;
  let mantissa = x & 0x7fffff;
  let exponent = (x >>> 23) & 0xff;

  if (exponent === 0xff) {
    if (mantissa !== 0) return sign | 0x7e00;
    return sign | 0x7c00;
  }
  exponent = exponent - 127 + 15;
  if (exponent >= 0x1f) return sign | 0x7c00;
  if (exponent <= 0) {
    if (exponent < -10) return sign;
    mantissa = (mantissa | 0x800000) >>> (1 - exponent);
    return sign | ((mantissa + 0x1000) >>> 13);
  }
  return sign | (exponent << 10) | ((mantissa + 0x1000) >>> 13);
}

function float16BitsToFloat32(bits) {
  const sign = (bits & 0x8000) ? -1 : 1;
  const exponent = (bits >>> 10) & 0x1f;
  const mantissa = bits & 0x03ff;
  if (exponent === 0) {
    return sign * Math.pow(2, -14) * (mantissa / 1024);
  }
  if (exponent === 31) {
    return mantissa ? NaN : sign * Infinity;
  }
  return sign * Math.pow(2, exponent - 15) * (1 + mantissa / 1024);
}

function deterministicInput(row, kIndex) {
  const base = ((row * 37 + kIndex * 13 + 17) % 251) - 125;
  const fraction = (((row * 17 + kIndex * 29 + 5) % 17) - 8) / 32;
  return Math.fround((base + fraction) / 16);
}

function buildInputF16(n, k) {
  const values = new Uint16Array(n * k);
  for (let row = 0; row < n; ++row) {
    for (let kIndex = 0; kIndex < k; ++kIndex) {
      values[row * k + kIndex] = float32ToFloat16Bits(deterministicInput(row, kIndex));
    }
  }
  return values;
}

function buildInputF32(n, k) {
  const values = new Float32Array(n * k);
  for (let row = 0; row < n; ++row) {
    for (let kIndex = 0; kIndex < k; ++kIndex) {
      values[row * k + kIndex] = deterministicInput(row, kIndex);
    }
  }
  return values;
}

function buildFluxRopeFrequencies(axisDim = 32, theta = 2000) {
  const count = axisDim / 2;
  const values = new Float32Array(count);
  for (let i = 0; i < count; ++i) {
    values[i] = 1 / Math.pow(theta, (i * 2) / axisDim);
  }
  return values;
}

function buildFluxRopeSinCos(n, textTokens, imageWidth, axisDim = 32, theta = 2000) {
  const freqs = buildFluxRopeFrequencies(axisDim, theta);
  const pairs = 64;
  const values = new Float32Array(n * pairs * 2);
  const safeWidth = Math.max(1, Number(imageWidth || 1));
  for (let row = 0; row < n; ++row) {
    for (let pair = 0; pair < pairs; ++pair) {
      const axis = Math.floor(pair / 16);
      const freqIndex = pair - axis * 16;
      let position = 0;
      if (row < textTokens) {
        position = axis === 3 ? row : 0;
      } else {
        const imageRow = row - textTokens;
        const y = Math.floor(imageRow / safeWidth);
        const x = imageRow - y * safeWidth;
        if (axis === 1) position = y;
        else if (axis === 2) position = x;
      }
      const angle = position * freqs[freqIndex];
      const base = (row * pairs + pair) * 2;
      values[base] = Math.cos(angle);
      values[base + 1] = Math.sin(angle);
    }
  }
  return values;
}

function sleepMs(ms) {
  return new Promise((resolve) => setTimeout(resolve, ms));
}

async function fetchArrayBuffer(url) {
  const key = new URL(url, window.location.href).toString();
  if (!arrayBufferFetchCache.has(key)) {
    arrayBufferFetchCache.set(key, (async () => {
      let lastError = null;
      for (let attempt = 0; attempt < 4; attempt += 1) {
        try {
          const response = await fetch(key);
          if (!response.ok) {
            throw new Error(`fetch failed ${response.status}: ${key}`);
          }
          return await response.arrayBuffer();
        } catch (err) {
          lastError = err;
          if (attempt < 3) await sleepMs(100 * (attempt + 1));
        }
      }
      throw lastError || new Error(`fetch failed: ${key}`);
    })());
  }
  try {
    return await arrayBufferFetchCache.get(key);
  } catch (err) {
    arrayBufferFetchCache.delete(key);
    throw err;
  }
}

function openBrowserCacheDb() {
  if (typeof indexedDB === "undefined") return Promise.resolve(null);
  if (browserCacheDbPromise) return browserCacheDbPromise;
  browserCacheDbPromise = new Promise((resolve) => {
    const request = indexedDB.open("flux2-browser-cache", 2);
    request.onupgradeneeded = () => {
      const db = request.result;
      const store = db.objectStoreNames.contains("text-contexts")
        ? request.transaction.objectStore("text-contexts")
        : db.createObjectStore("text-contexts", {keyPath: "key"});
      if (!store.indexNames.contains("savedAt")) {
        store.createIndex("savedAt", "savedAt");
      }
    };
    request.onsuccess = () => resolve(request.result);
    request.onerror = () => {
      console.warn("[custom-lowbit] IndexedDB open failed", request.error);
      resolve(null);
    };
    request.onblocked = () => {
      console.warn("[custom-lowbit] IndexedDB open blocked");
      resolve(null);
    };
  });
  return browserCacheDbPromise;
}

async function loadPersistentFloat32(key, expectedValues) {
  if (!key) return null;
  const db = await openBrowserCacheDb();
  if (!db) return null;
  return await new Promise((resolve) => {
    const tx = db.transaction("text-contexts", "readonly");
    const request = tx.objectStore("text-contexts").get(key);
    request.onsuccess = () => {
      const entry = request.result;
      if (!entry || !entry.data) {
        resolve(null);
        return;
      }
      const values = entry.data instanceof Float32Array
        ? entry.data
        : (entry.data instanceof ArrayBuffer ? new Float32Array(entry.data) : null);
      resolve(values && values.length === expectedValues ? values : null);
    };
    request.onerror = () => resolve(null);
  });
}

async function loadStaticFloat32(url, expectedValues) {
  if (!url) return null;
  try {
    const buffer = await fetchArrayBuffer(url);
    if (buffer.byteLength !== expectedValues * 4) return null;
    return new Float32Array(buffer);
  } catch (err) {
    console.warn("[custom-lowbit] static f32 load failed", url, err);
    return null;
  }
}

async function savePersistentFloat32(key, values) {
  if (!key || !(values instanceof Float32Array)) return false;
  const db = await openBrowserCacheDb();
  if (!db) return false;
  return await new Promise((resolve) => {
    const tx = db.transaction("text-contexts", "readwrite");
    const store = tx.objectStore("text-contexts");
    const buffer = values.buffer.slice(values.byteOffset, values.byteOffset + values.byteLength);
    const request = store.put({
      key,
      data: buffer,
      bytes: values.byteLength,
      savedAt: Date.now(),
    });
    request.onsuccess = () => resolve(true);
    request.onerror = () => resolve(false);
  });
}

function createBuffer(device, data, usage) {
  const size = Math.max(4, Math.ceil(data.byteLength / 4) * 4);
  const buffer = device.createBuffer({size, usage, mappedAtCreation: true});
  new Uint8Array(buffer.getMappedRange()).set(new Uint8Array(data.buffer, data.byteOffset, data.byteLength));
  buffer.unmap();
  return buffer;
}

function createImmutableBuffer(device, data, usage, cacheKey = null) {
  if (!cacheKey) return createBuffer(device, data, usage);
  let deviceCache = immutableGpuBufferCache.get(device);
  if (!deviceCache) {
    deviceCache = new Map();
    immutableGpuBufferCache.set(device, deviceCache);
  }
  const key = `${usage}:${cacheKey}`;
  if (!deviceCache.has(key)) {
    deviceCache.set(key, createBuffer(device, data, usage));
  }
  return deviceCache.get(key);
}

function createEmptyBuffer(device, size, usage) {
  return device.createBuffer({size: Math.max(4, Math.ceil(size / 4) * 4), usage});
}

function createReusableBuffer(device, cacheKey, size, usage) {
  if (!cacheKey) return createEmptyBuffer(device, size, usage);
  let deviceCache = scratchGpuBufferCache.get(device);
  if (!deviceCache) {
    deviceCache = new Map();
    scratchGpuBufferCache.set(device, deviceCache);
  }
  const alignedSize = Math.max(4, Math.ceil(size / 4) * 4);
  const key = `${usage}:${alignedSize}:${cacheKey}`;
  if (!deviceCache.has(key)) {
    deviceCache.set(key, device.createBuffer({size: alignedSize, usage}));
  }
  return deviceCache.get(key);
}

async function getCachedComputePipeline(device, cacheKey, code) {
  let deviceCache = computePipelineCache.get(device);
  if (!deviceCache) {
    deviceCache = new Map();
    computePipelineCache.set(device, deviceCache);
  }
  if (!deviceCache.has(cacheKey)) {
    const module = device.createShaderModule({code});
    deviceCache.set(cacheKey, device.createComputePipelineAsync({
      layout: "auto",
      compute: {module, entryPoint: "main"},
    }));
  }
  return await deviceCache.get(cacheKey);
}

async function getCachedStageObject(device, cacheKey, factory) {
  if (!cacheKey) return await factory();
  let deviceCache = stageObjectCache.get(device);
  if (!deviceCache) {
    deviceCache = new Map();
    stageObjectCache.set(device, deviceCache);
  }
  if (!deviceCache.has(cacheKey)) {
    deviceCache.set(cacheKey, (async () => factory())());
  }
  try {
    return await deviceCache.get(cacheKey);
  } catch (err) {
    deviceCache.delete(cacheKey);
    throw err;
  }
}

async function requestCustomWebGpuDevice(requiredFeatures = ["shader-f16"], requiredLimitHints = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }
  for (const feature of requiredFeatures) {
    if (feature !== "packed_4x8_integer_dot_product" && !adapter.features.has(feature)) {
      throw new Error(`WebGPU adapter does not expose ${feature}`);
    }
  }
  if (requiredFeatures.includes("packed_4x8_integer_dot_product")) {
    const wgslLanguageFeatures = navigator.gpu.wgslLanguageFeatures || new Set();
    if (!wgslLanguageFeatures.has("packed_4x8_integer_dot_product")) {
      throw new Error("WGSL packed_4x8_integer_dot_product is not available");
    }
  }
  const requiredDeviceFeatures = requiredFeatures.filter((feature) => feature !== "packed_4x8_integer_dot_product");
  const descriptor = {requiredFeatures: requiredDeviceFeatures};
  const requiredLimits = {};
  if (adapter.limits && adapter.limits.maxComputeWorkgroupStorageSize >= 32768) {
    requiredLimits.maxComputeWorkgroupStorageSize = 32768;
  }
  if (
    requiredLimitHints.maxComputeInvocationsPerWorkgroup &&
    adapter.limits &&
    adapter.limits.maxComputeInvocationsPerWorkgroup >= requiredLimitHints.maxComputeInvocationsPerWorkgroup
  ) {
    requiredLimits.maxComputeInvocationsPerWorkgroup = requiredLimitHints.maxComputeInvocationsPerWorkgroup;
  }
  if (adapter.limits && adapter.limits.maxStorageBufferBindingSize > 128 * 1024 * 1024) {
    requiredLimits.maxStorageBufferBindingSize = Math.min(adapter.limits.maxStorageBufferBindingSize, 1024 * 1024 * 1024);
  }
  if (adapter.limits && adapter.limits.maxBufferSize > 256 * 1024 * 1024) {
    requiredLimits.maxBufferSize = Math.min(adapter.limits.maxBufferSize, 1024 * 1024 * 1024);
  }
  if (Object.keys(requiredLimits).length) {
    descriptor.requiredLimits = requiredLimits;
  }
  const descriptorKey = JSON.stringify({
    features: [...requiredDeviceFeatures].sort(),
    limits: Object.fromEntries(Object.entries(requiredLimits).sort(([a], [b]) => a.localeCompare(b))),
  });
  if (customWebGpuDevicePromise && customWebGpuDeviceDescriptorKey !== descriptorKey) {
    resetCustomLowbitWebGpuDevice();
  }
  if (!customWebGpuDevicePromise) {
    customWebGpuDeviceDescriptorKey = descriptorKey;
    const promise = adapter.requestDevice(descriptor).then((device) => {
      customWebGpuDevice = device;
      device.lost.then(() => {
        if (customWebGpuDevice === device) {
          customWebGpuDevice = null;
          customWebGpuDevicePromise = null;
        }
      });
      return device;
    }).catch((err) => {
      if (customWebGpuDevicePromise === promise) {
        customWebGpuDevicePromise = null;
        customWebGpuDeviceDescriptorKey = "";
      }
      throw err;
    });
    customWebGpuDevicePromise = promise;
  }
  return {adapter, device: await customWebGpuDevicePromise};
}

async function readFloat32Buffer(device, source, count, sourceOffsetBytes = 0) {
  const size = count * 4;
  const readback = device.createBuffer({
    size,
    usage: GPUBufferUsage.COPY_DST | GPUBufferUsage.MAP_READ,
  });
  const encoder = device.createCommandEncoder();
  encoder.copyBufferToBuffer(source, sourceOffsetBytes, readback, 0, size);
  device.queue.submit([encoder.finish()]);
  await readback.mapAsync(GPUMapMode.READ);
  const values = new Float32Array(readback.getMappedRange()).slice();
  readback.unmap();
  readback.destroy();
  return values;
}

function floatArrayStats(values) {
  let finite = 0;
  let nonFinite = 0;
  let min = Infinity;
  let max = -Infinity;
  let sum = 0;
  let sumSq = 0;
  for (const value of values) {
    if (!Number.isFinite(value)) {
      nonFinite += 1;
      continue;
    }
    finite += 1;
    min = Math.min(min, value);
    max = Math.max(max, value);
    sum += value;
    sumSq += value * value;
  }
  if (!finite) {
    return {count: values.length, finite, nonFinite, min: NaN, max: NaN, mean: NaN, std: NaN};
  }
  const mean = sum / finite;
  const variance = Math.max(0, sumSq / finite - mean * mean);
  return {count: values.length, finite, nonFinite, min, max, mean, std: Math.sqrt(variance)};
}

function makeQ4ZpShader32xWide(tileCols, outputF16 = false, kChunk = 64, unrollK = false) {
  if (tileCols % 16 !== 0 || kChunk % 8 !== 0) {
    throw new Error(`invalid q4 tiling: tileCols=${tileCols}, kChunk=${kChunk}`);
  }
  const workgroupStorageBytes = (32 * kChunk + tileCols * kChunk) * 2;
  if (workgroupStorageBytes > 32768) {
    throw new Error(`q4 tiling exceeds WebGPU workgroup storage: tileCols=${tileCols}, kChunk=${kChunk}, bytes=${workgroupStorageBytes}`);
  }
  const colsPerThread = tileCols / 16;
  const xItems = kChunk * 32;
  const wItems = kChunk * tileCols;
  const outputType = outputF16 ? "f16" : "f32";
  const storeValue = (value) => outputF16
    ? `f16(clamp(${value}, -65504.0, 65504.0))`
    : `f32(${value})`;
  const colDecls = [];
  const accDecls = [];
  const wLoads = [];
  const accUpdates = [];
  const stores = [];
  for (let c = 0; c < colsPerThread; ++c) {
    const colOffset = c * 16;
    colDecls.push(`  let col${c} = wid.x * ${tileCols}u + lid.x + ${colOffset}u;`);
    accDecls.push(`  var acc0${c} = f16(0.0);`);
    accDecls.push(`  var acc1${c} = f16(0.0);`);
    wLoads.push(`        let w${c} = w_tile[tile_k * ${tileCols}u + lid.x + ${colOffset}u];`);
    accUpdates.push(`        acc0${c} = acc0${c} + x0 * w${c};`);
    accUpdates.push(`        acc1${c} = acc1${c} + x1 * w${c};`);
    stores.push(`  if (row0 < params.n && col${c} < params.m) { y[row0 * params.m + col${c}] = ${storeValue(`acc0${c}`)}; }`);
    stores.push(`  if (row1 < params.n && col${c} < params.m) { y[row1 * params.m + col${c}] = ${storeValue(`acc1${c}`)}; }`);
  }
  const computeBody = unrollK
    ? Array.from({length: kChunk}, (_, kk) => {
        const unrolledLoads = [];
        const unrolledAccUpdates = [];
        for (let c = 0; c < colsPerThread; ++c) {
          const colOffset = c * 16;
          unrolledLoads.push(`        let w${c}_${kk} = w_tile[${kk}u * ${tileCols}u + lid.x + ${colOffset}u];`);
          unrolledAccUpdates.push(`        acc0${c} = acc0${c} + x0_${kk} * w${c}_${kk};`);
          unrolledAccUpdates.push(`        acc1${c} = acc1${c} + x1_${kk} * w${c}_${kk};`);
        }
        return `
      let x0_${kk} = x_tile[${kk}u * 32u + lid.y];
      let x1_${kk} = x_tile[${kk}u * 32u + lid.y + 16u];
${unrolledLoads.join("\n")}
${unrolledAccUpdates.join("\n")}`;
      }).join("\n")
    : `      for (var tile_k = 0u; tile_k < ${kChunk}u; tile_k = tile_k + 1u) {
        let x0 = x_tile[tile_k * 32u + lid.y];
        let x1 = x_tile[tile_k * 32u + lid.y + 16u];
${wLoads.join("\n")}
${accUpdates.join("\n")}
      }`;
  return `
enable f16;

struct Params {
  n: u32,
  k: u32,
  m: u32,
  group_size: u32,
  groups_per_col: u32,
  packed_group_words: u32,
  row_offset: u32,
  col_offset: u32,
  weight_m: u32,
  output_stride: u32,
  _pad0: u32,
  _pad1: u32,
};

@group(0) @binding(0) var<storage, read> x: array<f16>;
@group(0) @binding(1) var<storage, read> packed_w: array<u32>;
@group(0) @binding(2) var<storage, read> scales: array<f16>;
@group(0) @binding(3) var<storage, read> zero_points: array<u32>;
@group(0) @binding(4) var<storage, read_write> y: array<${outputType}>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> x_tile: array<f16, ${xItems}>;
var<workgroup> w_tile: array<f16, ${wItems}>;

fn load_q_scaled(col: u32, k_index: u32) -> f16 {
  let group = k_index / params.group_size;
  let inner = k_index - group * params.group_size;
  let word = inner / 8u;
  let weight_col = params.col_offset + col;
  let word_index = (group * params.packed_group_words + word) * params.weight_m + weight_col;
  let shift = (inner & 7u) * 4u;
  let nibble = (packed_w[word_index] >> shift) & 15u;
  let zp = zero_points[group * params.weight_m + weight_col] & 15u;
  let q = f16(f32(i32(nibble) - i32(zp)));
  return q * scales[group * params.weight_m + weight_col];
}

@compute @workgroup_size(16, 16, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row0 = wid.y * 32u + lid.y;
  let row1 = row0 + 16u;
${colDecls.join("\n")}
  let local_linear = lid.y * 16u + lid.x;
${accDecls.join("\n")}

  for (var base_k = 0u; base_k < params.k; base_k = base_k + ${kChunk}u) {
    for (var offset = 0u; offset < ${xItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_k = tile_index / 32u;
      let tile_lane = tile_index - tile_k * 32u;
      let src_k = base_k + tile_k;
      let src_row = wid.y * 32u + tile_lane;
      if (src_row < params.n && src_k < params.k) {
        x_tile[tile_index] = x[(params.row_offset + src_row) * params.k + src_k];
      } else {
        x_tile[tile_index] = f16(0.0);
      }
    }

    for (var offset = 0u; offset < ${wItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_k = tile_index / ${tileCols}u;
      let tile_lane = tile_index - tile_k * ${tileCols}u;
      let src_k = base_k + tile_k;
      let src_col = wid.x * ${tileCols}u + tile_lane;
      if (src_col < params.m && src_k < params.k) {
        w_tile[tile_index] = load_q_scaled(src_col, src_k);
      } else {
        w_tile[tile_index] = f16(0.0);
      }
    }
    workgroupBarrier();

    if (row0 < params.n || row1 < params.n) {
${computeBody}
    }
    workgroupBarrier();
  }

${stores.join("\n").replaceAll("row0 * params.m + col", "row0 * params.output_stride + params.col_offset + col").replaceAll("row1 * params.m + col", "row1 * params.output_stride + params.col_offset + col")}
}
`;
}

function makeQ4ZpDp4aShader32xWide(tileCols, wChunkCols = 64, outputF16 = true) {
  if (tileCols % wChunkCols !== 0 || wChunkCols % 16 !== 0) {
    throw new Error(`invalid q4 dp4a tiling: tileCols=${tileCols}, wChunkCols=${wChunkCols}`);
  }
  const colsPerThread = tileCols / 16;
  const colsPerChunk = wChunkCols / 16;
  const xItems = 32 * 64;
  const wItems = 64 * wChunkCols;
  const outputType = outputF16 ? "f16" : "f32";
  const storeValue = (value) => outputF16
    ? `f16(clamp(${value}, -65504.0, 65504.0))`
    : `f32(${value})`;
  const colDecls = [];
  const accDecls = [];
  const stores = [];
  for (let c = 0; c < colsPerThread; ++c) {
    const colOffset = c * 16;
    colDecls.push(`  let col${c} = wid.x * ${tileCols}u + lid.x + ${colOffset}u;`);
    accDecls.push(`  var acc0${c} = 0.0;`);
    accDecls.push(`  var acc1${c} = 0.0;`);
    stores.push(`  if (row0 < params.n && col${c} < params.m) { y[row0 * params.output_stride + params.col_offset + col${c}] = ${storeValue(`acc0${c}`)}; }`);
    stores.push(`  if (row1 < params.n && col${c} < params.m) { y[row1 * params.output_stride + params.col_offset + col${c}] = ${storeValue(`acc1${c}`)}; }`);
  }
  const wChunkBlocks = [];
  for (let chunk = 0; chunk < tileCols / wChunkCols; ++chunk) {
    const chunkColOffset = chunk * wChunkCols;
    const wLoads = [];
    const accUpdates = [];
    for (let c = 0; c < colsPerChunk; ++c) {
      const accIndex = chunk * colsPerChunk + c;
      const localColOffset = c * 16;
      wLoads.push(`          let w${accIndex} = w_tile[tile_kw * ${wChunkCols}u + lid.x + ${localColOffset}u];`);
      wLoads.push(`          let s${accIndex} = f32(scale_tile[tile_kw * ${wChunkCols}u + lid.x + ${localColOffset}u]);`);
      accUpdates.push(`          acc0${accIndex} = acc0${accIndex} + f32(dot4I8Packed(x0, w${accIndex})) * x_scale0 * s${accIndex};`);
      accUpdates.push(`          acc1${accIndex} = acc1${accIndex} + f32(dot4I8Packed(x1, w${accIndex})) * x_scale1 * s${accIndex};`);
    }
    wChunkBlocks.push(`
    for (var offset = 0u; offset < ${wItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_kw = tile_index / ${wChunkCols}u;
      let tile_col = tile_index - tile_kw * ${wChunkCols}u;
      let src_kw = base_kw + tile_kw;
      let src_col = wid.x * ${tileCols}u + ${chunkColOffset}u + tile_col;
      if (src_col < params.m && src_kw < params.k_words) {
        w_tile[tile_index] = load_q4_i8_packed(src_col, src_kw);
        let group = (src_kw * 4u) / params.group_size;
        scale_tile[tile_index] = scales[group * params.weight_m + params.col_offset + src_col];
      } else {
        w_tile[tile_index] = 0u;
        scale_tile[tile_index] = f16(0.0);
      }
    }
    workgroupBarrier();

    if (row0 < params.n || row1 < params.n) {
      for (var tile_kw = 0u; tile_kw < 64u; tile_kw = tile_kw + 1u) {
        let x0 = x_tile[lid.y * 64u + tile_kw];
        let x1 = x_tile[(lid.y + 16u) * 64u + tile_kw];
${wLoads.join("\n")}
        let x_group_size = max(1u, params.k / max(1u, params.x_scale_groups_per_row));
        let x_group = ((base_kw + tile_kw) * 4u) / x_group_size;
        let x_scale0 = load_x_scale(row0, x_group);
        let x_scale1 = load_x_scale(row1, x_group);
${accUpdates.join("\n")}
      }
    }
    workgroupBarrier();`);
  }
  return `
requires packed_4x8_integer_dot_product;
enable f16;

struct Params {
  n: u32,
  k: u32,
  m: u32,
  group_size: u32,
  groups_per_col: u32,
  packed_group_words: u32,
  row_offset: u32,
  col_offset: u32,
  weight_m: u32,
  output_stride: u32,
  k_words: u32,
  x_scale_groups_per_row: u32,
};

@group(0) @binding(0) var<storage, read> x_packed: array<u32>;
@group(0) @binding(1) var<storage, read> packed_w: array<u32>;
@group(0) @binding(2) var<storage, read> x_scales: array<f32>;
@group(0) @binding(3) var<storage, read> scales: array<f16>;
@group(0) @binding(4) var<storage, read> zero_points: array<u32>;
@group(0) @binding(5) var<storage, read_write> y: array<${outputType}>;
@group(0) @binding(6) var<uniform> params: Params;

var<workgroup> x_tile: array<u32, ${xItems}>;
var<workgroup> w_tile: array<u32, ${wItems}>;
var<workgroup> scale_tile: array<f16, ${wItems}>;

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

fn load_q4_i8_packed(col: u32, kw: u32) -> u32 {
  let k_index = kw * 4u;
  let group = k_index / params.group_size;
  let inner = k_index - group * params.group_size;
  let q_word = inner / 8u;
  let shift_base = (inner & 7u) * 4u;
  let weight_col = params.col_offset + col;
  let packed = packed_w[(group * params.packed_group_words + q_word) * params.weight_m + weight_col];
  let zp = i32(zero_points[group * params.weight_m + weight_col] & 15u);
  var out = 0u;
  for (var lane = 0u; lane < 4u; lane = lane + 1u) {
    let nibble = i32((packed >> (shift_base + lane * 4u)) & 15u);
    out = out | pack_i8_lane(nibble - zp, lane);
  }
  return out;
}

fn load_x_scale(row: u32, group: u32) -> f32 {
  if (row >= params.n) {
    return 0.0;
  }
  let source_row = params.row_offset + row;
  if (params.x_scale_groups_per_row > 1u) {
    return x_scales[source_row * params.x_scale_groups_per_row + group];
  }
  return x_scales[source_row];
}

@compute @workgroup_size(16, 16, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row0 = wid.y * 32u + lid.y;
  let row1 = row0 + 16u;
${colDecls.join("\n")}
  let local_linear = lid.y * 16u + lid.x;
${accDecls.join("\n")}

  for (var base_kw = 0u; base_kw < params.k_words; base_kw = base_kw + 64u) {
    for (var offset = 0u; offset < ${xItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_row = tile_index / 64u;
      let tile_kw = tile_index - tile_row * 64u;
      let src_row = wid.y * ${rowBlock}u + tile_row;
      let src_kw = base_kw + tile_kw;
      if (src_row < params.n && src_kw < params.k_words) {
        x_tile[tile_index] = x_packed[(params.row_offset + src_row) * params.k_words + src_kw];
      } else {
        x_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();
${wChunkBlocks.join("\n")}
  }

${stores.join("\n")}
}
`;
}

const QUANTIZE_X_F32_SHADER = `
struct Params {
  n: u32,
  k: u32,
  m: u32,
  k_words: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read_write> x_packed: array<u32>;
@group(0) @binding(2) var<storage, read_write> x_scales: array<f32>;
@group(0) @binding(3) var<uniform> params: Params;

var<workgroup> row_absmax: array<f32, 256>;

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  var absmax = 0.0;

  for (var k_index = local_id; k_index < params.k; k_index = k_index + 256u) {
    absmax = max(absmax, abs(x_f32[row * params.k + k_index]));
  }
  row_absmax[local_id] = absmax;
  workgroupBarrier();

  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      row_absmax[local_id] = max(row_absmax[local_id], row_absmax[local_id + stride]);
    }
    workgroupBarrier();
  }

  let row_scale = row_absmax[0];
  let quant_scale = select(0.0, 127.0 / row_scale, row_scale > 0.0);
  if (local_id == 0u) {
    x_scales[row] = select(1.0, row_scale / 127.0, row_scale > 0.0);
  }

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let k_index = word * 4u + lane;
      var q = 0i;
      if (k_index < params.k) {
        let scaled = round(clamp(x_f32[row * params.k + k_index] * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    x_packed[row * params.k_words + word] = packed_word;
  }
}
`;

const QUANTIZE_X_F32_OFFSET_SHADER = `
struct Params {
  n: u32,
  k: u32,
  k_words: u32,
  source_row_offset: u32,
  source_stride: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read_write> x_packed: array<u32>;
@group(0) @binding(2) var<storage, read_write> x_scales: array<f32>;
@group(0) @binding(3) var<uniform> params: Params;

var<workgroup> row_absmax: array<f32, 256>;

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

fn source_value(row: u32, col: u32) -> f32 {
  return x_f32[(row + params.source_row_offset) * params.source_stride + col];
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  if (row >= params.n) {
    return;
  }
  var absmax = 0.0;

  for (var k_index = local_id; k_index < params.k; k_index = k_index + 256u) {
    absmax = max(absmax, abs(source_value(row, k_index)));
  }
  row_absmax[local_id] = absmax;
  workgroupBarrier();

  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      row_absmax[local_id] = max(row_absmax[local_id], row_absmax[local_id + stride]);
    }
    workgroupBarrier();
  }

  let row_scale = row_absmax[0];
  let quant_scale = select(0.0, 127.0 / row_scale, row_scale > 0.0);
  if (local_id == 0u) {
    x_scales[row] = select(1.0, row_scale / 127.0, row_scale > 0.0);
  }

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let k_index = word * 4u + lane;
      var q = 0i;
      if (k_index < params.k) {
        let scaled = round(clamp(source_value(row, k_index) * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    x_packed[row * params.k_words + word] = packed_word;
  }
}
`;

const SINGLE_PRENORM_MOD_QUANT_SHADER = `
enable f16;

struct Params {
  n: u32,
  k: u32,
  m: u32,
  k_words: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read> shift: array<f32>;
@group(0) @binding(2) var<storage, read> scale: array<f32>;
@group(0) @binding(3) var<storage, read_write> x_packed: array<u32>;
@group(0) @binding(4) var<storage, read_write> x_scales: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> scratch: array<f32, 256>;
var<workgroup> row_values: array<f32, 3072>;

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  if (row >= params.n || params.k > 3072u) {
    return;
  }

  var local_sum = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    local_sum = local_sum + x_f32[row * params.k + col];
  }
  scratch[local_id] = local_sum;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let mean = scratch[0] / f32(params.k);

  var local_var = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    let centered = x_f32[row * params.k + col] - mean;
    local_var = local_var + centered * centered;
  }
  scratch[local_id] = local_var;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let inv_std = inverseSqrt(scratch[0] / f32(params.k) + 0.000001);

  var local_absmax = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    let normed = f32(f16((x_f32[row * params.k + col] - mean) * inv_std));
    let value = f32(f16(clamp(normed * (1.0 + f32(f16(scale[col]))) + f32(f16(shift[col])), -65504.0, 65504.0)));
    row_values[col] = value;
    local_absmax = max(local_absmax, abs(value));
  }
  scratch[local_id] = local_absmax;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = max(scratch[local_id], scratch[local_id + stride]);
    }
    workgroupBarrier();
  }

  let row_scale = scratch[0];
  let quant_scale = select(0.0, 127.0 / row_scale, row_scale > 0.0);
  if (local_id == 0u) {
    x_scales[row] = select(1.0, row_scale / 127.0, row_scale > 0.0);
  }

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let col = word * 4u + lane;
      var q = 0i;
      if (col < params.k) {
        let scaled = round(clamp(row_values[col] * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    x_packed[row * params.k_words + word] = packed_word;
  }
}
`;

const SINGLE_PRENORM_MOD_GROUP_QUANT_SHADER = `
enable f16;

struct Params {
  n: u32,
  k: u32,
  k_words: u32,
  group_size: u32,
  groups_per_row: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read> shift: array<f32>;
@group(0) @binding(2) var<storage, read> scale: array<f32>;
@group(0) @binding(3) var<storage, read_write> x_packed: array<u32>;
@group(0) @binding(4) var<storage, read_write> x_scales: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> scratch: array<f32, 256>;
var<workgroup> row_values: array<f32, 3072>;

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  if (row >= params.n || params.k > 3072u) {
    return;
  }

  var local_sum = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    local_sum = local_sum + x_f32[row * params.k + col];
  }
  scratch[local_id] = local_sum;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let mean = scratch[0] / f32(params.k);

  var local_var = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    let centered = x_f32[row * params.k + col] - mean;
    local_var = local_var + centered * centered;
  }
  scratch[local_id] = local_var;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let inv_std = inverseSqrt(scratch[0] / f32(params.k) + 0.000001);

  for (var col = local_id; col < params.k; col = col + 256u) {
    let normed = f32(f16((x_f32[row * params.k + col] - mean) * inv_std));
    row_values[col] = f32(f16(clamp(normed * (1.0 + f32(f16(scale[col]))) + f32(f16(shift[col])), -65504.0, 65504.0)));
  }
  workgroupBarrier();

  if (local_id < params.groups_per_row) {
    let group_start = local_id * params.group_size;
    var group_absmax = 0.0;
    for (var offset = 0u; offset < params.group_size; offset = offset + 1u) {
      let col = group_start + offset;
      if (col < params.k) {
        group_absmax = max(group_absmax, abs(row_values[col]));
      }
    }
    x_scales[row * params.groups_per_row + local_id] = select(1.0, group_absmax / 127.0, group_absmax > 0.0);
  }
  workgroupBarrier();

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    let group = (word * 4u) / params.group_size;
    let dequant_scale = x_scales[row * params.groups_per_row + group];
    let quant_scale = select(0.0, 1.0 / dequant_scale, dequant_scale > 0.0);
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let col = word * 4u + lane;
      var q = 0i;
      if (col < params.k) {
        let scaled = round(clamp(row_values[col] * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    x_packed[row * params.k_words + word] = packed_word;
  }
}
`;

const SINGLE_PRENORM_MOD_F16_SHADER = `
enable f16;

struct Params {
  n: u32,
  k: u32,
  _pad0: u32,
  _pad1: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read> shift: array<f32>;
@group(0) @binding(2) var<storage, read> scale: array<f32>;
@group(0) @binding(3) var<storage, read_write> y_f16: array<f16>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> scratch: array<f32, 256>;

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  if (row >= params.n) {
    return;
  }

  var local_sum = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    local_sum = local_sum + x_f32[row * params.k + col];
  }
  scratch[local_id] = local_sum;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let mean = scratch[0] / f32(params.k);

  var local_var = 0.0;
  for (var col = local_id; col < params.k; col = col + 256u) {
    let centered = x_f32[row * params.k + col] - mean;
    local_var = local_var + centered * centered;
  }
  scratch[local_id] = local_var;
  workgroupBarrier();
  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      scratch[local_id] = scratch[local_id] + scratch[local_id + stride];
    }
    workgroupBarrier();
  }
  let inv_std = inverseSqrt(scratch[0] / f32(params.k) + 0.000001);

  for (var col = local_id; col < params.k; col = col + 256u) {
    let normed = (x_f32[row * params.k + col] - mean) * inv_std;
    let value = normed * (1.0 + scale[col]) + shift[col];
    y_f16[row * params.k + col] = f16(clamp(value, -65504.0, 65504.0));
  }
}
`;

const SINGLE_RESIDUAL_GATE_SHADER = `
enable f16;

struct Params {
  n: u32,
  k: u32,
  _pad0: u32,
  _pad1: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read> delta_f32: array<f32>;
@group(0) @binding(2) var<storage, read> gate: array<f32>;
@group(0) @binding(3) var<storage, read_write> y_f32: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let col = wid.x * 256u + lid.x;
  let row = wid.y;
  if (row >= params.n || col >= params.k) {
    return;
  }
  let index = row * params.k + col;
  let gated = f32(f16(clamp(gate[col] * delta_f32[index], -65504.0, 65504.0)));
  y_f32[index] = f32(f16(clamp(x_f32[index] + gated, -65504.0, 65504.0)));
}
`;

const F32_TO_F16_SHADER = `
enable f16;

struct Params {
  count: u32,
  apply_silu: u32,
  _pad0: u32,
  _pad1: u32,
};

@group(0) @binding(0) var<storage, read> x_f32: array<f32>;
@group(0) @binding(1) var<storage, read_write> y_f16: array<f16>;
@group(0) @binding(2) var<uniform> params: Params;

fn silu(value: f32) -> f32 {
  return value / (1.0 + exp(-value));
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let index = wid.x * 256u + lid.x;
  if (index >= params.count) {
    return;
  }
  var value = x_f32[index];
  if (params.apply_silu != 0u) {
    value = silu(value);
  }
  y_f16[index] = f16(clamp(value, -65504.0, 65504.0));
}
`;

const LATENT_UPDATE_F32_SHADER = `
enable f16;

@group(0) @binding(0) var<storage, read_write> latent: array<f32>;
@group(0) @binding(1) var<storage, read> pred: array<f32>;
@group(0) @binding(2) var<storage, read> params: array<f32>;

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let index = wid.x * 256u + lid.x;
  let count = u32(params[0]);
  if (index >= count) {
    return;
  }
  let pred_value = f32(f16(clamp(pred[index], -65504.0, 65504.0)));
  latent[index] = clamp(latent[index] + params[1] * pred_value, -65504.0, 65504.0);
}
`;

const LATENT_UPDATE_AB2_F32_SHADER = `
enable f16;

@group(0) @binding(0) var<storage, read_write> latent: array<f32>;
@group(0) @binding(1) var<storage, read> pred: array<f32>;
@group(0) @binding(2) var<storage, read> previous_pred: array<f32>;
@group(0) @binding(3) var<storage, read> params: array<f32>;

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let index = wid.x * 256u + lid.x;
  let count = u32(params[0]);
  if (index >= count) {
    return;
  }
  let current = f32(f16(clamp(pred[index], -65504.0, 65504.0)));
  let previous = f32(f16(clamp(previous_pred[index], -65504.0, 65504.0)));
  let extrapolated = f32(f16(clamp(current + params[3] * (current - previous), -65504.0, 65504.0)));
  latent[index] = clamp(latent[index] + params[1] * current + params[2] * extrapolated, -65504.0, 65504.0);
}
`;

const SINGLE_TAIL_DELTA_CACHE_SHADER = `
struct Params {
  count: u32,
  _pad0: u32,
  _pad1: u32,
  _pad2: u32,
};

@group(0) @binding(0) var<storage, read> base_state: array<f32>;
@group(0) @binding(1) var<storage, read> final_state: array<f32>;
@group(0) @binding(2) var<storage, read_write> delta_state: array<f32>;
@group(0) @binding(3) var<uniform> params: Params;

@compute @workgroup_size(256, 1, 1)
fn main(@builtin(local_invocation_id) lid: vec3<u32>, @builtin(workgroup_id) wid: vec3<u32>) {
  let index = wid.x * 256u + lid.x;
  if (index >= params.count) {
    return;
  }
  delta_state[index] = final_state[index] - base_state[index];
}
`;

const SINGLE_TAIL_DELTA_APPLY_SHADER = `
struct Params {
  count: u32,
  _pad0: u32,
  _pad1: u32,
  _pad2: u32,
};

@group(0) @binding(0) var<storage, read_write> state: array<f32>;
@group(0) @binding(1) var<storage, read> delta_state: array<f32>;
@group(0) @binding(2) var<uniform> params: Params;

@compute @workgroup_size(256, 1, 1)
fn main(@builtin(local_invocation_id) lid: vec3<u32>, @builtin(workgroup_id) wid: vec3<u32>) {
  let index = wid.x * 256u + lid.x;
  if (index >= params.count) {
    return;
  }
  state[index] = state[index] + delta_state[index];
}
`;

function makeI8ScaledDotShader32xWide(tileCols, wChunkCols = 32, outputF16 = false, rowBlock = 32) {
  if (tileCols % wChunkCols !== 0 || wChunkCols % 16 !== 0) {
    throw new Error(`invalid i8 dot tiling: tileCols=${tileCols}, wChunkCols=${wChunkCols}`);
  }
  if (rowBlock !== 32 && rowBlock !== 64) {
    throw new Error(`invalid i8 dot row block: ${rowBlock}`);
  }
  const rowsPerHalf = rowBlock / 2;
  const invocationCount = 16 * rowsPerHalf;
  const colsPerThread = tileCols / 16;
  const colsPerChunk = wChunkCols / 16;
  const xItems = rowBlock * 64;
  const wItems = wChunkCols * 64;
  const colDecls = [];
  const accDecls = [];
  const stores = [];
  const outputType = outputF16 ? "f16" : "f32";
  for (let c = 0; c < colsPerThread; ++c) {
    const colOffset = c * 16;
    colDecls.push(`  let col${c} = wid.x * ${tileCols}u + lid.x + ${colOffset}u;`);
    accDecls.push(`  var acc0${c} = 0i;`);
    accDecls.push(`  var acc1${c} = 0i;`);
    const value0 = `f32(acc0${c}) * x_scales[params.row_offset + row0] * w_scales[col${c}]`;
    const value1 = `f32(acc1${c}) * x_scales[params.row_offset + row1] * w_scales[col${c}]`;
    stores.push(`  if (row0 < params.n && col${c} < params.m) { y[row0 * params.m + col${c}] = ${outputF16 ? `f16(clamp(${value0}, -65504.0, 65504.0))` : value0}; }`);
    stores.push(`  if (row1 < params.n && col${c} < params.m) { y[row1 * params.m + col${c}] = ${outputF16 ? `f16(clamp(${value1}, -65504.0, 65504.0))` : value1}; }`);
  }
  const wChunkBlocks = [];
  for (let chunk = 0; chunk < tileCols / wChunkCols; ++chunk) {
    const chunkColOffset = chunk * wChunkCols;
    const wLoads = [];
    const accUpdates = [];
    for (let c = 0; c < colsPerChunk; ++c) {
      const accIndex = chunk * colsPerChunk + c;
      const localColOffset = c * 16;
      wLoads.push(`          let w${accIndex} = w_tile[tile_kw * ${wChunkCols}u + lid.x + ${localColOffset}u];`);
      accUpdates.push(`          acc0${accIndex} = acc0${accIndex} + dot4I8Packed(x0, w${accIndex});`);
      accUpdates.push(`          acc1${accIndex} = acc1${accIndex} + dot4I8Packed(x1, w${accIndex});`);
    }
    wChunkBlocks.push(`
    for (var offset = 0u; offset < ${wItems}u; offset = offset + ${invocationCount}u) {
      let tile_index = local_linear + offset;
      let tile_kw = tile_index / ${wChunkCols}u;
      let tile_col = tile_index - tile_kw * ${wChunkCols}u;
      let src_kw = base_kw + tile_kw;
      let src_col = wid.x * ${tileCols}u + ${chunkColOffset}u + tile_col;
      if (src_col < params.m && src_kw < params.k_words) {
        w_tile[tile_index] = w_packed[src_kw * params.m + src_col];
      } else {
        w_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();

    if (row0 < params.n || row1 < params.n) {
      for (var tile_kw = 0u; tile_kw < 64u; tile_kw = tile_kw + 1u) {
        let x0 = x_tile[lid.y * 64u + tile_kw];
        let x1 = x_tile[(lid.y + ${rowsPerHalf}u) * 64u + tile_kw];
${wLoads.join("\n")}
${accUpdates.join("\n")}
      }
    }
    workgroupBarrier();`);
  }
  return `
requires packed_4x8_integer_dot_product;
${outputF16 ? "enable f16;" : ""}

struct Params {
  n: u32,
  k: u32,
  m: u32,
  k_words: u32,
  row_offset: u32,
};

@group(0) @binding(0) var<storage, read> x_packed: array<u32>;
@group(0) @binding(1) var<storage, read> w_packed: array<u32>;
@group(0) @binding(2) var<storage, read> x_scales: array<f32>;
@group(0) @binding(3) var<storage, read> w_scales: array<f32>;
@group(0) @binding(4) var<storage, read_write> y: array<${outputType}>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> x_tile: array<u32, ${xItems}>;
var<workgroup> w_tile: array<u32, ${wItems}>;

@compute @workgroup_size(16, ${rowsPerHalf}, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row0 = wid.y * ${rowBlock}u + lid.y;
  let row1 = row0 + ${rowsPerHalf}u;
${colDecls.join("\n")}
  let local_linear = lid.y * 16u + lid.x;
${accDecls.join("\n")}

  for (var base_kw = 0u; base_kw < params.k_words; base_kw = base_kw + 64u) {
    for (var offset = 0u; offset < ${xItems}u; offset = offset + ${invocationCount}u) {
      let tile_index = local_linear + offset;
      let tile_row = tile_index / 64u;
      let tile_kw = tile_index - tile_row * 64u;
      let src_row = wid.y * ${rowBlock}u + tile_row;
      let src_kw = base_kw + tile_kw;
      if (src_row < params.n && src_kw < params.k_words) {
        x_tile[tile_index] = x_packed[(params.row_offset + src_row) * params.k_words + src_kw];
      } else {
        x_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();
${wChunkBlocks.join("\n")}
  }

${stores.join("\n")}
}
`;
}

function makeI8ScaledDotResidualShader32xWide(tileCols, wChunkCols = 32, rowBlock = 32) {
  if (tileCols % wChunkCols !== 0 || wChunkCols % 16 !== 0) {
    throw new Error(`invalid residual i8 dot tiling: tileCols=${tileCols}, wChunkCols=${wChunkCols}`);
  }
  if (rowBlock !== 32 && rowBlock !== 64) {
    throw new Error(`invalid residual i8 dot row block: ${rowBlock}`);
  }
  const rowsPerHalf = rowBlock / 2;
  const invocationCount = 16 * rowsPerHalf;
  const colsPerThread = tileCols / 16;
  const colsPerChunk = wChunkCols / 16;
  const xItems = rowBlock * 64;
  const wItems = wChunkCols * 64;
  const colDecls = [];
  const accDecls = [];
  const stores = [];
  for (let c = 0; c < colsPerThread; ++c) {
    const colOffset = c * 16;
    colDecls.push(`  let col${c} = wid.x * ${tileCols}u + lid.x + ${colOffset}u;`);
    accDecls.push(`  var acc0${c} = 0i;`);
    accDecls.push(`  var acc1${c} = 0i;`);
    stores.push(`  if (row0 < params.n && col${c} < params.m) {
    let dot = f32(acc0${c}) * x_scales[params.row_offset + row0] * w_scales[col${c}];
    y[row0 * params.m + col${c}] = f32(f16(clamp(residual_x[row0 * params.m + col${c}] + mod_gate[col${c}] * dot, -65504.0, 65504.0)));
  }`);
    stores.push(`  if (row1 < params.n && col${c} < params.m) {
    let dot = f32(acc1${c}) * x_scales[params.row_offset + row1] * w_scales[col${c}];
    y[row1 * params.m + col${c}] = f32(f16(clamp(residual_x[row1 * params.m + col${c}] + mod_gate[col${c}] * dot, -65504.0, 65504.0)));
  }`);
  }
  const wChunkBlocks = [];
  for (let chunk = 0; chunk < tileCols / wChunkCols; ++chunk) {
    const chunkColOffset = chunk * wChunkCols;
    const wLoads = [];
    const accUpdates = [];
    for (let c = 0; c < colsPerChunk; ++c) {
      const accIndex = chunk * colsPerChunk + c;
      const localColOffset = c * 16;
      wLoads.push(`          let w${accIndex} = w_tile[tile_kw * ${wChunkCols}u + lid.x + ${localColOffset}u];`);
      accUpdates.push(`          acc0${accIndex} = acc0${accIndex} + dot4I8Packed(x0, w${accIndex});`);
      accUpdates.push(`          acc1${accIndex} = acc1${accIndex} + dot4I8Packed(x1, w${accIndex});`);
    }
    wChunkBlocks.push(`
    for (var offset = 0u; offset < ${wItems}u; offset = offset + ${invocationCount}u) {
      let tile_index = local_linear + offset;
      let tile_kw = tile_index / ${wChunkCols}u;
      let tile_col = tile_index - tile_kw * ${wChunkCols}u;
      let src_kw = base_kw + tile_kw;
      let src_col = wid.x * ${tileCols}u + ${chunkColOffset}u + tile_col;
      if (src_col < params.m && src_kw < params.k_words) {
        w_tile[tile_index] = w_packed[src_kw * params.m + src_col];
      } else {
        w_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();

    if (row0 < params.n || row1 < params.n) {
      for (var tile_kw = 0u; tile_kw < 64u; tile_kw = tile_kw + 1u) {
        let x0 = x_tile[lid.y * 64u + tile_kw];
        let x1 = x_tile[(lid.y + ${rowsPerHalf}u) * 64u + tile_kw];
${wLoads.join("\n")}
${accUpdates.join("\n")}
      }
    }
    workgroupBarrier();`);
  }
  return `
requires packed_4x8_integer_dot_product;
enable f16;

struct Params {
  n: u32,
  k: u32,
  m: u32,
  k_words: u32,
  row_offset: u32,
};

@group(0) @binding(0) var<storage, read> x_packed: array<u32>;
@group(0) @binding(1) var<storage, read> w_packed: array<u32>;
@group(0) @binding(2) var<storage, read> x_scales: array<f32>;
@group(0) @binding(3) var<storage, read> w_scales: array<f32>;
@group(0) @binding(4) var<storage, read_write> y: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;
@group(0) @binding(6) var<storage, read> residual_x: array<f32>;
@group(0) @binding(7) var<storage, read> mod_gate: array<f32>;

var<workgroup> x_tile: array<u32, ${xItems}>;
var<workgroup> w_tile: array<u32, ${wItems}>;

@compute @workgroup_size(16, ${rowsPerHalf}, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row0 = wid.y * ${rowBlock}u + lid.y;
  let row1 = row0 + ${rowsPerHalf}u;
${colDecls.join("\n")}
  let local_linear = lid.y * 16u + lid.x;
${accDecls.join("\n")}

  for (var base_kw = 0u; base_kw < params.k_words; base_kw = base_kw + 64u) {
    for (var offset = 0u; offset < ${xItems}u; offset = offset + ${invocationCount}u) {
      let tile_index = local_linear + offset;
      let tile_row = tile_index / 64u;
      let tile_kw = tile_index - tile_row * 64u;
      let src_row = wid.y * 32u + tile_row;
      let src_kw = base_kw + tile_kw;
      if (src_row < params.n && src_kw < params.k_words) {
        x_tile[tile_index] = x_packed[(params.row_offset + src_row) * params.k_words + src_kw];
      } else {
        x_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();
${wChunkBlocks.join("\n")}
  }

${stores.join("\n")}
}
`;
}

function makeI8ScaledDotShader16xWide(tileCols) {
  const colsPerThread = tileCols / 16;
  const xItems = 16 * 64;
  const wItems = tileCols * 64;
  const colDecls = [];
  const accDecls = [];
  const wLoads = [];
  const accUpdates = [];
  const stores = [];
  for (let c = 0; c < colsPerThread; ++c) {
    const colOffset = c * 16;
    colDecls.push(`  let col${c} = wid.x * ${tileCols}u + lid.x + ${colOffset}u;`);
    accDecls.push(`  var acc${c} = 0i;`);
    wLoads.push(`        let w${c} = w_tile[tile_kw * ${tileCols}u + lid.x + ${colOffset}u];`);
    accUpdates.push(`        acc${c} = acc${c} + dot4I8Packed(x, w${c});`);
    stores.push(`  if (row < params.n && col${c} < params.m) { y[row * params.m + col${c}] = f32(acc${c}) * x_scales[params.row_offset + row] * w_scales[col${c}]; }`);
  }
  return `
requires packed_4x8_integer_dot_product;

struct Params {
  n: u32,
  k: u32,
  m: u32,
  k_words: u32,
  row_offset: u32,
};

@group(0) @binding(0) var<storage, read> x_packed: array<u32>;
@group(0) @binding(1) var<storage, read> w_packed: array<u32>;
@group(0) @binding(2) var<storage, read> x_scales: array<f32>;
@group(0) @binding(3) var<storage, read> w_scales: array<f32>;
@group(0) @binding(4) var<storage, read_write> y: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> x_tile: array<u32, ${xItems}>;
var<workgroup> w_tile: array<u32, ${wItems}>;

@compute @workgroup_size(16, 16, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.y * 16u + lid.y;
${colDecls.join("\n")}
  let local_linear = lid.y * 16u + lid.x;
${accDecls.join("\n")}

  for (var base_kw = 0u; base_kw < params.k_words; base_kw = base_kw + 64u) {
    for (var offset = 0u; offset < ${xItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_row = tile_index / 64u;
      let tile_kw = tile_index - tile_row * 64u;
      let src_row = wid.y * 16u + tile_row;
      let src_kw = base_kw + tile_kw;
      if (src_row < params.n && src_kw < params.k_words) {
        x_tile[tile_index] = x_packed[(params.row_offset + src_row) * params.k_words + src_kw];
      } else {
        x_tile[tile_index] = 0u;
      }
    }

    for (var offset = 0u; offset < ${wItems}u; offset = offset + 256u) {
      let tile_index = local_linear + offset;
      let tile_kw = tile_index / ${tileCols}u;
      let tile_col = tile_index - tile_kw * ${tileCols}u;
      let src_kw = base_kw + tile_kw;
      let src_col = wid.x * ${tileCols}u + tile_col;
      if (src_col < params.m && src_kw < params.k_words) {
        w_tile[tile_index] = w_packed[src_kw * params.m + src_col];
      } else {
        w_tile[tile_index] = 0u;
      }
    }
    workgroupBarrier();

    if (row < params.n) {
      for (var tile_kw = 0u; tile_kw < 64u; tile_kw = tile_kw + 1u) {
        let x = x_tile[lid.y * 64u + tile_kw];
${wLoads.join("\n")}
${accUpdates.join("\n")}
      }
    }
    workgroupBarrier();
  }

${stores.join("\n")}
}
`;
}

function q4CpuOutput(row, col, k, m, groupSize, packedWords, xF16, q4, scales, zeroPoints) {
  let acc = 0;
  for (let kIndex = 0; kIndex < k; ++kIndex) {
    const group = Math.floor(kIndex / groupSize);
    const inner = kIndex - group * groupSize;
    const word = Math.floor(inner / 8);
    const shift = (inner & 7) * 4;
    const packed = q4[(group * packedWords + word) * m + col];
    const nibble = (packed >>> shift) & 15;
    const zp = zeroPoints[group * m + col] & 15;
    const scale = float16BitsToFloat32(scales[group * m + col]);
    acc += float16BitsToFloat32(xF16[row * k + kIndex]) * (nibble - zp) * scale;
  }
  return acc;
}

function signedI8Lane(packed, lane) {
  const value = (packed >>> (lane * 8)) & 0xff;
  return value >= 128 ? value - 256 : value;
}

function quantizedInputRow(row, k, xF32) {
  let absmax = 0;
  for (let kIndex = 0; kIndex < k; ++kIndex) {
    absmax = Math.max(absmax, Math.abs(xF32[row * k + kIndex]));
  }
  const scale = absmax > 0 ? absmax / 127 : 1;
  const q = new Int8Array(k);
  for (let kIndex = 0; kIndex < k; ++kIndex) {
    const scaled = absmax > 0 ? xF32[row * k + kIndex] * 127 / absmax : 0;
    q[kIndex] = Math.max(-127, Math.min(127, roundToNearest(scaled)));
  }
  return {q, scale};
}

function i8CpuOutput(row, col, k, m, kWords, xF32, wPacked, wScales) {
  const qx = quantizedInputRow(row, k, xF32);
  let acc = 0;
  for (let kIndex = 0; kIndex < k; ++kIndex) {
    const word = Math.floor(kIndex / 4);
    const lane = kIndex & 3;
    const w = signedI8Lane(wPacked[word * m + col], lane);
    acc += qx.q[kIndex] * w;
  }
  return acc * qx.scale * wScales[col];
}

async function loadI8Bundle(baseUrl) {
  const manifest = await (await fetch(`${baseUrl}manifest.json`)).json();
  if (!manifest.i8_dp4a) {
    throw new Error(`${baseUrl} does not contain an i8_dp4a bundle`);
  }
  const [weightBuf, scaleBuf] = await Promise.all([
    fetchArrayBuffer(`${baseUrl}${manifest.i8_dp4a.packed_u32}`),
    fetchArrayBuffer(`${baseUrl}${manifest.i8_dp4a.scales_f32}`),
  ]);
  return {
    manifest,
    weight: new Uint32Array(weightBuf),
    scales: new Float32Array(scaleBuf),
  };
}

async function loadSingleBlockBundle(baseUrl) {
  const manifest = await (await fetch(`${baseUrl}manifest.json`)).json();
  const [queryBuf, keyBuf] = await Promise.all([
    fetchArrayBuffer(`${baseUrl}${manifest.query_norm_scale_f16}`),
    fetchArrayBuffer(`${baseUrl}${manifest.key_norm_scale_f16}`),
  ]);
  return {
    manifest,
    queryScale: new Uint16Array(queryBuf),
    keyScale: new Uint16Array(keyBuf),
  };
}

const SINGLE_MLP_ACTIVATION_SHADER = `
struct Params {
  n: u32,
  linear1_m: u32,
  linear2_k: u32,
  attn_dim: u32,
  qkv_dim: u32,
  mlp_half_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read_write> linear2_in: array<f32>;
@group(0) @binding(2) var<uniform> params: Params;

fn sigmoid(value: f32) -> f32 {
  return 1.0 / (1.0 + exp(-value));
}

fn synthetic_attention(row: u32, col: u32) -> f32 {
  let code = (row * 37u + col * 13u + 17u) % 251u;
  return (f32(code) - 125.0) / 64.0;
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let col = wid.x * 256u + lid.x;
  let row = wid.y;
  if (row >= params.n || col >= params.linear2_k) {
    return;
  }

  var value = 0.0;
  if (col < params.attn_dim) {
    value = synthetic_attention(row, col);
  } else {
    let mlp_col = col - params.attn_dim;
    let gate = linear1_out[row * params.linear1_m + params.qkv_dim + mlp_col];
    let up = linear1_out[row * params.linear1_m + params.qkv_dim + params.mlp_half_dim + mlp_col];
    value = gate * sigmoid(gate) * up;
  }
  linear2_in[row * params.linear2_k + col] = value;
}
`;

const SINGLE_ATTENTION_SHADER = `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> query_scale: array<f16>;
@group(0) @binding(2) var<storage, read> key_scale: array<f16>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> q_norm: array<f32, 128>;
var<workgroup> scores: array<f32, 4608>;
var<workgroup> scratch: array<f32, 128>;

fn q_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + head * params.head_dim + dim];
}

fn k_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim * 2u + head * params.head_dim + dim];
}

@compute @workgroup_size(128, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (row >= params.n || head >= params.heads || params.n > 4608u) {
    return;
  }

  let q = q_value(row, head, dim);
  scratch[dim] = q * q;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let q_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  q_norm[dim] = q * q_inv * f32(query_scale[dim]);
  workgroupBarrier();

  for (var key_row = 0u; key_row < params.n; key_row = key_row + 1u) {
    let k = k_value(key_row, head, dim);
    scratch[dim] = k * k;
    workgroupBarrier();
    for (var stride = 64u; stride > 0u; stride = stride / 2u) {
      if (dim < stride) {
        scratch[dim] = scratch[dim] + scratch[dim + stride];
      }
      workgroupBarrier();
    }
    let k_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
    let k_norm = k * k_inv * f32(key_scale[dim]);
    scratch[dim] = q_norm[dim] * k_norm;
    workgroupBarrier();
    for (var stride = 64u; stride > 0u; stride = stride / 2u) {
      if (dim < stride) {
        scratch[dim] = scratch[dim] + scratch[dim + stride];
      }
      workgroupBarrier();
    }
    if (dim == 0u) {
      scores[key_row] = scratch[0] * 0.08838835;
    }
    workgroupBarrier();
  }

  var local_max = -3.402823e38;
  for (var key_row = dim; key_row < params.n; key_row = key_row + params.head_dim) {
    local_max = max(local_max, scores[key_row]);
  }
  scratch[dim] = local_max;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = max(scratch[dim], scratch[dim + stride]);
    }
    workgroupBarrier();
  }
  let max_score = scratch[0];

  var local_sum = 0.0;
  for (var key_row = dim; key_row < params.n; key_row = key_row + params.head_dim) {
    local_sum = local_sum + exp(scores[key_row] - max_score);
  }
  scratch[dim] = local_sum;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let inv_sum = 1.0 / scratch[0];

  var out = 0.0;
  for (var key_row = 0u; key_row < params.n; key_row = key_row + 1u) {
    let weight = f32(f16(exp(scores[key_row] - max_score) * inv_sum));
    out = out + weight * f32(f16(v_value(key_row, head, dim)));
  }
  attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(out, -65504.0, 65504.0)));
}
`;

const SINGLE_QK_NORM_SHADER = `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> query_scale: array<f16>;
@group(0) @binding(2) var<storage, read> key_scale: array<f16>;
@group(0) @binding(3) var<storage, read_write> q_norm_out: array<f32>;
@group(0) @binding(4) var<storage, read_write> k_norm_out: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;

var<workgroup> scratch: array<f32, 128>;

fn q_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + head * params.head_dim + dim];
}

fn k_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim + head * params.head_dim + dim];
}

@compute @workgroup_size(128, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (row >= params.n || head >= params.heads) {
    return;
  }

  let q = q_value(row, head, dim);
  scratch[dim] = q * q;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let q_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  q_norm_out[row * params.attention_dim + head * params.head_dim + dim] =
      q * q_inv * f32(query_scale[dim]);
  workgroupBarrier();

  let k = k_value(row, head, dim);
  scratch[dim] = k * k;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let k_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  k_norm_out[row * params.attention_dim + head * params.head_dim + dim] =
      k * k_inv * f32(key_scale[dim]);
}
`;

const SINGLE_QK_NORM_ROPE_SHADER = `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
  text_tokens: u32,
  image_width: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> query_scale: array<f16>;
@group(0) @binding(2) var<storage, read> key_scale: array<f16>;
@group(0) @binding(3) var<storage, read_write> q_norm_out: array<f32>;
@group(0) @binding(4) var<storage, read_write> k_norm_out: array<f32>;
@group(0) @binding(5) var<uniform> params: Params;
@group(0) @binding(6) var<storage, read> rope_sincos: array<f32>;

var<workgroup> scratch: array<f32, 128>;
var<workgroup> scratch2: array<f32, 128>;
var<workgroup> q_temp: array<f32, 128>;
var<workgroup> k_temp: array<f32, 128>;

fn q_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + head * params.head_dim + dim];
}

fn k_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim + head * params.head_dim + dim];
}

fn apply_rope(value: f32, mate: f32, dim: u32, row: u32) -> f32 {
  let pair = dim / 2u;
  let lane = dim & 1u;
  let table_index = (row * 64u + pair) * 2u;
  let c = rope_sincos[table_index];
  let s = rope_sincos[table_index + 1u];
  if (lane == 0u) {
    return c * value - s * mate;
  }
  return s * mate + c * value;
}

@compute @workgroup_size(128, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (row >= params.n || head >= params.heads) {
    return;
  }

  let q = q_value(row, head, dim);
  let k = k_value(row, head, dim);
  scratch[dim] = q * q;
  scratch2[dim] = k * k;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
      scratch2[dim] = scratch2[dim] + scratch2[dim + stride];
    }
    workgroupBarrier();
  }
  let q_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  let k_inv = inverseSqrt(scratch2[0] / f32(params.head_dim) + 0.000001);
  q_temp[dim] = f32(f16(f32(f16(q * q_inv)) * f32(query_scale[dim])));
  k_temp[dim] = f32(f16(f32(f16(k * k_inv)) * f32(key_scale[dim])));
  workgroupBarrier();
  q_norm_out[row * params.attention_dim + head * params.head_dim + dim] =
      apply_rope(q_temp[dim], q_temp[dim ^ 1u], dim, row);
  k_norm_out[row * params.attention_dim + head * params.head_dim + dim] =
      apply_rope(k_temp[dim], k_temp[dim ^ 1u], dim, row);
}
`;

const SINGLE_ATTENTION_PRENORM_SHADER = `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> q_norm: array<f32>;
@group(0) @binding(2) var<storage, read> k_norm: array<f32>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> scores: array<f32, 4608>;
var<workgroup> scratch: array<f32, 128>;

fn qn(row: u32, head: u32, dim: u32) -> f32 {
  return q_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn kn(row: u32, head: u32, dim: u32) -> f32 {
  return k_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim * 2u + head * params.head_dim + dim];
}

@compute @workgroup_size(128, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (row >= params.n || head >= params.heads || params.n > 4608u) {
    return;
  }

  let q = qn(row, head, dim);
  for (var key_row = 0u; key_row < params.n; key_row = key_row + 1u) {
    scratch[dim] = q * kn(key_row, head, dim);
    workgroupBarrier();
    for (var stride = 64u; stride > 0u; stride = stride / 2u) {
      if (dim < stride) {
        scratch[dim] = scratch[dim] + scratch[dim + stride];
      }
      workgroupBarrier();
    }
    if (dim == 0u) {
      scores[key_row] = scratch[0] * 0.08838835;
    }
    workgroupBarrier();
  }

  var local_max = -3.402823e38;
  for (var key_row = dim; key_row < params.n; key_row = key_row + params.head_dim) {
    local_max = max(local_max, scores[key_row]);
  }
  scratch[dim] = local_max;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = max(scratch[dim], scratch[dim + stride]);
    }
    workgroupBarrier();
  }
  let max_score = scratch[0];

  var local_sum = 0.0;
  for (var key_row = dim; key_row < params.n; key_row = key_row + params.head_dim) {
    local_sum = local_sum + exp(scores[key_row] - max_score);
  }
  scratch[dim] = local_sum;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let inv_sum = 1.0 / scratch[0];

  var out = 0.0;
  for (var key_row = 0u; key_row < params.n; key_row = key_row + 1u) {
    let weight = f32(f16(exp(scores[key_row] - max_score) * inv_sum));
    out = out + weight * f32(f16(v_value(key_row, head, dim)));
  }
  attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(out, -65504.0, 65504.0)));
}
`;

const SINGLE_ATTENTION_TILED_SHADER = `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> q_norm: array<f32>;
@group(0) @binding(2) var<storage, read> k_norm: array<f32>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> k_tile: array<f32, 1024>;
var<workgroup> v_tile: array<f32, 1024>;
var<workgroup> scores: array<f32, 32>;
var<workgroup> reduce: array<f32, 64>;

fn qn(row: u32, head: u32, dim: u32) -> f32 {
  return q_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn kn(row: u32, head: u32, dim: u32) -> f32 {
  return k_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim * 2u + head * params.head_dim + dim];
}

@compute @workgroup_size(16, 4, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim_lane = lid.x;
  let q_lane = lid.y;
  let local_linear = q_lane * 16u + dim_lane;
  let row = wid.x * 4u + q_lane;
  let head = wid.y;
  if (head >= params.heads || params.n > 4608u) {
    return;
  }

  let row_valid = row < params.n;
  let dim0 = dim_lane * 8u;
  var qv: array<f32, 8>;
  var acc: array<f32, 8>;
  for (var i = 0u; i < 8u; i = i + 1u) {
    let dim = dim0 + i;
    if (row_valid) {
      qv[i] = qn(row, head, dim);
    } else {
      qv[i] = 0.0;
    }
    acc[i] = 0.0;
  }
  var m_state = -3.402823e38;
  var l_state = 0.0;

  for (var key_base = 0u; key_base < params.n; key_base = key_base + 8u) {
    for (var tile_index = local_linear; tile_index < 1024u; tile_index = tile_index + 64u) {
      let key_offset = tile_index / 128u;
      let dim = tile_index - key_offset * 128u;
      let key_row = key_base + key_offset;
      if (key_row < params.n) {
        k_tile[tile_index] = kn(key_row, head, dim);
        v_tile[tile_index] = v_value(key_row, head, dim);
      } else {
        k_tile[tile_index] = 0.0;
        v_tile[tile_index] = 0.0;
      }
    }
    workgroupBarrier();

    for (var key_offset = 0u; key_offset < 8u; key_offset = key_offset + 1u) {
      var partial = 0.0;
      for (var i = 0u; i < 8u; i = i + 1u) {
        partial = partial + qv[i] * k_tile[key_offset * 128u + dim0 + i];
      }
      reduce[q_lane * 16u + dim_lane] = partial;
      workgroupBarrier();
      for (var stride = 8u; stride > 0u; stride = stride / 2u) {
        if (dim_lane < stride) {
          reduce[q_lane * 16u + dim_lane] =
              reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
        }
        workgroupBarrier();
      }
      if (dim_lane == 0u) {
        let key_row = key_base + key_offset;
        scores[q_lane * 8u + key_offset] =
            select(-3.402823e38, reduce[q_lane * 16u] * 0.08838835, row_valid && key_row < params.n);
      }
      workgroupBarrier();
    }

    var local_max = -3.402823e38;
    if (dim_lane < 8u) {
      local_max = scores[q_lane * 8u + dim_lane];
    }
    reduce[q_lane * 16u + dim_lane] = local_max;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            max(reduce[q_lane * 16u + dim_lane], reduce[q_lane * 16u + dim_lane + stride]);
      }
      workgroupBarrier();
    }
    let tile_max = reduce[q_lane * 16u];
    let m_new = max(m_state, tile_max);
    let alpha = exp(m_state - m_new);

    var local_sum = 0.0;
    if (dim_lane < 8u) {
      local_sum = exp(scores[q_lane * 8u + dim_lane] - m_new);
    }
    reduce[q_lane * 16u + dim_lane] = local_sum;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
      }
      workgroupBarrier();
    }
    let l_new = l_state * alpha + reduce[q_lane * 16u];

    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      var weighted_v = 0.0;
      for (var key_offset = 0u; key_offset < 8u; key_offset = key_offset + 1u) {
        let weight = f32(f16(exp(scores[q_lane * 8u + key_offset] - m_new)));
        weighted_v = weighted_v + weight * f32(f16(v_tile[key_offset * 128u + dim]));
      }
      acc[i] = acc[i] * alpha + weighted_v;
    }
    m_state = m_new;
    l_state = l_new;
    workgroupBarrier();
  }

  if (row_valid) {
    let inv_l = 1.0 / l_state;
    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(acc[i] * inv_l, -65504.0, 65504.0)));
    }
  }
}
`;

function makeSingleAttentionTiledShader(tileKeys, queryRows = 4) {
  const keys = Number(tileKeys || 8);
  const rows = Number(queryRows || 4);
  if (![8, 16].includes(keys)) {
    throw new Error(`unsupported single attention tile key count: ${tileKeys}`);
  }
  if (![4, 8, 16].includes(rows)) {
    throw new Error(`unsupported single attention query row count: ${queryRows}`);
  }
  if (keys === 8 && rows === 4) return SINGLE_ATTENTION_TILED_SHADER;
  return `
enable f16;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> q_norm: array<f32>;
@group(0) @binding(2) var<storage, read> k_norm: array<f32>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> k_tile: array<f32, ${keys * 128}>;
var<workgroup> v_tile: array<f32, ${keys * 128}>;
var<workgroup> scores: array<f32, ${rows * keys}>;
var<workgroup> reduce: array<f32, ${rows * 16}>;

fn qn(row: u32, head: u32, dim: u32) -> f32 {
  return q_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn kn(row: u32, head: u32, dim: u32) -> f32 {
  return k_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim * 2u + head * params.head_dim + dim];
}

@compute @workgroup_size(16, ${rows}, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim_lane = lid.x;
  let q_lane = lid.y;
  let local_linear = q_lane * 16u + dim_lane;
  let row = wid.x * ${rows}u + q_lane;
  let head = wid.y;
  if (head >= params.heads || params.n > 4608u) {
    return;
  }

  let row_valid = row < params.n;
  let dim0 = dim_lane * 8u;
  var qv: array<f32, 8>;
  var acc: array<f32, 8>;
  for (var i = 0u; i < 8u; i = i + 1u) {
    let dim = dim0 + i;
    if (row_valid) {
      qv[i] = qn(row, head, dim);
    } else {
      qv[i] = 0.0;
    }
    acc[i] = 0.0;
  }
  var m_state = -3.402823e38;
  var l_state = 0.0;

  for (var key_base = 0u; key_base < params.n; key_base = key_base + ${keys}u) {
    for (var tile_index = local_linear; tile_index < ${keys * 128}u; tile_index = tile_index + ${rows * 16}u) {
      let key_offset = tile_index / 128u;
      let dim = tile_index - key_offset * 128u;
      let key_row = key_base + key_offset;
      if (key_row < params.n) {
        k_tile[tile_index] = kn(key_row, head, dim);
        v_tile[tile_index] = v_value(key_row, head, dim);
      } else {
        k_tile[tile_index] = 0.0;
        v_tile[tile_index] = 0.0;
      }
    }
    workgroupBarrier();

    for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
      var partial = 0.0;
      for (var i = 0u; i < 8u; i = i + 1u) {
        partial = partial + qv[i] * k_tile[key_offset * 128u + dim0 + i];
      }
      reduce[q_lane * 16u + dim_lane] = partial;
      workgroupBarrier();
      for (var stride = 8u; stride > 0u; stride = stride / 2u) {
        if (dim_lane < stride) {
          reduce[q_lane * 16u + dim_lane] =
              reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
        }
        workgroupBarrier();
      }
      if (dim_lane == 0u) {
        let key_row = key_base + key_offset;
        scores[q_lane * ${keys}u + key_offset] =
            select(-3.402823e38, reduce[q_lane * 16u] * 0.08838835, row_valid && key_row < params.n);
      }
      workgroupBarrier();
    }

    var local_max = -3.402823e38;
    if (dim_lane < ${keys}u) {
      local_max = scores[q_lane * ${keys}u + dim_lane];
    }
    reduce[q_lane * 16u + dim_lane] = local_max;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            max(reduce[q_lane * 16u + dim_lane], reduce[q_lane * 16u + dim_lane + stride]);
      }
      workgroupBarrier();
    }
    let tile_max = reduce[q_lane * 16u];
    let m_new = max(m_state, tile_max);
    let alpha = exp(m_state - m_new);

    var local_sum = 0.0;
    if (dim_lane < ${keys}u) {
      local_sum = exp(scores[q_lane * ${keys}u + dim_lane] - m_new);
    }
    reduce[q_lane * 16u + dim_lane] = local_sum;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
      }
      workgroupBarrier();
    }
    let l_new = l_state * alpha + reduce[q_lane * 16u];

    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      var weighted_v = 0.0;
      for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
        let weight = f32(f16(exp(scores[q_lane * ${keys}u + key_offset] - m_new)));
        weighted_v = weighted_v + weight * f32(f16(v_tile[key_offset * 128u + dim]));
      }
      acc[i] = acc[i] * alpha + weighted_v;
    }
    m_state = m_new;
    l_state = l_new;
    workgroupBarrier();
  }

  if (row_valid) {
    let inv_l = 1.0 / l_state;
    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(acc[i] * inv_l, -65504.0, 65504.0)));
    }
  }
}
`;
}

function makeSingleAttentionSubgroupShader(tileKeys) {
  const keys = Number(tileKeys || 8);
  if (![8, 16].includes(keys)) {
    throw new Error(`unsupported subgroup single attention tile key count: ${tileKeys}`);
  }
  return `
enable f16;
enable subgroups;

struct Params {
  n: u32,
  linear1_m: u32,
  heads: u32,
  head_dim: u32,
  qkv_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> q_norm: array<f32>;
@group(0) @binding(2) var<storage, read> k_norm: array<f32>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> k_tile: array<f32, ${keys * 128}>;
var<workgroup> v_tile: array<f32, ${keys * 128}>;
var<workgroup> scores: array<f32, ${keys}>;

fn qn(row: u32, head: u32, dim: u32) -> f32 {
  return q_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn kn(row: u32, head: u32, dim: u32) -> f32 {
  return k_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return linear1_out[row * params.linear1_m + params.attention_dim * 2u + head * params.head_dim + dim];
}

@compute @workgroup_size(32, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let lane = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (head >= params.heads || params.n > 4608u) {
    return;
  }

  let row_valid = row < params.n;
  let dim0 = lane * 4u;
  var qv: array<f32, 4>;
  var acc: array<f32, 4>;
  for (var i = 0u; i < 4u; i = i + 1u) {
    let dim = dim0 + i;
    qv[i] = select(0.0, qn(row, head, dim), row_valid);
    acc[i] = 0.0;
  }
  var m_state = -3.402823e38;
  var l_state = 0.0;

  for (var key_base = 0u; key_base < params.n; key_base = key_base + ${keys}u) {
    for (var tile_index = lane; tile_index < ${keys * 128}u; tile_index = tile_index + 32u) {
      let key_offset = tile_index / 128u;
      let dim = tile_index - key_offset * 128u;
      let key_row = key_base + key_offset;
      if (key_row < params.n) {
        k_tile[tile_index] = kn(key_row, head, dim);
        v_tile[tile_index] = v_value(key_row, head, dim);
      } else {
        k_tile[tile_index] = 0.0;
        v_tile[tile_index] = 0.0;
      }
    }
    workgroupBarrier();

    for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
      var partial = 0.0;
      for (var i = 0u; i < 4u; i = i + 1u) {
        partial = partial + qv[i] * k_tile[key_offset * 128u + dim0 + i];
      }
      let dot = subgroupAdd(partial);
      if (lane == 0u) {
        let key_row = key_base + key_offset;
        scores[key_offset] = select(-3.402823e38, dot * 0.08838835, row_valid && key_row < params.n);
      }
    }
    workgroupBarrier();

    var local_max = -3.402823e38;
    if (lane < ${keys}u) {
      local_max = scores[lane];
    }
    let tile_max = subgroupMax(local_max);
    let m_new = max(m_state, tile_max);
    let alpha = exp(m_state - m_new);

    var local_sum = 0.0;
    if (lane < ${keys}u) {
      local_sum = exp(scores[lane] - m_new);
    }
    let l_new = l_state * alpha + subgroupAdd(local_sum);

    for (var i = 0u; i < 4u; i = i + 1u) {
      let dim = dim0 + i;
      var weighted_v = 0.0;
      for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
        let weight = f32(f16(exp(scores[key_offset] - m_new)));
        weighted_v = weighted_v + weight * f32(f16(v_tile[key_offset * 128u + dim]));
      }
      acc[i] = acc[i] * alpha + weighted_v;
    }
    m_state = m_new;
    l_state = l_new;
    workgroupBarrier();
  }

  if (row_valid) {
    let inv_l = 1.0 / l_state;
    for (var i = 0u; i < 4u; i = i + 1u) {
      let dim = dim0 + i;
      attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(acc[i] * inv_l, -65504.0, 65504.0)));
    }
  }
}
`;
}

function makeLinear1F16ConsumerShader(shader) {
  let code = shader;
  if (!/^\s*enable f16;/.test(code)) {
    code = `enable f16;\n${code}`;
  }
  code = code.replace(
    "@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;",
    "@group(0) @binding(0) var<storage, read> linear1_out: array<f16>;",
  );
  code = code.replace(/return linear1_out\[([^\]]+)\];/g, "return f32(linear1_out[$1]);");
  code = code.replace(/let gate = linear1_out\[([^\]]+)\];/g, "let gate = f32(linear1_out[$1]);");
  code = code.replace(/let up = linear1_out\[([^\]]+)\];/g, "let up = f32(linear1_out[$1]);");
  return code;
}

function makeSingleQkNormF16StorageShader(shader) {
  let code = shader;
  if (!/^\s*enable f16;/.test(code)) {
    code = `enable f16;\n${code}`;
  }
  code = code.replace(
    "@group(0) @binding(3) var<storage, read_write> q_norm_out: array<f32>;",
    "@group(0) @binding(3) var<storage, read_write> q_norm_out: array<f16>;",
  );
  code = code.replace(
    "@group(0) @binding(4) var<storage, read_write> k_norm_out: array<f32>;",
    "@group(0) @binding(4) var<storage, read_write> k_norm_out: array<f16>;",
  );
  code = code.replace(
    "q_norm_out[row * params.attention_dim + head * params.head_dim + dim] =\n      apply_rope(q_temp[dim], q_temp[dim ^ 1u], dim, row);",
    "q_norm_out[row * params.attention_dim + head * params.head_dim + dim] =\n      f16(apply_rope(q_temp[dim], q_temp[dim ^ 1u], dim, row));",
  );
  code = code.replace(
    "k_norm_out[row * params.attention_dim + head * params.head_dim + dim] =\n      apply_rope(k_temp[dim], k_temp[dim ^ 1u], dim, row);",
    "k_norm_out[row * params.attention_dim + head * params.head_dim + dim] =\n      f16(apply_rope(k_temp[dim], k_temp[dim ^ 1u], dim, row));",
  );
  return code;
}

function makeAttentionQkF16ConsumerShader(shader) {
  let code = shader;
  if (!/^\s*enable f16;/.test(code)) {
    code = `enable f16;\n${code}`;
  }
  code = code.replace(
    "@group(0) @binding(1) var<storage, read> q_norm: array<f32>;",
    "@group(0) @binding(1) var<storage, read> q_norm: array<f16>;",
  );
  code = code.replace(
    "@group(0) @binding(2) var<storage, read> k_norm: array<f32>;",
    "@group(0) @binding(2) var<storage, read> k_norm: array<f16>;",
  );
  code = code.replace(/return q_norm\[([^\]]+)\];/g, "return f32(q_norm[$1]);");
  code = code.replace(/return k_norm\[([^\]]+)\];/g, "return f32(k_norm[$1]);");
  return code;
}

const DOUBLE_QKV_NORM_ROPE_SHADER = `
enable f16;

struct Params {
  rows: u32,
  qkv_m: u32,
  heads: u32,
  head_dim: u32,
  attention_dim: u32,
  output_row_offset: u32,
  text_tokens: u32,
  image_width: u32,
};

@group(0) @binding(0) var<storage, read> qkv: array<f16>;
@group(0) @binding(1) var<storage, read> query_scale: array<f16>;
@group(0) @binding(2) var<storage, read> key_scale: array<f16>;
@group(0) @binding(3) var<storage, read_write> q_norm_out: array<f32>;
@group(0) @binding(4) var<storage, read_write> k_norm_out: array<f32>;
@group(0) @binding(5) var<storage, read_write> v_out: array<f32>;
@group(0) @binding(6) var<uniform> params: Params;
@group(0) @binding(7) var<storage, read> rope_freq: array<f32>;

var<workgroup> scratch: array<f32, 128>;
var<workgroup> q_temp: array<f32, 128>;
var<workgroup> k_temp: array<f32, 128>;

fn q_value(row: u32, head: u32, dim: u32) -> f32 {
  return f32(qkv[row * params.qkv_m + head * params.head_dim + dim]);
}

fn k_value(row: u32, head: u32, dim: u32) -> f32 {
  return f32(qkv[row * params.qkv_m + params.attention_dim + head * params.head_dim + dim]);
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return f32(qkv[row * params.qkv_m + params.attention_dim * 2u + head * params.head_dim + dim]);
}

fn rope_position(joint_row: u32, axis: u32) -> f32 {
  if (joint_row < params.text_tokens) {
    if (axis == 3u) {
      return f32(joint_row);
    }
    return 0.0;
  }
  let image_row = joint_row - params.text_tokens;
  let safe_width = max(params.image_width, 1u);
  let y = image_row / safe_width;
  let x = image_row - y * safe_width;
  if (axis == 1u) {
    return f32(y);
  }
  if (axis == 2u) {
    return f32(x);
  }
  return 0.0;
}

fn apply_rope(value: f32, mate: f32, dim: u32, joint_row: u32) -> f32 {
  let pair = dim / 2u;
  let lane = dim & 1u;
  let axis = pair / 16u;
  let freq_index = pair - axis * 16u;
  let angle = rope_position(joint_row, axis) * rope_freq[freq_index];
  let c = cos(angle);
  let s = sin(angle);
  if (lane == 0u) {
    return c * value - s * mate;
  }
  return s * mate + c * value;
}

@compute @workgroup_size(128, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim = lid.x;
  let row = wid.x;
  let head = wid.y;
  if (row >= params.rows || head >= params.heads) {
    return;
  }
  let joint_row = params.output_row_offset + row;

  let q = q_value(row, head, dim);
  scratch[dim] = q * q;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let q_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  q_temp[dim] = f32(f16(f32(f16(q * q_inv)) * f32(query_scale[dim])));
  workgroupBarrier();
  q_norm_out[joint_row * params.attention_dim + head * params.head_dim + dim] =
      apply_rope(q_temp[dim], q_temp[dim ^ 1u], dim, joint_row);
  workgroupBarrier();

  let k = k_value(row, head, dim);
  scratch[dim] = k * k;
  workgroupBarrier();
  for (var stride = 64u; stride > 0u; stride = stride / 2u) {
    if (dim < stride) {
      scratch[dim] = scratch[dim] + scratch[dim + stride];
    }
    workgroupBarrier();
  }
  let k_inv = inverseSqrt(scratch[0] / f32(params.head_dim) + 0.000001);
  k_temp[dim] = f32(f16(f32(f16(k * k_inv)) * f32(key_scale[dim])));
  workgroupBarrier();
  k_norm_out[joint_row * params.attention_dim + head * params.head_dim + dim] =
      apply_rope(k_temp[dim], k_temp[dim ^ 1u], dim, joint_row);
  v_out[joint_row * params.attention_dim + head * params.head_dim + dim] = v_value(row, head, dim);
}
`;

function makeJointAttentionTiledShader(tileKeys, queryRows = 8) {
  const keys = Number(tileKeys || 8);
  const rows = Number(queryRows || 8);
  if (![8, 16].includes(keys)) {
    throw new Error(`unsupported joint attention tile key count: ${tileKeys}`);
  }
  if (![4, 8, 16].includes(rows)) {
    throw new Error(`unsupported joint attention query row count: ${queryRows}`);
  }
  return `
enable f16;

struct Params {
  n: u32,
  heads: u32,
  head_dim: u32,
  attention_dim: u32,
};

@group(0) @binding(0) var<storage, read> v_in: array<f32>;
@group(0) @binding(1) var<storage, read> q_norm: array<f32>;
@group(0) @binding(2) var<storage, read> k_norm: array<f32>;
@group(0) @binding(3) var<storage, read_write> attention_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> k_tile: array<f32, ${keys * 128}>;
var<workgroup> v_tile: array<f32, ${keys * 128}>;
var<workgroup> scores: array<f32, ${rows * keys}>;
var<workgroup> reduce: array<f32, ${rows * 16}>;

fn qn(row: u32, head: u32, dim: u32) -> f32 {
  return q_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn kn(row: u32, head: u32, dim: u32) -> f32 {
  return k_norm[row * params.attention_dim + head * params.head_dim + dim];
}

fn v_value(row: u32, head: u32, dim: u32) -> f32 {
  return v_in[row * params.attention_dim + head * params.head_dim + dim];
}

@compute @workgroup_size(16, ${rows}, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let dim_lane = lid.x;
  let q_lane = lid.y;
  let local_linear = q_lane * 16u + dim_lane;
  let row = wid.x * ${rows}u + q_lane;
  let head = wid.y;
  if (head >= params.heads || params.n > 4608u) {
    return;
  }

  let row_valid = row < params.n;
  let dim0 = dim_lane * 8u;
  var qv: array<f32, 8>;
  var acc: array<f32, 8>;
  for (var i = 0u; i < 8u; i = i + 1u) {
    let dim = dim0 + i;
    qv[i] = select(0.0, qn(row, head, dim), row_valid);
    acc[i] = 0.0;
  }
  var m_state = -3.402823e38;
  var l_state = 0.0;

  for (var key_base = 0u; key_base < params.n; key_base = key_base + ${keys}u) {
    for (var tile_index = local_linear; tile_index < ${keys * 128}u; tile_index = tile_index + ${rows * 16}u) {
      let key_offset = tile_index / 128u;
      let dim = tile_index - key_offset * 128u;
      let key_row = key_base + key_offset;
      if (key_row < params.n) {
        k_tile[tile_index] = kn(key_row, head, dim);
        v_tile[tile_index] = v_value(key_row, head, dim);
      } else {
        k_tile[tile_index] = 0.0;
        v_tile[tile_index] = 0.0;
      }
    }
    workgroupBarrier();

    for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
      var partial = 0.0;
      for (var i = 0u; i < 8u; i = i + 1u) {
        partial = partial + qv[i] * k_tile[key_offset * 128u + dim0 + i];
      }
      reduce[q_lane * 16u + dim_lane] = partial;
      workgroupBarrier();
      for (var stride = 8u; stride > 0u; stride = stride / 2u) {
        if (dim_lane < stride) {
          reduce[q_lane * 16u + dim_lane] =
              reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
        }
        workgroupBarrier();
      }
      if (dim_lane == 0u) {
        let key_row = key_base + key_offset;
        scores[q_lane * ${keys}u + key_offset] =
            select(-3.402823e38, reduce[q_lane * 16u] * 0.08838835, row_valid && key_row < params.n);
      }
      workgroupBarrier();
    }

    var local_max = -3.402823e38;
    if (dim_lane < ${keys}u) {
      local_max = scores[q_lane * ${keys}u + dim_lane];
    }
    reduce[q_lane * 16u + dim_lane] = local_max;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            max(reduce[q_lane * 16u + dim_lane], reduce[q_lane * 16u + dim_lane + stride]);
      }
      workgroupBarrier();
    }
    let tile_max = reduce[q_lane * 16u];
    let m_new = max(m_state, tile_max);
    let alpha = exp(m_state - m_new);

    var local_sum = 0.0;
    if (dim_lane < ${keys}u) {
      local_sum = exp(scores[q_lane * ${keys}u + dim_lane] - m_new);
    }
    reduce[q_lane * 16u + dim_lane] = local_sum;
    workgroupBarrier();
    for (var stride = 8u; stride > 0u; stride = stride / 2u) {
      if (dim_lane < stride) {
        reduce[q_lane * 16u + dim_lane] =
            reduce[q_lane * 16u + dim_lane] + reduce[q_lane * 16u + dim_lane + stride];
      }
      workgroupBarrier();
    }
    let l_new = l_state * alpha + reduce[q_lane * 16u];

    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      var weighted_v = 0.0;
      for (var key_offset = 0u; key_offset < ${keys}u; key_offset = key_offset + 1u) {
        let weight = f32(f16(exp(scores[q_lane * ${keys}u + key_offset] - m_new)));
        weighted_v = weighted_v + weight * f32(f16(v_tile[key_offset * 128u + dim]));
      }
      acc[i] = acc[i] * alpha + weighted_v;
    }
    m_state = m_new;
    l_state = l_new;
    workgroupBarrier();
  }

  if (row_valid) {
    let inv_l = 1.0 / l_state;
    for (var i = 0u; i < 8u; i = i + 1u) {
      let dim = dim0 + i;
      attention_out[row * params.attention_dim + head * params.head_dim + dim] = f32(f16(clamp(acc[i] * inv_l, -65504.0, 65504.0)));
    }
  }
}
`;
}

const SINGLE_MLP_ACTIVATION_ATTENTION_SHADER = `
struct Params {
  n: u32,
  linear1_m: u32,
  linear2_k: u32,
  attn_dim: u32,
  qkv_dim: u32,
  mlp_half_dim: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> attention_out: array<f32>;
@group(0) @binding(2) var<storage, read_write> linear2_in: array<f32>;
@group(0) @binding(3) var<uniform> params: Params;

fn sigmoid(value: f32) -> f32 {
  return 1.0 / (1.0 + exp(-value));
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let col = wid.x * 256u + lid.x;
  let row = wid.y;
  if (row >= params.n || col >= params.linear2_k) {
    return;
  }

  var value = 0.0;
  if (col < params.attn_dim) {
    value = attention_out[row * params.attn_dim + col];
  } else {
    let mlp_col = col - params.attn_dim;
    let gate = linear1_out[row * params.linear1_m + params.qkv_dim + mlp_col];
    let up = linear1_out[row * params.linear1_m + params.qkv_dim + params.mlp_half_dim + mlp_col];
    value = gate * sigmoid(gate) * up;
  }
  linear2_in[row * params.linear2_k + col] = value;
}
`;

const SINGLE_MLP_ACTIVATE_QUANT_SHADER = `
struct Params {
  n: u32,
  linear1_m: u32,
  linear2_k: u32,
  attn_dim: u32,
  qkv_dim: u32,
  mlp_half_dim: u32,
  k_words: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read_write> packed_out: array<u32>;
@group(0) @binding(2) var<storage, read_write> scales_out: array<f32>;
@group(0) @binding(3) var<uniform> params: Params;

var<workgroup> row_absmax: array<f32, 256>;

fn sigmoid(value: f32) -> f32 {
  return 1.0 / (1.0 + exp(-value));
}

fn synthetic_attention(row: u32, col: u32) -> f32 {
  let code = (row * 37u + col * 13u + 17u) % 251u;
  return (f32(code) - 125.0) / 64.0;
}

fn activation_value(row: u32, col: u32) -> f32 {
  if (col < params.attn_dim) {
    return synthetic_attention(row, col);
  }
  let mlp_col = col - params.attn_dim;
  let gate = linear1_out[row * params.linear1_m + params.qkv_dim + mlp_col];
  let up = linear1_out[row * params.linear1_m + params.qkv_dim + params.mlp_half_dim + mlp_col];
  return gate * sigmoid(gate) * up;
}

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  var absmax = 0.0;

  for (var col = local_id; col < params.linear2_k; col = col + 256u) {
    absmax = max(absmax, abs(activation_value(row, col)));
  }
  row_absmax[local_id] = absmax;
  workgroupBarrier();

  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      row_absmax[local_id] = max(row_absmax[local_id], row_absmax[local_id + stride]);
    }
    workgroupBarrier();
  }

  let row_scale = row_absmax[0];
  let quant_scale = select(0.0, 127.0 / row_scale, row_scale > 0.0);
  if (local_id == 0u) {
    scales_out[row] = select(1.0, row_scale / 127.0, row_scale > 0.0);
  }

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let col = word * 4u + lane;
      var q = 0i;
      if (col < params.linear2_k) {
        let scaled = round(clamp(activation_value(row, col) * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    packed_out[row * params.k_words + word] = packed_word;
  }
}
`;

const SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER = `
struct Params {
  n: u32,
  linear1_m: u32,
  linear2_k: u32,
  attn_dim: u32,
  qkv_dim: u32,
  mlp_half_dim: u32,
  k_words: u32,
};

@group(0) @binding(0) var<storage, read> linear1_out: array<f32>;
@group(0) @binding(1) var<storage, read> attention_out: array<f32>;
@group(0) @binding(2) var<storage, read_write> packed_out: array<u32>;
@group(0) @binding(3) var<storage, read_write> scales_out: array<f32>;
@group(0) @binding(4) var<uniform> params: Params;

var<workgroup> row_absmax: array<f32, 256>;

fn sigmoid(value: f32) -> f32 {
  return 1.0 / (1.0 + exp(-value));
}

fn activation_value(row: u32, col: u32) -> f32 {
  if (col < params.attn_dim) {
    return attention_out[row * params.attn_dim + col];
  }
  let mlp_col = col - params.attn_dim;
  let gate = linear1_out[row * params.linear1_m + params.qkv_dim + mlp_col];
  let up = linear1_out[row * params.linear1_m + params.qkv_dim + params.mlp_half_dim + mlp_col];
  return gate * sigmoid(gate) * up;
}

fn pack_i8_lane(value: i32, lane: u32) -> u32 {
  return (u32(value) & 0xffu) << (lane * 8u);
}

@compute @workgroup_size(256, 1, 1)
fn main(
    @builtin(local_invocation_id) lid: vec3<u32>,
    @builtin(workgroup_id) wid: vec3<u32>) {
  let row = wid.x;
  let local_id = lid.x;
  var absmax = 0.0;

  for (var col = local_id; col < params.linear2_k; col = col + 256u) {
    absmax = max(absmax, abs(activation_value(row, col)));
  }
  row_absmax[local_id] = absmax;
  workgroupBarrier();

  for (var stride = 128u; stride > 0u; stride = stride / 2u) {
    if (local_id < stride) {
      row_absmax[local_id] = max(row_absmax[local_id], row_absmax[local_id + stride]);
    }
    workgroupBarrier();
  }

  let row_scale = row_absmax[0];
  let quant_scale = select(0.0, 127.0 / row_scale, row_scale > 0.0);
  if (local_id == 0u) {
    scales_out[row] = select(1.0, row_scale / 127.0, row_scale > 0.0);
  }

  for (var word = local_id; word < params.k_words; word = word + 256u) {
    var packed_word = 0u;
    for (var lane = 0u; lane < 4u; lane = lane + 1u) {
      let col = word * 4u + lane;
      var q = 0i;
      if (col < params.linear2_k) {
        let scaled = round(clamp(activation_value(row, col) * quant_scale, -127.0, 127.0));
        q = i32(scaled);
      }
      packed_word = packed_word | pack_i8_lane(q, lane);
    }
    packed_out[row * params.k_words + word] = packed_word;
  }
}
`;

function verificationSummary(actual, expectedItems) {
  let maxAbs = 0;
  let maxRel = 0;
  const samples = [];
  for (const item of expectedItems) {
    const got = actual[item.row * item.m + item.col];
    const abs = Math.abs(got - item.expected);
    const rel = abs / Math.max(1e-6, Math.abs(item.expected));
    maxAbs = Math.max(maxAbs, abs);
    maxRel = Math.max(maxRel, rel);
    if (samples.length < 8) {
      samples.push({row: item.row, col: item.col, expected: item.expected, actual: got, abs});
    }
  }
  return {checked: expectedItems.length, max_abs_error: maxAbs, max_rel_error: maxRel, samples};
}

async function runQ4Bench(device, manifest, bundleBaseUrl, config, inputF16) {
  const k = manifest.shape.K;
  const m = manifest.shape.N;
  const n = Number(config.n || 256);
  const groupSize = manifest.matmul_nbits.block_size;
  const groups = manifest.matmul_nbits.groups_per_col;
  const packedWords = manifest.matmul_nbits.packed_group_words;
  const tileCols = Number(config.q4TileCols || 96);
  const maxOutputRows = Math.max(
    1,
    Math.floor((device.limits.maxStorageBufferBindingSize || 134217728) / (m * 4))
  );
  const rowBlock = Math.max(1, Math.min(n, Number(config.rowBlockSize || maxOutputRows)));

  const [q4Buf, scalesBuf, zpBuf] = await Promise.all([
    fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.packed_u32}`),
    fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.scales_f16}`),
    fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.zero_points_u32}`),
  ]);
  const q4 = new Uint32Array(q4Buf);
  const scales = new Uint16Array(scalesBuf);
  const zeroPoints = new Uint32Array(zpBuf);

  const xBuffer = createBuffer(device, inputF16, GPUBufferUsage.STORAGE);
  const q4Buffer = createBuffer(device, q4, GPUBufferUsage.STORAGE);
  const scaleBuffer = createBuffer(device, scales, GPUBufferUsage.STORAGE);
  const zpBuffer = createBuffer(device, zeroPoints, GPUBufferUsage.STORAGE);
  const yBuffer = createEmptyBuffer(device, rowBlock * m * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);

  const module = device.createShaderModule({code: makeQ4ZpShader32xWide(tileCols)});
  const pipeline = await device.createComputePipelineAsync({
    layout: "auto",
    compute: {module, entryPoint: "main"},
  });
  const chunks = [];
  for (let rowOffset = 0; rowOffset < n; rowOffset += rowBlock) {
    const chunkRows = Math.min(rowBlock, n - rowOffset);
    const params = new Uint32Array([chunkRows, k, m, groupSize, groups, packedWords, rowOffset, 0]);
    const paramsBuffer = createBuffer(device, params, GPUBufferUsage.UNIFORM);
    const bindGroup = device.createBindGroup({
      layout: pipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: xBuffer}},
        {binding: 1, resource: {buffer: q4Buffer}},
        {binding: 2, resource: {buffer: scaleBuffer}},
        {binding: 3, resource: {buffer: zpBuffer}},
        {binding: 4, resource: {buffer: yBuffer}},
        {binding: 5, resource: {buffer: paramsBuffer}},
      ],
    });
    chunks.push({rowOffset, chunkRows, bindGroup});
  }

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    for (const chunk of chunks) {
      const pass = encoder.beginComputePass();
      pass.setPipeline(pipeline);
      pass.setBindGroup(0, chunk.bindGroup);
      pass.dispatchWorkgroups(Math.ceil(m / tileCols), Math.ceil(chunk.chunkRows / 32));
      pass.end();
    }
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let verification = null;
  if (config.verify) {
    if (chunks.length > 1) {
      throw new Error("verification for row-blocked q4 runs is not implemented");
    }
    const output = await readFloat32Buffer(device, yBuffer, rowBlock * m);
    const expected = [];
    const rows = Math.min(n, Number(config.verifyRows || 2));
    const cols = Math.min(m, Number(config.prefixCount || 8));
    for (let row = 0; row < rows; ++row) {
      for (let col = 0; col < cols; ++col) {
        expected.push({
          row,
          col,
          m,
          expected: q4CpuOutput(row, col, k, m, groupSize, packedWords, inputF16, q4, scales, zeroPoints),
        });
      }
    }
    verification = verificationSummary(output, expected);
  }

  const medianMs = median(times);
  const macs = n * k * m;
  return {
    mode: "q4_zp",
    shape: {n, k, m},
    tile_cols: tileCols,
    row_block: rowBlock,
    chunks: chunks.length,
    timed_ms: times,
    summary: {
      median_dispatch_ms: medianMs,
      effective_tmacs: macs / (medianMs / 1000) / 1e12,
    },
    verification,
  };
}

async function runI8Bench(device, manifest, bundleBaseUrl, config, inputF32) {
  if (!manifest.i8_dp4a) {
    return {mode: "i8_dp4a", skipped: "bundle has no i8_dp4a section"};
  }
  const k = manifest.shape.K;
  const m = manifest.shape.N;
  const n = Number(config.n || 256);
  const kWords = manifest.i8_dp4a.k_words;
  const tileCols = Number(config.i8TileCols || 96);
  const i8Kernel = config.i8Kernel || "32xwide";
  const i8RowsPerWorkgroup = i8Kernel === "16xwide" ? 16 : 32;
  const maxOutputRows = Math.max(
    1,
    Math.floor((device.limits.maxStorageBufferBindingSize || 134217728) / (m * 4))
  );
  const rowBlock = Math.max(1, Math.min(n, Number(config.rowBlockSize || maxOutputRows)));

  const [wBuf, scaleBuf] = await Promise.all([
    fetchArrayBuffer(`${bundleBaseUrl}${manifest.i8_dp4a.packed_u32}`),
    fetchArrayBuffer(`${bundleBaseUrl}${manifest.i8_dp4a.scales_f32}`),
  ]);
  const wPacked = new Uint32Array(wBuf);
  const wScales = new Float32Array(scaleBuf);

  const xF32Buffer = createBuffer(device, inputF32, GPUBufferUsage.STORAGE);
  const xPackedBuffer = createEmptyBuffer(device, n * kWords * 4, GPUBufferUsage.STORAGE);
  const xScalesBuffer = createEmptyBuffer(device, n * 4, GPUBufferUsage.STORAGE);
  const wBuffer = createBuffer(device, wPacked, GPUBufferUsage.STORAGE);
  const wScaleBuffer = createBuffer(device, wScales, GPUBufferUsage.STORAGE);
  const yBuffer = createEmptyBuffer(device, rowBlock * m * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const quantParams = new Uint32Array([n, k, m, kWords]);
  const quantParamsBuffer = createBuffer(device, quantParams, GPUBufferUsage.UNIFORM);

  const quantModule = device.createShaderModule({code: QUANTIZE_X_F32_SHADER});
  const dotModule = device.createShaderModule({
    code: i8Kernel === "16xwide"
      ? makeI8ScaledDotShader16xWide(tileCols)
      : makeI8ScaledDotShader32xWide(tileCols),
  });
  const quantPipeline = await device.createComputePipelineAsync({
    layout: "auto",
    compute: {module: quantModule, entryPoint: "main"},
  });
  const dotPipeline = await device.createComputePipelineAsync({
    layout: "auto",
    compute: {module: dotModule, entryPoint: "main"},
  });
  const quantBindGroup = device.createBindGroup({
    layout: quantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: xF32Buffer}},
      {binding: 1, resource: {buffer: xPackedBuffer}},
      {binding: 2, resource: {buffer: xScalesBuffer}},
      {binding: 3, resource: {buffer: quantParamsBuffer}},
    ],
  });
  const chunks = [];
  for (let rowOffset = 0; rowOffset < n; rowOffset += rowBlock) {
    const chunkRows = Math.min(rowBlock, n - rowOffset);
    const params = new Uint32Array([chunkRows, k, m, kWords, rowOffset, 0, 0, 0]);
    const paramsBuffer = createBuffer(device, params, GPUBufferUsage.UNIFORM);
    const dotBindGroup = device.createBindGroup({
      layout: dotPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: xPackedBuffer}},
        {binding: 1, resource: {buffer: wBuffer}},
        {binding: 2, resource: {buffer: xScalesBuffer}},
        {binding: 3, resource: {buffer: wScaleBuffer}},
        {binding: 4, resource: {buffer: yBuffer}},
        {binding: 5, resource: {buffer: paramsBuffer}},
      ],
    });
    chunks.push({rowOffset, chunkRows, dotBindGroup});
  }

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    let pass = encoder.beginComputePass();
    pass.setPipeline(quantPipeline);
    pass.setBindGroup(0, quantBindGroup);
    pass.dispatchWorkgroups(n);
    pass.end();
    for (const chunk of chunks) {
      pass = encoder.beginComputePass();
      pass.setPipeline(dotPipeline);
      pass.setBindGroup(0, chunk.dotBindGroup);
      pass.dispatchWorkgroups(Math.ceil(m / tileCols), Math.ceil(chunk.chunkRows / i8RowsPerWorkgroup));
      pass.end();
    }
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let verification = null;
  if (config.verify) {
    if (chunks.length > 1) {
      throw new Error("verification for row-blocked i8 runs is not implemented");
    }
    const output = await readFloat32Buffer(device, yBuffer, rowBlock * m);
    const expected = [];
    const rows = Math.min(n, Number(config.verifyRows || 2));
    const cols = Math.min(m, Number(config.prefixCount || 8));
    for (let row = 0; row < rows; ++row) {
      for (let col = 0; col < cols; ++col) {
        expected.push({
          row,
          col,
          m,
          expected: i8CpuOutput(row, col, k, m, kWords, inputF32, wPacked, wScales),
        });
      }
    }
    verification = verificationSummary(output, expected);
  }

  const medianMs = median(times);
  const macs = n * k * m;
  return {
    mode: "i8_dp4a",
    shape: {n, k, m},
    kernel: i8Kernel,
    tile_cols: tileCols,
    row_block: rowBlock,
    chunks: chunks.length,
    timed_ms: times,
    summary: {
      median_dispatch_ms: medianMs,
      effective_tmacs: macs / (medianMs / 1000) / 1e12,
    },
    verification,
  };
}

async function runCustomLowbitLinearBench(config = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const bundleBaseUrl = config.bundleBaseUrl || "/bundle/";
  const manifest = await (await fetch(`${bundleBaseUrl}manifest.json`)).json();
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }

  const requiredFeatures = [];
  if (!adapter.features.has("shader-f16")) {
    throw new Error("WebGPU adapter does not expose shader-f16");
  }
  requiredFeatures.push("shader-f16");
  const wantI8 = (config.mode || "both") !== "q4";
  const wgslLanguageFeatures = navigator.gpu.wgslLanguageFeatures || new Set();
  const hasDp4a = wgslLanguageFeatures.has("packed_4x8_integer_dot_product");
  const device = await adapter.requestDevice({requiredFeatures});
  const n = Number(config.n || 256);
  const k = manifest.shape.K;
  const mode = config.mode || "both";
  const inputF16 = buildInputF16(n, k);
  const inputF32 = buildInputF32(n, k);

  const results = [];
  if (mode === "q4" || mode === "both") {
    results.push(await runQ4Bench(device, manifest, bundleBaseUrl, config, inputF16));
  }
  if (mode === "i8" || mode === "both") {
    if (!hasDp4a) {
      results.push({mode: "i8_dp4a", skipped: "adapter lacks packed-4x8-integer-dot-product"});
    } else {
      results.push(await runI8Bench(device, manifest, bundleBaseUrl, config, inputF32));
    }
  }

  return {
    verdict: "custom-lowbit-linear-bench-completed",
    manifest: {
      name: manifest.name,
      source_node: manifest.source_node,
      shape: manifest.shape,
      matmul_nbits: manifest.matmul_nbits,
    },
    adapter_features: Array.from(adapter.features).sort(),
    wgsl_language_features: Array.from(wgslLanguageFeatures).sort(),
    config: {
      n,
      mode,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      verify: Boolean(config.verify),
    },
    results,
  };
}

window.runCustomLowbitLinearBench = runCustomLowbitLinearBench;

async function runCustomLowbitLinearManifestBench(config = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const manifest = config.manifest;
  if (!manifest || !manifest.shape || !manifest.q4 || !manifest.matmul_nbits) {
    throw new Error("runCustomLowbitLinearManifestBench requires a manifest entry with shape, q4, and matmul_nbits");
  }
  const linearManifest = {
    ...manifest,
    q4: {
      ...manifest.q4,
      packed_u32: manifest.q4.packed_u32 || manifest.q4.qweight_u32,
      scales_f16: manifest.q4.scales_f16,
      zero_points_u32: manifest.q4.zero_points_u32,
      packed_u32_count: manifest.q4.packed_u32_count || manifest.q4.qweight_u32_count,
    },
  };
  const bundleBaseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }
  if (!adapter.features.has("shader-f16")) {
    throw new Error("WebGPU adapter does not expose shader-f16");
  }
  const wgslLanguageFeatures = navigator.gpu.wgslLanguageFeatures || new Set();
  const deviceDescriptor = {requiredFeatures: ["shader-f16"]};
  if (adapter.limits && adapter.limits.maxComputeWorkgroupStorageSize >= 32768) {
    deviceDescriptor.requiredLimits = {maxComputeWorkgroupStorageSize: 32768};
  }
  const device = await adapter.requestDevice(deviceDescriptor);
  const n = Number(config.n || 16);
  const k = manifest.shape.K;
  const mode = config.mode || "q4";
  const inputF16 = buildInputF16(n, k);
  const inputF32 = mode === "i8" || mode === "both" ? buildInputF32(n, k) : null;
  const results = [];

  if (mode === "q4" || mode === "both") {
    results.push(await runQ4Bench(device, linearManifest, bundleBaseUrl, config, inputF16));
  }
  if (mode === "i8" || mode === "both") {
    if (!linearManifest.i8_dp4a) {
      results.push({mode: "i8_dp4a", skipped: "manifest entry does not contain i8_dp4a weights"});
    } else if (!wgslLanguageFeatures.has("packed_4x8_integer_dot_product")) {
      results.push({mode: "i8_dp4a", skipped: "adapter lacks packed-4x8-integer-dot-product"});
    } else {
      results.push(await runI8Bench(device, linearManifest, bundleBaseUrl, config, inputF32));
    }
  }

  return {
    verdict: "custom-lowbit-linear-manifest-bench-completed",
    manifest: {
      id: manifest.id || "",
      name: manifest.name || "",
      source_node: manifest.source_node,
      shape: manifest.shape,
      matmul_nbits: manifest.matmul_nbits,
    },
    adapter_features: Array.from(adapter.features).sort(),
    wgsl_language_features: Array.from(wgslLanguageFeatures).sort(),
    config: {
      n,
      mode,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      verify: Boolean(config.verify),
    },
    results,
  };
}

window.runCustomLowbitLinearManifestBench = runCustomLowbitLinearManifestBench;

function normalizeFullLinearEntry(entry) {
  if (!entry || !entry.shape || !entry.q4 || !entry.matmul_nbits) {
    throw new Error("full transformer linear entry requires shape, q4, and matmul_nbits");
  }
  return {
    ...entry,
    q4: {
      ...entry.q4,
      packed_u32: entry.q4.packed_u32 || entry.q4.qweight_u32,
      scales_f16: entry.q4.scales_f16,
      zero_points_u32: entry.q4.zero_points_u32,
      packed_u32_count: entry.q4.packed_u32_count || entry.q4.qweight_u32_count,
    },
  };
}

function findFullManifestLinear(fullManifest, id) {
  const linears = fullManifest && Array.isArray(fullManifest.linears) ? fullManifest.linears : [];
  const entry = linears.find((item) => item.id === id || item.name === id || item.source_node === id);
  if (!entry) {
    throw new Error(`full transformer manifest does not contain linear: ${id}`);
  }
  return normalizeFullLinearEntry(entry);
}

function makeTimestepEmbeddingF16(timestep, dim = 256, maxPeriod = 10000, timeFactor = 1000) {
  const half = Math.floor(dim / 2);
  const values = new Uint16Array(dim);
  const scaledTimestep = timestep * timeFactor;
  for (let i = 0; i < half; ++i) {
    const freq = Math.exp(-Math.log(maxPeriod) * i / half);
    const arg = scaledTimestep * freq;
    values[i] = float32ToFloat16Bits(Math.cos(arg));
    values[half + i] = float32ToFloat16Bits(Math.sin(arg));
  }
  if (dim % 2) values[dim - 1] = 0;
  return values;
}

async function createQ4LinearStage(device, entry, bundleBaseUrl, inputBuffer, outputBuffer, rows, tileCols, outputF16 = false, options = {}) {
  const manifest = normalizeFullLinearEntry(entry);
  const k = manifest.shape.K;
  const weightM = manifest.shape.N;
  const colOffset = Number(options.colOffset ?? 0);
  const m = Number(options.outputCols ?? (weightM - colOffset));
  const outputStride = Number(options.outputStride ?? weightM);
  const groupSize = manifest.matmul_nbits.block_size;
  const groups = manifest.matmul_nbits.groups_per_col;
  const packedWords = manifest.matmul_nbits.packed_group_words;
  const kChunk = Number(options.kChunk ?? (tileCols >= 256 ? 32 : 64));
  const unrollK = options.unrollK ?? false;
  const stageCacheKey = options.cacheKey
    ? `q4-stage:${options.cacheKey}:${manifest.id || manifest.name || manifest.source_node}:${rows}:${k}:${m}:${tileCols}:${kChunk}:${unrollK ? 1 : 0}:${outputF16 ? "f16" : "f32"}:${colOffset}:${weightM}:${outputStride}`
    : "";
  return await getCachedStageObject(device, stageCacheKey, async () => {
  const q4Url = new URL(manifest.q4.packed_u32, new URL(bundleBaseUrl, window.location.href)).toString();
  const scalesUrl = new URL(manifest.q4.scales_f16, new URL(bundleBaseUrl, window.location.href)).toString();
  const zpUrl = new URL(manifest.q4.zero_points_u32, new URL(bundleBaseUrl, window.location.href)).toString();
  const [q4Buf, scalesBuf, zpBuf] = await Promise.all([
    fetchArrayBuffer(q4Url),
    fetchArrayBuffer(scalesUrl),
    fetchArrayBuffer(zpUrl),
  ]);
  const q4Buffer = createImmutableBuffer(device, new Uint32Array(q4Buf), GPUBufferUsage.STORAGE, q4Url);
  const scaleBuffer = createImmutableBuffer(device, new Uint16Array(scalesBuf), GPUBufferUsage.STORAGE, scalesUrl);
  const zpBuffer = createImmutableBuffer(device, new Uint32Array(zpBuf), GPUBufferUsage.STORAGE, zpUrl);
  const paramsBuffer = createBuffer(
    device,
    new Uint32Array([rows, k, m, groupSize, groups, packedWords, 0, colOffset, weightM, outputStride, 0, 0]),
    GPUBufferUsage.UNIFORM,
  );
  const pipeline = await getCachedComputePipeline(
    device,
    `q4-zp-32xwide:${tileCols}:${kChunk}:${unrollK ? 1 : 0}:${outputF16 ? "f16" : "f32"}`,
    makeQ4ZpShader32xWide(tileCols, outputF16, kChunk, unrollK),
  );
  const bindGroup = device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: inputBuffer}},
      {binding: 1, resource: {buffer: q4Buffer}},
      {binding: 2, resource: {buffer: scaleBuffer}},
      {binding: 3, resource: {buffer: zpBuffer}},
      {binding: 4, resource: {buffer: outputBuffer}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  return {
    id: manifest.id || manifest.name || manifest.source_node,
    shape: manifest.shape,
    pipeline,
    bindGroup,
    buffers: [q4Buffer, scaleBuffer, zpBuffer, paramsBuffer],
    workgroupsX: Math.ceil(m / tileCols),
    workgroupsY: Math.ceil(rows / 32),
    kChunk,
    unrollK,
  };
  });
}

async function createQ4Dp4aLinearStage(
  device,
  entry,
  bundleBaseUrl,
  inputPackedBuffer,
  inputScalesBuffer,
  outputBuffer,
  rows,
  tileCols,
  wChunkCols,
  outputF16 = true,
  options = {},
) {
  const manifest = normalizeFullLinearEntry(entry);
  const k = manifest.shape.K;
  const weightM = manifest.shape.N;
  const colOffset = Number(options.colOffset ?? 0);
  const m = Number(options.outputCols ?? (weightM - colOffset));
  const outputStride = Number(options.outputStride ?? weightM);
  const xScaleGroupsPerRow = Number(options.xScaleGroupsPerRow ?? 1);
  const groupSize = manifest.matmul_nbits.block_size;
  const groups = manifest.matmul_nbits.groups_per_col;
  const packedWords = manifest.matmul_nbits.packed_group_words;
  const kWords = k / 4;
  if (k % 4 !== 0) {
    throw new Error(`q4 dp4a stage requires K divisible by 4; got K=${k} for ${manifest.id || manifest.name || manifest.source_node}`);
  }
  const stageCacheKey = options.cacheKey
    ? `q4-dp4a-stage:${options.cacheKey}:${manifest.id || manifest.name || manifest.source_node}:${rows}:${k}:${m}:${tileCols}:${wChunkCols}:${outputF16 ? "f16" : "f32"}:${colOffset}:${weightM}:${outputStride}:${xScaleGroupsPerRow}`
    : "";
  return await getCachedStageObject(device, stageCacheKey, async () => {
  const q4Url = new URL(manifest.q4.packed_u32, new URL(bundleBaseUrl, window.location.href)).toString();
  const scalesUrl = new URL(manifest.q4.scales_f16, new URL(bundleBaseUrl, window.location.href)).toString();
  const zpUrl = new URL(manifest.q4.zero_points_u32, new URL(bundleBaseUrl, window.location.href)).toString();
  const [q4Buf, scalesBuf, zpBuf] = await Promise.all([
    fetchArrayBuffer(q4Url),
    fetchArrayBuffer(scalesUrl),
    fetchArrayBuffer(zpUrl),
  ]);
  const q4Buffer = createImmutableBuffer(device, new Uint32Array(q4Buf), GPUBufferUsage.STORAGE, q4Url);
  const scaleBuffer = createImmutableBuffer(device, new Uint16Array(scalesBuf), GPUBufferUsage.STORAGE, scalesUrl);
  const zpBuffer = createImmutableBuffer(device, new Uint32Array(zpBuf), GPUBufferUsage.STORAGE, zpUrl);
  const paramsBuffer = createBuffer(
    device,
    new Uint32Array([rows, k, m, groupSize, groups, packedWords, 0, colOffset, weightM, outputStride, kWords, xScaleGroupsPerRow]),
    GPUBufferUsage.UNIFORM,
  );
  const pipeline = await getCachedComputePipeline(
    device,
    `q4-zp-dp4a-32xwide:${tileCols}:${wChunkCols}:${outputF16 ? "f16" : "f32"}`,
    makeQ4ZpDp4aShader32xWide(tileCols, wChunkCols, outputF16),
  );
  const bindGroup = device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: inputPackedBuffer}},
      {binding: 1, resource: {buffer: q4Buffer}},
      {binding: 2, resource: {buffer: inputScalesBuffer}},
      {binding: 3, resource: {buffer: scaleBuffer}},
      {binding: 4, resource: {buffer: zpBuffer}},
      {binding: 5, resource: {buffer: outputBuffer}},
      {binding: 6, resource: {buffer: paramsBuffer}},
    ],
  });
  return {
    id: manifest.id || manifest.name || manifest.source_node,
    shape: manifest.shape,
    pipeline,
    bindGroup,
    buffers: [q4Buffer, scaleBuffer, zpBuffer, paramsBuffer],
    workgroupsX: Math.ceil(m / tileCols),
    workgroupsY: Math.ceil(rows / 32),
    q4Dp4a: true,
  };
  });
}

async function createF32ToF16Stage(device, inputBuffer, outputBuffer, count, applySilu, cacheKey = "") {
  return await getCachedStageObject(device, cacheKey ? `f32-to-f16-stage:${cacheKey}:${count}:${applySilu ? 1 : 0}` : "", async () => {
  const pipeline = await getCachedComputePipeline(device, "f32-to-f16", F32_TO_F16_SHADER);
  const paramsBuffer = createBuffer(
    device,
    new Uint32Array([count, applySilu ? 1 : 0, 0, 0]),
    GPUBufferUsage.UNIFORM,
  );
  const bindGroup = device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: inputBuffer}},
      {binding: 1, resource: {buffer: outputBuffer}},
      {binding: 2, resource: {buffer: paramsBuffer}},
    ],
  });
  return {pipeline, bindGroup, buffers: [paramsBuffer], workgroupsX: Math.ceil(count / 256), applySilu};
  });
}

function modulationOutputId(kind) {
  const normalized = String(kind || "single").toLowerCase();
  if (normalized === "single" || normalized === "single_stream") return "single_stream_modulation.lin";
  if (normalized === "double_img" || normalized === "img") return "double_stream_modulation_img.lin";
  if (normalized === "double_txt" || normalized === "txt") return "double_stream_modulation_txt.lin";
  return normalized;
}

function findQkNormEntry(fullManifest, id) {
  const entries = fullManifest && fullManifest.constants && Array.isArray(fullManifest.constants.qk_norms)
    ? fullManifest.constants.qk_norms
    : [];
  const entry = entries.find((item) => item.id === id || item.name === id);
  if (!entry || !entry.files) {
    throw new Error(`full transformer manifest does not contain q/k norm constants: ${id}`);
  }
  return entry;
}

async function loadQkNormScales(fullManifest, bundleBaseUrl, id) {
  const entry = findQkNormEntry(fullManifest, id);
  const queryScaleUrl = new URL(entry.files.query_norm_scale_f16, new URL(bundleBaseUrl, window.location.href)).toString();
  const keyScaleUrl = new URL(entry.files.key_norm_scale_f16, new URL(bundleBaseUrl, window.location.href)).toString();
  const [queryBuf, keyBuf] = await Promise.all([
    fetchArrayBuffer(queryScaleUrl),
    fetchArrayBuffer(keyScaleUrl),
  ]);
  return {
    entry,
    queryScale: new Uint16Array(queryBuf),
    keyScale: new Uint16Array(keyBuf),
    queryScaleUrl,
    keyScaleUrl,
  };
}

async function loadDynamicI8BundleFromQ4(entry, bundleBaseUrl) {
  const manifest = normalizeFullLinearEntry(entry);
  const cacheKey = `${bundleBaseUrl}|${manifest.id || manifest.name || manifest.source_node}`;
  if (dynamicI8BundleCache.has(cacheKey)) {
    const cached = await dynamicI8BundleCache.get(cacheKey);
    return {
      ...cached,
      cacheHit: true,
      loadMs: 0,
      convertMs: 0,
    };
  }
  const k = manifest.shape.K;
  const m = manifest.shape.N;
  const groupSize = manifest.matmul_nbits.block_size;
  const groups = manifest.matmul_nbits.groups_per_col;
  const packedWords = manifest.matmul_nbits.packed_group_words;
  const kWords = Math.ceil(k / 4);
  const promise = (async () => {
    const start = performance.now();
    const [q4Buf, scalesBuf, zpBuf] = await Promise.all([
      fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.packed_u32}`),
      fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.scales_f16}`),
      fetchArrayBuffer(`${bundleBaseUrl}${manifest.q4.zero_points_u32}`),
    ]);
    const fetchMs = performance.now() - start;
    const q4 = new Uint32Array(q4Buf);
    const scales = new Uint16Array(scalesBuf);
    const zeroPoints = new Uint32Array(zpBuf);
    const wPacked = new Uint32Array(kWords * m);
    const wScales = new Float32Array(m);

    function dequant(col, kIndex) {
      const group = Math.floor(kIndex / groupSize);
      const inner = kIndex - group * groupSize;
      const word = Math.floor(inner / 8);
      const shift = (inner & 7) * 4;
      const packed = q4[(group * packedWords + word) * m + col];
      const nibble = (packed >>> shift) & 15;
      const zp = zeroPoints[group * m + col] & 15;
      return (nibble - zp) * float16BitsToFloat32(scales[group * m + col]);
    }

    const convertStart = performance.now();
    for (let col = 0; col < m; ++col) {
      let absmax = 0;
      for (let kIndex = 0; kIndex < k; ++kIndex) {
        absmax = Math.max(absmax, Math.abs(dequant(col, kIndex)));
      }
      const scale = absmax > 0 ? absmax / 127 : 1;
      wScales[col] = scale;
      for (let word = 0; word < kWords; ++word) {
        let packed = 0;
        for (let lane = 0; lane < 4; ++lane) {
          const kIndex = word * 4 + lane;
          let q = 0;
          if (kIndex < k) {
            q = roundToNearest(dequant(col, kIndex) / scale);
            q = Math.max(-127, Math.min(127, q));
          }
          packed = (packed | ((q & 0xff) << (lane * 8))) >>> 0;
        }
        wPacked[word * m + col] = packed;
      }
    }
    const convertMs = performance.now() - convertStart;
    return {
      manifest: {
        ...manifest,
        i8_dp4a: {
          k_words: kWords,
          packed_u32_count: wPacked.length,
          scale_count: wScales.length,
          generated_from_q4: true,
        },
      },
      weight: wPacked,
      scales: wScales,
      weightCacheKey: `${cacheKey}:dynamic-weight`,
      scalesCacheKey: `${cacheKey}:dynamic-scales`,
      loadMs: fetchMs,
      convertMs,
      cacheHit: false,
    };
  })();
  dynamicI8BundleCache.set(cacheKey, promise);
  try {
    const result = await promise;
    dynamicI8BundleCache.set(cacheKey, result);
    return result;
  } catch (err) {
    dynamicI8BundleCache.delete(cacheKey);
    throw err;
  }
}

async function loadI8BundleFromFullEntry(entry, bundleBaseUrl) {
  const manifest = normalizeFullLinearEntry(entry);
  if (!manifest.i8_dp4a) {
    return loadDynamicI8BundleFromQ4(manifest, bundleBaseUrl);
  }
  const cacheKey = `${bundleBaseUrl}|${manifest.id || manifest.name || manifest.source_node}|prepacked-i8`;
  if (dynamicI8BundleCache.has(cacheKey)) {
    const cached = await dynamicI8BundleCache.get(cacheKey);
    return {
      ...cached,
      cacheHit: true,
      loadMs: 0,
      convertMs: 0,
    };
  }
  const promise = (async () => {
    const start = performance.now();
    const weightUrl = new URL(manifest.i8_dp4a.packed_u32, new URL(bundleBaseUrl, window.location.href)).toString();
    const scalesUrl = new URL(manifest.i8_dp4a.scales_f32, new URL(bundleBaseUrl, window.location.href)).toString();
    const [wBuf, scaleBuf] = await Promise.all([
      fetchArrayBuffer(weightUrl),
      fetchArrayBuffer(scalesUrl),
    ]);
    return {
      manifest: {
        id: manifest.id,
        name: manifest.name,
        source_node: manifest.source_node,
        shape: manifest.shape,
        i8_dp4a: manifest.i8_dp4a,
      },
      weight: new Uint32Array(wBuf),
      scales: new Float32Array(scaleBuf),
      weightCacheKey: weightUrl,
      scalesCacheKey: scalesUrl,
      loadMs: performance.now() - start,
      convertMs: 0,
      cacheHit: false,
      prepackedI8: true,
    };
  })();
  dynamicI8BundleCache.set(cacheKey, promise);
  try {
    const result = await promise;
    dynamicI8BundleCache.set(cacheKey, result);
    return result;
  } catch (err) {
    dynamicI8BundleCache.delete(cacheKey);
    throw err;
  }
}

async function loadFullTransformerAssetSet(fullManifest, baseUrl, doubleBlockCount = 5, singleBlockCount = 20) {
  const [imgIn, txtIn, finalLinear, doubleBlocks, singleBlocks, singleNorms] = await Promise.all([
    loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, "img_in"), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, "txt_in"), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, "final_layer.linear"), baseUrl),
    Promise.all(Array.from({length: doubleBlockCount}, async (_, blockIndex) => {
      const [
        imgQkv, txtQkv, imgProj, txtProj, imgMlp0, imgMlp2, txtMlp0, txtMlp2,
        imgNorm, txtNorm,
      ] = await Promise.all([
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.img_attn.qkv`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.txt_attn.qkv`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.img_attn.proj`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.txt_attn.proj`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.img_mlp.0`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.img_mlp.2`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.txt_mlp.0`), baseUrl),
        loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `double_blocks.${blockIndex}.txt_mlp.2`), baseUrl),
        loadQkNormScales(fullManifest, baseUrl, `double_blocks.${blockIndex}.img_attn.norm`),
        loadQkNormScales(fullManifest, baseUrl, `double_blocks.${blockIndex}.txt_attn.norm`),
      ]);
      return {blockIndex, imgQkv, txtQkv, imgProj, txtProj, imgMlp0, imgMlp2, txtMlp0, txtMlp2, imgNorm, txtNorm};
    })),
    Promise.all(Array.from({length: singleBlockCount}, async (_, blockIndex) => ({
      blockIndex,
      linear1: await loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `single_blocks.${blockIndex}.linear1`), baseUrl),
      linear2: await loadI8BundleFromFullEntry(findFullManifestLinear(fullManifest, `single_blocks.${blockIndex}.linear2`), baseUrl),
    }))),
    Promise.all(Array.from({length: singleBlockCount}, (_, blockIndex) => loadQkNormScales(fullManifest, baseUrl, `single_blocks.${blockIndex}.norm`))),
  ]);
  return {imgIn, txtIn, finalLinear, doubleBlocks, singleBlocks, singleNorms};
}

function summarizeFullTransformerAssetSet(assetSet) {
  let linears = 0;
  let cacheHits = 0;
  let bytes = 0;
  let qkNorms = 0;
  const visit = (value) => {
    if (!value || typeof value !== "object") return;
    if (Array.isArray(value)) {
      for (const item of value) visit(item);
      return;
    }
    if (value.weight && value.scales && value.manifest) {
      linears += 1;
      if (value.cacheHit) cacheHits += 1;
      bytes += (value.weight.byteLength || 0) + (value.scales.byteLength || 0);
      return;
    }
    if (value.queryScale && value.keyScale) {
      qkNorms += 1;
      bytes += (value.queryScale.byteLength || 0) + (value.keyScale.byteLength || 0);
      return;
    }
    for (const child of Object.values(value)) visit(child);
  };
  visit(assetSet);
  return {
    linears,
    cacheHits,
    cacheMisses: Math.max(0, linears - cacheHits),
    qkNorms,
    bytes,
  };
}

async function prepareCustomFluxTransformerAssets(config = {}) {
  if (!config.fullManifest) {
    throw new Error("custom full transformer asset prepare requires fullManifest");
  }
  const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const doubleBlockCount = Math.max(1, Math.min(5, Math.trunc(Number(config.maxDoubleBlocks || config.doubleBlockCount || 5))));
  const singleBlockCount = Math.max(0, Math.min(20, Math.trunc(Number(config.maxSingleBlocks || config.singleBlockCount || 20))));
  const start = performance.now();
  const assets = await loadFullTransformerAssetSet(config.fullManifest, baseUrl, doubleBlockCount, singleBlockCount);
  const loadMs = performance.now() - start;
  return {
    verdict: "custom-flux-transformer-assets-prepared",
    load: {total_ms: loadMs},
    summary: {
      ...summarizeFullTransformerAssetSet(assets),
      doubleBlockCount,
      singleBlockCount,
    },
  };
}

async function runCustomTimestepModulationBench(config = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }
  if (!adapter.features.has("shader-f16")) {
    throw new Error("WebGPU adapter does not expose shader-f16");
  }
  const deviceDescriptor = {requiredFeatures: ["shader-f16"]};
  if (adapter.limits && adapter.limits.maxComputeWorkgroupStorageSize >= 32768) {
    deviceDescriptor.requiredLimits = {maxComputeWorkgroupStorageSize: 32768};
  }
  const device = await adapter.requestDevice(deviceDescriptor);
  const fullManifest = config.manifest;
  const bundleBaseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const tileCols = Number(config.q4TileCols || 96);
  const timestep = Number(config.timestep ?? 1.0);
  const modId = modulationOutputId(config.modulation || config.modulationKind || "single");

  const timeInIn = findFullManifestLinear(fullManifest, "time_in.in_layer");
  const timeInOut = findFullManifestLinear(fullManifest, "time_in.out_layer");
  const modulation = findFullManifestLinear(fullManifest, modId);
  if (timeInIn.shape.K !== 256 || timeInIn.shape.N !== 3072 ||
      timeInOut.shape.K !== 3072 || timeInOut.shape.N !== 3072 ||
      modulation.shape.K !== 3072) {
    throw new Error(`unexpected modulation chain shapes: ${timeInIn.shape.K}x${timeInIn.shape.N}, ${timeInOut.shape.K}x${timeInOut.shape.N}, ${modulation.shape.K}x${modulation.shape.N}`);
  }

  const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(timestep), GPUBufferUsage.STORAGE);
  const hiddenF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const hiddenF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const modF32Buffer = createEmptyBuffer(device, modulation.shape.N * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);

  const stage0 = await createQ4LinearStage(device, timeInIn, bundleBaseUrl, timestepBuffer, hiddenF32Buffer, 1, tileCols);
  const siluStage = await createF32ToF16Stage(device, hiddenF32Buffer, hiddenF16Buffer, 3072, true);
  const stage1 = await createQ4LinearStage(device, timeInOut, bundleBaseUrl, hiddenF16Buffer, vecF32Buffer, 1, tileCols);
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, 3072, true);
  const stage2 = await createQ4LinearStage(device, modulation, bundleBaseUrl, vecF16Buffer, modF32Buffer, 1, tileCols);

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    let pass = encoder.beginComputePass();
    pass.setPipeline(stage0.pipeline);
    pass.setBindGroup(0, stage0.bindGroup);
    pass.dispatchWorkgroups(stage0.workgroupsX, stage0.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(siluStage.pipeline);
    pass.setBindGroup(0, siluStage.bindGroup);
    pass.dispatchWorkgroups(siluStage.workgroupsX);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(stage1.pipeline);
    pass.setBindGroup(0, stage1.bindGroup);
    pass.dispatchWorkgroups(stage1.workgroupsX, stage1.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(vecCastStage.pipeline);
    pass.setBindGroup(0, vecCastStage.bindGroup);
    pass.dispatchWorkgroups(vecCastStage.workgroupsX);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(stage2.pipeline);
    pass.setBindGroup(0, stage2.bindGroup);
    pass.dispatchWorkgroups(stage2.workgroupsX, stage2.workgroupsY);
    pass.end();

    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  const readbackSample = Number(config.readbackSample ?? 24);
  if (readbackSample > 0) {
    const values = await readFloat32Buffer(device, modF32Buffer, Math.min(readbackSample, modulation.shape.N));
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count: values.length, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(12, values.length)))};
  }

  const medianMs = median(times);
  return {
    verdict: "custom-timestep-modulation-bench-completed",
    config: {
      timestep,
      modulation: modId,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      q4TileCols: tileCols,
    },
    stages: [
      {id: stage0.id, shape: stage0.shape},
      {id: "silu"},
      {id: stage1.id, shape: stage1.shape},
      {id: "cast_vec_f32_to_f16"},
      {id: stage2.id, shape: stage2.shape},
    ],
    timed_ms: times,
    summary: {
      median_dispatch_ms: medianMs,
    },
    sample,
  };
}

window.runCustomTimestepModulationBench = runCustomTimestepModulationBench;

async function runCustomSingleBlockQ4Bench(config = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }
  if (!adapter.features.has("shader-f16")) {
    throw new Error("WebGPU adapter does not expose shader-f16");
  }
  const deviceDescriptor = {requiredFeatures: ["shader-f16"]};
  if (adapter.limits && adapter.limits.maxComputeWorkgroupStorageSize >= 32768) {
    deviceDescriptor.requiredLimits = {maxComputeWorkgroupStorageSize: 32768};
  }
  const device = await adapter.requestDevice(deviceDescriptor);
  const fullManifest = config.manifest;
  const bundleBaseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const blockIndex = Number(config.blockIndex ?? 0);
  const n = Number(config.n ?? 768);
  const inputK = 3072;
  const linear1M = 27648;
  const linear2K = 12288;
  const linear2M = 3072;
  const tileCols = Number(config.q4TileCols || 96);
  const textTokens = Math.max(0, Math.min(n, Number(config.textTokens ?? 512)));
  const imageTokens = Math.max(0, n - textTokens);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imageTokens)))));
  const useRope = config.rope !== false;

  const linear1 = findFullManifestLinear(fullManifest, `single_blocks.${blockIndex}.linear1`);
  const linear2 = findFullManifestLinear(fullManifest, `single_blocks.${blockIndex}.linear2`);
  const modulation = findFullManifestLinear(fullManifest, "single_stream_modulation.lin");
  if (linear1.shape.K !== inputK || linear1.shape.N !== linear1M || linear2.shape.K !== linear2K || linear2.shape.N !== linear2M) {
    throw new Error(`unexpected single block ${blockIndex} q4 shapes: linear1 ${linear1.shape.K}x${linear1.shape.N}, linear2 ${linear2.shape.K}x${linear2.shape.N}`);
  }
  const qk = await loadQkNormScales(fullManifest, bundleBaseUrl, `single_blocks.${blockIndex}.norm`);

  const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(Number(config.timestep ?? 1.0)), GPUBufferUsage.STORAGE);
  const timeHiddenF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const timeHiddenF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const modF32Buffer = createEmptyBuffer(device, 9216 * 4, GPUBufferUsage.STORAGE);

  const xF32Buffer = createBuffer(device, buildInputF32(n, inputK), GPUBufferUsage.STORAGE);
  const xNormF16Buffer = createEmptyBuffer(device, n * inputK * 2, GPUBufferUsage.STORAGE);
  const linear1OutBuffer = createEmptyBuffer(device, n * linear1M * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const qNormBuffer = createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE);
  const kNormBuffer = createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE);
  const attentionOutBuffer = createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE);
  const linear2InF32Buffer = createEmptyBuffer(device, n * linear2K * 4, GPUBufferUsage.STORAGE);
  const linear2InF16Buffer = createEmptyBuffer(device, n * linear2K * 2, GPUBufferUsage.STORAGE);
  const linear2OutBuffer = createEmptyBuffer(device, n * linear2M * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const residualOutputBuffer = createEmptyBuffer(device, n * linear2M * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const queryScaleBuffer = createBuffer(device, qk.queryScale, GPUBufferUsage.STORAGE);
  const keyScaleBuffer = createBuffer(device, qk.keyScale, GPUBufferUsage.STORAGE);
  const ropeFreqBuffer = useRope ? createBuffer(device, buildFluxRopeSinCos(n, textTokens, imageWidth), GPUBufferUsage.STORAGE) : null;

  const timeIn0 = findFullManifestLinear(fullManifest, "time_in.in_layer");
  const timeIn1 = findFullManifestLinear(fullManifest, "time_in.out_layer");
  const timeStage0 = await createQ4LinearStage(device, timeIn0, bundleBaseUrl, timestepBuffer, timeHiddenF32Buffer, 1, tileCols);
  const timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, 3072, true);
  const timeStage1 = await createQ4LinearStage(device, timeIn1, bundleBaseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, tileCols);
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, 3072, true);
  const modStage = await createQ4LinearStage(device, modulation, bundleBaseUrl, vecF16Buffer, modF32Buffer, 1, tileCols);

  const preNormModule = device.createShaderModule({code: SINGLE_PRENORM_MOD_F16_SHADER});
  const qkNormModule = device.createShaderModule({code: useRope ? SINGLE_QK_NORM_ROPE_SHADER : SINGLE_QK_NORM_SHADER});
  const attentionModule = device.createShaderModule({code: SINGLE_ATTENTION_PRENORM_SHADER});
  const activationAttentionModule = device.createShaderModule({code: SINGLE_MLP_ACTIVATION_ATTENTION_SHADER});
  const residualModule = device.createShaderModule({code: SINGLE_RESIDUAL_GATE_SHADER});
  const preNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: preNormModule, entryPoint: "main"}});
  const qkNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: qkNormModule, entryPoint: "main"}});
  const attentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: attentionModule, entryPoint: "main"}});
  const activationPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activationAttentionModule, entryPoint: "main"}});
  const linear2CastStage = await createF32ToF16Stage(device, linear2InF32Buffer, linear2InF16Buffer, n * linear2K, false);
  const linear1Stage = await createQ4LinearStage(device, linear1, bundleBaseUrl, xNormF16Buffer, linear1OutBuffer, n, tileCols);
  const linear2Stage = await createQ4LinearStage(device, linear2, bundleBaseUrl, linear2InF16Buffer, linear2OutBuffer, n, tileCols);
  const residualPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: residualModule, entryPoint: "main"}});

  const preNormParamsBuffer = createBuffer(device, new Uint32Array([n, inputK, 0, 0]), GPUBufferUsage.UNIFORM);
  const attentionParamsBuffer = createBuffer(device, new Uint32Array([n, linear1M, 24, 128, 9216, 3072, textTokens, imageWidth]), GPUBufferUsage.UNIFORM);
  const activationParamsBuffer = createBuffer(device, new Uint32Array([n, linear1M, linear2K, 3072, 9216, 9216, 0, 0]), GPUBufferUsage.UNIFORM);
  const residualParamsBuffer = createBuffer(device, new Uint32Array([n, linear2M, 0, 0]), GPUBufferUsage.UNIFORM);
  const modStride = 3072 * 4;

  const preNormBindGroup = device.createBindGroup({
    layout: preNormPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: xF32Buffer}},
      {binding: 1, resource: {buffer: modF32Buffer, offset: 0}},
      {binding: 2, resource: {buffer: modF32Buffer, offset: modStride}},
      {binding: 3, resource: {buffer: xNormF16Buffer}},
      {binding: 4, resource: {buffer: preNormParamsBuffer}},
    ],
  });
  const qkNormBindGroup = device.createBindGroup({
    layout: qkNormPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: linear1OutBuffer}},
      {binding: 1, resource: {buffer: queryScaleBuffer}},
      {binding: 2, resource: {buffer: keyScaleBuffer}},
      {binding: 3, resource: {buffer: qNormBuffer}},
      {binding: 4, resource: {buffer: kNormBuffer}},
      {binding: 5, resource: {buffer: attentionParamsBuffer}},
      ...(useRope ? [{binding: 6, resource: {buffer: ropeFreqBuffer}}] : []),
    ],
  });
  const attentionBindGroup = device.createBindGroup({
    layout: attentionPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: linear1OutBuffer}},
      {binding: 1, resource: {buffer: qNormBuffer}},
      {binding: 2, resource: {buffer: kNormBuffer}},
      {binding: 3, resource: {buffer: attentionOutBuffer}},
      {binding: 4, resource: {buffer: attentionParamsBuffer}},
    ],
  });
  const activationBindGroup = device.createBindGroup({
    layout: activationPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: linear1OutBuffer}},
      {binding: 1, resource: {buffer: attentionOutBuffer}},
      {binding: 2, resource: {buffer: linear2InF32Buffer}},
      {binding: 3, resource: {buffer: activationParamsBuffer}},
    ],
  });
  const residualBindGroup = device.createBindGroup({
    layout: residualPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: xF32Buffer}},
      {binding: 1, resource: {buffer: linear2OutBuffer}},
      {binding: 2, resource: {buffer: modF32Buffer, offset: modStride * 2}},
      {binding: 3, resource: {buffer: residualOutputBuffer}},
      {binding: 4, resource: {buffer: residualParamsBuffer}},
    ],
  });

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    let pass = encoder.beginComputePass();
    pass.setPipeline(timeStage0.pipeline);
    pass.setBindGroup(0, timeStage0.bindGroup);
    pass.dispatchWorkgroups(timeStage0.workgroupsX, timeStage0.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(timeSiluStage.pipeline);
    pass.setBindGroup(0, timeSiluStage.bindGroup);
    pass.dispatchWorkgroups(timeSiluStage.workgroupsX);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(timeStage1.pipeline);
    pass.setBindGroup(0, timeStage1.bindGroup);
    pass.dispatchWorkgroups(timeStage1.workgroupsX, timeStage1.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(vecCastStage.pipeline);
    pass.setBindGroup(0, vecCastStage.bindGroup);
    pass.dispatchWorkgroups(vecCastStage.workgroupsX);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(modStage.pipeline);
    pass.setBindGroup(0, modStage.bindGroup);
    pass.dispatchWorkgroups(modStage.workgroupsX, modStage.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(preNormPipeline);
    pass.setBindGroup(0, preNormBindGroup);
    pass.dispatchWorkgroups(n);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(linear1Stage.pipeline);
    pass.setBindGroup(0, linear1Stage.bindGroup);
    pass.dispatchWorkgroups(linear1Stage.workgroupsX, linear1Stage.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(qkNormPipeline);
    pass.setBindGroup(0, qkNormBindGroup);
    pass.dispatchWorkgroups(n, 24);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(attentionPipeline);
    pass.setBindGroup(0, attentionBindGroup);
    pass.dispatchWorkgroups(n, 24);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(activationPipeline);
    pass.setBindGroup(0, activationBindGroup);
    pass.dispatchWorkgroups(Math.ceil(linear2K / 256), n);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(linear2CastStage.pipeline);
    pass.setBindGroup(0, linear2CastStage.bindGroup);
    pass.dispatchWorkgroups(linear2CastStage.workgroupsX);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(linear2Stage.pipeline);
    pass.setBindGroup(0, linear2Stage.bindGroup);
    pass.dispatchWorkgroups(linear2Stage.workgroupsX, linear2Stage.workgroupsY);
    pass.end();

    pass = encoder.beginComputePass();
    pass.setPipeline(residualPipeline);
    pass.setBindGroup(0, residualBindGroup);
    pass.dispatchWorkgroups(Math.ceil(linear2M / 256), n);
    pass.end();

    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  if (config.readbackSample) {
    const count = Math.min(Number(config.readbackSample), n * linear2M);
    const values = await readFloat32Buffer(device, residualOutputBuffer, count);
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(8, values.length)))};
  }

  const medianMs = median(times);
  const macs = n * inputK * linear1M + n * linear2K * linear2M;
  return {
    verdict: "custom-single-block-q4-bench-completed",
    config: {
      blockIndex,
      n,
      timestep: Number(config.timestep ?? 1.0),
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      q4TileCols: tileCols,
      rope: useRope,
      textTokens,
      imageWidth,
    },
    layers: {
      modulation: {source_node: modulation.source_node, shape: modulation.shape},
      qkNorm: {id: qk.entry.id, shape: qk.entry.shape},
      linear1: {source_node: linear1.source_node, shape: linear1.shape},
      linear2: {source_node: linear2.source_node, shape: linear2.shape},
    },
    timed_ms: times,
    summary: {
      median_dispatch_ms: medianMs,
      effective_tmacs: macs / (medianMs / 1000) / 1e12,
    },
    sample,
  };
}

window.runCustomSingleBlockQ4Bench = runCustomSingleBlockQ4Bench;

async function runCustomSingleStreamMlpBench(config = {}) {
  if (!navigator.gpu) {
    throw new Error("navigator.gpu is not available");
  }
  const adapter = await navigator.gpu.requestAdapter({powerPreference: "high-performance"});
  if (!adapter) {
    throw new Error("WebGPU adapter is not available");
  }
  if (!adapter.features.has("shader-f16")) {
    throw new Error("WebGPU adapter does not expose shader-f16");
  }
  const wgslLanguageFeatures = navigator.gpu.wgslLanguageFeatures || new Set();
  if (!wgslLanguageFeatures.has("packed_4x8_integer_dot_product")) {
    throw new Error("WGSL packed_4x8_integer_dot_product is not available");
  }

  const deviceDescriptor = {requiredFeatures: ["shader-f16"]};
  if (adapter.limits && adapter.limits.maxComputeWorkgroupStorageSize >= 32768) {
    deviceDescriptor.requiredLimits = {maxComputeWorkgroupStorageSize: 32768};
  }
  const device = await adapter.requestDevice(deviceDescriptor);
  const linear1BaseUrl = config.linear1BaseUrl || "/linear1/";
  const linear2BaseUrl = config.linear2BaseUrl || "/linear2/";
  const blockBaseUrl = config.blockBaseUrl || "/block/";
  const useRealAttention = Boolean(config.realAttention);
  const useDynamicI8FromQ4 = Boolean(config.fullManifest && config.dynamicI8FromQ4);
  const blockIndex = Number(config.blockIndex ?? 0);
  const loadStart = performance.now();
  let linear1;
  let linear2;
  let block;
  if (useDynamicI8FromQ4) {
    [linear1, linear2, block] = await Promise.all([
      loadI8BundleFromFullEntry(
        findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear1`),
        config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/",
      ),
      loadI8BundleFromFullEntry(
        findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear2`),
        config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/",
      ),
      useRealAttention
        ? loadQkNormScales(
            config.fullManifest,
            config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/",
            `single_blocks.${blockIndex}.norm`,
          )
        : Promise.resolve(null),
    ]);
  } else {
    [linear1, linear2, block] = await Promise.all([
      loadI8Bundle(linear1BaseUrl),
      loadI8Bundle(linear2BaseUrl),
      useRealAttention ? loadSingleBlockBundle(blockBaseUrl) : Promise.resolve(null),
    ]);
  }
  const loadMs = performance.now() - loadStart;

  const n = Number(config.n ?? 768);
  const inputK = linear1.manifest.shape.K;
  const linear1M = linear1.manifest.shape.N;
  const linear2K = linear2.manifest.shape.K;
  const linear2M = linear2.manifest.shape.N;
  const linear1KWords = linear1.manifest.i8_dp4a.k_words;
  const linear2KWords = linear2.manifest.i8_dp4a.k_words;
  const linear1TileCols = Number(config.linear1TileCols ?? 256);
  const linear2TileCols = Number(config.linear2TileCols ?? 256);
  const linear1WChunkCols = Number(config.linear1WChunkCols ?? 64);
  const linear2WChunkCols = Number(config.linear2WChunkCols ?? 64);
  const fuseActivationQuant = Boolean(config.fuseActivationQuant);
  const linear1OutputF16 = config.linear1OutputF16 !== false;
  const useRealModulation = Boolean(config.fullManifest && config.realModulation);
  const correctSingleBlock = Boolean(config.correctSingleBlock || useRealModulation);
  const fuseResidualDot = correctSingleBlock && config.fuseResidualDot !== false;
  const singleComputePass = config.singleComputePass !== false;
  const useRope = Boolean(config.rope);
  const useTiledAttention = useRealAttention && config.tiledAttention !== false;
  const attentionTileKeys = Number(config.attentionTileKeys ?? 8);
  const attentionQueryRows = Number(config.attentionQueryRows ?? 16);
  const textTokens = Math.max(0, Math.min(n, Number(config.textTokens ?? 512)));
  const imageTokens = Math.max(0, n - textTokens);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imageTokens)))));
  const rowsPerWorkgroup = 32;
  if (useRealAttention && n > 4608) {
    throw new Error("single-stream real-attention benchmark currently supports n <= 4608");
  }

  if (inputK !== 3072 || linear1M !== 27648 || linear2K !== 12288 || linear2M !== 3072) {
    throw new Error(`unexpected single-stream MLP shapes: linear1 K=${inputK} M=${linear1M}, linear2 K=${linear2K} M=${linear2M}`);
  }

  const inputF32 = buildInputF32(n, inputK);
  const modShift = new Float32Array(inputK);
  const modScale = new Float32Array(inputK);
  const modGate = new Float32Array(inputK);
  modGate.fill(1);
  const xF32Buffer = createBuffer(device, inputF32, GPUBufferUsage.STORAGE);
  const modF32Buffer = useRealModulation
    ? createEmptyBuffer(device, 9216 * 4, GPUBufferUsage.STORAGE)
    : null;
  const modShiftBuffer = correctSingleBlock && !useRealModulation ? createBuffer(device, modShift, GPUBufferUsage.STORAGE) : null;
  const modScaleBuffer = correctSingleBlock && !useRealModulation ? createBuffer(device, modScale, GPUBufferUsage.STORAGE) : null;
  const modGateBuffer = correctSingleBlock && !useRealModulation ? createBuffer(device, modGate, GPUBufferUsage.STORAGE) : null;
  const xPackedBuffer = createEmptyBuffer(device, n * linear1KWords * 4, GPUBufferUsage.STORAGE);
  const xScalesBuffer = createEmptyBuffer(device, n * 4, GPUBufferUsage.STORAGE);
  const linear1WBuffer = createBuffer(device, linear1.weight, GPUBufferUsage.STORAGE);
  const linear1ScaleBuffer = createBuffer(device, linear1.scales, GPUBufferUsage.STORAGE);
  const linear1OutBuffer = createEmptyBuffer(
    device,
    n * linear1M * (linear1OutputF16 ? 2 : 4),
    GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC,
  );
  const attentionOutBuffer = useRealAttention
    ? createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE)
    : null;
  const qNormBuffer = useRealAttention
    ? createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE)
    : null;
  const kNormBuffer = useRealAttention
    ? createEmptyBuffer(device, n * 3072 * 4, GPUBufferUsage.STORAGE)
    : null;
  const queryScaleBuffer = useRealAttention
    ? createBuffer(device, block.queryScale, GPUBufferUsage.STORAGE)
    : null;
  const keyScaleBuffer = useRealAttention
    ? createBuffer(device, block.keyScale, GPUBufferUsage.STORAGE)
    : null;
  const ropeFreqBuffer = useRealAttention && useRope
    ? createBuffer(device, buildFluxRopeSinCos(n, textTokens, imageWidth), GPUBufferUsage.STORAGE)
    : null;
  const linear2InBuffer = fuseActivationQuant
    ? null
    : createEmptyBuffer(device, n * linear2K * 4, GPUBufferUsage.STORAGE);
  const linear2InPackedBuffer = createEmptyBuffer(device, n * linear2KWords * 4, GPUBufferUsage.STORAGE);
  const linear2InScalesBuffer = createEmptyBuffer(device, n * 4, GPUBufferUsage.STORAGE);
  const linear2WBuffer = createBuffer(device, linear2.weight, GPUBufferUsage.STORAGE);
  const linear2ScaleBuffer = createBuffer(device, linear2.scales, GPUBufferUsage.STORAGE);
  const outputBuffer = fuseResidualDot
    ? null
    : createEmptyBuffer(device, n * linear2M * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const residualOutputBuffer = correctSingleBlock
    ? createEmptyBuffer(device, n * linear2M * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC)
    : null;

  const quantModule = device.createShaderModule({code: QUANTIZE_X_F32_SHADER});
  const preNormQuantModule = device.createShaderModule({code: SINGLE_PRENORM_MOD_QUANT_SHADER});
  const dot1Module = device.createShaderModule({
    code: makeI8ScaledDotShader32xWide(linear1TileCols, linear1WChunkCols, linear1OutputF16),
  });
  const activationModule = device.createShaderModule({code: SINGLE_MLP_ACTIVATION_SHADER});
  const activationAttentionModule = device.createShaderModule({code: SINGLE_MLP_ACTIVATION_ATTENTION_SHADER});
  const qkNormCode = useRope ? SINGLE_QK_NORM_ROPE_SHADER : SINGLE_QK_NORM_SHADER;
  const attentionCode = useTiledAttention
    ? makeSingleAttentionTiledShader(attentionTileKeys, attentionQueryRows)
    : SINGLE_ATTENTION_PRENORM_SHADER;
  const qkNormModule = device.createShaderModule({code: linear1OutputF16 ? makeLinear1F16ConsumerShader(qkNormCode) : qkNormCode});
  const attentionModule = device.createShaderModule({code: linear1OutputF16 ? makeLinear1F16ConsumerShader(attentionCode) : attentionCode});
  const activateQuantModule = device.createShaderModule({code: SINGLE_MLP_ACTIVATE_QUANT_SHADER});
  const activateAttentionQuantModule = device.createShaderModule({
    code: linear1OutputF16
      ? makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER)
      : SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER,
  });
  const dot2Module = device.createShaderModule({
    code: fuseResidualDot
      ? makeI8ScaledDotResidualShader32xWide(linear2TileCols, linear2WChunkCols)
      : makeI8ScaledDotShader32xWide(linear2TileCols, linear2WChunkCols),
  });
  const residualModule = device.createShaderModule({code: SINGLE_RESIDUAL_GATE_SHADER});
  const quantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: quantModule, entryPoint: "main"}});
  const preNormQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: preNormQuantModule, entryPoint: "main"}});
  const dot1Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dot1Module, entryPoint: "main"}});
  const activationPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activationModule, entryPoint: "main"}});
  const activationAttentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activationAttentionModule, entryPoint: "main"}});
  const qkNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: qkNormModule, entryPoint: "main"}});
  const attentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: attentionModule, entryPoint: "main"}});
  const activateQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activateQuantModule, entryPoint: "main"}});
  const activateAttentionQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activateAttentionQuantModule, entryPoint: "main"}});
  const dot2Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dot2Module, entryPoint: "main"}});
  const residualPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: residualModule, entryPoint: "main"}});

  let timeStage0 = null;
  let timeSiluStage = null;
  let timeStage1 = null;
  let vecCastStage = null;
  let modStage = null;
  if (useRealModulation) {
    const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
    const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(Number(config.timestep ?? 1.0)), GPUBufferUsage.STORAGE);
    const timeHiddenF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
    const timeHiddenF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
    const vecF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
    const vecF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
    timeStage0 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.in_layer"), baseUrl, timestepBuffer, timeHiddenF32Buffer, 1, 96);
    timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, 3072, true);
    timeStage1 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.out_layer"), baseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, 96);
    vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, 3072, true);
    modStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "single_stream_modulation.lin"), baseUrl, vecF16Buffer, modF32Buffer, 1, 96);
  }

  const quantXParamsBuffer = createBuffer(device, new Uint32Array([n, inputK, linear1M, linear1KWords]), GPUBufferUsage.UNIFORM);
  const dot1ParamsBuffer = createBuffer(device, new Uint32Array([n, inputK, linear1M, linear1KWords, 0, 0, 0, 0]), GPUBufferUsage.UNIFORM);
  const activationParamsBuffer = createBuffer(
    device,
    new Uint32Array([n, linear1M, linear2K, 3072, 9216, 9216, 0, 0]),
    GPUBufferUsage.UNIFORM,
  );
  const attentionParamsBuffer = useRealAttention
    ? createBuffer(device, new Uint32Array([n, linear1M, 24, 128, 9216, 3072, textTokens, imageWidth]), GPUBufferUsage.UNIFORM)
    : null;
  const activateQuantParamsBuffer = createBuffer(
    device,
    new Uint32Array([n, linear1M, linear2K, 3072, 9216, 9216, linear2KWords, 0]),
    GPUBufferUsage.UNIFORM,
  );
  const quantHiddenParamsBuffer = createBuffer(device, new Uint32Array([n, linear2K, linear2M, linear2KWords]), GPUBufferUsage.UNIFORM);
  const dot2ParamsBuffer = createBuffer(device, new Uint32Array([n, linear2K, linear2M, linear2KWords, 0, 0, 0, 0]), GPUBufferUsage.UNIFORM);
  const modStride = inputK * 4;
  const modShiftResource = useRealModulation ? {buffer: modF32Buffer, offset: 0} : {buffer: modShiftBuffer};
  const modScaleResource = useRealModulation ? {buffer: modF32Buffer, offset: modStride} : {buffer: modScaleBuffer};
  const modGateResource = useRealModulation ? {buffer: modF32Buffer, offset: modStride * 2} : {buffer: modGateBuffer};

  const quantXBindGroup = device.createBindGroup({
    layout: quantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: xF32Buffer}},
      {binding: 1, resource: {buffer: xPackedBuffer}},
      {binding: 2, resource: {buffer: xScalesBuffer}},
      {binding: 3, resource: {buffer: quantXParamsBuffer}},
    ],
  });
  const preNormQuantBindGroup = correctSingleBlock
    ? device.createBindGroup({
        layout: preNormQuantPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: xF32Buffer}},
          {binding: 1, resource: modShiftResource},
          {binding: 2, resource: modScaleResource},
          {binding: 3, resource: {buffer: xPackedBuffer}},
          {binding: 4, resource: {buffer: xScalesBuffer}},
          {binding: 5, resource: {buffer: quantXParamsBuffer}},
        ],
      })
    : null;
  const dot1BindGroup = device.createBindGroup({
    layout: dot1Pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: xPackedBuffer}},
      {binding: 1, resource: {buffer: linear1WBuffer}},
      {binding: 2, resource: {buffer: xScalesBuffer}},
      {binding: 3, resource: {buffer: linear1ScaleBuffer}},
      {binding: 4, resource: {buffer: linear1OutBuffer}},
      {binding: 5, resource: {buffer: dot1ParamsBuffer}},
    ],
  });
  const attentionBindGroup = useRealAttention
    ? device.createBindGroup({
        layout: attentionPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: linear1OutBuffer}},
          {binding: 1, resource: {buffer: qNormBuffer}},
          {binding: 2, resource: {buffer: kNormBuffer}},
          {binding: 3, resource: {buffer: attentionOutBuffer}},
          {binding: 4, resource: {buffer: attentionParamsBuffer}},
        ],
      })
    : null;
  const qkNormBindGroup = useRealAttention
    ? device.createBindGroup({
        layout: qkNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: linear1OutBuffer}},
          {binding: 1, resource: {buffer: queryScaleBuffer}},
          {binding: 2, resource: {buffer: keyScaleBuffer}},
          {binding: 3, resource: {buffer: qNormBuffer}},
          {binding: 4, resource: {buffer: kNormBuffer}},
          {binding: 5, resource: {buffer: attentionParamsBuffer}},
          ...(useRope ? [{binding: 6, resource: {buffer: ropeFreqBuffer}}] : []),
        ],
      })
    : null;
  const activationBindGroup = fuseActivationQuant
    ? null
    : device.createBindGroup({
        layout: useRealAttention
          ? activationAttentionPipeline.getBindGroupLayout(0)
          : activationPipeline.getBindGroupLayout(0),
        entries: useRealAttention
          ? [
              {binding: 0, resource: {buffer: linear1OutBuffer}},
              {binding: 1, resource: {buffer: attentionOutBuffer}},
              {binding: 2, resource: {buffer: linear2InBuffer}},
              {binding: 3, resource: {buffer: activationParamsBuffer}},
            ]
          : [
              {binding: 0, resource: {buffer: linear1OutBuffer}},
              {binding: 1, resource: {buffer: linear2InBuffer}},
              {binding: 2, resource: {buffer: activationParamsBuffer}},
            ],
      });
  const activateQuantBindGroup = fuseActivationQuant
    ? (useRealAttention ? null : device.createBindGroup({
        layout: activateQuantPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: linear1OutBuffer}},
          {binding: 1, resource: {buffer: linear2InPackedBuffer}},
          {binding: 2, resource: {buffer: linear2InScalesBuffer}},
          {binding: 3, resource: {buffer: activateQuantParamsBuffer}},
        ],
      }))
    : null;
  const activateAttentionQuantBindGroup = fuseActivationQuant && useRealAttention
    ? device.createBindGroup({
        layout: activateAttentionQuantPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: linear1OutBuffer}},
          {binding: 1, resource: {buffer: attentionOutBuffer}},
          {binding: 2, resource: {buffer: linear2InPackedBuffer}},
          {binding: 3, resource: {buffer: linear2InScalesBuffer}},
          {binding: 4, resource: {buffer: activateQuantParamsBuffer}},
        ],
      })
    : null;
  const quantHiddenBindGroup = fuseActivationQuant
    ? null
    : device.createBindGroup({
        layout: quantPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: linear2InBuffer}},
          {binding: 1, resource: {buffer: linear2InPackedBuffer}},
          {binding: 2, resource: {buffer: linear2InScalesBuffer}},
          {binding: 3, resource: {buffer: quantHiddenParamsBuffer}},
        ],
      });
  const dot2BindGroup = device.createBindGroup({
    layout: dot2Pipeline.getBindGroupLayout(0),
    entries: fuseResidualDot ? [
      {binding: 0, resource: {buffer: linear2InPackedBuffer}},
      {binding: 1, resource: {buffer: linear2WBuffer}},
      {binding: 2, resource: {buffer: linear2InScalesBuffer}},
      {binding: 3, resource: {buffer: linear2ScaleBuffer}},
      {binding: 4, resource: {buffer: residualOutputBuffer}},
      {binding: 5, resource: {buffer: dot2ParamsBuffer}},
      {binding: 6, resource: {buffer: xF32Buffer}},
      {binding: 7, resource: modGateResource},
    ] : [
      {binding: 0, resource: {buffer: linear2InPackedBuffer}},
      {binding: 1, resource: {buffer: linear2WBuffer}},
      {binding: 2, resource: {buffer: linear2InScalesBuffer}},
      {binding: 3, resource: {buffer: linear2ScaleBuffer}},
      {binding: 4, resource: {buffer: outputBuffer}},
      {binding: 5, resource: {buffer: dot2ParamsBuffer}},
    ],
  });
  const residualParamsBuffer = correctSingleBlock && !fuseResidualDot
    ? createBuffer(device, new Uint32Array([n, linear2M, 0, 0]), GPUBufferUsage.UNIFORM)
    : null;
  const residualBindGroup = correctSingleBlock && !fuseResidualDot
    ? device.createBindGroup({
        layout: residualPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: xF32Buffer}},
          {binding: 1, resource: {buffer: outputBuffer}},
          {binding: 2, resource: modGateResource},
          {binding: 3, resource: {buffer: residualOutputBuffer}},
          {binding: 4, resource: {buffer: residualParamsBuffer}},
        ],
      })
    : null;

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    let pass = encoder.beginComputePass();
    const finishPass = () => {
      if (pass) {
        pass.end();
        pass = null;
      }
    };
    const beginPass = () => {
      if (!pass) pass = encoder.beginComputePass();
      return pass;
    };
    const runStage = (pipeline, bindGroup, x, y = undefined) => {
      const stagePass = beginPass();
      stagePass.setPipeline(pipeline);
      stagePass.setBindGroup(0, bindGroup);
      if (y === undefined) stagePass.dispatchWorkgroups(x);
      else stagePass.dispatchWorkgroups(x, y);
      if (!singleComputePass) finishPass();
    };
    if (useRealModulation) {
      runStage(timeStage0.pipeline, timeStage0.bindGroup, timeStage0.workgroupsX, timeStage0.workgroupsY);
      runStage(timeSiluStage.pipeline, timeSiluStage.bindGroup, timeSiluStage.workgroupsX);
      runStage(timeStage1.pipeline, timeStage1.bindGroup, timeStage1.workgroupsX, timeStage1.workgroupsY);
      runStage(vecCastStage.pipeline, vecCastStage.bindGroup, vecCastStage.workgroupsX);
      runStage(modStage.pipeline, modStage.bindGroup, modStage.workgroupsX, modStage.workgroupsY);
    }

    runStage(correctSingleBlock ? preNormQuantPipeline : quantPipeline, correctSingleBlock ? preNormQuantBindGroup : quantXBindGroup, n);
    runStage(dot1Pipeline, dot1BindGroup, Math.ceil(linear1M / linear1TileCols), Math.ceil(n / rowsPerWorkgroup));

    if (useRealAttention) {
      runStage(qkNormPipeline, qkNormBindGroup, n, 24);
      runStage(attentionPipeline, attentionBindGroup, useTiledAttention ? Math.ceil(n / attentionQueryRows) : n, 24);
    }

    if (fuseActivationQuant) {
      runStage(useRealAttention ? activateAttentionQuantPipeline : activateQuantPipeline, useRealAttention ? activateAttentionQuantBindGroup : activateQuantBindGroup, n);
    } else {
      runStage(useRealAttention ? activationAttentionPipeline : activationPipeline, activationBindGroup, Math.ceil(linear2K / 256), n);
      runStage(quantPipeline, quantHiddenBindGroup, n);
    }

    runStage(dot2Pipeline, dot2BindGroup, Math.ceil(linear2M / linear2TileCols), Math.ceil(n / rowsPerWorkgroup));

    if (correctSingleBlock && !fuseResidualDot) {
      runStage(residualPipeline, residualBindGroup, Math.ceil(linear2M / 256), n);
    }

    finishPass();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  if (config.readbackSample) {
    const count = Math.min(Number(config.readbackSample), n * linear2M);
    const values = await readFloat32Buffer(device, correctSingleBlock ? residualOutputBuffer : outputBuffer, count);
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(8, values.length)))};
  }

  const medianMs = median(times);
  const macs = n * inputK * linear1M + n * linear2K * linear2M;
  return {
    verdict: "custom-single-stream-mlp-bench-completed",
    config: {
      n,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      linear1TileCols,
      linear2TileCols,
      linear1WChunkCols,
      linear2WChunkCols,
      linear1OutputF16,
      singleComputePass,
      fuseActivationQuant,
      fuseResidualDot,
      correctSingleBlock,
      dynamicI8FromQ4: useDynamicI8FromQ4,
      realModulation: useRealModulation,
      blockIndex,
      realAttention: useRealAttention,
      rope: useRope,
      tiledAttention: useTiledAttention,
      attentionTileKeys,
      attentionQueryRows,
      textTokens,
      imageWidth,
    },
    layers: {
      linear1: {source_node: linear1.manifest.source_node, shape: linear1.manifest.shape},
      linear2: {source_node: linear2.manifest.source_node, shape: linear2.manifest.shape},
    },
    load: {
      total_ms: loadMs,
      linear1_convert_ms: linear1.convertMs ?? null,
      linear2_convert_ms: linear2.convertMs ?? null,
      linear1_fetch_ms: linear1.loadMs ?? null,
      linear2_fetch_ms: linear2.loadMs ?? null,
      linear1_cache_hit: linear1.cacheHit ?? null,
      linear2_cache_hit: linear2.cacheHit ?? null,
      linear1_prepacked_i8: linear1.prepackedI8 ?? false,
      linear2_prepacked_i8: linear2.prepackedI8 ?? false,
    },
    adapter_features: Array.from(adapter.features).sort(),
    wgsl_language_features: Array.from(wgslLanguageFeatures).sort(),
    timed_ms: times,
    summary: {
      median_dispatch_ms: medianMs,
      effective_tmacs: macs / (medianMs / 1000) / 1e12,
    },
    sample,
  };
}

window.runCustomSingleStreamMlpBench = runCustomSingleStreamMlpBench;

async function runCustomSingleStreamBlocksLoopBench(config = {}) {
  if (!config.fullManifest) {
    throw new Error("single blocks loop benchmark requires fullManifest");
  }
  const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const startBlockIndex = Math.max(0, Number(config.blockIndex ?? 0));
  const blockCount = Math.max(1, Math.min(20 - startBlockIndex, Number(config.blockCount ?? 4)));
  const blockIndices = Array.from({length: blockCount}, (_, offset) => startBlockIndex + offset);
  const loadStart = performance.now();
  const [linears, norms] = await Promise.all([
    Promise.all(blockIndices.map(async (blockIndex) => ({
      blockIndex,
      linear1: await loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear1`), baseUrl),
      linear2: await loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear2`), baseUrl),
    }))),
    Promise.all(blockIndices.map((blockIndex) => loadQkNormScales(config.fullManifest, baseUrl, `single_blocks.${blockIndex}.norm`))),
  ]);
  const loadMs = performance.now() - loadStart;

  const n = Number(config.n ?? 768);
  const inputK = 3072;
  const linear1M = 27648;
  const linear2K = 12288;
  const linear2M = 3072;
  const linear1KWords = linears[0].linear1.manifest.i8_dp4a.k_words;
  const linear2KWords = linears[0].linear2.manifest.i8_dp4a.k_words;
  const linear1TileCols = Number(config.linear1TileCols ?? 256);
  const linear2TileCols = Number(config.linear2TileCols ?? 256);
  const linear1WChunkCols = Number(config.linear1WChunkCols ?? 64);
  const linear2WChunkCols = Number(config.linear2WChunkCols ?? 64);
  const linear1OutputF16 = config.linear1OutputF16 !== false;
  const attentionTileKeys = Number(config.attentionTileKeys ?? 8);
  const attentionQueryRows = Number(config.attentionQueryRows ?? 16);
  const textTokens = Math.max(0, Math.min(n, Number(config.textTokens ?? 512)));
  const imageTokens = Math.max(0, n - textTokens);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imageTokens)))));
  const rowsPerWorkgroup = 32;
  if (n > 4608) {
    throw new Error("single blocks loop benchmark currently supports n <= 4608");
  }

  const inputF32 = buildInputF32(n, inputK);
  const stateBytes = n * inputK * 4;
  const stateA = createBuffer(device, inputF32, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const stateB = createEmptyBuffer(device, stateBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const modF32Buffer = createEmptyBuffer(device, 9216 * 4, GPUBufferUsage.STORAGE);
  const xPackedBuffer = createEmptyBuffer(device, n * linear1KWords * 4, GPUBufferUsage.STORAGE);
  const xScalesBuffer = createEmptyBuffer(device, n * 4, GPUBufferUsage.STORAGE);
  const linear1OutBuffer = createEmptyBuffer(
    device,
    n * linear1M * (linear1OutputF16 ? 2 : 4),
    GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC,
  );
  const attentionOutBuffer = createEmptyBuffer(device, n * inputK * 4, GPUBufferUsage.STORAGE);
  const qNormBuffer = createEmptyBuffer(device, n * inputK * 4, GPUBufferUsage.STORAGE);
  const kNormBuffer = createEmptyBuffer(device, n * inputK * 4, GPUBufferUsage.STORAGE);
  const ropeFreqBuffer = createBuffer(device, buildFluxRopeSinCos(n, textTokens, imageWidth), GPUBufferUsage.STORAGE);
  const linear2InPackedBuffer = createEmptyBuffer(device, n * linear2KWords * 4, GPUBufferUsage.STORAGE);
  const linear2InScalesBuffer = createEmptyBuffer(device, n * 4, GPUBufferUsage.STORAGE);

  const preNormQuantModule = device.createShaderModule({code: SINGLE_PRENORM_MOD_QUANT_SHADER});
  const dot1Module = device.createShaderModule({
    code: makeI8ScaledDotShader32xWide(linear1TileCols, linear1WChunkCols, linear1OutputF16),
  });
  const qkNormCode = SINGLE_QK_NORM_ROPE_SHADER;
  const attentionCode = makeSingleAttentionTiledShader(attentionTileKeys, attentionQueryRows);
  const qkNormModule = device.createShaderModule({code: linear1OutputF16 ? makeLinear1F16ConsumerShader(qkNormCode) : qkNormCode});
  const attentionModule = device.createShaderModule({code: linear1OutputF16 ? makeLinear1F16ConsumerShader(attentionCode) : attentionCode});
  const activateAttentionQuantModule = device.createShaderModule({
    code: linear1OutputF16
      ? makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER)
      : SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER,
  });
  const dot2Module = device.createShaderModule({
    code: makeI8ScaledDotResidualShader32xWide(linear2TileCols, linear2WChunkCols),
  });
  const preNormQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: preNormQuantModule, entryPoint: "main"}});
  const dot1Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dot1Module, entryPoint: "main"}});
  const qkNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: qkNormModule, entryPoint: "main"}});
  const attentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: attentionModule, entryPoint: "main"}});
  const activateAttentionQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activateAttentionQuantModule, entryPoint: "main"}});
  const dot2Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dot2Module, entryPoint: "main"}});

  const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(Number(config.timestep ?? 1.0)), GPUBufferUsage.STORAGE);
  const timeHiddenF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const timeHiddenF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = createEmptyBuffer(device, 3072 * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = createEmptyBuffer(device, 3072 * 2, GPUBufferUsage.STORAGE);
  const timeStage0 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.in_layer"), baseUrl, timestepBuffer, timeHiddenF32Buffer, 1, 96);
  const timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, 3072, true);
  const timeStage1 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.out_layer"), baseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, 96);
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, 3072, true);
  const modStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "single_stream_modulation.lin"), baseUrl, vecF16Buffer, modF32Buffer, 1, 96);

  const quantXParamsBuffer = createBuffer(device, new Uint32Array([n, inputK, linear1M, linear1KWords]), GPUBufferUsage.UNIFORM);
  const dot1ParamsBuffer = createBuffer(device, new Uint32Array([n, inputK, linear1M, linear1KWords, 0, 0, 0, 0]), GPUBufferUsage.UNIFORM);
  const attentionParamsBuffer = createBuffer(device, new Uint32Array([n, linear1M, 24, 128, 9216, inputK, textTokens, imageWidth]), GPUBufferUsage.UNIFORM);
  const activateQuantParamsBuffer = createBuffer(device, new Uint32Array([n, linear1M, linear2K, inputK, 9216, 9216, linear2KWords, 0]), GPUBufferUsage.UNIFORM);
  const dot2ParamsBuffer = createBuffer(device, new Uint32Array([n, linear2K, linear2M, linear2KWords, 0, 0, 0, 0]), GPUBufferUsage.UNIFORM);
  const modStride = inputK * 4;
  const modShiftResource = {buffer: modF32Buffer, offset: 0};
  const modScaleResource = {buffer: modF32Buffer, offset: modStride};
  const modGateResource = {buffer: modF32Buffer, offset: modStride * 2};

  const makePreNormBindGroup = (stateBuffer) => device.createBindGroup({
    layout: preNormQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: stateBuffer}},
      {binding: 1, resource: modShiftResource},
      {binding: 2, resource: modScaleResource},
      {binding: 3, resource: {buffer: xPackedBuffer}},
      {binding: 4, resource: {buffer: xScalesBuffer}},
      {binding: 5, resource: {buffer: quantXParamsBuffer}},
    ],
  });
  const preNormBindGroups = [makePreNormBindGroup(stateA), makePreNormBindGroup(stateB)];
  const attentionBindGroup = device.createBindGroup({
    layout: attentionPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: linear1OutBuffer}},
      {binding: 1, resource: {buffer: qNormBuffer}},
      {binding: 2, resource: {buffer: kNormBuffer}},
      {binding: 3, resource: {buffer: attentionOutBuffer}},
      {binding: 4, resource: {buffer: attentionParamsBuffer}},
    ],
  });
  const activateAttentionQuantBindGroup = device.createBindGroup({
    layout: activateAttentionQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: linear1OutBuffer}},
      {binding: 1, resource: {buffer: attentionOutBuffer}},
      {binding: 2, resource: {buffer: linear2InPackedBuffer}},
      {binding: 3, resource: {buffer: linear2InScalesBuffer}},
      {binding: 4, resource: {buffer: activateQuantParamsBuffer}},
    ],
  });

  const blockStages = [];
  for (let i = 0; i < blockCount; ++i) {
    const {blockIndex, linear1, linear2} = linears[i];
    const norm = norms[i];
    const linear1WBuffer = createBuffer(device, linear1.weight, GPUBufferUsage.STORAGE);
    const linear1ScaleBuffer = createBuffer(device, linear1.scales, GPUBufferUsage.STORAGE);
    const linear2WBuffer = createBuffer(device, linear2.weight, GPUBufferUsage.STORAGE);
    const linear2ScaleBuffer = createBuffer(device, linear2.scales, GPUBufferUsage.STORAGE);
    const queryScaleBuffer = createBuffer(device, norm.queryScale, GPUBufferUsage.STORAGE);
    const keyScaleBuffer = createBuffer(device, norm.keyScale, GPUBufferUsage.STORAGE);
    const dot1BindGroup = device.createBindGroup({
      layout: dot1Pipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: xPackedBuffer}},
        {binding: 1, resource: {buffer: linear1WBuffer}},
        {binding: 2, resource: {buffer: xScalesBuffer}},
        {binding: 3, resource: {buffer: linear1ScaleBuffer}},
        {binding: 4, resource: {buffer: linear1OutBuffer}},
        {binding: 5, resource: {buffer: dot1ParamsBuffer}},
      ],
    });
    const qkNormBindGroup = device.createBindGroup({
      layout: qkNormPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: linear1OutBuffer}},
        {binding: 1, resource: {buffer: queryScaleBuffer}},
        {binding: 2, resource: {buffer: keyScaleBuffer}},
        {binding: 3, resource: {buffer: qNormBuffer}},
        {binding: 4, resource: {buffer: kNormBuffer}},
        {binding: 5, resource: {buffer: attentionParamsBuffer}},
        {binding: 6, resource: {buffer: ropeFreqBuffer}},
      ],
    });
    const makeDot2BindGroup = (inputBuffer, outputBuffer) => device.createBindGroup({
      layout: dot2Pipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: linear2InPackedBuffer}},
        {binding: 1, resource: {buffer: linear2WBuffer}},
        {binding: 2, resource: {buffer: linear2InScalesBuffer}},
        {binding: 3, resource: {buffer: linear2ScaleBuffer}},
        {binding: 4, resource: {buffer: outputBuffer}},
        {binding: 5, resource: {buffer: dot2ParamsBuffer}},
        {binding: 6, resource: {buffer: inputBuffer}},
        {binding: 7, resource: modGateResource},
      ],
    });
    blockStages.push({
      blockIndex,
      dot1BindGroup,
      qkNormBindGroup,
      dot2BindGroups: [makeDot2BindGroup(stateA, stateB), makeDot2BindGroup(stateB, stateA)],
    });
  }

  const runStage = (pass, pipeline, bindGroup, x, y = undefined) => {
    pass.setPipeline(pipeline);
    pass.setBindGroup(0, bindGroup);
    if (y === undefined) pass.dispatchWorkgroups(x);
    else pass.dispatchWorkgroups(x, y);
  };

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    const pass = encoder.beginComputePass();
    runStage(pass, timeStage0.pipeline, timeStage0.bindGroup, timeStage0.workgroupsX, timeStage0.workgroupsY);
    runStage(pass, timeSiluStage.pipeline, timeSiluStage.bindGroup, timeSiluStage.workgroupsX);
    runStage(pass, timeStage1.pipeline, timeStage1.bindGroup, timeStage1.workgroupsX, timeStage1.workgroupsY);
    runStage(pass, vecCastStage.pipeline, vecCastStage.bindGroup, vecCastStage.workgroupsX);
    runStage(pass, modStage.pipeline, modStage.bindGroup, modStage.workgroupsX, modStage.workgroupsY);
    for (let i = 0; i < blockStages.length; ++i) {
      const stage = blockStages[i];
      const ping = i & 1;
      runStage(pass, preNormQuantPipeline, preNormBindGroups[ping], n);
      runStage(pass, dot1Pipeline, stage.dot1BindGroup, Math.ceil(linear1M / linear1TileCols), Math.ceil(n / rowsPerWorkgroup));
      runStage(pass, qkNormPipeline, stage.qkNormBindGroup, n, 24);
      runStage(pass, attentionPipeline, attentionBindGroup, Math.ceil(n / attentionQueryRows), 24);
      runStage(pass, activateAttentionQuantPipeline, activateAttentionQuantBindGroup, n);
      runStage(pass, dot2Pipeline, stage.dot2BindGroups[ping], Math.ceil(linear2M / linear2TileCols), Math.ceil(n / rowsPerWorkgroup));
    }
    pass.end();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  if (config.readbackSample) {
    const finalBuffer = blockCount % 2 === 0 ? stateA : stateB;
    const count = Math.min(Number(config.readbackSample), n * inputK);
    const values = await readFloat32Buffer(device, finalBuffer, count);
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(8, values.length)))};
  }

  const medianMs = median(times);
  const macsPerBlock = n * inputK * linear1M + n * linear2K * linear2M;
  return {
    verdict: "custom-single-stream-blocks-loop-completed",
    config: {
      startBlockIndex,
      blockCount,
      blockIndices,
      n,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
      linear1TileCols,
      linear2TileCols,
      linear1WChunkCols,
      linear2WChunkCols,
      linear1OutputF16,
      attentionTileKeys,
      attentionQueryRows,
      textTokens,
      imageWidth,
    },
    load: {total_ms: loadMs},
    summary: {
      median_dispatch_ms: medianMs,
      per_block_median_ms: medianMs / blockCount,
      effective_tmacs: (macsPerBlock * blockCount) / (medianMs / 1000) / 1e12,
    },
    timed_ms: times,
    sample,
  };
}

window.runCustomSingleStreamBlocksLoopBench = runCustomSingleStreamBlocksLoopBench;

async function runCustomDoubleStreamBlockBench(config = {}) {
  if (!config.fullManifest) {
    throw new Error("double-stream block benchmark requires fullManifest");
  }
  const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const blockIndex = Math.max(0, Math.min(4, Number(config.blockIndex ?? 0)));
  const imgRows = Number(config.imageTokens ?? 256);
  const txtRows = Number(config.textTokens ?? 512);
  const jointRows = imgRows + txtRows;
  const hidden = 3072;
  const qkvM = 9216;
  const mlp1M = 18432;
  const mlpK = 9216;
  const kWordsHidden = hidden / 4;
  const kWordsMlp = mlpK / 4;
  const maxRows = Math.max(imgRows, txtRows);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imgRows)))));
  const linearTileCols = Number(config.linearTileCols ?? 128);
  const projTileCols = Number(config.projTileCols ?? 128);
  const wChunkCols = Number(config.wChunkCols ?? 64);
  const attentionTileKeys = Number(config.attentionTileKeys ?? 8);
  const attentionQueryRows = Number(config.attentionQueryRows ?? 16);

  const loadStart = performance.now();
  const [
    imgQkv, txtQkv, imgProj, txtProj, imgMlp0, imgMlp2, txtMlp0, txtMlp2,
    imgNorm, txtNorm,
  ] = await Promise.all([
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_attn.qkv`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_attn.qkv`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_attn.proj`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_attn.proj`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_mlp.0`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_mlp.2`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_mlp.0`), baseUrl),
    loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_mlp.2`), baseUrl),
    loadQkNormScales(config.fullManifest, baseUrl, `double_blocks.${blockIndex}.img_attn.norm`),
    loadQkNormScales(config.fullManifest, baseUrl, `double_blocks.${blockIndex}.txt_attn.norm`),
  ]);
  const loadMs = performance.now() - loadStart;

  const imgInput = buildInputF32(imgRows, hidden);
  const txtInput = buildInputF32(txtRows, hidden);
  const imgState0 = createBuffer(device, imgInput, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const txtState0 = createBuffer(device, txtInput, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const imgState1 = createEmptyBuffer(device, imgRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const txtState1 = createEmptyBuffer(device, txtRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const imgState2 = createEmptyBuffer(device, imgRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const txtState2 = createEmptyBuffer(device, txtRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const modImgBuffer = createEmptyBuffer(device, 18432 * 4, GPUBufferUsage.STORAGE);
  const modTxtBuffer = createEmptyBuffer(device, 18432 * 4, GPUBufferUsage.STORAGE);
  const packedHiddenBuffer = createEmptyBuffer(device, maxRows * kWordsHidden * 4, GPUBufferUsage.STORAGE);
  const scalesBuffer = createEmptyBuffer(device, maxRows * 4, GPUBufferUsage.STORAGE);
  const packedMlpBuffer = createEmptyBuffer(device, maxRows * kWordsMlp * 4, GPUBufferUsage.STORAGE);
  const mlpScalesBuffer = createEmptyBuffer(device, maxRows * 4, GPUBufferUsage.STORAGE);
  const imgQkvBuffer = createEmptyBuffer(device, imgRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const txtQkvBuffer = createEmptyBuffer(device, txtRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const qNormBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const kNormBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const vBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const attentionOutBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const mlp0Buffer = createEmptyBuffer(device, maxRows * mlp1M * 2, GPUBufferUsage.STORAGE);
  const ropeFreqBuffer = createBuffer(device, buildFluxRopeFrequencies(), GPUBufferUsage.STORAGE);

  const preNormQuantModule = device.createShaderModule({code: SINGLE_PRENORM_MOD_QUANT_SHADER});
  const quantOffsetModule = device.createShaderModule({code: QUANTIZE_X_F32_OFFSET_SHADER});
  const dotHiddenToQkvModule = device.createShaderModule({code: makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, true)});
  const qkvNormModule = device.createShaderModule({code: DOUBLE_QKV_NORM_ROPE_SHADER});
  const attentionModule = device.createShaderModule({code: makeJointAttentionTiledShader(attentionTileKeys, attentionQueryRows)});
  const dotProjModule = device.createShaderModule({code: makeI8ScaledDotResidualShader32xWide(projTileCols, wChunkCols)});
  const dotMlp0Module = device.createShaderModule({code: makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, true)});
  const activateMlpModule = device.createShaderModule({code: makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_QUANT_SHADER)});
  const dotMlp2Module = device.createShaderModule({code: makeI8ScaledDotResidualShader32xWide(projTileCols, wChunkCols)});
  const preNormQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: preNormQuantModule, entryPoint: "main"}});
  const quantOffsetPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: quantOffsetModule, entryPoint: "main"}});
  const dotHiddenToQkvPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotHiddenToQkvModule, entryPoint: "main"}});
  const qkvNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: qkvNormModule, entryPoint: "main"}});
  const attentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: attentionModule, entryPoint: "main"}});
  const dotProjPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotProjModule, entryPoint: "main"}});
  const dotMlp0Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotMlp0Module, entryPoint: "main"}});
  const activateMlpPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activateMlpModule, entryPoint: "main"}});
  const dotMlp2Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotMlp2Module, entryPoint: "main"}});

  const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(Number(config.timestep ?? 1.0)), GPUBufferUsage.STORAGE);
  const timeHiddenF32Buffer = createEmptyBuffer(device, hidden * 4, GPUBufferUsage.STORAGE);
  const timeHiddenF16Buffer = createEmptyBuffer(device, hidden * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = createEmptyBuffer(device, hidden * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = createEmptyBuffer(device, hidden * 2, GPUBufferUsage.STORAGE);
  const timeStage0 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.in_layer"), baseUrl, timestepBuffer, timeHiddenF32Buffer, 1, 96);
  const timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, hidden, true);
  const timeStage1 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.out_layer"), baseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, 96);
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, hidden, true);
  const modImgStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_img.lin"), baseUrl, vecF16Buffer, modImgBuffer, 1, 96);
  const modTxtStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_txt.lin"), baseUrl, vecF16Buffer, modTxtBuffer, 1, 96);

  const makeLinearBuffers = (bundle) => ({
    w: createImmutableBuffer(device, bundle.weight, GPUBufferUsage.STORAGE, bundle.weightCacheKey),
    s: createImmutableBuffer(device, bundle.scales, GPUBufferUsage.STORAGE, bundle.scalesCacheKey),
  });
  const weights = {
    imgQkv: makeLinearBuffers(imgQkv),
    txtQkv: makeLinearBuffers(txtQkv),
    imgProj: makeLinearBuffers(imgProj),
    txtProj: makeLinearBuffers(txtProj),
    imgMlp0: makeLinearBuffers(imgMlp0),
    imgMlp2: makeLinearBuffers(imgMlp2),
    txtMlp0: makeLinearBuffers(txtMlp0),
    txtMlp2: makeLinearBuffers(txtMlp2),
  };
  const imgQueryScaleBuffer = createBuffer(device, imgNorm.queryScale, GPUBufferUsage.STORAGE);
  const imgKeyScaleBuffer = createBuffer(device, imgNorm.keyScale, GPUBufferUsage.STORAGE);
  const txtQueryScaleBuffer = createBuffer(device, txtNorm.queryScale, GPUBufferUsage.STORAGE);
  const txtKeyScaleBuffer = createBuffer(device, txtNorm.keyScale, GPUBufferUsage.STORAGE);

  const makeParams = (values) => {
    const typed = new Uint32Array(values);
    return createImmutableBuffer(device, typed, GPUBufferUsage.UNIFORM, `${scratchKey}|params|${Array.from(typed).join(",")}`);
  };
  const params = {
    imgPre: makeParams([imgRows, hidden, qkvM, kWordsHidden]),
    txtPre: makeParams([txtRows, hidden, qkvM, kWordsHidden]),
    imgDotQkv: makeParams([imgRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    txtDotQkv: makeParams([txtRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    imgQkvNorm: makeParams([imgRows, qkvM, 24, 128, hidden, txtRows, txtRows, imageWidth]),
    txtQkvNorm: makeParams([txtRows, qkvM, 24, 128, hidden, 0, txtRows, imageWidth]),
    attention: makeParams([jointRows, 24, 128, hidden]),
    imgQuantAttn: makeParams([imgRows, hidden, kWordsHidden, txtRows, hidden]),
    txtQuantAttn: makeParams([txtRows, hidden, kWordsHidden, 0, hidden]),
    imgProj: makeParams([imgRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    txtProj: makeParams([txtRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    imgMlpPre: makeParams([imgRows, hidden, mlp1M, kWordsHidden]),
    txtMlpPre: makeParams([txtRows, hidden, mlp1M, kWordsHidden]),
    imgMlp0: makeParams([imgRows, hidden, mlp1M, kWordsHidden, 0, 0, 0, 0]),
    txtMlp0: makeParams([txtRows, hidden, mlp1M, kWordsHidden, 0, 0, 0, 0]),
    imgAct: makeParams([imgRows, mlp1M, mlpK, 0, 0, mlpK, kWordsMlp, 0]),
    txtAct: makeParams([txtRows, mlp1M, mlpK, 0, 0, mlpK, kWordsMlp, 0]),
    imgMlp2: makeParams([imgRows, mlpK, hidden, kWordsMlp, 0, 0, 0, 0]),
    txtMlp2: makeParams([txtRows, mlpK, hidden, kWordsMlp, 0, 0, 0, 0]),
  };

  const hiddenModOffsets = {
    mod1Shift: 0,
    mod1Scale: hidden * 4,
    mod1Gate: hidden * 8,
    mod2Shift: hidden * 12,
    mod2Scale: hidden * 16,
    mod2Gate: hidden * 20,
  };
  const res = (buffer, offset = 0) => offset ? {buffer, offset} : {buffer};

  const makePreNormBind = (state, modBuffer, shiftOffset, scaleOffset, paramsBuffer) => device.createBindGroup({
    layout: preNormQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: state}},
      {binding: 1, resource: res(modBuffer, shiftOffset)},
      {binding: 2, resource: res(modBuffer, scaleOffset)},
      {binding: 3, resource: {buffer: packedHiddenBuffer}},
      {binding: 4, resource: {buffer: scalesBuffer}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeDotBind = (pipeline, packed, packedScales, w, wScales, out, paramsBuffer) => device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: {buffer: out}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeResidualDotBind = (pipeline, packed, packedScales, w, wScales, out, paramsBuffer, residual, gate) => device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: {buffer: out}},
      {binding: 5, resource: {buffer: paramsBuffer}},
      {binding: 6, resource: {buffer: residual}},
      {binding: 7, resource: gate},
    ],
  });

  const bind = {
    imgQkvPre: makePreNormBind(imgState0, modImgBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.imgPre),
    txtQkvPre: makePreNormBind(txtState0, modTxtBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.txtPre),
    imgQkvDot: makeDotBind(dotHiddenToQkvPipeline, packedHiddenBuffer, scalesBuffer, weights.imgQkv.w, weights.imgQkv.s, imgQkvBuffer, params.imgDotQkv),
    txtQkvDot: makeDotBind(dotHiddenToQkvPipeline, packedHiddenBuffer, scalesBuffer, weights.txtQkv.w, weights.txtQkv.s, txtQkvBuffer, params.txtDotQkv),
    imgQkvNorm: device.createBindGroup({
      layout: qkvNormPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: imgQkvBuffer}},
        {binding: 1, resource: {buffer: imgQueryScaleBuffer}},
        {binding: 2, resource: {buffer: imgKeyScaleBuffer}},
        {binding: 3, resource: {buffer: qNormBuffer}},
        {binding: 4, resource: {buffer: kNormBuffer}},
        {binding: 5, resource: {buffer: vBuffer}},
        {binding: 6, resource: {buffer: params.imgQkvNorm}},
        {binding: 7, resource: {buffer: ropeFreqBuffer}},
      ],
    }),
    txtQkvNorm: device.createBindGroup({
      layout: qkvNormPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: txtQkvBuffer}},
        {binding: 1, resource: {buffer: txtQueryScaleBuffer}},
        {binding: 2, resource: {buffer: txtKeyScaleBuffer}},
        {binding: 3, resource: {buffer: qNormBuffer}},
        {binding: 4, resource: {buffer: kNormBuffer}},
        {binding: 5, resource: {buffer: vBuffer}},
        {binding: 6, resource: {buffer: params.txtQkvNorm}},
        {binding: 7, resource: {buffer: ropeFreqBuffer}},
      ],
    }),
    attention: device.createBindGroup({
      layout: attentionPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: vBuffer}},
        {binding: 1, resource: {buffer: qNormBuffer}},
        {binding: 2, resource: {buffer: kNormBuffer}},
        {binding: 3, resource: {buffer: attentionOutBuffer}},
        {binding: 4, resource: {buffer: params.attention}},
      ],
    }),
  };
  bind.imgQuantAttn = device.createBindGroup({
    layout: quantOffsetPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: attentionOutBuffer}},
      {binding: 1, resource: {buffer: packedHiddenBuffer}},
      {binding: 2, resource: {buffer: scalesBuffer}},
      {binding: 3, resource: {buffer: params.imgQuantAttn}},
    ],
  });
  bind.txtQuantAttn = device.createBindGroup({
    layout: quantOffsetPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: attentionOutBuffer}},
      {binding: 1, resource: {buffer: packedHiddenBuffer}},
      {binding: 2, resource: {buffer: scalesBuffer}},
      {binding: 3, resource: {buffer: params.txtQuantAttn}},
    ],
  });
  bind.imgProj = makeResidualDotBind(dotProjPipeline, packedHiddenBuffer, scalesBuffer, weights.imgProj.w, weights.imgProj.s, imgState1, params.imgProj, imgState0, res(modImgBuffer, hiddenModOffsets.mod1Gate));
  bind.txtProj = makeResidualDotBind(dotProjPipeline, packedHiddenBuffer, scalesBuffer, weights.txtProj.w, weights.txtProj.s, txtState1, params.txtProj, txtState0, res(modTxtBuffer, hiddenModOffsets.mod1Gate));
  bind.imgMlpPre = makePreNormBind(imgState1, modImgBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.imgMlpPre);
  bind.txtMlpPre = makePreNormBind(txtState1, modTxtBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.txtMlpPre);
  bind.imgMlp0 = makeDotBind(dotMlp0Pipeline, packedHiddenBuffer, scalesBuffer, weights.imgMlp0.w, weights.imgMlp0.s, mlp0Buffer, params.imgMlp0);
  bind.txtMlp0 = makeDotBind(dotMlp0Pipeline, packedHiddenBuffer, scalesBuffer, weights.txtMlp0.w, weights.txtMlp0.s, mlp0Buffer, params.txtMlp0);
  bind.imgAct = device.createBindGroup({
    layout: activateMlpPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: mlp0Buffer}},
      {binding: 1, resource: {buffer: packedMlpBuffer}},
      {binding: 2, resource: {buffer: mlpScalesBuffer}},
      {binding: 3, resource: {buffer: params.imgAct}},
    ],
  });
  bind.txtAct = device.createBindGroup({
    layout: activateMlpPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: mlp0Buffer}},
      {binding: 1, resource: {buffer: packedMlpBuffer}},
      {binding: 2, resource: {buffer: mlpScalesBuffer}},
      {binding: 3, resource: {buffer: params.txtAct}},
    ],
  });
  bind.imgMlp2 = makeResidualDotBind(dotMlp2Pipeline, packedMlpBuffer, mlpScalesBuffer, weights.imgMlp2.w, weights.imgMlp2.s, imgState2, params.imgMlp2, imgState1, res(modImgBuffer, hiddenModOffsets.mod2Gate));
  bind.txtMlp2 = makeResidualDotBind(dotMlp2Pipeline, packedMlpBuffer, mlpScalesBuffer, weights.txtMlp2.w, weights.txtMlp2.s, txtState2, params.txtMlp2, txtState1, res(modTxtBuffer, hiddenModOffsets.mod2Gate));

  const runStage = (pass, pipeline, bindGroup, x, y = undefined) => {
    pass.setPipeline(pipeline);
    pass.setBindGroup(0, bindGroup);
    if (y === undefined) pass.dispatchWorkgroups(x);
    else pass.dispatchWorkgroups(x, y);
  };

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    const pass = encoder.beginComputePass();
    runStage(pass, timeStage0.pipeline, timeStage0.bindGroup, timeStage0.workgroupsX, timeStage0.workgroupsY);
    runStage(pass, timeSiluStage.pipeline, timeSiluStage.bindGroup, timeSiluStage.workgroupsX);
    runStage(pass, timeStage1.pipeline, timeStage1.bindGroup, timeStage1.workgroupsX, timeStage1.workgroupsY);
    runStage(pass, vecCastStage.pipeline, vecCastStage.bindGroup, vecCastStage.workgroupsX);
    runStage(pass, modImgStage.pipeline, modImgStage.bindGroup, modImgStage.workgroupsX, modImgStage.workgroupsY);
    runStage(pass, modTxtStage.pipeline, modTxtStage.bindGroup, modTxtStage.workgroupsX, modTxtStage.workgroupsY);

    runStage(pass, preNormQuantPipeline, bind.imgQkvPre, imgRows);
    runStage(pass, dotHiddenToQkvPipeline, bind.imgQkvDot, Math.ceil(qkvM / linearTileCols), Math.ceil(imgRows / 32));
    runStage(pass, preNormQuantPipeline, bind.txtQkvPre, txtRows);
    runStage(pass, dotHiddenToQkvPipeline, bind.txtQkvDot, Math.ceil(qkvM / linearTileCols), Math.ceil(txtRows / 32));
    runStage(pass, qkvNormPipeline, bind.txtQkvNorm, txtRows, 24);
    runStage(pass, qkvNormPipeline, bind.imgQkvNorm, imgRows, 24);
    runStage(pass, attentionPipeline, bind.attention, Math.ceil(jointRows / attentionQueryRows), 24);

    runStage(pass, quantOffsetPipeline, bind.imgQuantAttn, imgRows);
    runStage(pass, dotProjPipeline, bind.imgProj, Math.ceil(hidden / projTileCols), Math.ceil(imgRows / 32));
    runStage(pass, quantOffsetPipeline, bind.txtQuantAttn, txtRows);
    runStage(pass, dotProjPipeline, bind.txtProj, Math.ceil(hidden / projTileCols), Math.ceil(txtRows / 32));

    runStage(pass, preNormQuantPipeline, bind.imgMlpPre, imgRows);
    runStage(pass, dotMlp0Pipeline, bind.imgMlp0, Math.ceil(mlp1M / linearTileCols), Math.ceil(imgRows / 32));
    runStage(pass, activateMlpPipeline, bind.imgAct, imgRows);
    runStage(pass, dotMlp2Pipeline, bind.imgMlp2, Math.ceil(hidden / projTileCols), Math.ceil(imgRows / 32));

    runStage(pass, preNormQuantPipeline, bind.txtMlpPre, txtRows);
    runStage(pass, dotMlp0Pipeline, bind.txtMlp0, Math.ceil(mlp1M / linearTileCols), Math.ceil(txtRows / 32));
    runStage(pass, activateMlpPipeline, bind.txtAct, txtRows);
    runStage(pass, dotMlp2Pipeline, bind.txtMlp2, Math.ceil(hidden / projTileCols), Math.ceil(txtRows / 32));

    pass.end();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  if (config.readbackSample) {
    const count = Math.min(Number(config.readbackSample), imgRows * hidden);
    const values = await readFloat32Buffer(device, imgState2, count);
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(8, values.length)))};
  }

  const medianMs = median(times);
  const macs =
    imgRows * hidden * qkvM + txtRows * hidden * qkvM +
    imgRows * hidden * hidden + txtRows * hidden * hidden +
    imgRows * hidden * mlp1M + txtRows * hidden * mlp1M +
    imgRows * mlpK * hidden + txtRows * mlpK * hidden;
  return {
    verdict: "custom-double-stream-block-completed",
    config: {
      blockIndex,
      imgRows,
      txtRows,
      jointRows,
      imageWidth,
      linearTileCols,
      projTileCols,
      wChunkCols,
      attentionTileKeys,
      attentionQueryRows,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
    },
    load: {total_ms: loadMs},
    summary: {
      median_dispatch_ms: medianMs,
      effective_tmacs: macs / (medianMs / 1000) / 1e12,
    },
    timed_ms: times,
    sample,
  };
}

window.runCustomDoubleStreamBlockBench = runCustomDoubleStreamBlockBench;

async function runCustomDoubleStreamBlocksLoopBench(config = {}) {
  if (!config.fullManifest) {
    throw new Error("double-stream blocks loop benchmark requires fullManifest");
  }
  const {device} = await requestCustomWebGpuDevice(["shader-f16", "packed_4x8_integer_dot_product"]);
  const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const startBlockIndex = Math.max(0, Math.min(4, Number(config.blockIndex ?? 0)));
  const blockCount = Math.max(1, Math.min(5 - startBlockIndex, Number(config.blockCount ?? 5)));
  const blockIndices = Array.from({length: blockCount}, (_, offset) => startBlockIndex + offset);
  const imgRows = Number(config.imageTokens ?? 256);
  const txtRows = Number(config.textTokens ?? 512);
  const jointRows = imgRows + txtRows;
  const hidden = 3072;
  const qkvM = 9216;
  const mlp1M = 18432;
  const mlpK = 9216;
  const kWordsHidden = hidden / 4;
  const kWordsMlp = mlpK / 4;
  const maxRows = Math.max(imgRows, txtRows);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imgRows)))));
  const linearTileCols = Number(config.linearTileCols ?? 128);
  const projTileCols = Number(config.projTileCols ?? 128);
  const wChunkCols = Number(config.wChunkCols ?? 64);
  const attentionTileKeys = Number(config.attentionTileKeys ?? 8);
  const attentionQueryRows = Number(config.attentionQueryRows ?? 16);

  const loadStart = performance.now();
  const blocks = await Promise.all(blockIndices.map(async (blockIndex) => {
    const [
      imgQkv, txtQkv, imgProj, txtProj, imgMlp0, imgMlp2, txtMlp0, txtMlp2,
      imgNorm, txtNorm,
    ] = await Promise.all([
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_attn.qkv`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_attn.qkv`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_attn.proj`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_attn.proj`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_mlp.0`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.img_mlp.2`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_mlp.0`), baseUrl),
      loadI8BundleFromFullEntry(findFullManifestLinear(config.fullManifest, `double_blocks.${blockIndex}.txt_mlp.2`), baseUrl),
      loadQkNormScales(config.fullManifest, baseUrl, `double_blocks.${blockIndex}.img_attn.norm`),
      loadQkNormScales(config.fullManifest, baseUrl, `double_blocks.${blockIndex}.txt_attn.norm`),
    ]);
    return {blockIndex, imgQkv, txtQkv, imgProj, txtProj, imgMlp0, imgMlp2, txtMlp0, txtMlp2, imgNorm, txtNorm};
  }));
  const loadMs = performance.now() - loadStart;

  const imgInput = buildInputF32(imgRows, hidden);
  const txtInput = buildInputF32(txtRows, hidden);
  const imgStateA = createBuffer(device, imgInput, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const txtStateA = createBuffer(device, txtInput, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const imgStateB = createEmptyBuffer(device, imgRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const txtStateB = createEmptyBuffer(device, txtRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const imgMidState = createEmptyBuffer(device, imgRows * hidden * 4, GPUBufferUsage.STORAGE);
  const txtMidState = createEmptyBuffer(device, txtRows * hidden * 4, GPUBufferUsage.STORAGE);
  const modImgBuffer = createEmptyBuffer(device, 18432 * 4, GPUBufferUsage.STORAGE);
  const modTxtBuffer = createEmptyBuffer(device, 18432 * 4, GPUBufferUsage.STORAGE);
  const packedHiddenBuffer = createEmptyBuffer(device, maxRows * kWordsHidden * 4, GPUBufferUsage.STORAGE);
  const scalesBuffer = createEmptyBuffer(device, maxRows * 4, GPUBufferUsage.STORAGE);
  const packedMlpBuffer = createEmptyBuffer(device, maxRows * kWordsMlp * 4, GPUBufferUsage.STORAGE);
  const mlpScalesBuffer = createEmptyBuffer(device, maxRows * 4, GPUBufferUsage.STORAGE);
  const imgQkvBuffer = createEmptyBuffer(device, imgRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const txtQkvBuffer = createEmptyBuffer(device, txtRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const qNormBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const kNormBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const vBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const attentionOutBuffer = createEmptyBuffer(device, jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const mlp0Buffer = createEmptyBuffer(device, maxRows * mlp1M * 2, GPUBufferUsage.STORAGE);
  const ropeFreqBuffer = createBuffer(device, buildFluxRopeFrequencies(), GPUBufferUsage.STORAGE);

  const preNormQuantModule = device.createShaderModule({code: SINGLE_PRENORM_MOD_QUANT_SHADER});
  const quantOffsetModule = device.createShaderModule({code: QUANTIZE_X_F32_OFFSET_SHADER});
  const dotHiddenToQkvModule = device.createShaderModule({code: makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, true)});
  const qkvNormModule = device.createShaderModule({code: DOUBLE_QKV_NORM_ROPE_SHADER});
  const attentionModule = device.createShaderModule({code: makeJointAttentionTiledShader(attentionTileKeys, attentionQueryRows)});
  const dotProjModule = device.createShaderModule({code: makeI8ScaledDotResidualShader32xWide(projTileCols, wChunkCols)});
  const dotMlp0Module = device.createShaderModule({code: makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, true)});
  const activateMlpModule = device.createShaderModule({code: makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_QUANT_SHADER)});
  const dotMlp2Module = device.createShaderModule({code: makeI8ScaledDotResidualShader32xWide(projTileCols, wChunkCols)});
  const preNormQuantPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: preNormQuantModule, entryPoint: "main"}});
  const quantOffsetPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: quantOffsetModule, entryPoint: "main"}});
  const dotHiddenToQkvPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotHiddenToQkvModule, entryPoint: "main"}});
  const qkvNormPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: qkvNormModule, entryPoint: "main"}});
  const attentionPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: attentionModule, entryPoint: "main"}});
  const dotProjPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotProjModule, entryPoint: "main"}});
  const dotMlp0Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotMlp0Module, entryPoint: "main"}});
  const activateMlpPipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: activateMlpModule, entryPoint: "main"}});
  const dotMlp2Pipeline = await device.createComputePipelineAsync({layout: "auto", compute: {module: dotMlp2Module, entryPoint: "main"}});

  const timestepBuffer = createBuffer(device, makeTimestepEmbeddingF16(Number(config.timestep ?? 1.0)), GPUBufferUsage.STORAGE);
  const timeHiddenF32Buffer = createEmptyBuffer(device, hidden * 4, GPUBufferUsage.STORAGE);
  const timeHiddenF16Buffer = createEmptyBuffer(device, hidden * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = createEmptyBuffer(device, hidden * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = createEmptyBuffer(device, hidden * 2, GPUBufferUsage.STORAGE);
  const timeStage0 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.in_layer"), baseUrl, timestepBuffer, timeHiddenF32Buffer, 1, 96);
  const timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, hidden, true);
  const timeStage1 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.out_layer"), baseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, 96);
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, hidden, true);
  const modImgStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_img.lin"), baseUrl, vecF16Buffer, modImgBuffer, 1, 96);
  const modTxtStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_txt.lin"), baseUrl, vecF16Buffer, modTxtBuffer, 1, 96);

  const makeLinearBuffers = (bundle) => ({
    w: createImmutableBuffer(device, bundle.weight, GPUBufferUsage.STORAGE, bundle.weightCacheKey),
    s: createImmutableBuffer(device, bundle.scales, GPUBufferUsage.STORAGE, bundle.scalesCacheKey),
  });
  const makeParams = (values) => createBuffer(device, new Uint32Array(values), GPUBufferUsage.UNIFORM);
  const params = {
    imgPre: makeParams([imgRows, hidden, qkvM, kWordsHidden]),
    txtPre: makeParams([txtRows, hidden, qkvM, kWordsHidden]),
    imgDotQkv: makeParams([imgRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    txtDotQkv: makeParams([txtRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    imgQkvNorm: makeParams([imgRows, qkvM, 24, 128, hidden, txtRows, txtRows, imageWidth]),
    txtQkvNorm: makeParams([txtRows, qkvM, 24, 128, hidden, 0, txtRows, imageWidth]),
    attention: makeParams([jointRows, 24, 128, hidden]),
    imgQuantAttn: makeParams([imgRows, hidden, kWordsHidden, txtRows, hidden]),
    txtQuantAttn: makeParams([txtRows, hidden, kWordsHidden, 0, hidden]),
    imgProj: makeParams([imgRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    txtProj: makeParams([txtRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    imgMlpPre: makeParams([imgRows, hidden, mlp1M, kWordsHidden]),
    txtMlpPre: makeParams([txtRows, hidden, mlp1M, kWordsHidden]),
    imgMlp0: makeParams([imgRows, hidden, mlp1M, kWordsHidden, 0, 0, 0, 0]),
    txtMlp0: makeParams([txtRows, hidden, mlp1M, kWordsHidden, 0, 0, 0, 0]),
    imgAct: makeParams([imgRows, mlp1M, mlpK, 0, 0, mlpK, kWordsMlp, 0]),
    txtAct: makeParams([txtRows, mlp1M, mlpK, 0, 0, mlpK, kWordsMlp, 0]),
    imgMlp2: makeParams([imgRows, mlpK, hidden, kWordsMlp, 0, 0, 0, 0]),
    txtMlp2: makeParams([txtRows, mlpK, hidden, kWordsMlp, 0, 0, 0, 0]),
  };

  const hiddenModOffsets = {
    mod1Shift: 0,
    mod1Scale: hidden * 4,
    mod1Gate: hidden * 8,
    mod2Shift: hidden * 12,
    mod2Scale: hidden * 16,
    mod2Gate: hidden * 20,
  };
  const res = (buffer, offset = 0) => offset ? {buffer, offset} : {buffer};
  const makePreNormBind = (state, modBuffer, shiftOffset, scaleOffset, paramsBuffer) => device.createBindGroup({
    layout: preNormQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: state}},
      {binding: 1, resource: res(modBuffer, shiftOffset)},
      {binding: 2, resource: res(modBuffer, scaleOffset)},
      {binding: 3, resource: {buffer: packedHiddenBuffer}},
      {binding: 4, resource: {buffer: scalesBuffer}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeDotBind = (pipeline, packed, packedScales, w, wScales, out, paramsBuffer) => device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: {buffer: out}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeResidualDotBind = (pipeline, packed, packedScales, w, wScales, out, paramsBuffer, residual, gate) => device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: {buffer: out}},
      {binding: 5, resource: {buffer: paramsBuffer}},
      {binding: 6, resource: {buffer: residual}},
      {binding: 7, resource: gate},
    ],
  });

  const commonBind = {
    attention: device.createBindGroup({
      layout: attentionPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: vBuffer}},
        {binding: 1, resource: {buffer: qNormBuffer}},
        {binding: 2, resource: {buffer: kNormBuffer}},
        {binding: 3, resource: {buffer: attentionOutBuffer}},
        {binding: 4, resource: {buffer: params.attention}},
      ],
    }),
    imgQuantAttn: device.createBindGroup({
      layout: quantOffsetPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: attentionOutBuffer}},
        {binding: 1, resource: {buffer: packedHiddenBuffer}},
        {binding: 2, resource: {buffer: scalesBuffer}},
        {binding: 3, resource: {buffer: params.imgQuantAttn}},
      ],
    }),
    txtQuantAttn: device.createBindGroup({
      layout: quantOffsetPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: attentionOutBuffer}},
        {binding: 1, resource: {buffer: packedHiddenBuffer}},
        {binding: 2, resource: {buffer: scalesBuffer}},
        {binding: 3, resource: {buffer: params.txtQuantAttn}},
      ],
    }),
    imgAct: device.createBindGroup({
      layout: activateMlpPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: mlp0Buffer}},
        {binding: 1, resource: {buffer: packedMlpBuffer}},
        {binding: 2, resource: {buffer: mlpScalesBuffer}},
        {binding: 3, resource: {buffer: params.imgAct}},
      ],
    }),
    txtAct: device.createBindGroup({
      layout: activateMlpPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: mlp0Buffer}},
        {binding: 1, resource: {buffer: packedMlpBuffer}},
        {binding: 2, resource: {buffer: mlpScalesBuffer}},
        {binding: 3, resource: {buffer: params.txtAct}},
      ],
    }),
  };

  const blockStages = blocks.map((block, offset) => {
    const ping = offset & 1;
    const imgInputState = ping ? imgStateB : imgStateA;
    const txtInputState = ping ? txtStateB : txtStateA;
    const imgOutputState = ping ? imgStateA : imgStateB;
    const txtOutputState = ping ? txtStateA : txtStateB;
    const weights = {
      imgQkv: makeLinearBuffers(block.imgQkv),
      txtQkv: makeLinearBuffers(block.txtQkv),
      imgProj: makeLinearBuffers(block.imgProj),
      txtProj: makeLinearBuffers(block.txtProj),
      imgMlp0: makeLinearBuffers(block.imgMlp0),
      imgMlp2: makeLinearBuffers(block.imgMlp2),
      txtMlp0: makeLinearBuffers(block.txtMlp0),
      txtMlp2: makeLinearBuffers(block.txtMlp2),
    };
    const imgQueryScaleBuffer = createImmutableBuffer(device, block.imgNorm.queryScale, GPUBufferUsage.STORAGE, block.imgNorm.queryScaleUrl);
    const imgKeyScaleBuffer = createImmutableBuffer(device, block.imgNorm.keyScale, GPUBufferUsage.STORAGE, block.imgNorm.keyScaleUrl);
    const txtQueryScaleBuffer = createImmutableBuffer(device, block.txtNorm.queryScale, GPUBufferUsage.STORAGE, block.txtNorm.queryScaleUrl);
    const txtKeyScaleBuffer = createImmutableBuffer(device, block.txtNorm.keyScale, GPUBufferUsage.STORAGE, block.txtNorm.keyScaleUrl);
    return {
      blockIndex: block.blockIndex,
      imgQkvPre: makePreNormBind(imgInputState, modImgBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.imgPre),
      txtQkvPre: makePreNormBind(txtInputState, modTxtBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.txtPre),
      imgQkvDot: makeDotBind(dotHiddenToQkvPipeline, packedHiddenBuffer, scalesBuffer, weights.imgQkv.w, weights.imgQkv.s, imgQkvBuffer, params.imgDotQkv),
      txtQkvDot: makeDotBind(dotHiddenToQkvPipeline, packedHiddenBuffer, scalesBuffer, weights.txtQkv.w, weights.txtQkv.s, txtQkvBuffer, params.txtDotQkv),
      imgQkvNorm: device.createBindGroup({
        layout: qkvNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: imgQkvBuffer}},
          {binding: 1, resource: {buffer: imgQueryScaleBuffer}},
          {binding: 2, resource: {buffer: imgKeyScaleBuffer}},
          {binding: 3, resource: {buffer: qNormBuffer}},
          {binding: 4, resource: {buffer: kNormBuffer}},
          {binding: 5, resource: {buffer: vBuffer}},
          {binding: 6, resource: {buffer: params.imgQkvNorm}},
          {binding: 7, resource: {buffer: ropeFreqBuffer}},
        ],
      }),
      txtQkvNorm: device.createBindGroup({
        layout: qkvNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: txtQkvBuffer}},
          {binding: 1, resource: {buffer: txtQueryScaleBuffer}},
          {binding: 2, resource: {buffer: txtKeyScaleBuffer}},
          {binding: 3, resource: {buffer: qNormBuffer}},
          {binding: 4, resource: {buffer: kNormBuffer}},
          {binding: 5, resource: {buffer: vBuffer}},
          {binding: 6, resource: {buffer: params.txtQkvNorm}},
          {binding: 7, resource: {buffer: ropeFreqBuffer}},
        ],
      }),
      imgProj: makeResidualDotBind(dotProjPipeline, packedHiddenBuffer, scalesBuffer, weights.imgProj.w, weights.imgProj.s, imgMidState, params.imgProj, imgInputState, res(modImgBuffer, hiddenModOffsets.mod1Gate)),
      txtProj: makeResidualDotBind(dotProjPipeline, packedHiddenBuffer, scalesBuffer, weights.txtProj.w, weights.txtProj.s, txtMidState, params.txtProj, txtInputState, res(modTxtBuffer, hiddenModOffsets.mod1Gate)),
      imgMlpPre: makePreNormBind(imgMidState, modImgBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.imgMlpPre),
      txtMlpPre: makePreNormBind(txtMidState, modTxtBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.txtMlpPre),
      imgMlp0: makeDotBind(dotMlp0Pipeline, packedHiddenBuffer, scalesBuffer, weights.imgMlp0.w, weights.imgMlp0.s, mlp0Buffer, params.imgMlp0),
      txtMlp0: makeDotBind(dotMlp0Pipeline, packedHiddenBuffer, scalesBuffer, weights.txtMlp0.w, weights.txtMlp0.s, mlp0Buffer, params.txtMlp0),
      imgMlp2: makeResidualDotBind(dotMlp2Pipeline, packedMlpBuffer, mlpScalesBuffer, weights.imgMlp2.w, weights.imgMlp2.s, imgOutputState, params.imgMlp2, imgMidState, res(modImgBuffer, hiddenModOffsets.mod2Gate)),
      txtMlp2: makeResidualDotBind(dotMlp2Pipeline, packedMlpBuffer, mlpScalesBuffer, weights.txtMlp2.w, weights.txtMlp2.s, txtOutputState, params.txtMlp2, txtMidState, res(modTxtBuffer, hiddenModOffsets.mod2Gate)),
    };
  });

  const runStage = (pass, pipeline, bindGroup, x, y = undefined) => {
    pass.setPipeline(pipeline);
    pass.setBindGroup(0, bindGroup);
    if (y === undefined) pass.dispatchWorkgroups(x);
    else pass.dispatchWorkgroups(x, y);
  };

  async function dispatch() {
    const encoder = device.createCommandEncoder();
    const pass = encoder.beginComputePass();
    runStage(pass, timeStage0.pipeline, timeStage0.bindGroup, timeStage0.workgroupsX, timeStage0.workgroupsY);
    runStage(pass, timeSiluStage.pipeline, timeSiluStage.bindGroup, timeSiluStage.workgroupsX);
    runStage(pass, timeStage1.pipeline, timeStage1.bindGroup, timeStage1.workgroupsX, timeStage1.workgroupsY);
    runStage(pass, vecCastStage.pipeline, vecCastStage.bindGroup, vecCastStage.workgroupsX);
    runStage(pass, modImgStage.pipeline, modImgStage.bindGroup, modImgStage.workgroupsX, modImgStage.workgroupsY);
    runStage(pass, modTxtStage.pipeline, modTxtStage.bindGroup, modTxtStage.workgroupsX, modTxtStage.workgroupsY);

    for (const stage of blockStages) {
      runStage(pass, preNormQuantPipeline, stage.imgQkvPre, imgRows);
      runStage(pass, dotHiddenToQkvPipeline, stage.imgQkvDot, Math.ceil(qkvM / linearTileCols), Math.ceil(imgRows / 32));
      runStage(pass, preNormQuantPipeline, stage.txtQkvPre, txtRows);
      runStage(pass, dotHiddenToQkvPipeline, stage.txtQkvDot, Math.ceil(qkvM / linearTileCols), Math.ceil(txtRows / 32));
      runStage(pass, qkvNormPipeline, stage.txtQkvNorm, txtRows, 24);
      runStage(pass, qkvNormPipeline, stage.imgQkvNorm, imgRows, 24);
      runStage(pass, attentionPipeline, commonBind.attention, Math.ceil(jointRows / attentionQueryRows), 24);

      runStage(pass, quantOffsetPipeline, commonBind.imgQuantAttn, imgRows);
      runStage(pass, dotProjPipeline, stage.imgProj, Math.ceil(hidden / projTileCols), Math.ceil(imgRows / 32));
      runStage(pass, quantOffsetPipeline, commonBind.txtQuantAttn, txtRows);
      runStage(pass, dotProjPipeline, stage.txtProj, Math.ceil(hidden / projTileCols), Math.ceil(txtRows / 32));

      runStage(pass, preNormQuantPipeline, stage.imgMlpPre, imgRows);
      runStage(pass, dotMlp0Pipeline, stage.imgMlp0, Math.ceil(mlp1M / linearTileCols), Math.ceil(imgRows / 32));
      runStage(pass, activateMlpPipeline, commonBind.imgAct, imgRows);
      runStage(pass, dotMlp2Pipeline, stage.imgMlp2, Math.ceil(hidden / projTileCols), Math.ceil(imgRows / 32));

      runStage(pass, preNormQuantPipeline, stage.txtMlpPre, txtRows);
      runStage(pass, dotMlp0Pipeline, stage.txtMlp0, Math.ceil(mlp1M / linearTileCols), Math.ceil(txtRows / 32));
      runStage(pass, activateMlpPipeline, commonBind.txtAct, txtRows);
      runStage(pass, dotMlp2Pipeline, stage.txtMlp2, Math.ceil(hidden / projTileCols), Math.ceil(txtRows / 32));
    }

    pass.end();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
  }

  for (let i = 0; i < Number(config.warmupRuns ?? 1); ++i) {
    await dispatch();
  }
  const times = [];
  for (let i = 0; i < Number(config.timedRuns ?? 3); ++i) {
    const start = performance.now();
    await dispatch();
    times.push(performance.now() - start);
  }

  let sample = null;
  if (config.readbackSample) {
    const finalImgBuffer = blockCount % 2 === 0 ? imgStateA : imgStateB;
    const count = Math.min(Number(config.readbackSample), imgRows * hidden);
    const values = await readFloat32Buffer(device, finalImgBuffer, count);
    let finite = 0;
    let maxAbs = 0;
    for (const value of values) {
      if (Number.isFinite(value)) finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
    }
    sample = {count, finite, max_abs: maxAbs, values: Array.from(values.slice(0, Math.min(8, values.length)))};
  }

  const medianMs = median(times);
  const macsPerBlock =
    imgRows * hidden * qkvM + txtRows * hidden * qkvM +
    imgRows * hidden * hidden + txtRows * hidden * hidden +
    imgRows * hidden * mlp1M + txtRows * hidden * mlp1M +
    imgRows * mlpK * hidden + txtRows * mlpK * hidden;
  return {
    verdict: "custom-double-stream-blocks-loop-completed",
    config: {
      startBlockIndex,
      blockCount,
      blockIndices,
      imgRows,
      txtRows,
      jointRows,
      imageWidth,
      linearTileCols,
      projTileCols,
      wChunkCols,
      attentionTileKeys,
      attentionQueryRows,
      warmupRuns: Number(config.warmupRuns ?? 1),
      timedRuns: Number(config.timedRuns ?? 3),
    },
    load: {total_ms: loadMs},
    summary: {
      median_dispatch_ms: medianMs,
      per_block_median_ms: medianMs / blockCount,
      effective_tmacs: (macsPerBlock * blockCount) / (medianMs / 1000) / 1e12,
    },
    timed_ms: times,
    sample,
  };
}

async function runCustomFluxTransformerDenoise(config = {}) {
  if (!config.fullManifest) {
    throw new Error("custom full denoise requires fullManifest");
  }
  const baseUrl = config.bundleBaseUrl || "/runtime/custom_lowbit/full_transformer/";
  const imgRows = Number(config.imageTokens ?? 256);
  const txtRows = Number(config.textTokens ?? 512);
  const jointRows = imgRows + txtRows;
  const hidden = 3072;
  const contextDim = 7680;
  const latentChannels = Number(config.latentChannels ?? 128);
  const imageWidth = Math.max(1, Number(config.imageWidth ?? Math.round(Math.sqrt(Math.max(1, imgRows)))));
  const qkvM = 9216;
  const doubleMlp1M = 18432;
  const doubleMlpK = 9216;
  const singleLinear1M = 27648;
  const singleLinear2K = 12288;
  const kWordsLatent = latentChannels / 4;
  const kWordsContext = contextDim / 4;
  const kWordsHidden = hidden / 4;
  const hiddenQ4Groups = hidden / 16;
  const kWordsDoubleMlp = doubleMlpK / 4;
  const kWordsSingleMlp = singleLinear2K / 4;
  const maxRows = Math.max(imgRows, txtRows);
  const linearTileCols = Number(config.linearTileCols ?? 256);
  const projTileCols = Number(config.projTileCols ?? 128);
  const finalTileCols = Number(config.finalTileCols ?? 256);
  const wChunkCols = Number(config.wChunkCols ?? 64);
  const linearRowBlock = Number(config.linearRowBlock ?? 32);
  const singleAttentionKernel = String(config.singleAttentionKernel || config.attentionKernel || "tiled").toLowerCase();
  const useSubgroupSingleAttention = singleAttentionKernel === "subgroup" || singleAttentionKernel === "subgroups";
  const {device} = await requestCustomWebGpuDevice(
    ["shader-f16", "packed_4x8_integer_dot_product", ...(useSubgroupSingleAttention ? ["subgroups"] : [])],
    linearRowBlock > 32 ? {maxComputeInvocationsPerWorkgroup: 512} : {},
  );
  const attentionTileKeys = Number(config.attentionTileKeys ?? 8);
  const attentionQueryRows = Number(config.attentionQueryRows ?? 16);
  const singleQkNormStorage = String(config.singleQkNormStorage || "f32").toLowerCase();
  const useSingleQkNormStorageF16 = singleQkNormStorage === "f16" || singleQkNormStorage === "fp16" || singleQkNormStorage === "half";
  const singleLinear2Backend = String(config.singleLinear2Backend || "dp4a").toLowerCase();
  const useSingleLinear2Dp4a = singleLinear2Backend === "dp4a" || singleLinear2Backend === "i8" || singleLinear2Backend === "int8";
  const useSingleLinear2Q4 = !useSingleLinear2Dp4a;
  const singleLinear1Output = String(config.singleLinear1Output || "f16").toLowerCase();
  const useSingleLinear1OutputF16 = singleLinear1Output === "f16" || singleLinear1Output === "fp16" || singleLinear1Output === "half";
  const singleLinear1QkvBackend = String(config.singleLinear1QkvBackend || "q4").toLowerCase();
  const useSingleLinear1QkvDp4a = useSingleLinear1OutputF16 && (
    singleLinear1QkvBackend === "dp4a" || singleLinear1QkvBackend === "i8" || singleLinear1QkvBackend === "int8"
  );
  const singleLinear1MlpBackend = String(config.singleLinear1MlpBackend || "q4").toLowerCase();
  const useSingleLinear1MlpDp4a = useSingleLinear1OutputF16 && (
    singleLinear1MlpBackend === "dp4a" || singleLinear1MlpBackend === "i8" || singleLinear1MlpBackend === "int8"
  );
  const useSingleLinear1Dp4a = useSingleLinear1QkvDp4a || useSingleLinear1MlpDp4a;
  const useSingleLinear1Q4 = !(useSingleLinear1QkvDp4a && useSingleLinear1MlpDp4a);
  const singleLinear1Q4Kernel = String(config.singleLinear1Q4Kernel || "f16").toLowerCase();
  const useSingleLinear1Q4Dp4aQkvOnly = (
    singleLinear1Q4Kernel === "dp4a-qkv" ||
    singleLinear1Q4Kernel === "qkv-dp4a" ||
    singleLinear1Q4Kernel === "q4-dp4a-qkv"
  );
  const useSingleLinear1Q4Dp4a = useSingleLinear1OutputF16 && (
    singleLinear1Q4Kernel === "dp4a" ||
    singleLinear1Q4Kernel === "q4-dp4a" ||
    singleLinear1Q4Kernel === "int8" ||
    useSingleLinear1Q4Dp4aQkvOnly
  );
  const singleLinear1Q4ActivationScale = String(
    config.singleLinear1Q4ActivationScale ?? (useSingleLinear1Q4Dp4a ? "group16" : "row")
  ).toLowerCase();
  const useSingleLinear1Q4GroupedActivation = useSingleLinear1Q4Dp4a && (
    singleLinear1Q4ActivationScale === "group" ||
    singleLinear1Q4ActivationScale === "group16" ||
    singleLinear1Q4ActivationScale === "per-group"
  );
  const needsSingleLinear1F16PreNorm = useSingleLinear1Q4 && (!useSingleLinear1Q4Dp4a || useSingleLinear1Q4Dp4aQkvOnly);
  const needsSingleLinear1GroupedPreNorm = useSingleLinear1Q4GroupedActivation;
  const approxReusePredEvery = Math.max(0, Math.trunc(Number(config.approxReusePredEvery || 0)));
  const approxPredictionMode = String(config.approxPredictionMode || config.approxMode || "raw").toLowerCase();
  const approxAbScale = Number.isFinite(Number(config.approxAbScale))
    ? Number(config.approxAbScale)
    : 0.5;
  const useApproxAb2 = approxReusePredEvery > 1 && (approxPredictionMode === "ab2" || approxPredictionMode === "adams-bashforth");
  const skipSingleBlocksFromStep = Math.max(0, Math.trunc(Number(config.skipSingleBlocksFromStep || 0)));
  const skipSingleBlocksFromBlock = Math.max(0, Math.trunc(Number(config.skipSingleBlocksFromBlock || 0)));
  const reuseSingleTailFromStep = Math.max(0, Math.trunc(Number(config.reuseSingleTailFromStep || 0)));
  const reuseSingleTailFromBlock = Math.max(0, Math.trunc(Number(config.reuseSingleTailFromBlock || 0)));
  const profilePhases = config.profilePhases === true && !config.debugStopAfter;
  const profileSingleParts = profilePhases && config.profileSingleParts === true;
  const stepSubmitFusion = config.stepSubmitFusion === true && approxReusePredEvery <= 1 && !config.debugStopAfter && !profilePhases;
  const timesteps = Array.isArray(config.timesteps) && config.timesteps.length > 1
    ? config.timesteps.map(Number)
    : [1.0, 0.75, 0.5, 0.25, 0.0];
  const denoiseStepCount = timesteps.length - 1;
  const doubleBlockCount = Math.max(1, Math.min(5, Math.trunc(Number(config.maxDoubleBlocks || config.doubleBlockCount || 5))));
  const singleBlockCount = Math.max(0, Math.min(20, Math.trunc(Number(config.maxSingleBlocks || config.singleBlockCount || 20))));
  if (jointRows > 4608) {
    throw new Error(`custom WebGPU transformer currently supports joint tokens <= 4608; got ${jointRows}`);
  }
  if (latentChannels !== 128) {
    throw new Error(`custom WebGPU transformer currently expects 128 latent channels; got ${latentChannels}`);
  }

  const initialLatent = config.initialLatentF32 instanceof Float32Array
    ? config.initialLatentF32
    : new Float32Array(config.initialLatentF32 || []);
  if (initialLatent.length !== imgRows * latentChannels) {
    throw new Error(`initialLatentF32 length ${initialLatent.length} does not match ${imgRows * latentChannels}`);
  }
  const contextF16 = config.contextF16 instanceof Uint16Array
    ? config.contextF16
    : new Uint16Array(config.contextF16 || []);
  if (contextF16.length !== txtRows * contextDim) {
    throw new Error(`contextF16 length ${contextF16.length} does not match ${txtRows * contextDim}`);
  }
  const textProjectionCacheKey = config.textContextCacheKey
    ? `${baseUrl}|txt-in|${txtRows}|${contextDim}|${hidden}|${config.textContextCacheKey}`
    : "";
  const persistentTextProjectionKey = textProjectionCacheKey && config.persistentTextProjectionCache !== false
    ? `txtproj-v1|${textProjectionCacheKey}`
    : "";
  let textProjectionDeviceCache = null;
  let cachedTxtBaseState = null;
  let persistentTxtProjectionHit = false;
  let staticTxtProjectionHit = false;
  let persistentTxtProjectionMs = 0;
  if (textProjectionCacheKey) {
    textProjectionDeviceCache = textProjectionGpuCache.get(device);
    if (!textProjectionDeviceCache) {
      textProjectionDeviceCache = new Map();
      textProjectionGpuCache.set(device, textProjectionDeviceCache);
    }
    cachedTxtBaseState = textProjectionDeviceCache.get(textProjectionCacheKey) || null;
  }
  let contextF32 = null;
  if (!cachedTxtBaseState) {
    contextF32 = new Float32Array(contextF16.length);
    for (let i = 0; i < contextF16.length; ++i) {
      contextF32[i] = float16BitsToFloat32(contextF16[i]);
    }
  }

  const loadStart = performance.now();
  const {
    imgIn,
    txtIn,
    finalLinear,
    doubleBlocks,
    singleBlocks,
    singleNorms,
  } = await loadFullTransformerAssetSet(config.fullManifest, baseUrl, doubleBlockCount, singleBlockCount);
  const loadMs = performance.now() - loadStart;
  const stageSetupStart = performance.now();

  const latentBytes = imgRows * latentChannels * 4;
  const imgBytes = imgRows * hidden * 4;
  const txtBytes = txtRows * hidden * 4;
  const jointBytes = jointRows * hidden * 4;
  const scratchKey = [
    baseUrl,
    `img=${imgRows}`,
    `txt=${txtRows}`,
    `latent=${latentChannels}`,
    `l1=${singleLinear1Output}`,
    `qkv=${singleLinear1QkvBackend}`,
    `mlp=${singleLinear1MlpBackend}`,
    `q4=${singleLinear1Q4Kernel}`,
    `q4act=${singleLinear1Q4ActivationScale}`,
    `l2=${singleLinear2Backend}`,
  ].join("|");
  const scratchBuffer = (name, size, usage) => createReusableBuffer(device, `${scratchKey}|${name}`, size, usage);
  const uploadScratchBuffer = (name, data, usage) => {
    const buffer = scratchBuffer(name, data.byteLength, usage | GPUBufferUsage.COPY_DST);
    device.queue.writeBuffer(buffer, 0, data);
    return buffer;
  };
  const latentF32Buffer = uploadScratchBuffer("latent-f32", initialLatent, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const contextF32Buffer = contextF32
    ? uploadScratchBuffer("context-f32", contextF32, GPUBufferUsage.STORAGE)
    : scratchBuffer("context-empty", 4, GPUBufferUsage.STORAGE);
  let txtBaseState = cachedTxtBaseState;
  if (!txtBaseState && persistentTextProjectionKey) {
    const persistentStart = performance.now();
    const persistedTxtBase = await loadPersistentFloat32(persistentTextProjectionKey, txtRows * hidden);
    persistentTxtProjectionMs = performance.now() - persistentStart;
    if (persistedTxtBase) {
      txtBaseState = uploadScratchBuffer("txt-base-persistent", persistedTxtBase, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
      persistentTxtProjectionHit = true;
      if (textProjectionDeviceCache && textProjectionCacheKey) {
        textProjectionDeviceCache.set(textProjectionCacheKey, txtBaseState);
      }
    }
  }
  if (!txtBaseState && config.textProjectionUrl) {
    const staticStart = performance.now();
    const staticTxtBase = await loadStaticFloat32(config.textProjectionUrl, txtRows * hidden);
    persistentTxtProjectionMs += performance.now() - staticStart;
    if (staticTxtBase) {
      txtBaseState = uploadScratchBuffer("txt-base-static", staticTxtBase, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
      staticTxtProjectionHit = true;
      if (textProjectionDeviceCache && textProjectionCacheKey) {
        textProjectionDeviceCache.set(textProjectionCacheKey, txtBaseState);
      }
      if (persistentTextProjectionKey) {
        savePersistentFloat32(persistentTextProjectionKey, staticTxtBase).catch((err) => {
          console.warn("[custom-lowbit] could not persist static text projection", err);
        });
      }
    }
  }
  if (!txtBaseState) {
    txtBaseState = createEmptyBuffer(device, txtBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  }
  const imgStateA = scratchBuffer("img-state-a", imgBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const txtStateA = scratchBuffer("txt-state-a", txtBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const imgStateB = scratchBuffer("img-state-b", imgBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const txtStateB = scratchBuffer("txt-state-b", txtBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const imgMidState = scratchBuffer("img-mid-state", imgBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const txtMidState = scratchBuffer("txt-mid-state", txtBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const jointStateA = scratchBuffer("joint-state-a", jointBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const jointStateB = scratchBuffer("joint-state-b", jointBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC | GPUBufferUsage.COPY_DST);
  const predBuffer = scratchBuffer("pred", latentBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const previousPredBuffer = useApproxAb2
    ? scratchBuffer("previous-pred", latentBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST)
    : scratchBuffer("previous-pred-empty", 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST);
  const stepResourceCount = stepSubmitFusion ? denoiseStepCount : 1;
  const updateParamsBuffers = Array.from({length: stepResourceCount}, (_, index) => (
    uploadScratchBuffer(
      `update-params-${index}`,
      new Float32Array([
        imgRows * latentChannels,
        index < denoiseStepCount ? timesteps[index + 1] - timesteps[index] : 0,
        0,
        0,
      ]),
      GPUBufferUsage.STORAGE,
    )
  ));

  const inputPackedWords = Math.max(imgRows * kWordsLatent, txtRows * kWordsContext);
  const inputPackedBuffer = scratchBuffer("input-packed", inputPackedWords * 4, GPUBufferUsage.STORAGE);
  const inputScalesBuffer = scratchBuffer("input-scales", Math.max(imgRows, txtRows) * 4, GPUBufferUsage.STORAGE);
  const packedHiddenBuffer = scratchBuffer("packed-hidden", maxRows * kWordsHidden * 4, GPUBufferUsage.STORAGE);
  const scalesBuffer = scratchBuffer("hidden-scales", maxRows * 4, GPUBufferUsage.STORAGE);
  const groupedHiddenScalesBuffer = scratchBuffer("grouped-hidden-scales", maxRows * hiddenQ4Groups * 4, GPUBufferUsage.STORAGE);
  const packedDoubleMlpBuffer = scratchBuffer("packed-double-mlp", maxRows * kWordsDoubleMlp * 4, GPUBufferUsage.STORAGE);
  const doubleMlpScalesBuffer = scratchBuffer("double-mlp-scales", maxRows * 4, GPUBufferUsage.STORAGE);
  const packedSingleMlpBuffer = scratchBuffer("packed-single-mlp", jointRows * kWordsSingleMlp * 4, GPUBufferUsage.STORAGE);
  const singleMlpScalesBuffer = scratchBuffer("single-mlp-scales", jointRows * 4, GPUBufferUsage.STORAGE);
  const singlePreF16Buffer = needsSingleLinear1F16PreNorm
    ? scratchBuffer("single-pre-f16", jointRows * hidden * 2, GPUBufferUsage.STORAGE)
    : scratchBuffer("single-pre-f16-empty", 4, GPUBufferUsage.STORAGE);
  const singleLinear2InF32Buffer = useSingleLinear2Q4
    ? scratchBuffer("single-linear2-in-f32", jointRows * singleLinear2K * 4, GPUBufferUsage.STORAGE)
    : scratchBuffer("single-linear2-in-f32-empty", 4, GPUBufferUsage.STORAGE);
  const singleLinear2InF16Buffer = useSingleLinear2Q4
    ? scratchBuffer("single-linear2-in-f16", jointRows * singleLinear2K * 2, GPUBufferUsage.STORAGE)
    : scratchBuffer("single-linear2-in-f16-empty", 4, GPUBufferUsage.STORAGE);
  const singleLinear2OutBuffer = scratchBuffer("single-linear2-out", jointRows * hidden * 4, GPUBufferUsage.STORAGE);

  const maxStorageBindingBytes = Math.max(
    jointRows * singleLinear1M * (useSingleLinear1OutputF16 ? 2 : 4),
    jointRows * singleLinear2K * 4,
    jointRows * singleLinear2K * 2,
    jointRows * hidden * 4,
    maxRows * doubleMlp1M * 2,
  );
  const storageBindingLimit = Number(device.limits?.maxStorageBufferBindingSize || 128 * 1024 * 1024);
  if (maxStorageBindingBytes > storageBindingLimit) {
    throw new Error(
      `CUSTOM_TRANSFORMER_WEBGPU_LIMIT: required storage buffer binding ${maxStorageBindingBytes} bytes exceeds device limit ${storageBindingLimit} bytes`,
    );
  }

  const imgQkvBuffer = scratchBuffer("img-qkv", imgRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const txtQkvBuffer = scratchBuffer("txt-qkv", txtRows * qkvM * 2, GPUBufferUsage.STORAGE);
  const doubleQNormBuffer = scratchBuffer("double-q-norm", jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const doubleKNormBuffer = scratchBuffer("double-k-norm", jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const doubleVBuffer = scratchBuffer("double-v", jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const doubleAttentionOutBuffer = scratchBuffer("double-attention-out", jointRows * hidden * 4, GPUBufferUsage.STORAGE);
  const doubleMlp0Buffer = scratchBuffer("double-mlp0", maxRows * doubleMlp1M * 2, GPUBufferUsage.STORAGE);
  const doubleRopeFreqBuffer = createImmutableBuffer(device, buildFluxRopeFrequencies(), GPUBufferUsage.STORAGE, `${scratchKey}|double-rope-freq`);

  const singleLinear1OutBuffer = scratchBuffer("single-linear1-out", jointRows * singleLinear1M * (useSingleLinear1OutputF16 ? 2 : 4), GPUBufferUsage.STORAGE);
  const singleAttentionOutBuffer = scratchBuffer("single-attention-out", jointRows * hidden * 4, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_SRC);
  const singleTailDeltaEnabled = reuseSingleTailFromStep > 0 && reuseSingleTailFromBlock > 0 && reuseSingleTailFromBlock < singleBlockCount;
  const skippedOptionalSetupBytes =
    (needsSingleLinear1F16PreNorm ? 0 : jointRows * hidden * 2) +
    (useSingleLinear2Q4 ? 0 : jointRows * singleLinear2K * 6);
  const skippedOptionalPipelines = [
    !needsSingleLinear1GroupedPreNorm,
    !needsSingleLinear1F16PreNorm,
    !useSingleLinear2Q4,
    !useSingleLinear2Q4,
    !useApproxAb2,
    !singleTailDeltaEnabled,
    !singleTailDeltaEnabled,
  ].filter(Boolean).length;
  const singleTailBaseCacheBuffer = singleTailDeltaEnabled
    ? scratchBuffer("single-tail-base-cache", jointBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC)
    : null;
  const singleTailDeltaCacheBuffer = singleTailDeltaEnabled
    ? scratchBuffer("single-tail-delta-cache", jointBytes, GPUBufferUsage.STORAGE | GPUBufferUsage.COPY_DST | GPUBufferUsage.COPY_SRC)
    : null;
  const singleQkNormBytes = jointRows * hidden * (useSingleQkNormStorageF16 ? 2 : 4);
  const singleQNormBuffer = scratchBuffer("single-q-norm", singleQkNormBytes, GPUBufferUsage.STORAGE);
  const singleKNormBuffer = scratchBuffer("single-k-norm", singleQkNormBytes, GPUBufferUsage.STORAGE);
  const singleRopeSinCosBuffer = createImmutableBuffer(device, buildFluxRopeSinCos(jointRows, txtRows, imageWidth), GPUBufferUsage.STORAGE, `${scratchKey}|single-rope-sincos|w=${imageWidth}`);

  const modImgBuffer = scratchBuffer("mod-img", 18432 * 4, GPUBufferUsage.STORAGE);
  const modTxtBuffer = scratchBuffer("mod-txt", 18432 * 4, GPUBufferUsage.STORAGE);
  const modSingleBuffer = scratchBuffer("mod-single", 9216 * 4, GPUBufferUsage.STORAGE);
  const finalModBuffer = scratchBuffer("final-mod", 6144 * 4, GPUBufferUsage.STORAGE);
  const timestepBuffers = Array.from({length: stepResourceCount}, (_, index) => (
    uploadScratchBuffer(
      `timestep-${index}`,
      makeTimestepEmbeddingF16(timesteps[Math.min(index, Math.max(0, denoiseStepCount - 1))]),
      GPUBufferUsage.STORAGE,
    )
  ));
  const timeHiddenF32Buffer = scratchBuffer("time-hidden-f32", hidden * 4, GPUBufferUsage.STORAGE);
  const timeHiddenF16Buffer = scratchBuffer("time-hidden-f16", hidden * 2, GPUBufferUsage.STORAGE);
  const vecF32Buffer = scratchBuffer("vec-f32", hidden * 4, GPUBufferUsage.STORAGE);
  const vecF16Buffer = scratchBuffer("vec-f16", hidden * 2, GPUBufferUsage.STORAGE);

  const dotF32Code = makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, false, linearRowBlock);
  const dotF16Code = makeI8ScaledDotShader32xWide(linearTileCols, wChunkCols, true, linearRowBlock);
  const finalDotCode = makeI8ScaledDotShader32xWide(finalTileCols, wChunkCols, false, linearRowBlock);
  const dotResidualCode = makeI8ScaledDotResidualShader32xWide(projTileCols, wChunkCols, linearRowBlock);
  const jointAttentionCode = makeJointAttentionTiledShader(attentionTileKeys, attentionQueryRows);
  let singleQkNormCode = useSingleLinear1OutputF16 ? makeLinear1F16ConsumerShader(SINGLE_QK_NORM_ROPE_SHADER) : SINGLE_QK_NORM_ROPE_SHADER;
  if (useSingleQkNormStorageF16) {
    singleQkNormCode = makeSingleQkNormF16StorageShader(singleQkNormCode);
  }
  let singleAttentionCode = useSubgroupSingleAttention
    ? makeSingleAttentionSubgroupShader(attentionTileKeys)
    : makeSingleAttentionTiledShader(attentionTileKeys, attentionQueryRows);
  if (useSingleQkNormStorageF16) {
    singleAttentionCode = makeAttentionQkF16ConsumerShader(singleAttentionCode);
  }
  if (useSingleLinear1OutputF16) {
    singleAttentionCode = makeLinear1F16ConsumerShader(singleAttentionCode);
  }
  const singleActivateCode = useSingleLinear1OutputF16
    ? makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER)
    : SINGLE_MLP_ACTIVATE_ATTENTION_QUANT_SHADER;
  const singleActivateF32Code = useSingleLinear1OutputF16
    ? makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATION_ATTENTION_SHADER)
    : SINGLE_MLP_ACTIVATION_ATTENTION_SHADER;

  const [
    quantF32Pipeline,
    preNormQuantPipeline,
    preNormGroupQuantPipeline,
    preNormF16Pipeline,
    quantOffsetPipeline,
    dotF32Pipeline,
    dotF16Pipeline,
    finalDotPipeline,
    dotResidualPipeline,
    doubleQkvNormPipeline,
    jointAttentionPipeline,
    doubleActivateMlpPipeline,
    singleQkNormPipeline,
    singleAttentionPipeline,
    singleActivatePipeline,
    singleActivateF32Pipeline,
    singleResidualPipeline,
    latentUpdatePipeline,
    latentUpdateAb2Pipeline,
    singleTailDeltaCachePipeline,
    singleTailDeltaApplyPipeline,
  ] = await Promise.all([
    getCachedComputePipeline(device, "quant-f32", QUANTIZE_X_F32_SHADER),
    getCachedComputePipeline(device, "single-prenorm-mod-quant", SINGLE_PRENORM_MOD_QUANT_SHADER),
    needsSingleLinear1GroupedPreNorm
      ? getCachedComputePipeline(device, "single-prenorm-mod-group-quant", SINGLE_PRENORM_MOD_GROUP_QUANT_SHADER)
      : Promise.resolve(null),
    needsSingleLinear1F16PreNorm
      ? getCachedComputePipeline(device, "single-prenorm-mod-f16", SINGLE_PRENORM_MOD_F16_SHADER)
      : Promise.resolve(null),
    getCachedComputePipeline(device, "quant-f32-offset", QUANTIZE_X_F32_OFFSET_SHADER),
    getCachedComputePipeline(device, `i8-dot:${linearTileCols}:${wChunkCols}:rows${linearRowBlock}:f32`, dotF32Code),
    getCachedComputePipeline(device, `i8-dot:${linearTileCols}:${wChunkCols}:rows${linearRowBlock}:f16`, dotF16Code),
    getCachedComputePipeline(device, `i8-dot:${finalTileCols}:${wChunkCols}:rows${linearRowBlock}:final-f32`, finalDotCode),
    getCachedComputePipeline(device, `i8-residual-dot:${projTileCols}:${wChunkCols}:rows${linearRowBlock}`, dotResidualCode),
    getCachedComputePipeline(device, "double-qkv-norm-rope", DOUBLE_QKV_NORM_ROPE_SHADER),
    getCachedComputePipeline(device, `joint-attention:${attentionTileKeys}:${attentionQueryRows}`, jointAttentionCode),
    getCachedComputePipeline(device, "double-activate-mlp-f16", makeLinear1F16ConsumerShader(SINGLE_MLP_ACTIVATE_QUANT_SHADER)),
    getCachedComputePipeline(device, `single-qk-norm-rope:${useSingleLinear1OutputF16 ? "f16" : "f32"}:qk-${useSingleQkNormStorageF16 ? "f16" : "f32"}`, singleQkNormCode),
    getCachedComputePipeline(device, `single-attention:${useSubgroupSingleAttention ? "subgroup" : "tiled"}:${attentionTileKeys}:${attentionQueryRows}:${useSingleLinear1OutputF16 ? "f16" : "f32"}:qk-${useSingleQkNormStorageF16 ? "f16" : "f32"}`, singleAttentionCode),
    getCachedComputePipeline(device, `single-activate-quant:${useSingleLinear1OutputF16 ? "f16" : "f32"}`, singleActivateCode),
    useSingleLinear2Q4
      ? getCachedComputePipeline(device, `single-activate-f32:${useSingleLinear1OutputF16 ? "f16" : "f32"}`, singleActivateF32Code)
      : Promise.resolve(null),
    useSingleLinear2Q4
      ? getCachedComputePipeline(device, "single-residual-gate", SINGLE_RESIDUAL_GATE_SHADER)
      : Promise.resolve(null),
    getCachedComputePipeline(device, "latent-update-f32", LATENT_UPDATE_F32_SHADER),
    useApproxAb2
      ? getCachedComputePipeline(device, "latent-update-ab2-f32", LATENT_UPDATE_AB2_F32_SHADER)
      : Promise.resolve(null),
    singleTailDeltaEnabled
      ? getCachedComputePipeline(device, "single-tail-delta-cache", SINGLE_TAIL_DELTA_CACHE_SHADER)
      : Promise.resolve(null),
    singleTailDeltaEnabled
      ? getCachedComputePipeline(device, "single-tail-delta-apply", SINGLE_TAIL_DELTA_APPLY_SHADER)
      : Promise.resolve(null),
  ]);
  const singleLinear2CastStage = useSingleLinear2Q4
    ? await createF32ToF16Stage(device, singleLinear2InF32Buffer, singleLinear2InF16Buffer, jointRows * singleLinear2K, false)
    : null;
  const singleLinear1Q4Options = useSingleLinear1QkvDp4a
    ? {colOffset: qkvM, outputCols: singleLinear1M - qkvM, outputStride: singleLinear1M}
    : useSingleLinear1MlpDp4a
      ? {colOffset: 0, outputCols: qkvM, outputStride: singleLinear1M}
      : {};
  const singleQ4TileCols = Number(config.singleQ4TileCols ?? 256);
  const singleQ4KChunk = Number(config.singleQ4KChunk ?? (singleQ4TileCols >= 256 ? 32 : 64));
  const singleQ4Dp4aTileCols = Number(config.singleQ4Dp4aTileCols ?? 128);
  const makeSingleLinear1Q4StagesForBlock = async (blockIndex) => {
    const linear = findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear1`);
    if (useSingleLinear1Q4Dp4aQkvOnly) {
      return Promise.all([
        createQ4Dp4aLinearStage(
          device,
          linear,
          baseUrl,
          packedHiddenBuffer,
          useSingleLinear1Q4GroupedActivation ? groupedHiddenScalesBuffer : scalesBuffer,
          singleLinear1OutBuffer,
          jointRows,
          singleQ4Dp4aTileCols,
          wChunkCols,
          useSingleLinear1OutputF16,
          {
            colOffset: 0,
            outputCols: qkvM,
            outputStride: singleLinear1M,
            xScaleGroupsPerRow: useSingleLinear1Q4GroupedActivation ? hiddenQ4Groups : 1,
            kChunk: singleQ4KChunk,
            cacheKey: `${scratchKey}|single-linear1-q4-dp4a-qkv|${blockIndex}`,
          },
        ),
        createQ4LinearStage(
          device,
          linear,
          baseUrl,
          singlePreF16Buffer,
          singleLinear1OutBuffer,
          jointRows,
          singleQ4TileCols,
          useSingleLinear1OutputF16,
          {
            colOffset: qkvM,
            outputCols: singleLinear1M - qkvM,
            outputStride: singleLinear1M,
            kChunk: singleQ4KChunk,
            cacheKey: `${scratchKey}|single-linear1-q4-tail|${blockIndex}`,
          },
        ),
      ]);
    }
    const stage = useSingleLinear1Q4Dp4a
      ? await createQ4Dp4aLinearStage(
          device,
          linear,
          baseUrl,
          packedHiddenBuffer,
          useSingleLinear1Q4GroupedActivation ? groupedHiddenScalesBuffer : scalesBuffer,
          singleLinear1OutBuffer,
          jointRows,
          singleQ4Dp4aTileCols,
          wChunkCols,
          useSingleLinear1OutputF16,
          {
            ...singleLinear1Q4Options,
            xScaleGroupsPerRow: useSingleLinear1Q4GroupedActivation ? hiddenQ4Groups : 1,
            kChunk: singleQ4KChunk,
            cacheKey: `${scratchKey}|single-linear1-q4|${blockIndex}`,
          },
        )
      : await createQ4LinearStage(
          device,
          linear,
          baseUrl,
          singlePreF16Buffer,
          singleLinear1OutBuffer,
          jointRows,
          singleQ4TileCols,
          useSingleLinear1OutputF16,
          {
            ...singleLinear1Q4Options,
            kChunk: singleQ4KChunk,
            cacheKey: `${scratchKey}|single-linear1-q4|${blockIndex}`,
          },
        );
    return [stage];
  };
  const singleLinear1Q4Stages = useSingleLinear1Q4
    ? await Promise.all(Array.from({length: singleBlockCount}, (_, blockIndex) => makeSingleLinear1Q4StagesForBlock(blockIndex)))
    : [];
  const singleLinear2Q4Stages = useSingleLinear2Dp4a ? [] : await Promise.all(Array.from({length: singleBlockCount}, (_, blockIndex) => (
    createQ4LinearStage(
      device,
      findFullManifestLinear(config.fullManifest, `single_blocks.${blockIndex}.linear2`),
      baseUrl,
      singleLinear2InF16Buffer,
      singleLinear2OutBuffer,
      jointRows,
      singleQ4TileCols,
      false,
      {kChunk: singleQ4KChunk, cacheKey: `${scratchKey}|single-linear2-q4|${blockIndex}`},
    )
  )));

  const timeStage0Stages = await Promise.all(timestepBuffers.map((buffer, index) => (
    createQ4LinearStage(
      device,
      findFullManifestLinear(config.fullManifest, "time_in.in_layer"),
      baseUrl,
      buffer,
      timeHiddenF32Buffer,
      1,
      96,
      false,
      {cacheKey: `${scratchKey}|time-in-0|step-${index}`},
    )
  )));
  const timeSiluStage = await createF32ToF16Stage(device, timeHiddenF32Buffer, timeHiddenF16Buffer, hidden, true, `${scratchKey}|time-silu`);
  const timeStage1 = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "time_in.out_layer"), baseUrl, timeHiddenF16Buffer, vecF32Buffer, 1, 96, false, {cacheKey: `${scratchKey}|time-in-1`});
  const vecCastStage = await createF32ToF16Stage(device, vecF32Buffer, vecF16Buffer, hidden, true, `${scratchKey}|vec-cast`);
  const modImgStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_img.lin"), baseUrl, vecF16Buffer, modImgBuffer, 1, 96, false, {cacheKey: `${scratchKey}|mod-img`});
  const modTxtStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "double_stream_modulation_txt.lin"), baseUrl, vecF16Buffer, modTxtBuffer, 1, 96, false, {cacheKey: `${scratchKey}|mod-txt`});
  const modSingleStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "single_stream_modulation.lin"), baseUrl, vecF16Buffer, modSingleBuffer, 1, 96, false, {cacheKey: `${scratchKey}|mod-single`});
  const finalModStage = await createQ4LinearStage(device, findFullManifestLinear(config.fullManifest, "final_layer.adaLN_modulation.1"), baseUrl, vecF16Buffer, finalModBuffer, 1, 96, false, {cacheKey: `${scratchKey}|final-mod`});

  const makeLinearBuffers = (bundle) => ({
    w: createImmutableBuffer(device, bundle.weight, GPUBufferUsage.STORAGE, bundle.weightCacheKey),
    s: createImmutableBuffer(device, bundle.scales, GPUBufferUsage.STORAGE, bundle.scalesCacheKey),
  });
  const makeParams = (values) => createBuffer(device, new Uint32Array(values), GPUBufferUsage.UNIFORM);
  const res = (buffer, offset = 0) => offset ? {buffer, offset} : {buffer};
  const runStage = (pass, pipeline, bindGroup, x, y = undefined) => {
    pass.setPipeline(pipeline);
    pass.setBindGroup(0, bindGroup);
    if (y === undefined) pass.dispatchWorkgroups(x);
    else pass.dispatchWorkgroups(x, y);
  };
  const dotWorkgroupsY = (rows) => Math.ceil(rows / linearRowBlock);

  const imgInWeights = makeLinearBuffers(imgIn);
  const txtInWeights = makeLinearBuffers(txtIn);
  const finalWeights = makeLinearBuffers(finalLinear);
  const params = {
    quantLatent: makeParams([imgRows, latentChannels, hidden, kWordsLatent]),
    quantContext: makeParams([txtRows, contextDim, hidden, kWordsContext]),
    imgIn: makeParams([imgRows, latentChannels, hidden, kWordsLatent, 0, 0, 0, 0]),
    txtIn: makeParams([txtRows, contextDim, hidden, kWordsContext, 0, 0, 0, 0]),
    imgPre: makeParams([imgRows, hidden, qkvM, kWordsHidden]),
    txtPre: makeParams([txtRows, hidden, qkvM, kWordsHidden]),
    imgDotQkv: makeParams([imgRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    txtDotQkv: makeParams([txtRows, hidden, qkvM, kWordsHidden, 0, 0, 0, 0]),
    imgQkvNorm: makeParams([imgRows, qkvM, 24, 128, hidden, txtRows, txtRows, imageWidth]),
    txtQkvNorm: makeParams([txtRows, qkvM, 24, 128, hidden, 0, txtRows, imageWidth]),
    doubleAttention: makeParams([jointRows, 24, 128, hidden]),
    imgQuantAttn: makeParams([imgRows, hidden, kWordsHidden, txtRows, hidden]),
    txtQuantAttn: makeParams([txtRows, hidden, kWordsHidden, 0, hidden]),
    imgProj: makeParams([imgRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    txtProj: makeParams([txtRows, hidden, hidden, kWordsHidden, 0, 0, 0, 0]),
    imgMlpPre: makeParams([imgRows, hidden, doubleMlp1M, kWordsHidden]),
    txtMlpPre: makeParams([txtRows, hidden, doubleMlp1M, kWordsHidden]),
    imgMlp0: makeParams([imgRows, hidden, doubleMlp1M, kWordsHidden, 0, 0, 0, 0]),
    txtMlp0: makeParams([txtRows, hidden, doubleMlp1M, kWordsHidden, 0, 0, 0, 0]),
    imgAct: makeParams([imgRows, doubleMlp1M, doubleMlpK, 0, 0, doubleMlpK, kWordsDoubleMlp, 0]),
    txtAct: makeParams([txtRows, doubleMlp1M, doubleMlpK, 0, 0, doubleMlpK, kWordsDoubleMlp, 0]),
    imgMlp2: makeParams([imgRows, doubleMlpK, hidden, kWordsDoubleMlp, 0, 0, 0, 0]),
    txtMlp2: makeParams([txtRows, doubleMlpK, hidden, kWordsDoubleMlp, 0, 0, 0, 0]),
    singlePre: makeParams([jointRows, hidden, singleLinear1M, kWordsHidden]),
    singlePreGroup: makeParams([jointRows, hidden, kWordsHidden, 16, hiddenQ4Groups, 0, 0, 0]),
    singleDot1: makeParams([jointRows, hidden, singleLinear1M, kWordsHidden, 0, 0, 0, 0]),
    singleAttention: makeParams([jointRows, singleLinear1M, 24, 128, 9216, hidden, txtRows, imageWidth]),
    singleAct: makeParams([jointRows, singleLinear1M, singleLinear2K, hidden, 9216, 9216, kWordsSingleMlp, 0]),
    singleDot2: makeParams([jointRows, singleLinear2K, hidden, kWordsSingleMlp, 0, 0, 0, 0]),
    singleResidual: makeParams([jointRows, hidden, 0, 0]),
    singleTailDelta: makeParams([jointRows * hidden, 0, 0, 0]),
    finalPre: makeParams([imgRows, hidden, latentChannels, kWordsHidden]),
    finalDot: makeParams([imgRows, hidden, latentChannels, kWordsHidden, 0, 0, 0, 0]),
  };

  const makeQuantF32Bind = (input, packed, scales, paramsBuffer) => device.createBindGroup({
    layout: quantF32Pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: input}},
      {binding: 1, resource: {buffer: packed}},
      {binding: 2, resource: {buffer: scales}},
      {binding: 3, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeDotBind = (pipeline, packed, packedScales, w, wScales, out, paramsBuffer) => device.createBindGroup({
    layout: pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: {buffer: out}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makePreNormBind = (state, modBuffer, shiftOffset, scaleOffset, paramsBuffer, packed = packedHiddenBuffer, scales = scalesBuffer, stateOffset = 0) => device.createBindGroup({
    layout: preNormQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: res(state, stateOffset)},
      {binding: 1, resource: res(modBuffer, shiftOffset)},
      {binding: 2, resource: res(modBuffer, scaleOffset)},
      {binding: 3, resource: {buffer: packed}},
      {binding: 4, resource: {buffer: scales}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makePreNormF16Bind = (state, modBuffer, shiftOffset, scaleOffset, paramsBuffer, output = singlePreF16Buffer) => device.createBindGroup({
    layout: preNormF16Pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: state}},
      {binding: 1, resource: res(modBuffer, shiftOffset)},
      {binding: 2, resource: res(modBuffer, scaleOffset)},
      {binding: 3, resource: {buffer: output}},
      {binding: 4, resource: {buffer: paramsBuffer}},
    ],
  });
  const makePreNormGroupBind = (state, modBuffer, shiftOffset, scaleOffset, paramsBuffer) => device.createBindGroup({
    layout: preNormGroupQuantPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: state}},
      {binding: 1, resource: res(modBuffer, shiftOffset)},
      {binding: 2, resource: res(modBuffer, scaleOffset)},
      {binding: 3, resource: {buffer: packedHiddenBuffer}},
      {binding: 4, resource: {buffer: groupedHiddenScalesBuffer}},
      {binding: 5, resource: {buffer: paramsBuffer}},
    ],
  });
  const makeResidualDotBind = (
    packed,
    packedScales,
    w,
    wScales,
    out,
    paramsBuffer,
    residual,
    gate,
    outOffset = 0,
    residualOffset = 0,
  ) => device.createBindGroup({
    layout: dotResidualPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: packed}},
      {binding: 1, resource: {buffer: w}},
      {binding: 2, resource: {buffer: packedScales}},
      {binding: 3, resource: {buffer: wScales}},
      {binding: 4, resource: res(out, outOffset)},
      {binding: 5, resource: {buffer: paramsBuffer}},
      {binding: 6, resource: res(residual, residualOffset)},
      {binding: 7, resource: gate},
    ],
  });

  const inputProjectionBinds = {
    quantLatent: makeQuantF32Bind(latentF32Buffer, inputPackedBuffer, inputScalesBuffer, params.quantLatent),
    imgIn: makeDotBind(dotF32Pipeline, inputPackedBuffer, inputScalesBuffer, imgInWeights.w, imgInWeights.s, imgStateA, params.imgIn),
    quantContext: makeQuantF32Bind(contextF32Buffer, inputPackedBuffer, inputScalesBuffer, params.quantContext),
    txtIn: makeDotBind(dotF32Pipeline, inputPackedBuffer, inputScalesBuffer, txtInWeights.w, txtInWeights.s, txtBaseState, params.txtIn),
  };
  const hiddenModOffsets = {
    mod1Shift: 0,
    mod1Scale: hidden * 4,
    mod1Gate: hidden * 8,
    mod2Shift: hidden * 12,
    mod2Scale: hidden * 16,
    mod2Gate: hidden * 20,
  };
  const singleMod = {
    shift: 0,
    scale: hidden * 4,
    gate: hidden * 8,
  };

  const doubleCommonBind = {
    attention: device.createBindGroup({
      layout: jointAttentionPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: doubleVBuffer}},
        {binding: 1, resource: {buffer: doubleQNormBuffer}},
        {binding: 2, resource: {buffer: doubleKNormBuffer}},
        {binding: 3, resource: {buffer: doubleAttentionOutBuffer}},
        {binding: 4, resource: {buffer: params.doubleAttention}},
      ],
    }),
    imgQuantAttn: device.createBindGroup({
      layout: quantOffsetPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: doubleAttentionOutBuffer}},
        {binding: 1, resource: {buffer: packedHiddenBuffer}},
        {binding: 2, resource: {buffer: scalesBuffer}},
        {binding: 3, resource: {buffer: params.imgQuantAttn}},
      ],
    }),
    txtQuantAttn: device.createBindGroup({
      layout: quantOffsetPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: doubleAttentionOutBuffer}},
        {binding: 1, resource: {buffer: packedHiddenBuffer}},
        {binding: 2, resource: {buffer: scalesBuffer}},
        {binding: 3, resource: {buffer: params.txtQuantAttn}},
      ],
    }),
    imgAct: device.createBindGroup({
      layout: doubleActivateMlpPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: doubleMlp0Buffer}},
        {binding: 1, resource: {buffer: packedDoubleMlpBuffer}},
        {binding: 2, resource: {buffer: doubleMlpScalesBuffer}},
        {binding: 3, resource: {buffer: params.imgAct}},
      ],
    }),
    txtAct: device.createBindGroup({
      layout: doubleActivateMlpPipeline.getBindGroupLayout(0),
      entries: [
        {binding: 0, resource: {buffer: doubleMlp0Buffer}},
        {binding: 1, resource: {buffer: packedDoubleMlpBuffer}},
        {binding: 2, resource: {buffer: doubleMlpScalesBuffer}},
        {binding: 3, resource: {buffer: params.txtAct}},
      ],
    }),
  };

  const doubleStages = doubleBlocks.map((block, offset) => {
    const ping = offset & 1;
    const isLastDoubleBlock = offset === doubleBlocks.length - 1;
    const imgInputState = ping ? imgStateB : imgStateA;
    const txtInputState = offset === 0 ? txtBaseState : (ping ? txtStateB : txtStateA);
    const imgOutputState = isLastDoubleBlock ? jointStateA : (ping ? imgStateA : imgStateB);
    const txtOutputState = isLastDoubleBlock ? jointStateA : (ping ? txtStateA : txtStateB);
    const imgOutputOffset = isLastDoubleBlock ? txtBytes : 0;
    const txtOutputOffset = 0;
    const weights = {
      imgQkv: makeLinearBuffers(block.imgQkv),
      txtQkv: makeLinearBuffers(block.txtQkv),
      imgProj: makeLinearBuffers(block.imgProj),
      txtProj: makeLinearBuffers(block.txtProj),
      imgMlp0: makeLinearBuffers(block.imgMlp0),
      imgMlp2: makeLinearBuffers(block.imgMlp2),
      txtMlp0: makeLinearBuffers(block.txtMlp0),
      txtMlp2: makeLinearBuffers(block.txtMlp2),
    };
    const imgQueryScaleBuffer = createBuffer(device, block.imgNorm.queryScale, GPUBufferUsage.STORAGE);
    const imgKeyScaleBuffer = createBuffer(device, block.imgNorm.keyScale, GPUBufferUsage.STORAGE);
    const txtQueryScaleBuffer = createBuffer(device, block.txtNorm.queryScale, GPUBufferUsage.STORAGE);
    const txtKeyScaleBuffer = createBuffer(device, block.txtNorm.keyScale, GPUBufferUsage.STORAGE);
    return {
      imgQkvPre: makePreNormBind(imgInputState, modImgBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.imgPre),
      txtQkvPre: makePreNormBind(txtInputState, modTxtBuffer, hiddenModOffsets.mod1Shift, hiddenModOffsets.mod1Scale, params.txtPre),
      imgQkvDot: makeDotBind(dotF16Pipeline, packedHiddenBuffer, scalesBuffer, weights.imgQkv.w, weights.imgQkv.s, imgQkvBuffer, params.imgDotQkv),
      txtQkvDot: makeDotBind(dotF16Pipeline, packedHiddenBuffer, scalesBuffer, weights.txtQkv.w, weights.txtQkv.s, txtQkvBuffer, params.txtDotQkv),
      imgQkvNorm: device.createBindGroup({
        layout: doubleQkvNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: imgQkvBuffer}},
          {binding: 1, resource: {buffer: imgQueryScaleBuffer}},
          {binding: 2, resource: {buffer: imgKeyScaleBuffer}},
          {binding: 3, resource: {buffer: doubleQNormBuffer}},
          {binding: 4, resource: {buffer: doubleKNormBuffer}},
          {binding: 5, resource: {buffer: doubleVBuffer}},
          {binding: 6, resource: {buffer: params.imgQkvNorm}},
          {binding: 7, resource: {buffer: doubleRopeFreqBuffer}},
        ],
      }),
      txtQkvNorm: device.createBindGroup({
        layout: doubleQkvNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: txtQkvBuffer}},
          {binding: 1, resource: {buffer: txtQueryScaleBuffer}},
          {binding: 2, resource: {buffer: txtKeyScaleBuffer}},
          {binding: 3, resource: {buffer: doubleQNormBuffer}},
          {binding: 4, resource: {buffer: doubleKNormBuffer}},
          {binding: 5, resource: {buffer: doubleVBuffer}},
          {binding: 6, resource: {buffer: params.txtQkvNorm}},
          {binding: 7, resource: {buffer: doubleRopeFreqBuffer}},
        ],
      }),
      imgProj: makeResidualDotBind(packedHiddenBuffer, scalesBuffer, weights.imgProj.w, weights.imgProj.s, imgMidState, params.imgProj, imgInputState, res(modImgBuffer, hiddenModOffsets.mod1Gate)),
      txtProj: makeResidualDotBind(packedHiddenBuffer, scalesBuffer, weights.txtProj.w, weights.txtProj.s, txtMidState, params.txtProj, txtInputState, res(modTxtBuffer, hiddenModOffsets.mod1Gate)),
      imgMlpPre: makePreNormBind(imgMidState, modImgBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.imgMlpPre),
      txtMlpPre: makePreNormBind(txtMidState, modTxtBuffer, hiddenModOffsets.mod2Shift, hiddenModOffsets.mod2Scale, params.txtMlpPre),
      imgMlp0: makeDotBind(dotF16Pipeline, packedHiddenBuffer, scalesBuffer, weights.imgMlp0.w, weights.imgMlp0.s, doubleMlp0Buffer, params.imgMlp0),
      txtMlp0: makeDotBind(dotF16Pipeline, packedHiddenBuffer, scalesBuffer, weights.txtMlp0.w, weights.txtMlp0.s, doubleMlp0Buffer, params.txtMlp0),
      imgMlp2: makeResidualDotBind(packedDoubleMlpBuffer, doubleMlpScalesBuffer, weights.imgMlp2.w, weights.imgMlp2.s, imgOutputState, params.imgMlp2, imgMidState, res(modImgBuffer, hiddenModOffsets.mod2Gate), imgOutputOffset),
      txtMlp2: makeResidualDotBind(packedDoubleMlpBuffer, doubleMlpScalesBuffer, weights.txtMlp2.w, weights.txtMlp2.s, txtOutputState, params.txtMlp2, txtMidState, res(modTxtBuffer, hiddenModOffsets.mod2Gate), txtOutputOffset),
      imgOutputState,
      txtOutputState,
      imgOutputOffset,
      txtOutputOffset,
    };
  });

  const singleAttentionBind = device.createBindGroup({
    layout: singleAttentionPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: singleLinear1OutBuffer}},
      {binding: 1, resource: {buffer: singleQNormBuffer}},
      {binding: 2, resource: {buffer: singleKNormBuffer}},
      {binding: 3, resource: {buffer: singleAttentionOutBuffer}},
      {binding: 4, resource: {buffer: params.singleAttention}},
    ],
  });
  const singleActivateBind = device.createBindGroup({
    layout: singleActivatePipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: singleLinear1OutBuffer}},
      {binding: 1, resource: {buffer: singleAttentionOutBuffer}},
      {binding: 2, resource: {buffer: packedSingleMlpBuffer}},
      {binding: 3, resource: {buffer: singleMlpScalesBuffer}},
      {binding: 4, resource: {buffer: params.singleAct}},
    ],
  });
  const singleActivateF32Bind = useSingleLinear2Q4 ? device.createBindGroup({
    layout: singleActivateF32Pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: singleLinear1OutBuffer}},
      {binding: 1, resource: {buffer: singleAttentionOutBuffer}},
      {binding: 2, resource: {buffer: singleLinear2InF32Buffer}},
      {binding: 3, resource: {buffer: params.singleAct}},
    ],
  }) : null;

  const singleStages = singleBlocks.map((block, offset) => {
    const ping = offset & 1;
    const inputState = ping ? jointStateB : jointStateA;
    const outputState = ping ? jointStateA : jointStateB;
    const weights = {
      linear1: makeLinearBuffers(block.linear1),
      linear2: makeLinearBuffers(block.linear2),
    };
    const norm = singleNorms[offset];
    const queryScaleBuffer = createImmutableBuffer(device, norm.queryScale, GPUBufferUsage.STORAGE, norm.queryScaleUrl);
    const keyScaleBuffer = createImmutableBuffer(device, norm.keyScale, GPUBufferUsage.STORAGE, norm.keyScaleUrl);
    return {
      preNorm: makePreNormBind(inputState, modSingleBuffer, singleMod.shift, singleMod.scale, params.singlePre),
      preNormF16: needsSingleLinear1F16PreNorm
        ? makePreNormF16Bind(inputState, modSingleBuffer, singleMod.shift, singleMod.scale, params.singlePre)
        : null,
      preNormGroup: needsSingleLinear1GroupedPreNorm
        ? makePreNormGroupBind(inputState, modSingleBuffer, singleMod.shift, singleMod.scale, params.singlePreGroup)
        : null,
      dot1Q4Stages: singleLinear1Q4Stages[offset] || [],
      dot1: makeDotBind(dotF16Pipeline, packedHiddenBuffer, scalesBuffer, weights.linear1.w, weights.linear1.s, singleLinear1OutBuffer, params.singleDot1),
      qkNorm: device.createBindGroup({
        layout: singleQkNormPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: singleLinear1OutBuffer}},
          {binding: 1, resource: {buffer: queryScaleBuffer}},
          {binding: 2, resource: {buffer: keyScaleBuffer}},
          {binding: 3, resource: {buffer: singleQNormBuffer}},
          {binding: 4, resource: {buffer: singleKNormBuffer}},
          {binding: 5, resource: {buffer: params.singleAttention}},
          {binding: 6, resource: {buffer: singleRopeSinCosBuffer}},
        ],
      }),
      dot2Q4: useSingleLinear2Dp4a ? null : singleLinear2Q4Stages[offset],
      residualQ4: useSingleLinear2Q4 ? device.createBindGroup({
        layout: singleResidualPipeline.getBindGroupLayout(0),
        entries: [
          {binding: 0, resource: {buffer: inputState}},
          {binding: 1, resource: {buffer: singleLinear2OutBuffer}},
          {binding: 2, resource: res(modSingleBuffer, singleMod.gate)},
          {binding: 3, resource: {buffer: outputState}},
          {binding: 4, resource: {buffer: params.singleResidual}},
        ],
      }) : null,
      dot2: makeResidualDotBind(packedSingleMlpBuffer, singleMlpScalesBuffer, weights.linear2.w, weights.linear2.s, outputState, params.singleDot2, inputState, res(modSingleBuffer, singleMod.gate)),
    };
  });

  const finalInputState = (singleStages.length & 1) ? jointStateB : jointStateA;
  const singleAttentionWorkgroupsX = useSubgroupSingleAttention
    ? jointRows
    : Math.ceil(jointRows / attentionQueryRows);
  const singleTailDeltaCacheBind = singleTailDeltaEnabled ? device.createBindGroup({
    layout: singleTailDeltaCachePipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: singleTailBaseCacheBuffer}},
      {binding: 1, resource: {buffer: finalInputState}},
      {binding: 2, resource: {buffer: singleTailDeltaCacheBuffer}},
      {binding: 3, resource: {buffer: params.singleTailDelta}},
    ],
  }) : null;
  const singleTailDeltaApplyBind = singleTailDeltaEnabled ? device.createBindGroup({
    layout: singleTailDeltaApplyPipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: finalInputState}},
      {binding: 1, resource: {buffer: singleTailDeltaCacheBuffer}},
      {binding: 2, resource: {buffer: params.singleTailDelta}},
    ],
  }) : null;
  const finalNormBind = makePreNormBind(finalInputState, finalModBuffer, 0, hidden * 4, params.finalPre, packedHiddenBuffer, scalesBuffer, txtBytes);
  const finalDotBind = makeDotBind(finalDotPipeline, packedHiddenBuffer, scalesBuffer, finalWeights.w, finalWeights.s, predBuffer, params.finalDot);
  const latentUpdateBinds = updateParamsBuffers.map((buffer) => device.createBindGroup({
    layout: latentUpdatePipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: latentF32Buffer}},
      {binding: 1, resource: {buffer: predBuffer}},
      {binding: 2, resource: {buffer}},
    ],
  }));
  const latentUpdateAb2Binds = useApproxAb2 ? updateParamsBuffers.map((buffer) => device.createBindGroup({
    layout: latentUpdateAb2Pipeline.getBindGroupLayout(0),
    entries: [
      {binding: 0, resource: {buffer: latentF32Buffer}},
      {binding: 1, resource: {buffer: predBuffer}},
      {binding: 2, resource: {buffer: previousPredBuffer}},
      {binding: 3, resource: {buffer}},
    ],
  })) : [];
  const stageSetupMs = performance.now() - stageSetupStart;

  if (config.prepareOnly === true) {
    return {
      verdict: "custom-flux-transformer-stage-prepared",
      latentF16: new Uint16Array(0),
      config: {
        imageTokens: imgRows,
        textTokens: txtRows,
        jointRows,
        latentChannels,
        imageWidth,
        doubleBlockCount,
        singleBlockCount,
        steps: timesteps.length - 1,
        linearTileCols,
        projTileCols,
        finalTileCols,
        wChunkCols,
        linearRowBlock,
        singleQ4KChunk,
        attentionTileKeys,
        attentionQueryRows,
        singleQkNormStorage: useSingleQkNormStorageF16 ? "f16" : "f32",
        singleLinear1Output: useSingleLinear1OutputF16 ? "f16" : "f32",
        singleLinear1Q4Kernel: useSingleLinear1Q4Dp4aQkvOnly ? "dp4a-qkv" : (useSingleLinear1Q4Dp4a ? "dp4a" : "f16"),
        singleLinear1Q4ActivationScale: useSingleLinear1Q4GroupedActivation ? "group16" : "row",
        singleLinear1QkvBackend: useSingleLinear1QkvDp4a ? "dp4a" : "q4",
        singleLinear1MlpBackend: useSingleLinear1MlpDp4a ? "dp4a" : "q4",
        singleLinear2Backend: useSingleLinear2Dp4a ? "dp4a" : "q4",
        singleAttentionKernel: useSubgroupSingleAttention ? "subgroup" : "tiled",
        stepSubmitFusion,
        singleComputePass: false,
        skippedOptionalSetupBytes,
        skippedOptionalPipelines,
        approxReusePredEvery,
        approxPredictionMode: useApproxAb2 ? "ab2" : "raw",
        approxAbScale: useApproxAb2 ? approxAbScale : 0,
        skipSingleBlocksFromStep,
        skipSingleBlocksFromBlock,
        reuseSingleTailFromStep,
        reuseSingleTailFromBlock,
      },
      load: {
        total_ms: loadMs,
        stage_setup_ms: stageSetupMs,
        text_projection_init_ms: 0,
        text_projection_cache_hit: Boolean(cachedTxtBaseState || persistentTxtProjectionHit || staticTxtProjectionHit),
        text_projection_cache_source: cachedTxtBaseState ? "gpu" : (persistentTxtProjectionHit ? "indexeddb" : (staticTxtProjectionHit ? "static-file" : "not-initialized")),
        text_projection_persistent_ms: persistentTxtProjectionMs,
        readback_ms: 0,
      },
      summary: {
        total_step_ms: 0,
        median_step_ms: 0,
        finite: 0,
        max_abs: 0,
      },
      step_ms: [],
      sample: [],
    };
  }

  const initStart = performance.now();
  if (!cachedTxtBaseState && !persistentTxtProjectionHit && !staticTxtProjectionHit) {
    const encoder = device.createCommandEncoder();
    const pass = encoder.beginComputePass();
    runStage(pass, quantF32Pipeline, inputProjectionBinds.quantContext, txtRows);
    runStage(pass, dotF32Pipeline, inputProjectionBinds.txtIn, Math.ceil(hidden / linearTileCols), dotWorkgroupsY(txtRows));
    pass.end();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();
    if (persistentTextProjectionKey) {
      const saveStart = performance.now();
      const txtProjection = await readFloat32Buffer(device, txtBaseState, txtRows * hidden);
      const saved = await savePersistentFloat32(persistentTextProjectionKey, txtProjection);
      persistentTxtProjectionMs += performance.now() - saveStart;
      if (!saved) persistentTxtProjectionMs = -Math.abs(persistentTxtProjectionMs || 1);
    }
    if (textProjectionDeviceCache && textProjectionCacheKey) {
      textProjectionDeviceCache.set(textProjectionCacheKey, txtBaseState);
    }
  }
  const initMs = performance.now() - initStart;

  if (config.textProjectionOnly === true) {
    return {
      verdict: "custom-flux-transformer-text-projection-prepared",
      latentF16: new Uint16Array(0),
      config: {
        imageTokens: imgRows,
        textTokens: txtRows,
        jointRows,
        latentChannels,
        imageWidth,
        linearTileCols,
      },
      load: {
        total_ms: loadMs,
        stage_setup_ms: stageSetupMs,
        text_projection_init_ms: initMs,
        text_projection_cache_hit: Boolean(cachedTxtBaseState || persistentTxtProjectionHit || staticTxtProjectionHit),
        text_projection_cache_source: cachedTxtBaseState ? "gpu" : (persistentTxtProjectionHit ? "indexeddb" : (staticTxtProjectionHit ? "static-file" : "computed")),
        text_projection_persistent_ms: persistentTxtProjectionMs,
        readback_ms: 0,
      },
      summary: {
        total_step_ms: 0,
        median_step_ms: 0,
        finite: 0,
        max_abs: 0,
      },
      step_ms: [],
      sample: [],
    };
  }

  if (String(config.debugStopAfter || "").toLowerCase() === "input_projection") {
    const encoder = device.createCommandEncoder();
    const pass = encoder.beginComputePass();
    runStage(pass, quantF32Pipeline, inputProjectionBinds.quantLatent, imgRows);
    runStage(pass, dotF32Pipeline, inputProjectionBinds.imgIn, Math.ceil(hidden / linearTileCols), dotWorkgroupsY(imgRows));
    pass.end();
    device.queue.submit([encoder.finish()]);
    await device.queue.onSubmittedWorkDone();

    const imgCount = Math.min(
      imgRows * hidden,
      Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
    );
    const txtCount = Math.min(
      txtRows * hidden,
      Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
    );
    const [imgProjection, txtProjection] = await Promise.all([
      readFloat32Buffer(device, imgStateA, imgCount),
      readFloat32Buffer(device, txtBaseState, txtCount),
    ]);
    return {
      verdict: "custom-flux-transformer-debug-input-projection",
      latentF16: new Uint16Array(0),
      config: {
        imageTokens: imgRows,
        textTokens: txtRows,
        jointRows,
        latentChannels,
        imageWidth,
        debugStopAfter: "input_projection",
        linearTileCols,
        wChunkCols,
      },
      load: {total_ms: loadMs, text_projection_init_ms: initMs},
      debug: {
        input_projection: {
          img: {
            shape: [imgRows, hidden],
            count: imgProjection.length,
            stats: floatArrayStats(imgProjection),
            values: Array.from(imgProjection),
          },
          txt: {
            shape: [txtRows, hidden],
            count: txtProjection.length,
            stats: floatArrayStats(txtProjection),
            values: Array.from(txtProjection),
          },
        },
      },
      summary: {
        finite: imgProjection.length + txtProjection.length,
        max_abs: Math.max(
          ...Array.from(imgProjection, (value) => Math.abs(value)),
          ...Array.from(txtProjection, (value) => Math.abs(value)),
          0,
        ),
      },
    };
  }

  const stepTimes = [];
  let approxReusedSteps = 0;
  let approxCollapsedUpdateDispatches = 0;
  let skippedSingleBlocks = 0;
  let reusedSingleTailBlocks = 0;
  const phaseProfile = {
    time_input_ms: 0,
    double_blocks_ms: 0,
    single_blocks_ms: 0,
    single_linear1_ms: 0,
    single_attention_ms: 0,
    single_mlp_ms: 0,
    final_update_ms: 0,
  };
  const deferStepWait = !profilePhases && config.deferStepWait !== false && !config.debugStopAfter;
  const singleComputePass = config.singleComputePass === true && !config.debugStopAfter && !profilePhases;
  const allStepsStart = performance.now();
  const fusedEncoder = stepSubmitFusion ? device.createCommandEncoder() : null;
  let encodedStepCount = 0;
  let previousPredAvailable = false;
  for (let step = 0; step < denoiseStepCount; ++step) {
    const tCurr = timesteps[step];
    const tPrev = timesteps[step + 1];
    const start = performance.now();
    const reusePreviousPrediction = approxReusePredEvery > 1 && step > 0 && (step % approxReusePredEvery) !== 0;
    if (reusePreviousPrediction) {
      approxReusedSteps += 1;
      stepTimes.push(0);
      continue;
    }
    const currentDt = tPrev - tCurr;
    let combinedDt = currentDt;
    let combinedReuseSteps = 0;
    if (approxReusePredEvery > 1) {
      for (let lookahead = step + 1; lookahead < timesteps.length - 1; lookahead += 1) {
        const lookaheadReusesPrediction = lookahead > 0 && (lookahead % approxReusePredEvery) !== 0;
        if (!lookaheadReusesPrediction) {
          break;
        }
        combinedDt += timesteps[lookahead + 1] - timesteps[lookahead];
        combinedReuseSteps += 1;
      }
    }
    approxCollapsedUpdateDispatches += combinedReuseSteps;
    const reuseDt = combinedDt - currentDt;
    const useAb2LatentUpdate = useApproxAb2 && previousPredAvailable && combinedReuseSteps > 0 && Math.abs(reuseDt) > 0;
    const stepResourceIndex = stepSubmitFusion ? step : 0;
    if (!stepSubmitFusion) {
      device.queue.writeBuffer(updateParamsBuffers[0], 0, new Float32Array([
        imgRows * latentChannels,
        useAb2LatentUpdate ? currentDt : combinedDt,
        useAb2LatentUpdate ? reuseDt : 0,
        useAb2LatentUpdate ? approxAbScale : 0,
      ]));
      device.queue.writeBuffer(timestepBuffers[0], 0, makeTimestepEmbeddingF16(tCurr));
    }
    let encoder = stepSubmitFusion ? fusedEncoder : device.createCommandEncoder();
    encodedStepCount += 1;

    let pass = encoder.beginComputePass();
    let phaseStart = performance.now();
    const submitProfilePhase = async (phaseName) => {
      if (!profilePhases) return;
      pass.end();
      device.queue.submit([encoder.finish()]);
      await device.queue.onSubmittedWorkDone();
      phaseProfile[phaseName] += performance.now() - phaseStart;
      encoder = device.createCommandEncoder();
      pass = encoder.beginComputePass();
      phaseStart = performance.now();
    };
    const timeStage0 = timeStage0Stages[stepResourceIndex];
    runStage(pass, timeStage0.pipeline, timeStage0.bindGroup, timeStage0.workgroupsX, timeStage0.workgroupsY);
    runStage(pass, timeSiluStage.pipeline, timeSiluStage.bindGroup, timeSiluStage.workgroupsX);
    runStage(pass, timeStage1.pipeline, timeStage1.bindGroup, timeStage1.workgroupsX, timeStage1.workgroupsY);
    runStage(pass, vecCastStage.pipeline, vecCastStage.bindGroup, vecCastStage.workgroupsX);
    runStage(pass, modImgStage.pipeline, modImgStage.bindGroup, modImgStage.workgroupsX, modImgStage.workgroupsY);
    runStage(pass, modTxtStage.pipeline, modTxtStage.bindGroup, modTxtStage.workgroupsX, modTxtStage.workgroupsY);
    runStage(pass, modSingleStage.pipeline, modSingleStage.bindGroup, modSingleStage.workgroupsX, modSingleStage.workgroupsY);
    runStage(pass, finalModStage.pipeline, finalModStage.bindGroup, finalModStage.workgroupsX, finalModStage.workgroupsY);
    runStage(pass, quantF32Pipeline, inputProjectionBinds.quantLatent, imgRows);
    runStage(pass, dotF32Pipeline, inputProjectionBinds.imgIn, Math.ceil(hidden / linearTileCols), dotWorkgroupsY(imgRows));
    await submitProfilePhase("time_input_ms");

    for (let doubleIndex = 0; doubleIndex < doubleStages.length; ++doubleIndex) {
      const stage = doubleStages[doubleIndex];
      runStage(pass, preNormQuantPipeline, stage.imgQkvPre, imgRows);
      runStage(pass, dotF16Pipeline, stage.imgQkvDot, Math.ceil(qkvM / linearTileCols), dotWorkgroupsY(imgRows));
      runStage(pass, preNormQuantPipeline, stage.txtQkvPre, txtRows);
      runStage(pass, dotF16Pipeline, stage.txtQkvDot, Math.ceil(qkvM / linearTileCols), dotWorkgroupsY(txtRows));
      runStage(pass, doubleQkvNormPipeline, stage.txtQkvNorm, txtRows, 24);
      runStage(pass, doubleQkvNormPipeline, stage.imgQkvNorm, imgRows, 24);
      runStage(pass, jointAttentionPipeline, doubleCommonBind.attention, Math.ceil(jointRows / attentionQueryRows), 24);
      runStage(pass, quantOffsetPipeline, doubleCommonBind.imgQuantAttn, imgRows);
      runStage(pass, dotResidualPipeline, stage.imgProj, Math.ceil(hidden / projTileCols), dotWorkgroupsY(imgRows));
      runStage(pass, quantOffsetPipeline, doubleCommonBind.txtQuantAttn, txtRows);
      runStage(pass, dotResidualPipeline, stage.txtProj, Math.ceil(hidden / projTileCols), dotWorkgroupsY(txtRows));
      if (String(config.debugStopAfter || "").toLowerCase() === `double_block_${doubleIndex}_attn`) {
        pass.end();
        device.queue.submit([encoder.finish()]);
        await device.queue.onSubmittedWorkDone();
        const imgCount = Math.min(
          imgRows * hidden,
          Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
        );
        const txtCount = Math.min(
          txtRows * hidden,
          Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
        );
        const [imgValues, txtValues] = await Promise.all([
          readFloat32Buffer(device, imgMidState, imgCount),
          readFloat32Buffer(device, txtMidState, txtCount),
        ]);
        return {
          verdict: "custom-flux-transformer-debug-double-block-attention",
          latentF16: new Uint16Array(0),
          config: {
            imageTokens: imgRows,
            textTokens: txtRows,
            jointRows,
            latentChannels,
            imageWidth,
            debugStopAfter: `double_block_${doubleIndex}_attn`,
            linearTileCols,
            projTileCols,
            wChunkCols,
            attentionTileKeys,
            attentionQueryRows,
            singleLinear1Output: useSingleLinear1OutputF16 ? "f16" : "f32",
            singleLinear1Q4Kernel: useSingleLinear1Q4Dp4aQkvOnly ? "dp4a-qkv" : (useSingleLinear1Q4Dp4a ? "dp4a" : "f16"),
            singleLinear1Q4ActivationScale: useSingleLinear1Q4GroupedActivation ? "group16" : "row",
            singleLinear1QkvBackend: useSingleLinear1QkvDp4a ? "dp4a" : "q4",
            singleLinear1MlpBackend: useSingleLinear1MlpDp4a ? "dp4a" : "q4",
            singleLinear2Backend: useSingleLinear2Dp4a ? "dp4a" : "q4",
          },
          load: {total_ms: loadMs, text_projection_init_ms: initMs},
          debug: {
            [`double_block_${doubleIndex}_attn`]: {
              img: {
                shape: [imgRows, hidden],
                count: imgValues.length,
                stats: floatArrayStats(imgValues),
                values: Array.from(imgValues),
              },
              txt: {
                shape: [txtRows, hidden],
                count: txtValues.length,
                stats: floatArrayStats(txtValues),
                values: Array.from(txtValues),
              },
            },
          },
          summary: {
            finite: imgValues.length + txtValues.length,
            max_abs: Math.max(
              ...Array.from(imgValues, (value) => Math.abs(value)),
              ...Array.from(txtValues, (value) => Math.abs(value)),
              0,
            ),
          },
        };
      }
      runStage(pass, preNormQuantPipeline, stage.imgMlpPre, imgRows);
      runStage(pass, dotF16Pipeline, stage.imgMlp0, Math.ceil(doubleMlp1M / linearTileCols), dotWorkgroupsY(imgRows));
      runStage(pass, doubleActivateMlpPipeline, doubleCommonBind.imgAct, imgRows);
      runStage(pass, dotResidualPipeline, stage.imgMlp2, Math.ceil(hidden / projTileCols), dotWorkgroupsY(imgRows));
      runStage(pass, preNormQuantPipeline, stage.txtMlpPre, txtRows);
      runStage(pass, dotF16Pipeline, stage.txtMlp0, Math.ceil(doubleMlp1M / linearTileCols), dotWorkgroupsY(txtRows));
      runStage(pass, doubleActivateMlpPipeline, doubleCommonBind.txtAct, txtRows);
      runStage(pass, dotResidualPipeline, stage.txtMlp2, Math.ceil(hidden / projTileCols), dotWorkgroupsY(txtRows));
      if (String(config.debugStopAfter || "").toLowerCase() === `double_block_${doubleIndex}`) {
        pass.end();
        device.queue.submit([encoder.finish()]);
        await device.queue.onSubmittedWorkDone();
        const imgCount = Math.min(
          imgRows * hidden,
          Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
        );
        const txtCount = Math.min(
          txtRows * hidden,
          Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
        );
        const [imgValues, txtValues] = await Promise.all([
          readFloat32Buffer(device, stage.imgOutputState, imgCount, stage.imgOutputOffset),
          readFloat32Buffer(device, stage.txtOutputState, txtCount, stage.txtOutputOffset),
        ]);
        return {
          verdict: "custom-flux-transformer-debug-double-block",
          latentF16: new Uint16Array(0),
          config: {
            imageTokens: imgRows,
            textTokens: txtRows,
            jointRows,
            latentChannels,
            imageWidth,
            debugStopAfter: `double_block_${doubleIndex}`,
            linearTileCols,
            projTileCols,
            wChunkCols,
            attentionTileKeys,
            attentionQueryRows,
          },
          load: {total_ms: loadMs, text_projection_init_ms: initMs},
          debug: {
            [`double_block_${doubleIndex}`]: {
              img: {
                shape: [imgRows, hidden],
                count: imgValues.length,
                stats: floatArrayStats(imgValues),
                values: Array.from(imgValues),
              },
              txt: {
                shape: [txtRows, hidden],
                count: txtValues.length,
                stats: floatArrayStats(txtValues),
                values: Array.from(txtValues),
              },
            },
          },
          summary: {
            finite: imgValues.length + txtValues.length,
            max_abs: Math.max(
              ...Array.from(imgValues, (value) => Math.abs(value)),
              ...Array.from(txtValues, (value) => Math.abs(value)),
              0,
            ),
          },
        };
      }
    }
    if (profilePhases) {
      await submitProfilePhase("double_blocks_ms");
    } else if (!singleComputePass) {
      pass.end();
    }
    if (String(config.debugStopAfter || "").toLowerCase() === "double_blocks") {
      if (singleComputePass) pass.end();
      device.queue.submit([encoder.finish()]);
      await device.queue.onSubmittedWorkDone();
      const txtCount = Math.min(
        txtRows * hidden,
        Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
      );
      const imgCount = Math.min(
        imgRows * hidden,
        Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
      );
      const [txtValues, imgValues] = await Promise.all([
        readFloat32Buffer(device, jointStateA, txtCount),
        readFloat32Buffer(device, jointStateA, imgCount, txtBytes),
      ]);
      return {
        verdict: "custom-flux-transformer-debug-double-blocks",
        latentF16: new Uint16Array(0),
        config: {
          imageTokens: imgRows,
          textTokens: txtRows,
          jointRows,
          latentChannels,
          imageWidth,
          debugStopAfter: "double_blocks",
          linearTileCols,
          projTileCols,
          wChunkCols,
          attentionTileKeys,
          attentionQueryRows,
        },
        load: {total_ms: loadMs, text_projection_init_ms: initMs},
        debug: {
          double_blocks: {
            txt: {
              shape: [txtRows, hidden],
              count: txtValues.length,
              stats: floatArrayStats(txtValues),
              values: Array.from(txtValues),
            },
            img: {
              shape: [imgRows, hidden],
              count: imgValues.length,
              stats: floatArrayStats(imgValues),
              values: Array.from(imgValues),
            },
          },
        },
        summary: {
          finite: imgValues.length + txtValues.length,
          max_abs: Math.max(
            ...Array.from(imgValues, (value) => Math.abs(value)),
            ...Array.from(txtValues, (value) => Math.abs(value)),
            0,
          ),
        },
      };
    }

    if (!profilePhases && !singleComputePass) {
      pass = encoder.beginComputePass();
    }
    const reuseCachedSingleTail = singleTailDeltaEnabled && step >= reuseSingleTailFromStep;
    const skipLateSingleBlocks = !reuseCachedSingleTail && skipSingleBlocksFromStep > 0 &&
      step >= skipSingleBlocksFromStep &&
      skipSingleBlocksFromBlock < singleStages.length;
    const singleStopIndex = reuseCachedSingleTail
      ? Math.max(0, Math.min(singleStages.length, reuseSingleTailFromBlock))
      : skipLateSingleBlocks
      ? Math.max(0, Math.min(singleStages.length, skipSingleBlocksFromBlock))
      : singleStages.length;
    for (let singleIndex = 0; singleIndex < singleStopIndex; ++singleIndex) {
      const stage = singleStages[singleIndex];
      const q4Stages = stage.dot1Q4Stages || [];
      const hasQ4Dp4aStage = q4Stages.some((item) => item && item.q4Dp4a);
      const hasQ4F16Stage = q4Stages.some((item) => item && !item.q4Dp4a);
      if (hasQ4F16Stage) {
        runStage(pass, preNormF16Pipeline, stage.preNormF16, jointRows);
      }
      if (hasQ4Dp4aStage && useSingleLinear1Q4GroupedActivation) {
        runStage(pass, preNormGroupQuantPipeline, stage.preNormGroup, jointRows);
      } else if (useSingleLinear1Dp4a || hasQ4Dp4aStage) {
        runStage(pass, preNormQuantPipeline, stage.preNorm, jointRows);
      }
      if (useSingleLinear1Dp4a) {
        runStage(pass, dotF16Pipeline, stage.dot1, Math.ceil(singleLinear1M / linearTileCols), dotWorkgroupsY(jointRows));
      }
      for (const q4Stage of q4Stages) {
        runStage(pass, q4Stage.pipeline, q4Stage.bindGroup, q4Stage.workgroupsX, q4Stage.workgroupsY);
      }
      if (profileSingleParts) {
        await submitProfilePhase("single_linear1_ms");
      }
      runStage(pass, singleQkNormPipeline, stage.qkNorm, jointRows, 24);
      runStage(pass, singleAttentionPipeline, singleAttentionBind, singleAttentionWorkgroupsX, 24);
      if (profileSingleParts) {
        await submitProfilePhase("single_attention_ms");
      }
      if (String(config.debugStopAfter || "").toLowerCase() === `single_block_${singleIndex}_attn`) {
        pass.end();
        device.queue.submit([encoder.finish()]);
        await device.queue.onSubmittedWorkDone();
        const txtCount = Math.min(
          txtRows * hidden,
          Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
        );
        const imgCount = Math.min(
          imgRows * hidden,
          Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
        );
        const [txtValues, imgValues] = await Promise.all([
          readFloat32Buffer(device, singleAttentionOutBuffer, txtCount),
          readFloat32Buffer(device, singleAttentionOutBuffer, imgCount, txtBytes),
        ]);
        return {
          verdict: "custom-flux-transformer-debug-single-block-attention",
          latentF16: new Uint16Array(0),
          config: {
            imageTokens: imgRows,
            textTokens: txtRows,
            jointRows,
            latentChannels,
            imageWidth,
            debugStopAfter: `single_block_${singleIndex}_attn`,
            linearTileCols,
            projTileCols,
            wChunkCols,
            attentionTileKeys,
            attentionQueryRows,
          },
          load: {total_ms: loadMs, text_projection_init_ms: initMs},
          debug: {
            [`single_block_${singleIndex}_attn`]: {
              txt: {
                shape: [txtRows, hidden],
                count: txtValues.length,
                stats: floatArrayStats(txtValues),
                values: Array.from(txtValues),
              },
              img: {
                shape: [imgRows, hidden],
                count: imgValues.length,
                stats: floatArrayStats(imgValues),
                values: Array.from(imgValues),
              },
            },
          },
          summary: {
            finite: imgValues.length + txtValues.length,
            max_abs: Math.max(
              ...Array.from(imgValues, (value) => Math.abs(value)),
              ...Array.from(txtValues, (value) => Math.abs(value)),
              0,
            ),
          },
        };
      }
      if (useSingleLinear2Dp4a) {
        runStage(pass, singleActivatePipeline, singleActivateBind, jointRows);
        runStage(pass, dotResidualPipeline, stage.dot2, Math.ceil(hidden / projTileCols), dotWorkgroupsY(jointRows));
      } else {
        runStage(pass, singleActivateF32Pipeline, singleActivateF32Bind, Math.ceil(singleLinear2K / 256), jointRows);
        runStage(pass, singleLinear2CastStage.pipeline, singleLinear2CastStage.bindGroup, singleLinear2CastStage.workgroupsX);
        runStage(pass, stage.dot2Q4.pipeline, stage.dot2Q4.bindGroup, stage.dot2Q4.workgroupsX, stage.dot2Q4.workgroupsY);
        runStage(pass, singleResidualPipeline, stage.residualQ4, Math.ceil(hidden / 256), jointRows);
      }
      if (profileSingleParts) {
        await submitProfilePhase("single_mlp_ms");
      }
      if (String(config.debugStopAfter || "").toLowerCase() === `single_block_${singleIndex}`) {
        pass.end();
        device.queue.submit([encoder.finish()]);
        await device.queue.onSubmittedWorkDone();
        const out = (singleIndex & 1) ? jointStateA : jointStateB;
        const txtCount = Math.min(
          txtRows * hidden,
          Number(config.debugTxtReadbackCount ?? Math.min(4096, txtRows * hidden)),
        );
        const imgCount = Math.min(
          imgRows * hidden,
          Number(config.debugImgReadbackCount ?? config.debugReadbackCount ?? imgRows * hidden),
        );
        const [txtValues, imgValues] = await Promise.all([
          readFloat32Buffer(device, out, txtCount),
          readFloat32Buffer(device, out, imgCount, txtBytes),
        ]);
        return {
          verdict: "custom-flux-transformer-debug-single-block",
          latentF16: new Uint16Array(0),
          config: {
            imageTokens: imgRows,
            textTokens: txtRows,
            jointRows,
            latentChannels,
            imageWidth,
            debugStopAfter: `single_block_${singleIndex}`,
            linearTileCols,
            projTileCols,
            wChunkCols,
            attentionTileKeys,
            attentionQueryRows,
            singleLinear1Output: useSingleLinear1OutputF16 ? "f16" : "f32",
            singleLinear1Q4Kernel: useSingleLinear1Q4Dp4aQkvOnly ? "dp4a-qkv" : (useSingleLinear1Q4Dp4a ? "dp4a" : "f16"),
            singleLinear1Q4ActivationScale: useSingleLinear1Q4GroupedActivation ? "group16" : "row",
            singleLinear1QkvBackend: useSingleLinear1QkvDp4a ? "dp4a" : "q4",
            singleLinear1MlpBackend: useSingleLinear1MlpDp4a ? "dp4a" : "q4",
            singleLinear2Backend: useSingleLinear2Dp4a ? "dp4a" : "q4",
          },
          load: {total_ms: loadMs, text_projection_init_ms: initMs},
          debug: {
            [`single_block_${singleIndex}`]: {
              txt: {
                shape: [txtRows, hidden],
                count: txtValues.length,
                stats: floatArrayStats(txtValues),
                values: Array.from(txtValues),
              },
              img: {
                shape: [imgRows, hidden],
                count: imgValues.length,
                stats: floatArrayStats(imgValues),
                values: Array.from(imgValues),
              },
            },
          },
          summary: {
            finite: imgValues.length + txtValues.length,
            max_abs: Math.max(
              ...Array.from(imgValues, (value) => Math.abs(value)),
              ...Array.from(txtValues, (value) => Math.abs(value)),
              0,
            ),
          },
        };
      }
      if (
        singleTailDeltaEnabled &&
        step < reuseSingleTailFromStep &&
        singleIndex + 1 === reuseSingleTailFromBlock
      ) {
        const currentBlockOutputState = (singleIndex & 1) ? jointStateA : jointStateB;
        pass.end();
        encoder.copyBufferToBuffer(currentBlockOutputState, 0, singleTailBaseCacheBuffer, 0, jointBytes);
        pass = encoder.beginComputePass();
      }
    }
    if (reuseCachedSingleTail) {
      reusedSingleTailBlocks += singleStages.length - singleStopIndex;
      const currentSingleState = (singleStopIndex & 1) ? jointStateB : jointStateA;
      if (currentSingleState !== finalInputState) {
        pass.end();
        encoder.copyBufferToBuffer(currentSingleState, 0, finalInputState, 0, jointBytes);
        pass = encoder.beginComputePass();
      }
      runStage(pass, singleTailDeltaApplyPipeline, singleTailDeltaApplyBind, Math.ceil((jointRows * hidden) / 256));
    } else if (skipLateSingleBlocks) {
      skippedSingleBlocks += singleStages.length - singleStopIndex;
      const currentSingleState = (singleStopIndex & 1) ? jointStateB : jointStateA;
      if (currentSingleState !== finalInputState) {
        pass.end();
        encoder.copyBufferToBuffer(currentSingleState, 0, finalInputState, 0, jointBytes);
        pass = encoder.beginComputePass();
      }
    } else if (singleTailDeltaEnabled && step < reuseSingleTailFromStep) {
      pass.end();
      pass = encoder.beginComputePass();
      runStage(pass, singleTailDeltaCachePipeline, singleTailDeltaCacheBind, Math.ceil((jointRows * hidden) / 256));
    }
    if (profilePhases && !profileSingleParts) {
      await submitProfilePhase("single_blocks_ms");
    } else if (!singleComputePass) {
      pass.end();
      pass = encoder.beginComputePass();
    }
    runStage(pass, preNormQuantPipeline, finalNormBind, imgRows);
    runStage(pass, finalDotPipeline, finalDotBind, Math.ceil(latentChannels / finalTileCols), dotWorkgroupsY(imgRows));
    runStage(
      pass,
      useAb2LatentUpdate ? latentUpdateAb2Pipeline : latentUpdatePipeline,
      useAb2LatentUpdate ? latentUpdateAb2Binds[stepResourceIndex] : latentUpdateBinds[stepResourceIndex],
      Math.ceil((imgRows * latentChannels) / 256),
    );
    pass.end();
    if (useApproxAb2) {
      encoder.copyBufferToBuffer(predBuffer, 0, previousPredBuffer, 0, latentBytes);
      previousPredAvailable = true;
    }

    if (profilePhases) {
      device.queue.submit([encoder.finish()]);
      await device.queue.onSubmittedWorkDone();
      phaseProfile.final_update_ms += performance.now() - phaseStart;
      stepTimes.push(performance.now() - start);
    } else if (stepSubmitFusion) {
      stepTimes.push(0);
    } else {
      device.queue.submit([encoder.finish()]);
      if (deferStepWait) {
        stepTimes.push(0);
      } else {
        await device.queue.onSubmittedWorkDone();
        stepTimes.push(performance.now() - start);
      }
    }
  }
  if (stepSubmitFusion && encodedStepCount) {
    device.queue.submit([fusedEncoder.finish()]);
    await device.queue.onSubmittedWorkDone();
    const avgStepMs = (performance.now() - allStepsStart) / encodedStepCount;
    for (let i = 0; i < stepTimes.length; ++i) {
      if (stepTimes[i] === 0) stepTimes[i] = avgStepMs;
    }
  } else if (deferStepWait && stepTimes.length) {
    await device.queue.onSubmittedWorkDone();
    const avgStepMs = (performance.now() - allStepsStart) / stepTimes.length;
    for (let i = 0; i < stepTimes.length; ++i) {
      if (stepTimes[i] === 0) stepTimes[i] = avgStepMs;
    }
  }

  if (config.warmDispatchOnly === true) {
    return {
      verdict: "custom-flux-transformer-dispatch-warmed",
      latentF16: new Uint16Array(0),
      config: {
        imageTokens: imgRows,
        textTokens: txtRows,
        jointRows,
        latentChannels,
        imageWidth,
        doubleBlockCount,
        singleBlockCount,
        steps: timesteps.length - 1,
        linearTileCols,
        projTileCols,
        finalTileCols,
        wChunkCols,
        linearRowBlock,
        singleQ4KChunk,
        attentionTileKeys,
        attentionQueryRows,
        singleQkNormStorage: useSingleQkNormStorageF16 ? "f16" : "f32",
        singleLinear1Output: useSingleLinear1OutputF16 ? "f16" : "f32",
        singleLinear1Q4Kernel: useSingleLinear1Q4Dp4aQkvOnly ? "dp4a-qkv" : (useSingleLinear1Q4Dp4a ? "dp4a" : "f16"),
        singleLinear1Q4ActivationScale: useSingleLinear1Q4GroupedActivation ? "group16" : "row",
        singleLinear1QkvBackend: useSingleLinear1QkvDp4a ? "dp4a" : "q4",
        singleLinear1MlpBackend: useSingleLinear1MlpDp4a ? "dp4a" : "q4",
        singleLinear2Backend: useSingleLinear2Dp4a ? "dp4a" : "q4",
        singleAttentionKernel: useSubgroupSingleAttention ? "subgroup" : "tiled",
        profilePhases,
        profileSingleParts,
        stepSubmitFusion,
        singleComputePass,
        skippedOptionalSetupBytes,
        skippedOptionalPipelines,
        approxReusePredEvery,
        approxPredictionMode: useApproxAb2 ? "ab2" : "raw",
        approxAbScale: useApproxAb2 ? approxAbScale : 0,
        approxReusedSteps,
        approxCollapsedUpdateDispatches,
        skipSingleBlocksFromStep,
        skipSingleBlocksFromBlock,
        skippedSingleBlocks,
        reuseSingleTailFromStep,
        reuseSingleTailFromBlock,
        reusedSingleTailBlocks,
      },
      load: {
        total_ms: loadMs,
        stage_setup_ms: stageSetupMs,
        text_projection_init_ms: initMs,
        text_projection_cache_hit: Boolean(cachedTxtBaseState || persistentTxtProjectionHit || staticTxtProjectionHit),
        text_projection_cache_source: cachedTxtBaseState ? "gpu" : (persistentTxtProjectionHit ? "indexeddb" : (staticTxtProjectionHit ? "static-file" : "computed")),
        text_projection_persistent_ms: persistentTxtProjectionMs,
        readback_ms: 0,
      },
      summary: {
        total_step_ms: stepTimes.reduce((sum, value) => sum + value, 0),
        median_step_ms: median(stepTimes),
        phase_profile_ms: profilePhases ? {...phaseProfile} : undefined,
        finite: 0,
        max_abs: 0,
      },
      step_ms: stepTimes,
      sample: [],
    };
  }

  const readStart = performance.now();
  const latentF32 = await readFloat32Buffer(device, latentF32Buffer, imgRows * latentChannels);
  const readMs = performance.now() - readStart;
  const latentF16 = new Uint16Array(latentF32.length);
  let finite = 0;
  let maxAbs = 0;
  for (let i = 0; i < latentF32.length; ++i) {
    const value = latentF32[i];
    if (Number.isFinite(value)) {
      finite += 1;
      maxAbs = Math.max(maxAbs, Math.abs(value));
      latentF16[i] = float32ToFloat16Bits(Math.max(-65504, Math.min(65504, value)));
    } else {
      latentF16[i] = 0;
    }
  }
  return {
    verdict: "custom-flux-transformer-denoise-completed",
    latentF16,
    config: {
      imageTokens: imgRows,
      textTokens: txtRows,
      jointRows,
      latentChannels,
      imageWidth,
      doubleBlockCount,
      singleBlockCount,
      steps: timesteps.length - 1,
      linearTileCols,
      projTileCols,
      finalTileCols,
      wChunkCols,
      linearRowBlock,
      singleQ4KChunk,
      attentionTileKeys,
      attentionQueryRows,
      singleQkNormStorage: useSingleQkNormStorageF16 ? "f16" : "f32",
      singleLinear1Output: useSingleLinear1OutputF16 ? "f16" : "f32",
      singleLinear1Q4Kernel: useSingleLinear1Q4Dp4aQkvOnly ? "dp4a-qkv" : (useSingleLinear1Q4Dp4a ? "dp4a" : "f16"),
      singleLinear1Q4ActivationScale: useSingleLinear1Q4GroupedActivation ? "group16" : "row",
      singleLinear1QkvBackend: useSingleLinear1QkvDp4a ? "dp4a" : "q4",
      singleLinear1MlpBackend: useSingleLinear1MlpDp4a ? "dp4a" : "q4",
      singleLinear2Backend: useSingleLinear2Dp4a ? "dp4a" : "q4",
      singleAttentionKernel: useSubgroupSingleAttention ? "subgroup" : "tiled",
      profilePhases,
      profileSingleParts,
      stepSubmitFusion,
      singleComputePass,
      skippedOptionalSetupBytes,
      skippedOptionalPipelines,
      approxReusePredEvery,
      approxPredictionMode: useApproxAb2 ? "ab2" : "raw",
      approxAbScale: useApproxAb2 ? approxAbScale : 0,
      approxReusedSteps,
      approxCollapsedUpdateDispatches,
      skipSingleBlocksFromStep,
      skipSingleBlocksFromBlock,
      skippedSingleBlocks,
      reuseSingleTailFromStep,
      reuseSingleTailFromBlock,
      reusedSingleTailBlocks,
    },
      load: {
        total_ms: loadMs,
        stage_setup_ms: stageSetupMs,
        text_projection_init_ms: initMs,
        text_projection_cache_hit: Boolean(cachedTxtBaseState || persistentTxtProjectionHit || staticTxtProjectionHit),
        text_projection_cache_source: cachedTxtBaseState ? "gpu" : (persistentTxtProjectionHit ? "indexeddb" : (staticTxtProjectionHit ? "static-file" : "computed")),
        text_projection_persistent_ms: persistentTxtProjectionMs,
        readback_ms: readMs,
      },
    summary: {
      total_step_ms: stepTimes.reduce((sum, value) => sum + value, 0),
      median_step_ms: median(stepTimes),
      phase_profile_ms: profilePhases ? {...phaseProfile} : undefined,
      finite,
      max_abs: maxAbs,
    },
    step_ms: stepTimes,
    sample: Array.from(latentF32.slice(0, Math.min(8, latentF32.length))),
  };
}

window.runCustomFluxTransformerDenoise = runCustomFluxTransformerDenoise;
window.prepareCustomFluxTransformerAssets = prepareCustomFluxTransformerAssets;

window.runCustomDoubleStreamBlocksLoopBench = runCustomDoubleStreamBlocksLoopBench;
window.resetCustomLowbitWebGpuDevice = resetCustomLowbitWebGpuDevice;