diff --git "a/moe_benchmarks/megablocks_yamoe/torch_profile.html" "b/moe_benchmarks/megablocks_yamoe/torch_profile.html"
--- "a/moe_benchmarks/megablocks_yamoe/torch_profile.html"
+++ "b/moe_benchmarks/megablocks_yamoe/torch_profile.html"
@@ -3708,7 +3708,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
     <div class="system-info">
         <div class="system-info-header">Generated on:</div>
         <div class="system-info-content">
-            Linux x86_64 | Linux-6.11.0-1018-azure-x86_64-with-glibc2.39
+            Linux x86_64 | Linux-6.12.40-64.114.amzn2023.x86_64-x86_64-with-glibc2.36
         </div>
     </div>
     
@@ -3720,7 +3720,7 @@ span.linenos.special { color: #000000; background-color: #ffffc0; padding-left:
 <span onclick="toggleOutput('utils')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-utils" onclick="toggleUvLogsFromHeader('utils')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: utils | deps: torch, numpy | 3.06s
+Cell: utils | deps: torch, numpy | 34.59s
  | <button class="run-btn" onclick="runCell('utils')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('utils')">Copy</button>
 <a href="cells/utils.py" target="_blank" class="raw-btn">Raw</a>
@@ -3794,7 +3794,43 @@ Cell: utils | deps: torch, numpy | 3.06s
 <div class="uv-install-logs" id="uv-logs-utils">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Installed 26 packages in 253ms
+Downloading setuptools (1.1MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading triton (148.3MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 452ms
 </div>
 </div>
 </div>
@@ -3807,7 +3843,7 @@ Installed 26 packages in 253ms
 <span onclick="toggleOutput('bench_utils')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-bench_utils" onclick="toggleUvLogsFromHeader('bench_utils')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: bench_utils | deps: torch, numpy | 13.67s
+Cell: bench_utils | deps: torch, numpy | 35.65s
  | <button class="run-btn" onclick="runCell('bench_utils')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('bench_utils')">Copy</button>
 <a href="cells/bench_utils.py" target="_blank" class="raw-btn">Raw</a>
@@ -4295,13 +4331,43 @@ Cell: bench_utils | deps: torch, numpy | 13.67s
 <div class="uv-install-logs" id="uv-logs-bench_utils">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
 Downloading torch (846.9MiB)
+Downloading sympy (6.0MiB)
 Downloading numpy (16.2MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
 Downloading triton (148.3MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
  Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
  Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
  Downloading torch
-Installed 26 packages in 259ms
+Installed 26 packages in 452ms
 </div>
 </div>
 </div>
@@ -4315,7 +4381,7 @@ Installed 26 packages in 259ms
 <span onclick="toggleOutput('config')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-config" onclick="toggleUvLogsFromHeader('config')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: config | deps: torch, numpy | 3.02s
+Cell: config | deps: torch, numpy | 34.53s
  | <button class="run-btn" onclick="runCell('config')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('config')">Copy</button>
 <a href="cells/config.py" target="_blank" class="raw-btn">Raw</a>
@@ -4375,7 +4441,43 @@ Cell: config | deps: torch, numpy | 3.02s
 <div class="uv-install-logs" id="uv-logs-config">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Installed 26 packages in 243ms
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading numpy (16.2MiB)
+Downloading networkx (1.9MiB)
+Downloading setuptools (1.1MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading sympy (6.0MiB)
+Downloading triton (148.3MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 448ms
 </div>
 </div>
 </div>
@@ -4388,7 +4490,7 @@ Installed 26 packages in 243ms
 <span onclick="toggleOutput('save_data')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-save_data" onclick="toggleUvLogsFromHeader('save_data')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: save_data | deps: torch, numpy | 11.90s
+Cell: save_data | deps: torch, numpy | 39.05s
  | <button class="run-btn" onclick="runCell('save_data')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('save_data')">Copy</button>
 <a href="cells/save_data.py" target="_blank" class="raw-btn">Raw</a>
@@ -4476,38 +4578,74 @@ Cell: save_data | deps: torch, numpy | 11.90s
 </div>
 <div id="output-save_data" class="cell-output">
 <div class="cell-stdout">Saved shared weights to artifacts
-Router weight sum: 12.588735
+Router weight sum: 12.588732
 Gate/up sum: 1026.601807
-Down sum: 206.729279
+Down sum: 206.729263
 </div>
 <div class="uv-install-logs" id="uv-logs-save_data">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Installed 26 packages in 242ms
+Downloading networkx (1.9MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading triton (148.3MiB)
+Downloading torch (846.9MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 450ms
 </div>
 </div>
 <div class="cell-artifacts">
 <h4>Artifacts:</h4>
-<a href="artifacts/save_data/gate_up_proj.pt" class="artifact" target="_blank">gate_up_proj.pt</a>
+<a href="artifacts/save_data/router_bias.pt" class="artifact" target="_blank">router_bias.pt</a>
 <a href="artifacts/save_data/gate_up_proj_bias.pt" class="artifact" target="_blank">gate_up_proj_bias.pt</a>
 <a href="artifacts/save_data/down_proj.pt" class="artifact" target="_blank">down_proj.pt</a>
-<a href="artifacts/save_data/router_bias.pt" class="artifact" target="_blank">router_bias.pt</a>
-<a href="artifacts/save_data/router_weight.pt" class="artifact" target="_blank">router_weight.pt</a>
+<a href="artifacts/save_data/gate_up_proj.pt" class="artifact" target="_blank">gate_up_proj.pt</a>
 <a href="artifacts/save_data/down_proj_bias.pt" class="artifact" target="_blank">down_proj_bias.pt</a>
+<a href="artifacts/save_data/router_weight.pt" class="artifact" target="_blank">router_weight.pt</a>
 </div>
 </div>
 </div>
 
 <h2>Yamoe Implementation</h2>
 <p>This section runs the Yamoe MoE implementation with optimized Triton kernels.</p>
-<div class="cell cell-failed" id="cell-yamoe_run">
+<div class="cell" id="cell-yamoe_run">
 <div class="cell-header">
 <span class="collapse-indicators">
 <span onclick="toggleCode('yamoe_run')" style="cursor: pointer;">▼ code</span> 
 <span onclick="toggleOutput('yamoe_run')" style="cursor: pointer;">▼ output</span>
  <span id="uv-indicator-yamoe_run" onclick="toggleUvLogsFromHeader('yamoe_run')" style="cursor: pointer;">▶ uv-logs</span>
 </span> | 
-Cell: yamoe_run | deps: torch, kernels, numpy | 4.02s | FAILED
+Cell: yamoe_run | deps: torch, kernels, numpy | 39.19s
  | <button class="run-btn" onclick="runCell('yamoe_run')">▶ run</button>
 <button class="copy-btn" onclick="copyCell('yamoe_run')">Copy</button>
 <a href="cells/yamoe_run.py" target="_blank" class="raw-btn">Raw</a>
@@ -4778,38 +4916,1811 @@ Cell: yamoe_run | deps: torch, kernels, numpy | 4.02s | FAILED
 </div>
 </div>
 <div id="output-yamoe_run" class="cell-output">
-<div class="cell-stdout">Loading weights from: /home/runner/work/kernels-uvnotes/kernels-uvnotes/moe_benchmarks/megablocks_yamoe/.uvnote/cache/57bbe537b6c3412d45373a8967728666b60b8687c5d1f5d0decc3ba51923edde
+<div class="cell-stdout">Loading weights from: /repo/moe_benchmarks/megablocks_yamoe/.uvnote/cache/f8744f31d9cf720409852d42748815c6d61f005a2a9b297b7b9bf986ed98bb90
 Loaded shared weights from artifacts
-Router weight sum: 12.588735
+Router weight sum: 12.588732
 Gate/up sum: 1026.601807
-Down sum: 206.729279
+Down sum: 206.729263
 
 === Yamoe Implementation ===
+Router weight sum: 12.588732
+Gate/up proj sum: 1026.601807
+Down proj sum: 206.729340
+
+┌─ Benchmark Configuration ─────────────────────────────┐
+│ Warmup: 10              Iters: 50              │
+│ Tokens: 100                                        │
+│ Input Variation: Enabled (prevents caching artifacts)  │
+└────────────────────────────────────────────────────────┘
+
+Base Input: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.486445, 0.446746], mean=-0.000048, std=0.099986, norm=33.936142
+Input Variation: +0.001 * iteration (deterministic)
+
+Warming up (10 iterations)...
+Benchmarking (50 iterations)...
+  Progress: 20% complete (avg: 4.253 ms)
+  Progress: 40% complete (avg: 4.250 ms)
+  Progress: 60% complete (avg: 4.250 ms)
+  Progress: 80% complete (avg: 4.251 ms)
+
+Output tensors:
+  Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.049506, 0.054984], mean=0.000034, std=0.006508, norm=2.208791
+  Auxiliary: shape=(100, 128), dtype=torch.float32, device=cuda:0, range=[0.000000, 0.302948], mean=0.007812, std=0.043553, norm=5.005893
+
+━━━━━━━━━━━━━━━━━━━━ Benchmark Results ━━━━━━━━━━━━━━━━━━━━
+Iterations: 50
+
+Latency Statistics:
+  Average: 4.251 ms
+  Min:     4.144 ms
+  Max:     4.320 ms
+  Std Dev: 0.029 ms
+
+Percentiles:
+  P50 (median): 4.254 ms
+  P95:          4.286 ms
+  P99:          4.306 ms
+
+Throughput:
+  Tokens/sec: 23523.6
+  Std Dev:    160.3
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+
+Saved benchmark results to yamoe_results.json
+
+Output sum: 3.971905
 </div>
 <div class="uv-install-logs" id="uv-logs-yamoe_run">
 <div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
 <div class="uv-logs-content" style="display: none;">
-Installed 37 packages in 255ms
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading hf-xet (3.0MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading torch (846.9MiB)
+Downloading triton (148.3MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading hf-xet
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 37 packages in 454ms
+</div>
 </div>
+<div class="cell-stderr">Fetching 6 files:   0%|          | 0/6 [00:00&lt;?, ?it/s]
+Fetching 6 files:  17%|█▋        | 1/6 [00:00&lt;00:01,  3.18it/s]
+Fetching 6 files:  50%|█████     | 3/6 [00:00&lt;00:00,  3.84it/s]
+Fetching 6 files: 100%|██████████| 6/6 [00:00&lt;00:00,  7.53it/s]</div>
+<div class="cell-artifacts">
+<h4>Artifacts:</h4>
+<a href="artifacts/yamoe_run/yamoe_results.json" class="artifact" target="_blank">yamoe_results.json</a>
 </div>
-<div class="cell-stderr">Traceback (most recent call last):
-  File &quot;/home/runner/work/kernels-uvnotes/kernels-uvnotes/moe_benchmarks/megablocks_yamoe/.uvnote/cells/yamoe_run.py&quot;, line 115, in &lt;module&gt;
-    router_weight.to(device),
-    ^^^^^^^^^^^^^^^^^^^^^^^^
-  File &quot;/home/runner/work/_temp/setup-uv-cache/environments-v2/yamoe-run-07f6c9b004377cec/lib/python3.11/site-packages/torch/cuda/__init__.py&quot;, line 412, in _lazy_init
-    torch._C._cuda_init()
-RuntimeError: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU and installed a driver from http://www.nvidia.com/Download/index.aspx</div>
 </div>
 </div>
 
 <h2>Binned Implementation</h2>
 <p>This section runs the binned implementation that manually handles token gathering/scattering.</p>
+<div class="cell" id="cell-binned_run">
+<div class="cell-header">
+<span class="collapse-indicators">
+<span onclick="toggleCode('binned_run')" style="cursor: pointer;">▼ code</span> 
+<span onclick="toggleOutput('binned_run')" style="cursor: pointer;">▼ output</span>
+ <span id="uv-indicator-binned_run" onclick="toggleUvLogsFromHeader('binned_run')" style="cursor: pointer;">▶ uv-logs</span>
+</span> | 
+Cell: binned_run | deps: torch, numpy | 39.23s
+ | <button class="run-btn" onclick="runCell('binned_run')">▶ run</button>
+<button class="copy-btn" onclick="copyCell('binned_run')">Copy</button>
+<a href="cells/binned_run.py" target="_blank" class="raw-btn">Raw</a>
+</div>
+<div id="code-binned_run" class="cell-code" data-lines="188">
+<div class="highlight-with-lines">
+<div class="line-numbers" id="lines-binned_run">
+<a class="line-number" data-cell="binned_run" data-line="1" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 1, true);">1</a>
+<a class="line-number" data-cell="binned_run" data-line="2" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 2, true);">2</a>
+<a class="line-number" data-cell="binned_run" data-line="3" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 3, true);">3</a>
+<a class="line-number" data-cell="binned_run" data-line="4" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 4, true);">4</a>
+<a class="line-number" data-cell="binned_run" data-line="5" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 5, true);">5</a>
+<a class="line-number" data-cell="binned_run" data-line="6" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 6, true);">6</a>
+<a class="line-number" data-cell="binned_run" data-line="7" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 7, true);">7</a>
+<a class="line-number" data-cell="binned_run" data-line="8" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 8, true);">8</a>
+<a class="line-number" data-cell="binned_run" data-line="9" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 9, true);">9</a>
+<a class="line-number" data-cell="binned_run" data-line="10" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 10, true);">10</a>
+<a class="line-number" data-cell="binned_run" data-line="11" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 11, true);">11</a>
+<a class="line-number" data-cell="binned_run" data-line="12" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 12, true);">12</a>
+<a class="line-number" data-cell="binned_run" data-line="13" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 13, true);">13</a>
+<a class="line-number" data-cell="binned_run" data-line="14" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 14, true);">14</a>
+<a class="line-number" data-cell="binned_run" data-line="15" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 15, true);">15</a>
+<a class="line-number" data-cell="binned_run" data-line="16" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 16, true);">16</a>
+<a class="line-number" data-cell="binned_run" data-line="17" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 17, true);">17</a>
+<a class="line-number" data-cell="binned_run" data-line="18" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 18, true);">18</a>
+<a class="line-number" data-cell="binned_run" data-line="19" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 19, true);">19</a>
+<a class="line-number" data-cell="binned_run" data-line="20" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 20, true);">20</a>
+<a class="line-number" data-cell="binned_run" data-line="21" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 21, true);">21</a>
+<a class="line-number" data-cell="binned_run" data-line="22" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 22, true);">22</a>
+<a class="line-number" data-cell="binned_run" data-line="23" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 23, true);">23</a>
+<a class="line-number" data-cell="binned_run" data-line="24" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 24, true);">24</a>
+<a class="line-number" data-cell="binned_run" data-line="25" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 25, true);">25</a>
+<a class="line-number" data-cell="binned_run" data-line="26" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 26, true);">26</a>
+<a class="line-number" data-cell="binned_run" data-line="27" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 27, true);">27</a>
+<a class="line-number" data-cell="binned_run" data-line="28" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 28, true);">28</a>
+<a class="line-number" data-cell="binned_run" data-line="29" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 29, true);">29</a>
+<a class="line-number" data-cell="binned_run" data-line="30" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 30, true);">30</a>
+<a class="line-number" data-cell="binned_run" data-line="31" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 31, true);">31</a>
+<a class="line-number" data-cell="binned_run" data-line="32" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 32, true);">32</a>
+<a class="line-number" data-cell="binned_run" data-line="33" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 33, true);">33</a>
+<a class="line-number" data-cell="binned_run" data-line="34" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 34, true);">34</a>
+<a class="line-number" data-cell="binned_run" data-line="35" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 35, true);">35</a>
+<a class="line-number" data-cell="binned_run" data-line="36" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 36, true);">36</a>
+<a class="line-number" data-cell="binned_run" data-line="37" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 37, true);">37</a>
+<a class="line-number" data-cell="binned_run" data-line="38" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 38, true);">38</a>
+<a class="line-number" data-cell="binned_run" data-line="39" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 39, true);">39</a>
+<a class="line-number" data-cell="binned_run" data-line="40" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 40, true);">40</a>
+<a class="line-number" data-cell="binned_run" data-line="41" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 41, true);">41</a>
+<a class="line-number" data-cell="binned_run" data-line="42" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 42, true);">42</a>
+<a class="line-number" data-cell="binned_run" data-line="43" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 43, true);">43</a>
+<a class="line-number" data-cell="binned_run" data-line="44" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 44, true);">44</a>
+<a class="line-number" data-cell="binned_run" data-line="45" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 45, true);">45</a>
+<a class="line-number" data-cell="binned_run" data-line="46" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 46, true);">46</a>
+<a class="line-number" data-cell="binned_run" data-line="47" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 47, true);">47</a>
+<a class="line-number" data-cell="binned_run" data-line="48" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 48, true);">48</a>
+<a class="line-number" data-cell="binned_run" data-line="49" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 49, true);">49</a>
+<a class="line-number" data-cell="binned_run" data-line="50" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 50, true);">50</a>
+<a class="line-number" data-cell="binned_run" data-line="51" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 51, true);">51</a>
+<a class="line-number" data-cell="binned_run" data-line="52" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 52, true);">52</a>
+<a class="line-number" data-cell="binned_run" data-line="53" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 53, true);">53</a>
+<a class="line-number" data-cell="binned_run" data-line="54" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 54, true);">54</a>
+<a class="line-number" data-cell="binned_run" data-line="55" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 55, true);">55</a>
+<a class="line-number" data-cell="binned_run" data-line="56" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 56, true);">56</a>
+<a class="line-number" data-cell="binned_run" data-line="57" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 57, true);">57</a>
+<a class="line-number" data-cell="binned_run" data-line="58" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 58, true);">58</a>
+<a class="line-number" data-cell="binned_run" data-line="59" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 59, true);">59</a>
+<a class="line-number" data-cell="binned_run" data-line="60" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 60, true);">60</a>
+<a class="line-number" data-cell="binned_run" data-line="61" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 61, true);">61</a>
+<a class="line-number" data-cell="binned_run" data-line="62" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 62, true);">62</a>
+<a class="line-number" data-cell="binned_run" data-line="63" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 63, true);">63</a>
+<a class="line-number" data-cell="binned_run" data-line="64" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 64, true);">64</a>
+<a class="line-number" data-cell="binned_run" data-line="65" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 65, true);">65</a>
+<a class="line-number" data-cell="binned_run" data-line="66" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 66, true);">66</a>
+<a class="line-number" data-cell="binned_run" data-line="67" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 67, true);">67</a>
+<a class="line-number" data-cell="binned_run" data-line="68" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 68, true);">68</a>
+<a class="line-number" data-cell="binned_run" data-line="69" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 69, true);">69</a>
+<a class="line-number" data-cell="binned_run" data-line="70" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 70, true);">70</a>
+<a class="line-number" data-cell="binned_run" data-line="71" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 71, true);">71</a>
+<a class="line-number" data-cell="binned_run" data-line="72" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 72, true);">72</a>
+<a class="line-number" data-cell="binned_run" data-line="73" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 73, true);">73</a>
+<a class="line-number" data-cell="binned_run" data-line="74" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 74, true);">74</a>
+<a class="line-number" data-cell="binned_run" data-line="75" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 75, true);">75</a>
+<a class="line-number" data-cell="binned_run" data-line="76" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 76, true);">76</a>
+<a class="line-number" data-cell="binned_run" data-line="77" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 77, true);">77</a>
+<a class="line-number" data-cell="binned_run" data-line="78" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 78, true);">78</a>
+<a class="line-number" data-cell="binned_run" data-line="79" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 79, true);">79</a>
+<a class="line-number" data-cell="binned_run" data-line="80" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 80, true);">80</a>
+<a class="line-number" data-cell="binned_run" data-line="81" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 81, true);">81</a>
+<a class="line-number" data-cell="binned_run" data-line="82" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 82, true);">82</a>
+<a class="line-number" data-cell="binned_run" data-line="83" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 83, true);">83</a>
+<a class="line-number" data-cell="binned_run" data-line="84" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 84, true);">84</a>
+<a class="line-number" data-cell="binned_run" data-line="85" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 85, true);">85</a>
+<a class="line-number" data-cell="binned_run" data-line="86" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 86, true);">86</a>
+<a class="line-number" data-cell="binned_run" data-line="87" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 87, true);">87</a>
+<a class="line-number" data-cell="binned_run" data-line="88" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 88, true);">88</a>
+<a class="line-number" data-cell="binned_run" data-line="89" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 89, true);">89</a>
+<a class="line-number" data-cell="binned_run" data-line="90" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 90, true);">90</a>
+<a class="line-number" data-cell="binned_run" data-line="91" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 91, true);">91</a>
+<a class="line-number" data-cell="binned_run" data-line="92" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 92, true);">92</a>
+<a class="line-number" data-cell="binned_run" data-line="93" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 93, true);">93</a>
+<a class="line-number" data-cell="binned_run" data-line="94" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 94, true);">94</a>
+<a class="line-number" data-cell="binned_run" data-line="95" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 95, true);">95</a>
+<a class="line-number" data-cell="binned_run" data-line="96" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 96, true);">96</a>
+<a class="line-number" data-cell="binned_run" data-line="97" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 97, true);">97</a>
+<a class="line-number" data-cell="binned_run" data-line="98" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 98, true);">98</a>
+<a class="line-number" data-cell="binned_run" data-line="99" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 99, true);">99</a>
+<a class="line-number" data-cell="binned_run" data-line="100" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 100, true);">100</a>
+<a class="line-number" data-cell="binned_run" data-line="101" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 101, true);">101</a>
+<a class="line-number" data-cell="binned_run" data-line="102" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 102, true);">102</a>
+<a class="line-number" data-cell="binned_run" data-line="103" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 103, true);">103</a>
+<a class="line-number" data-cell="binned_run" data-line="104" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 104, true);">104</a>
+<a class="line-number" data-cell="binned_run" data-line="105" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 105, true);">105</a>
+<a class="line-number" data-cell="binned_run" data-line="106" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 106, true);">106</a>
+<a class="line-number" data-cell="binned_run" data-line="107" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 107, true);">107</a>
+<a class="line-number" data-cell="binned_run" data-line="108" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 108, true);">108</a>
+<a class="line-number" data-cell="binned_run" data-line="109" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 109, true);">109</a>
+<a class="line-number" data-cell="binned_run" data-line="110" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 110, true);">110</a>
+<a class="line-number" data-cell="binned_run" data-line="111" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 111, true);">111</a>
+<a class="line-number" data-cell="binned_run" data-line="112" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 112, true);">112</a>
+<a class="line-number" data-cell="binned_run" data-line="113" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 113, true);">113</a>
+<a class="line-number" data-cell="binned_run" data-line="114" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 114, true);">114</a>
+<a class="line-number" data-cell="binned_run" data-line="115" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 115, true);">115</a>
+<a class="line-number" data-cell="binned_run" data-line="116" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 116, true);">116</a>
+<a class="line-number" data-cell="binned_run" data-line="117" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 117, true);">117</a>
+<a class="line-number" data-cell="binned_run" data-line="118" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 118, true);">118</a>
+<a class="line-number" data-cell="binned_run" data-line="119" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 119, true);">119</a>
+<a class="line-number" data-cell="binned_run" data-line="120" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 120, true);">120</a>
+<a class="line-number" data-cell="binned_run" data-line="121" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 121, true);">121</a>
+<a class="line-number" data-cell="binned_run" data-line="122" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 122, true);">122</a>
+<a class="line-number" data-cell="binned_run" data-line="123" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 123, true);">123</a>
+<a class="line-number" data-cell="binned_run" data-line="124" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 124, true);">124</a>
+<a class="line-number" data-cell="binned_run" data-line="125" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 125, true);">125</a>
+<a class="line-number" data-cell="binned_run" data-line="126" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 126, true);">126</a>
+<a class="line-number" data-cell="binned_run" data-line="127" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 127, true);">127</a>
+<a class="line-number" data-cell="binned_run" data-line="128" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 128, true);">128</a>
+<a class="line-number" data-cell="binned_run" data-line="129" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 129, true);">129</a>
+<a class="line-number" data-cell="binned_run" data-line="130" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 130, true);">130</a>
+<a class="line-number" data-cell="binned_run" data-line="131" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 131, true);">131</a>
+<a class="line-number" data-cell="binned_run" data-line="132" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 132, true);">132</a>
+<a class="line-number" data-cell="binned_run" data-line="133" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 133, true);">133</a>
+<a class="line-number" data-cell="binned_run" data-line="134" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 134, true);">134</a>
+<a class="line-number" data-cell="binned_run" data-line="135" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 135, true);">135</a>
+<a class="line-number" data-cell="binned_run" data-line="136" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 136, true);">136</a>
+<a class="line-number" data-cell="binned_run" data-line="137" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 137, true);">137</a>
+<a class="line-number" data-cell="binned_run" data-line="138" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 138, true);">138</a>
+<a class="line-number" data-cell="binned_run" data-line="139" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 139, true);">139</a>
+<a class="line-number" data-cell="binned_run" data-line="140" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 140, true);">140</a>
+<a class="line-number" data-cell="binned_run" data-line="141" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 141, true);">141</a>
+<a class="line-number" data-cell="binned_run" data-line="142" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 142, true);">142</a>
+<a class="line-number" data-cell="binned_run" data-line="143" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 143, true);">143</a>
+<a class="line-number" data-cell="binned_run" data-line="144" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 144, true);">144</a>
+<a class="line-number" data-cell="binned_run" data-line="145" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 145, true);">145</a>
+<a class="line-number" data-cell="binned_run" data-line="146" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 146, true);">146</a>
+<a class="line-number" data-cell="binned_run" data-line="147" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 147, true);">147</a>
+<a class="line-number" data-cell="binned_run" data-line="148" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 148, true);">148</a>
+<a class="line-number" data-cell="binned_run" data-line="149" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 149, true);">149</a>
+<a class="line-number" data-cell="binned_run" data-line="150" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 150, true);">150</a>
+<a class="line-number" data-cell="binned_run" data-line="151" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 151, true);">151</a>
+<a class="line-number" data-cell="binned_run" data-line="152" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 152, true);">152</a>
+<a class="line-number" data-cell="binned_run" data-line="153" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 153, true);">153</a>
+<a class="line-number" data-cell="binned_run" data-line="154" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 154, true);">154</a>
+<a class="line-number" data-cell="binned_run" data-line="155" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 155, true);">155</a>
+<a class="line-number" data-cell="binned_run" data-line="156" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 156, true);">156</a>
+<a class="line-number" data-cell="binned_run" data-line="157" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 157, true);">157</a>
+<a class="line-number" data-cell="binned_run" data-line="158" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 158, true);">158</a>
+<a class="line-number" data-cell="binned_run" data-line="159" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 159, true);">159</a>
+<a class="line-number" data-cell="binned_run" data-line="160" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 160, true);">160</a>
+<a class="line-number" data-cell="binned_run" data-line="161" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 161, true);">161</a>
+<a class="line-number" data-cell="binned_run" data-line="162" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 162, true);">162</a>
+<a class="line-number" data-cell="binned_run" data-line="163" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 163, true);">163</a>
+<a class="line-number" data-cell="binned_run" data-line="164" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 164, true);">164</a>
+<a class="line-number" data-cell="binned_run" data-line="165" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 165, true);">165</a>
+<a class="line-number" data-cell="binned_run" data-line="166" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 166, true);">166</a>
+<a class="line-number" data-cell="binned_run" data-line="167" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 167, true);">167</a>
+<a class="line-number" data-cell="binned_run" data-line="168" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 168, true);">168</a>
+<a class="line-number" data-cell="binned_run" data-line="169" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 169, true);">169</a>
+<a class="line-number" data-cell="binned_run" data-line="170" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 170, true);">170</a>
+<a class="line-number" data-cell="binned_run" data-line="171" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 171, true);">171</a>
+<a class="line-number" data-cell="binned_run" data-line="172" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 172, true);">172</a>
+<a class="line-number" data-cell="binned_run" data-line="173" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 173, true);">173</a>
+<a class="line-number" data-cell="binned_run" data-line="174" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 174, true);">174</a>
+<a class="line-number" data-cell="binned_run" data-line="175" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 175, true);">175</a>
+<a class="line-number" data-cell="binned_run" data-line="176" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 176, true);">176</a>
+<a class="line-number" data-cell="binned_run" data-line="177" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 177, true);">177</a>
+<a class="line-number" data-cell="binned_run" data-line="178" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 178, true);">178</a>
+<a class="line-number" data-cell="binned_run" data-line="179" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 179, true);">179</a>
+<a class="line-number" data-cell="binned_run" data-line="180" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 180, true);">180</a>
+<a class="line-number" data-cell="binned_run" data-line="181" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 181, true);">181</a>
+<a class="line-number" data-cell="binned_run" data-line="182" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 182, true);">182</a>
+<a class="line-number" data-cell="binned_run" data-line="183" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 183, true);">183</a>
+<a class="line-number" data-cell="binned_run" data-line="184" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 184, true);">184</a>
+<a class="line-number" data-cell="binned_run" data-line="185" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 185, true);">185</a>
+<a class="line-number" data-cell="binned_run" data-line="186" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 186, true);">186</a>
+<a class="line-number" data-cell="binned_run" data-line="187" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 187, true);">187</a>
+<a class="line-number" data-cell="binned_run" data-line="188" href="#cell-binned_run" onclick="event.preventDefault(); selectCellLine('binned_run', 188, true);">188</a>
+</div>
+<div class="code-wrap">
+<div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch</span><span class="w"> </span><span class="kn">import</span> <span class="n">nn</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">bench_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">to_dtype</span><span class="p">,</span> <span class="n">tensor_stats</span><span class="p">,</span> <span class="n">set_seed</span><span class="p">,</span> <span class="n">bench_context</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">config</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span>
+    <span class="n">NUM_EXPERTS</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">TOP_K</span><span class="p">,</span>
+    <span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">DTYPE</span><span class="p">,</span> <span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">WEIGHT_SEED</span><span class="p">,</span> <span class="n">EXPERT_SEED</span><span class="p">,</span> <span class="n">INPUT_SEED</span><span class="p">,</span> <span class="n">GENERAL_SEED</span>
+<span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="c1"># Discover the upstream artifact directory from env</span>
+<span class="n">data_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;UVNOTE_INPUT_SAVE_DATA&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span>
+
+<span class="n">router_weight</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_weight.pt&#39;</span><span class="p">)</span>
+<span class="n">router_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj_bias.pt&#39;</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Loaded shared weights from artifacts&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">router_weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up sum: </span><span class="si">{</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down sum: </span><span class="si">{</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">binned_gather</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">,</span> <span class="n">top_k</span><span class="p">):</span>
+    <span class="n">E</span><span class="p">,</span> <span class="n">H</span> <span class="o">=</span> <span class="n">bins</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">E</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">,</span> <span class="n">H</span><span class="p">),</span> <span class="n">device</span><span class="o">=</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">x</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">E</span><span class="p">):</span>
+        <span class="n">start</span> <span class="o">=</span> <span class="mi">0</span> <span class="k">if</span> <span class="n">e</span> <span class="o">==</span> <span class="mi">0</span> <span class="k">else</span> <span class="n">bins</span><span class="p">[</span><span class="n">e</span> <span class="o">-</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="n">end</span> <span class="o">=</span> <span class="n">bins</span><span class="p">[</span><span class="n">e</span><span class="p">]</span>
+        <span class="n">n</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">end</span> <span class="o">-</span> <span class="n">start</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">n</span><span class="p">):</span>
+            <span class="n">flat_pos</span> <span class="o">=</span> <span class="n">indices</span><span class="p">[</span><span class="n">start</span> <span class="o">+</span> <span class="n">i</span><span class="p">]</span>
+            <span class="n">tok</span> <span class="o">=</span> <span class="n">flat_pos</span> <span class="o">//</span> <span class="n">top_k</span>
+            <span class="n">out</span><span class="p">[</span><span class="n">e</span><span class="p">,</span> <span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="n">tok</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">out</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">binned_scatter</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">weights</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">,</span> <span class="n">top_k</span><span class="p">):</span>
+    <span class="n">E</span><span class="p">,</span> <span class="n">C</span><span class="p">,</span> <span class="n">H</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">N</span> <span class="o">=</span> <span class="n">indices</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">//</span> <span class="n">top_k</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">N</span><span class="p">,</span> <span class="n">top_k</span><span class="p">,</span> <span class="n">H</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">x</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">E</span><span class="p">):</span>
+        <span class="n">start</span> <span class="o">=</span> <span class="mi">0</span> <span class="k">if</span> <span class="n">e</span> <span class="o">==</span> <span class="mi">0</span> <span class="k">else</span> <span class="n">bins</span><span class="p">[</span><span class="n">e</span> <span class="o">-</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="n">end</span> <span class="o">=</span> <span class="n">bins</span><span class="p">[</span><span class="n">e</span><span class="p">]</span>
+        <span class="n">n</span> <span class="o">=</span> <span class="n">end</span> <span class="o">-</span> <span class="n">start</span>
+        <span class="k">if</span> <span class="n">n</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">continue</span>
+        <span class="n">take</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">take</span><span class="p">):</span>
+            <span class="n">flat_pos</span> <span class="o">=</span> <span class="n">indices</span><span class="p">[</span><span class="n">start</span> <span class="o">+</span> <span class="n">i</span><span class="p">]</span>
+            <span class="n">tok</span> <span class="o">=</span> <span class="n">flat_pos</span> <span class="o">//</span> <span class="n">top_k</span>
+            <span class="n">slot</span> <span class="o">=</span> <span class="n">flat_pos</span> <span class="o">%</span> <span class="n">top_k</span>
+            <span class="n">scale</span> <span class="o">=</span> <span class="n">weights</span><span class="p">[</span><span class="n">flat_pos</span><span class="p">]</span> <span class="k">if</span> <span class="n">weights</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mf">1.0</span>
+            <span class="n">out</span><span class="p">[</span><span class="n">tok</span><span class="p">,</span> <span class="n">slot</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="n">e</span><span class="p">,</span> <span class="n">i</span><span class="p">]</span> <span class="o">*</span> <span class="n">scale</span>
+    <span class="k">return</span> <span class="n">out</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">sort_tokens_by_expert</span><span class="p">(</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">num_experts</span><span class="p">):</span>
+    <span class="n">flat_indices</span> <span class="o">=</span> <span class="n">router_indices</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
+    <span class="n">sorted_values</span><span class="p">,</span> <span class="n">sorted_indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">flat_indices</span><span class="p">)</span>
+    <span class="n">tokens_per_expert</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bincount</span><span class="p">(</span><span class="n">sorted_values</span><span class="p">,</span> <span class="n">minlength</span><span class="o">=</span><span class="n">num_experts</span><span class="p">)</span>
+    <span class="n">bins</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">tokens_per_expert</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">sorted_indices</span><span class="p">,</span> <span class="n">sorted_values</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">tokens_per_expert</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">binned_experts_ref</span><span class="p">(</span>
+    <span class="n">hidden_states</span><span class="p">,</span>
+    <span class="n">router_indices</span><span class="p">,</span>
+    <span class="n">routing_weights</span><span class="p">,</span>
+    <span class="n">gate_up_proj</span><span class="p">,</span>
+    <span class="n">gate_up_proj_bias</span><span class="p">,</span>
+    <span class="n">down_proj</span><span class="p">,</span>
+    <span class="n">down_proj_bias</span><span class="p">,</span>
+    <span class="n">expert_capacity</span><span class="p">,</span>
+<span class="p">):</span>
+    <span class="n">B</span><span class="p">,</span> <span class="n">S</span><span class="p">,</span> <span class="n">H</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">E</span><span class="p">,</span> <span class="n">K</span> <span class="o">=</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">router_indices</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">indices</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">sort_tokens_by_expert</span><span class="p">(</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">E</span><span class="p">)</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">binned_gather</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">H</span><span class="p">),</span> <span class="n">indices</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">,</span> <span class="n">K</span><span class="p">)</span>
+
+    <span class="n">gate_up</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">)</span> 
+    <span class="n">gate_up</span> <span class="o">+=</span> <span class="n">gate_up_proj_bias</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+
+    <span class="n">gate</span><span class="p">,</span> <span class="n">up</span> <span class="o">=</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">::</span><span class="mi">2</span><span class="p">],</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">::</span><span class="mi">2</span><span class="p">]</span>
+
+    <span class="c1"># clamp to limit</span>
+    <span class="n">limit</span> <span class="o">=</span> <span class="mf">7.0</span>
+    <span class="n">gate</span> <span class="o">=</span> <span class="n">gate</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="n">limit</span><span class="p">)</span>
+    <span class="n">up</span> <span class="o">=</span> <span class="n">up</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=-</span><span class="n">limit</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="n">limit</span><span class="p">)</span>
+
+    <span class="n">glu</span> <span class="o">=</span> <span class="n">gate</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">gate</span> <span class="o">*</span> <span class="mf">1.702</span><span class="p">)</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="p">(</span><span class="n">up</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">glu</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">)</span> <span class="o">+</span> <span class="n">down_proj_bias</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+
+    <span class="c1"># build routing weights aligned to (token, slot)</span>
+    <span class="n">flat_dense</span> <span class="o">=</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">E</span><span class="p">)</span>
+    <span class="n">flat_router</span> <span class="o">=</span> <span class="n">router_indices</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">K</span><span class="p">)</span>
+    <span class="n">selected</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">gather</span><span class="p">(</span><span class="n">flat_dense</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">flat_router</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+
+    <span class="c1"># scatter back</span>
+    <span class="n">y</span> <span class="o">=</span> <span class="n">binned_scatter</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">selected</span><span class="p">,</span> <span class="n">bins</span><span class="p">,</span> <span class="n">expert_capacity</span><span class="p">,</span> <span class="n">K</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">y</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">B</span><span class="p">,</span> <span class="n">S</span><span class="p">,</span> <span class="n">H</span><span class="p">)</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">BinnedRouter</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span> <span class="o">=</span> <span class="n">TOP_K</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_weight</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span><span class="p">)</span>
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">linear</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">weight</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">bias</span><span class="p">)</span>
+        <span class="n">router_top_value</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="n">router_logits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">router_top_value</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">router_top_value</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">router_top_value</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">router_scores</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">router_logits</span><span class="p">)</span><span class="o">.</span><span class="n">scatter_</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">router_indices</span><span class="p">,</span> <span class="n">router_top_value</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">ceil_div</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="n">b</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">a</span> <span class="o">+</span> <span class="n">b</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">//</span> <span class="n">b</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">BinnedMoEMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router</span> <span class="o">=</span> <span class="n">BinnedRouter</span><span class="p">(</span><span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span> <span class="o">=</span> <span class="n">TOP_K</span>
+
+        <span class="c1"># Expert weights - use the loaded weights</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">router</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">expert_capacity</span> <span class="o">=</span> <span class="n">ceil_div</span><span class="p">(</span><span class="n">batch_size</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span><span class="p">)</span>
+
+        <span class="n">output</span> <span class="o">=</span> <span class="n">binned_experts_ref</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">router_indices</span><span class="p">,</span>
+            <span class="n">router_scores</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span><span class="p">,</span>
+            <span class="n">expert_capacity</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">router_scores</span>
+
+<span class="c1"># Run the model</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">GENERAL_SEED</span><span class="p">)</span>
+
+<span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">dtype</span> <span class="o">=</span> <span class="n">to_dtype</span><span class="p">(</span><span class="n">DTYPE</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">=== Binned Implementation ===&quot;</span><span class="p">)</span>
+<span class="c1"># Initialize model with loaded weights</span>
+<span class="n">model</span> <span class="o">=</span> <span class="n">BinnedMoEMLP</span><span class="p">(</span>
+    <span class="n">router_weight</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">router_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="c1"># Generate the same input as Yamoe</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">INPUT_SEED</span><span class="p">)</span>
+<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span>
+
+<span class="c1"># Benchmark the model with varied inputs to prevent caching artifacts</span>
+<span class="n">tokens</span> <span class="o">=</span> <span class="n">BATCH_SIZE</span> <span class="o">*</span> <span class="n">SEQ_LEN</span>
+<span class="k">with</span> <span class="n">bench_context</span><span class="p">(</span><span class="n">warmup</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span> <span class="n">iters</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">tokens</span><span class="o">=</span><span class="n">tokens</span><span class="p">,</span> <span class="n">save_json</span><span class="o">=</span><span class="s2">&quot;binned_results.json&quot;</span><span class="p">,</span> <span class="n">vary_inputs</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">as</span> <span class="n">bench</span><span class="p">:</span>
+    <span class="n">output</span><span class="p">,</span> <span class="n">stats</span> <span class="o">=</span> <span class="n">bench</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Output sum: </span><span class="si">{</span><span class="n">output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</pre></div>
+
+<div class="code-line-highlight" id="line-highlight-binned_run"></div>
+</div>
+</div>
+</div>
+<div id="output-binned_run" class="cell-output">
+<div class="cell-stdout">Loaded shared weights from artifacts
+Router weight sum: 12.588732
+Gate/up sum: 1026.601807
+Down sum: 206.729263
+
+=== Binned Implementation ===
+Router weight sum: 12.588732
+Gate/up proj sum: 1026.601807
+Down proj sum: 206.729340
+
+┌─ Benchmark Configuration ─────────────────────────────┐
+│ Warmup: 10              Iters: 50              │
+│ Tokens: 100                                        │
+│ Input Variation: Enabled (prevents caching artifacts)  │
+└────────────────────────────────────────────────────────┘
+
+Base Input: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.486445, 0.446746], mean=-0.000048, std=0.099986, norm=33.936142
+Input Variation: +0.001 * iteration (deterministic)
+
+Warming up (10 iterations)...
+Benchmarking (50 iterations)...
+  Progress: 20% complete (avg: 37.503 ms)
+  Progress: 40% complete (avg: 37.304 ms)
+  Progress: 60% complete (avg: 36.964 ms)
+  Progress: 80% complete (avg: 36.508 ms)
+
+Output tensors:
+  Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.049506, 0.054984], mean=0.000034, std=0.006508, norm=2.208791
+  Auxiliary: shape=(100, 128), dtype=torch.float32, device=cuda:0, range=[0.000000, 0.302948], mean=0.007812, std=0.043553, norm=5.005893
+
+━━━━━━━━━━━━━━━━━━━━ Benchmark Results ━━━━━━━━━━━━━━━━━━━━
+Iterations: 50
+
+Latency Statistics:
+  Average: 36.063 ms
+  Min:     33.292 ms
+  Max:     38.406 ms
+  Std Dev: 1.259 ms
+
+Percentiles:
+  P50 (median): 36.215 ms
+  P95:          37.524 ms
+  P99:          38.036 ms
+
+Throughput:
+  Tokens/sec: 2772.9
+  Std Dev:    98.3
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+
+Saved benchmark results to binned_results.json
+
+Output sum: 3.971905
+</div>
+<div class="uv-install-logs" id="uv-logs-binned_run">
+<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
+<div class="uv-logs-content" style="display: none;">
+Downloading sympy (6.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading setuptools (1.1MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 449ms
+</div>
+</div>
+<div class="cell-artifacts">
+<h4>Artifacts:</h4>
+<a href="artifacts/binned_run/binned_results.json" class="artifact" target="_blank">binned_results.json</a>
+</div>
+</div>
+</div>
+
 <h2>GPT-OSS Implementation</h2>
 <p>This section runs the GPT-OSS MoE implementation with manual expert loop handling.</p>
+<div class="cell" id="cell-gptoss_run">
+<div class="cell-header">
+<span class="collapse-indicators">
+<span onclick="toggleCode('gptoss_run')" style="cursor: pointer;">▼ code</span> 
+<span onclick="toggleOutput('gptoss_run')" style="cursor: pointer;">▼ output</span>
+ <span id="uv-indicator-gptoss_run" onclick="toggleUvLogsFromHeader('gptoss_run')" style="cursor: pointer;">▶ uv-logs</span>
+</span> | 
+Cell: gptoss_run | deps: torch, numpy | 39.77s
+ | <button class="run-btn" onclick="runCell('gptoss_run')">▶ run</button>
+<button class="copy-btn" onclick="copyCell('gptoss_run')">Copy</button>
+<a href="cells/gptoss_run.py" target="_blank" class="raw-btn">Raw</a>
+</div>
+<div id="code-gptoss_run" class="cell-code" data-lines="140">
+<div class="highlight-with-lines">
+<div class="line-numbers" id="lines-gptoss_run">
+<a class="line-number" data-cell="gptoss_run" data-line="1" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 1, true);">1</a>
+<a class="line-number" data-cell="gptoss_run" data-line="2" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 2, true);">2</a>
+<a class="line-number" data-cell="gptoss_run" data-line="3" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 3, true);">3</a>
+<a class="line-number" data-cell="gptoss_run" data-line="4" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 4, true);">4</a>
+<a class="line-number" data-cell="gptoss_run" data-line="5" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 5, true);">5</a>
+<a class="line-number" data-cell="gptoss_run" data-line="6" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 6, true);">6</a>
+<a class="line-number" data-cell="gptoss_run" data-line="7" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 7, true);">7</a>
+<a class="line-number" data-cell="gptoss_run" data-line="8" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 8, true);">8</a>
+<a class="line-number" data-cell="gptoss_run" data-line="9" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 9, true);">9</a>
+<a class="line-number" data-cell="gptoss_run" data-line="10" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 10, true);">10</a>
+<a class="line-number" data-cell="gptoss_run" data-line="11" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 11, true);">11</a>
+<a class="line-number" data-cell="gptoss_run" data-line="12" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 12, true);">12</a>
+<a class="line-number" data-cell="gptoss_run" data-line="13" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 13, true);">13</a>
+<a class="line-number" data-cell="gptoss_run" data-line="14" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 14, true);">14</a>
+<a class="line-number" data-cell="gptoss_run" data-line="15" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 15, true);">15</a>
+<a class="line-number" data-cell="gptoss_run" data-line="16" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 16, true);">16</a>
+<a class="line-number" data-cell="gptoss_run" data-line="17" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 17, true);">17</a>
+<a class="line-number" data-cell="gptoss_run" data-line="18" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 18, true);">18</a>
+<a class="line-number" data-cell="gptoss_run" data-line="19" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 19, true);">19</a>
+<a class="line-number" data-cell="gptoss_run" data-line="20" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 20, true);">20</a>
+<a class="line-number" data-cell="gptoss_run" data-line="21" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 21, true);">21</a>
+<a class="line-number" data-cell="gptoss_run" data-line="22" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 22, true);">22</a>
+<a class="line-number" data-cell="gptoss_run" data-line="23" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 23, true);">23</a>
+<a class="line-number" data-cell="gptoss_run" data-line="24" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 24, true);">24</a>
+<a class="line-number" data-cell="gptoss_run" data-line="25" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 25, true);">25</a>
+<a class="line-number" data-cell="gptoss_run" data-line="26" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 26, true);">26</a>
+<a class="line-number" data-cell="gptoss_run" data-line="27" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 27, true);">27</a>
+<a class="line-number" data-cell="gptoss_run" data-line="28" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 28, true);">28</a>
+<a class="line-number" data-cell="gptoss_run" data-line="29" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 29, true);">29</a>
+<a class="line-number" data-cell="gptoss_run" data-line="30" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 30, true);">30</a>
+<a class="line-number" data-cell="gptoss_run" data-line="31" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 31, true);">31</a>
+<a class="line-number" data-cell="gptoss_run" data-line="32" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 32, true);">32</a>
+<a class="line-number" data-cell="gptoss_run" data-line="33" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 33, true);">33</a>
+<a class="line-number" data-cell="gptoss_run" data-line="34" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 34, true);">34</a>
+<a class="line-number" data-cell="gptoss_run" data-line="35" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 35, true);">35</a>
+<a class="line-number" data-cell="gptoss_run" data-line="36" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 36, true);">36</a>
+<a class="line-number" data-cell="gptoss_run" data-line="37" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 37, true);">37</a>
+<a class="line-number" data-cell="gptoss_run" data-line="38" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 38, true);">38</a>
+<a class="line-number" data-cell="gptoss_run" data-line="39" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 39, true);">39</a>
+<a class="line-number" data-cell="gptoss_run" data-line="40" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 40, true);">40</a>
+<a class="line-number" data-cell="gptoss_run" data-line="41" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 41, true);">41</a>
+<a class="line-number" data-cell="gptoss_run" data-line="42" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 42, true);">42</a>
+<a class="line-number" data-cell="gptoss_run" data-line="43" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 43, true);">43</a>
+<a class="line-number" data-cell="gptoss_run" data-line="44" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 44, true);">44</a>
+<a class="line-number" data-cell="gptoss_run" data-line="45" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 45, true);">45</a>
+<a class="line-number" data-cell="gptoss_run" data-line="46" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 46, true);">46</a>
+<a class="line-number" data-cell="gptoss_run" data-line="47" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 47, true);">47</a>
+<a class="line-number" data-cell="gptoss_run" data-line="48" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 48, true);">48</a>
+<a class="line-number" data-cell="gptoss_run" data-line="49" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 49, true);">49</a>
+<a class="line-number" data-cell="gptoss_run" data-line="50" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 50, true);">50</a>
+<a class="line-number" data-cell="gptoss_run" data-line="51" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 51, true);">51</a>
+<a class="line-number" data-cell="gptoss_run" data-line="52" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 52, true);">52</a>
+<a class="line-number" data-cell="gptoss_run" data-line="53" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 53, true);">53</a>
+<a class="line-number" data-cell="gptoss_run" data-line="54" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 54, true);">54</a>
+<a class="line-number" data-cell="gptoss_run" data-line="55" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 55, true);">55</a>
+<a class="line-number" data-cell="gptoss_run" data-line="56" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 56, true);">56</a>
+<a class="line-number" data-cell="gptoss_run" data-line="57" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 57, true);">57</a>
+<a class="line-number" data-cell="gptoss_run" data-line="58" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 58, true);">58</a>
+<a class="line-number" data-cell="gptoss_run" data-line="59" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 59, true);">59</a>
+<a class="line-number" data-cell="gptoss_run" data-line="60" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 60, true);">60</a>
+<a class="line-number" data-cell="gptoss_run" data-line="61" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 61, true);">61</a>
+<a class="line-number" data-cell="gptoss_run" data-line="62" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 62, true);">62</a>
+<a class="line-number" data-cell="gptoss_run" data-line="63" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 63, true);">63</a>
+<a class="line-number" data-cell="gptoss_run" data-line="64" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 64, true);">64</a>
+<a class="line-number" data-cell="gptoss_run" data-line="65" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 65, true);">65</a>
+<a class="line-number" data-cell="gptoss_run" data-line="66" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 66, true);">66</a>
+<a class="line-number" data-cell="gptoss_run" data-line="67" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 67, true);">67</a>
+<a class="line-number" data-cell="gptoss_run" data-line="68" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 68, true);">68</a>
+<a class="line-number" data-cell="gptoss_run" data-line="69" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 69, true);">69</a>
+<a class="line-number" data-cell="gptoss_run" data-line="70" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 70, true);">70</a>
+<a class="line-number" data-cell="gptoss_run" data-line="71" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 71, true);">71</a>
+<a class="line-number" data-cell="gptoss_run" data-line="72" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 72, true);">72</a>
+<a class="line-number" data-cell="gptoss_run" data-line="73" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 73, true);">73</a>
+<a class="line-number" data-cell="gptoss_run" data-line="74" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 74, true);">74</a>
+<a class="line-number" data-cell="gptoss_run" data-line="75" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 75, true);">75</a>
+<a class="line-number" data-cell="gptoss_run" data-line="76" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 76, true);">76</a>
+<a class="line-number" data-cell="gptoss_run" data-line="77" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 77, true);">77</a>
+<a class="line-number" data-cell="gptoss_run" data-line="78" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 78, true);">78</a>
+<a class="line-number" data-cell="gptoss_run" data-line="79" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 79, true);">79</a>
+<a class="line-number" data-cell="gptoss_run" data-line="80" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 80, true);">80</a>
+<a class="line-number" data-cell="gptoss_run" data-line="81" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 81, true);">81</a>
+<a class="line-number" data-cell="gptoss_run" data-line="82" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 82, true);">82</a>
+<a class="line-number" data-cell="gptoss_run" data-line="83" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 83, true);">83</a>
+<a class="line-number" data-cell="gptoss_run" data-line="84" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 84, true);">84</a>
+<a class="line-number" data-cell="gptoss_run" data-line="85" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 85, true);">85</a>
+<a class="line-number" data-cell="gptoss_run" data-line="86" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 86, true);">86</a>
+<a class="line-number" data-cell="gptoss_run" data-line="87" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 87, true);">87</a>
+<a class="line-number" data-cell="gptoss_run" data-line="88" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 88, true);">88</a>
+<a class="line-number" data-cell="gptoss_run" data-line="89" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 89, true);">89</a>
+<a class="line-number" data-cell="gptoss_run" data-line="90" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 90, true);">90</a>
+<a class="line-number" data-cell="gptoss_run" data-line="91" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 91, true);">91</a>
+<a class="line-number" data-cell="gptoss_run" data-line="92" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 92, true);">92</a>
+<a class="line-number" data-cell="gptoss_run" data-line="93" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 93, true);">93</a>
+<a class="line-number" data-cell="gptoss_run" data-line="94" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 94, true);">94</a>
+<a class="line-number" data-cell="gptoss_run" data-line="95" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 95, true);">95</a>
+<a class="line-number" data-cell="gptoss_run" data-line="96" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 96, true);">96</a>
+<a class="line-number" data-cell="gptoss_run" data-line="97" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 97, true);">97</a>
+<a class="line-number" data-cell="gptoss_run" data-line="98" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 98, true);">98</a>
+<a class="line-number" data-cell="gptoss_run" data-line="99" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 99, true);">99</a>
+<a class="line-number" data-cell="gptoss_run" data-line="100" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 100, true);">100</a>
+<a class="line-number" data-cell="gptoss_run" data-line="101" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 101, true);">101</a>
+<a class="line-number" data-cell="gptoss_run" data-line="102" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 102, true);">102</a>
+<a class="line-number" data-cell="gptoss_run" data-line="103" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 103, true);">103</a>
+<a class="line-number" data-cell="gptoss_run" data-line="104" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 104, true);">104</a>
+<a class="line-number" data-cell="gptoss_run" data-line="105" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 105, true);">105</a>
+<a class="line-number" data-cell="gptoss_run" data-line="106" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 106, true);">106</a>
+<a class="line-number" data-cell="gptoss_run" data-line="107" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 107, true);">107</a>
+<a class="line-number" data-cell="gptoss_run" data-line="108" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 108, true);">108</a>
+<a class="line-number" data-cell="gptoss_run" data-line="109" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 109, true);">109</a>
+<a class="line-number" data-cell="gptoss_run" data-line="110" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 110, true);">110</a>
+<a class="line-number" data-cell="gptoss_run" data-line="111" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 111, true);">111</a>
+<a class="line-number" data-cell="gptoss_run" data-line="112" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 112, true);">112</a>
+<a class="line-number" data-cell="gptoss_run" data-line="113" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 113, true);">113</a>
+<a class="line-number" data-cell="gptoss_run" data-line="114" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 114, true);">114</a>
+<a class="line-number" data-cell="gptoss_run" data-line="115" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 115, true);">115</a>
+<a class="line-number" data-cell="gptoss_run" data-line="116" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 116, true);">116</a>
+<a class="line-number" data-cell="gptoss_run" data-line="117" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 117, true);">117</a>
+<a class="line-number" data-cell="gptoss_run" data-line="118" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 118, true);">118</a>
+<a class="line-number" data-cell="gptoss_run" data-line="119" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 119, true);">119</a>
+<a class="line-number" data-cell="gptoss_run" data-line="120" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 120, true);">120</a>
+<a class="line-number" data-cell="gptoss_run" data-line="121" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 121, true);">121</a>
+<a class="line-number" data-cell="gptoss_run" data-line="122" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 122, true);">122</a>
+<a class="line-number" data-cell="gptoss_run" data-line="123" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 123, true);">123</a>
+<a class="line-number" data-cell="gptoss_run" data-line="124" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 124, true);">124</a>
+<a class="line-number" data-cell="gptoss_run" data-line="125" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 125, true);">125</a>
+<a class="line-number" data-cell="gptoss_run" data-line="126" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 126, true);">126</a>
+<a class="line-number" data-cell="gptoss_run" data-line="127" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 127, true);">127</a>
+<a class="line-number" data-cell="gptoss_run" data-line="128" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 128, true);">128</a>
+<a class="line-number" data-cell="gptoss_run" data-line="129" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 129, true);">129</a>
+<a class="line-number" data-cell="gptoss_run" data-line="130" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 130, true);">130</a>
+<a class="line-number" data-cell="gptoss_run" data-line="131" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 131, true);">131</a>
+<a class="line-number" data-cell="gptoss_run" data-line="132" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 132, true);">132</a>
+<a class="line-number" data-cell="gptoss_run" data-line="133" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 133, true);">133</a>
+<a class="line-number" data-cell="gptoss_run" data-line="134" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 134, true);">134</a>
+<a class="line-number" data-cell="gptoss_run" data-line="135" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 135, true);">135</a>
+<a class="line-number" data-cell="gptoss_run" data-line="136" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 136, true);">136</a>
+<a class="line-number" data-cell="gptoss_run" data-line="137" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 137, true);">137</a>
+<a class="line-number" data-cell="gptoss_run" data-line="138" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 138, true);">138</a>
+<a class="line-number" data-cell="gptoss_run" data-line="139" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 139, true);">139</a>
+<a class="line-number" data-cell="gptoss_run" data-line="140" href="#cell-gptoss_run" onclick="event.preventDefault(); selectCellLine('gptoss_run', 140, true);">140</a>
+</div>
+<div class="code-wrap">
+<div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch</span><span class="w"> </span><span class="kn">import</span> <span class="n">nn</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">bench_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">to_dtype</span><span class="p">,</span> <span class="n">tensor_stats</span><span class="p">,</span> <span class="n">set_seed</span><span class="p">,</span> <span class="n">bench_context</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">config</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span>
+    <span class="n">NUM_EXPERTS</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">TOP_K</span><span class="p">,</span>
+    <span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">DTYPE</span><span class="p">,</span> <span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">WEIGHT_SEED</span><span class="p">,</span> <span class="n">EXPERT_SEED</span><span class="p">,</span> <span class="n">INPUT_SEED</span><span class="p">,</span> <span class="n">GENERAL_SEED</span>
+<span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="c1"># Discover the upstream artifact directory from env</span>
+<span class="n">data_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;UVNOTE_INPUT_SAVE_DATA&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span>
+
+<span class="n">router_weight</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_weight.pt&#39;</span><span class="p">)</span>
+<span class="n">router_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj_bias.pt&#39;</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Loaded shared weights from artifacts&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">router_weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up sum: </span><span class="si">{</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down sum: </span><span class="si">{</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssRouter</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span> <span class="o">=</span> <span class="n">TOP_K</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_weight</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span><span class="p">)</span>
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">linear</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">weight</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">bias</span><span class="p">)</span>
+        <span class="n">router_top_value</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="n">router_logits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">router_top_value</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">router_top_value</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">router_top_value</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">router_scores</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">router_logits</span><span class="p">)</span><span class="o">.</span><span class="n">scatter_</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">router_indices</span><span class="p">,</span> <span class="n">router_top_value</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssExperts</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">expert_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="mf">1.702</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">limit</span> <span class="o">=</span> <span class="mf">7.0</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">router_indices</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">routing_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="n">num_experts</span> <span class="o">=</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">device</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s2">&quot;cpu&quot;</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">training</span><span class="p">:</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="n">expert_mask</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">one_hot</span><span class="p">(</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">num_classes</span><span class="o">=</span><span class="n">num_experts</span><span class="p">)</span>
+                <span class="n">expert_mask</span> <span class="o">=</span> <span class="n">expert_mask</span><span class="o">.</span><span class="n">permute</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+                <span class="n">expert_hit</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">greater</span><span class="p">(</span><span class="n">expert_mask</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">nonzero</span><span class="p">()</span>
+
+            <span class="k">for</span> <span class="n">expert_idx</span> <span class="ow">in</span> <span class="n">expert_hit</span><span class="p">[:]:</span>
+                <span class="n">expert_idx</span> <span class="o">=</span> <span class="n">expert_idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                    <span class="n">_</span><span class="p">,</span> <span class="n">token_idx</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">expert_mask</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">])</span>
+                <span class="n">current_state</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="p">[</span><span class="n">token_idx</span><span class="p">]</span>
+                <span class="n">gate_up</span> <span class="o">=</span> <span class="n">current_state</span> <span class="o">@</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span>
+                <span class="n">gate</span><span class="p">,</span> <span class="n">up</span> <span class="o">=</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">::</span><span class="mi">2</span><span class="p">],</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">::</span><span class="mi">2</span><span class="p">]</span>
+                <span class="n">gate</span> <span class="o">=</span> <span class="n">gate</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+                <span class="n">up</span> <span class="o">=</span> <span class="n">up</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=-</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+                <span class="n">glu</span> <span class="o">=</span> <span class="n">gate</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">gate</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span><span class="p">)</span>
+                <span class="n">gated_output</span> <span class="o">=</span> <span class="p">(</span><span class="n">up</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">glu</span>
+                <span class="n">out</span> <span class="o">=</span> <span class="n">gated_output</span> <span class="o">@</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span>
+                <span class="n">weighted_output</span> <span class="o">=</span> <span class="n">out</span> <span class="o">*</span> <span class="n">routing_weights</span><span class="p">[</span><span class="n">token_idx</span><span class="p">,</span> <span class="n">expert_idx</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span>
+                <span class="n">next_states</span><span class="o">.</span><span class="n">index_add_</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">token_idx</span><span class="p">,</span> <span class="n">weighted_output</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">num_experts</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">num_experts</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+            <span class="n">gate_up</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+            <span class="n">gate</span><span class="p">,</span> <span class="n">up</span> <span class="o">=</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">::</span><span class="mi">2</span><span class="p">],</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">::</span><span class="mi">2</span><span class="p">]</span>
+            <span class="n">gate</span> <span class="o">=</span> <span class="n">gate</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+            <span class="n">up</span> <span class="o">=</span> <span class="n">up</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=-</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+            <span class="n">glu</span> <span class="o">=</span> <span class="n">gate</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">gate</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span><span class="p">)</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bmm</span><span class="p">(((</span><span class="n">up</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">glu</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">)</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">num_experts</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span> <span class="o">*</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">num_experts</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)[</span><span class="o">...</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span>
+            <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">next_states</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssMoEMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router</span> <span class="o">=</span> <span class="n">GptOssRouter</span><span class="p">(</span><span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">GptOssExperts</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">router</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">routed_out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_indices</span><span class="o">=</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">routing_weights</span><span class="o">=</span><span class="n">router_scores</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">routed_out</span><span class="p">,</span> <span class="n">router_scores</span>
+
+<span class="c1"># Run the model</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">GENERAL_SEED</span><span class="p">)</span>
+
+<span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">dtype</span> <span class="o">=</span> <span class="n">to_dtype</span><span class="p">(</span><span class="n">DTYPE</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">=== GPT-OSS Implementation ===&quot;</span><span class="p">)</span>
+<span class="c1"># Initialize model with loaded weights</span>
+<span class="n">model</span> <span class="o">=</span> <span class="n">GptOssMoEMLP</span><span class="p">(</span>
+    <span class="n">router_weight</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">router_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">experts</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">experts</span><span class="o">.</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="c1"># Generate the same input as other implementations</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">INPUT_SEED</span><span class="p">)</span>
+<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span>
+
+<span class="c1"># Benchmark the model with varied inputs to prevent caching artifacts</span>
+<span class="n">tokens</span> <span class="o">=</span> <span class="n">BATCH_SIZE</span> <span class="o">*</span> <span class="n">SEQ_LEN</span>
+<span class="k">with</span> <span class="n">bench_context</span><span class="p">(</span><span class="n">warmup</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span> <span class="n">iters</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">tokens</span><span class="o">=</span><span class="n">tokens</span><span class="p">,</span> <span class="n">save_json</span><span class="o">=</span><span class="s2">&quot;gptoss_results.json&quot;</span><span class="p">,</span> <span class="n">vary_inputs</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">as</span> <span class="n">bench</span><span class="p">:</span>
+    <span class="n">output</span><span class="p">,</span> <span class="n">stats</span> <span class="o">=</span> <span class="n">bench</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Output sum: </span><span class="si">{</span><span class="n">output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</pre></div>
+
+<div class="code-line-highlight" id="line-highlight-gptoss_run"></div>
+</div>
+</div>
+</div>
+<div id="output-gptoss_run" class="cell-output">
+<div class="cell-stdout">Loaded shared weights from artifacts
+Router weight sum: 12.588732
+Gate/up sum: 1026.601807
+Down sum: 206.729263
+
+=== GPT-OSS Implementation ===
+Router weight sum: 12.588732
+Gate/up proj sum: 1026.601807
+Down proj sum: 206.729340
+
+┌─ Benchmark Configuration ─────────────────────────────┐
+│ Warmup: 10              Iters: 50              │
+│ Tokens: 100                                        │
+│ Input Variation: Enabled (prevents caching artifacts)  │
+└────────────────────────────────────────────────────────┘
+
+Base Input: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.486445, 0.446746], mean=-0.000048, std=0.099986, norm=33.936142
+Input Variation: +0.001 * iteration (deterministic)
+
+Warming up (10 iterations)...
+Benchmarking (50 iterations)...
+  Progress: 20% complete (avg: 48.905 ms)
+  Progress: 40% complete (avg: 48.717 ms)
+  Progress: 60% complete (avg: 47.570 ms)
+  Progress: 80% complete (avg: 46.370 ms)
+
+Output tensors:
+  Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.064982, 0.061193], mean=0.000100, std=0.013510, norm=4.585560
+  Auxiliary: shape=(100, 128), dtype=torch.float32, device=cuda:0, range=[0.000000, 0.302948], mean=0.007812, std=0.043553, norm=5.005893
+
+━━━━━━━━━━━━━━━━━━━━ Benchmark Results ━━━━━━━━━━━━━━━━━━━━
+Iterations: 50
+
+Latency Statistics:
+  Average: 45.287 ms
+  Min:     38.914 ms
+  Max:     49.844 ms
+  Std Dev: 3.233 ms
+
+Percentiles:
+  P50 (median): 45.422 ms
+  P95:          49.730 ms
+  P99:          49.825 ms
+
+Throughput:
+  Tokens/sec: 2208.2
+  Std Dev:    161.3
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+
+Saved benchmark results to gptoss_results.json
+
+Output sum: 11.532237
+</div>
+<div class="uv-install-logs" id="uv-logs-gptoss_run">
+<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
+<div class="uv-logs-content" style="display: none;">
+Downloading networkx (1.9MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading sympy (6.0MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading numpy (16.2MiB)
+Downloading triton (148.3MiB)
+Downloading torch (846.9MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 453ms
+</div>
+</div>
+<div class="cell-artifacts">
+<h4>Artifacts:</h4>
+<a href="artifacts/gptoss_run/gptoss_results.json" class="artifact" target="_blank">gptoss_results.json</a>
+</div>
+</div>
+</div>
+
 <h2>GPT-OSS Implementation (Training Mode)</h2>
 <p>This section runs the GPT-OSS MoE implementation with training mode enabled to force the expert loop path.</p>
+<div class="cell" id="cell-gptoss_training_run">
+<div class="cell-header">
+<span class="collapse-indicators">
+<span onclick="toggleCode('gptoss_training_run')" style="cursor: pointer;">▼ code</span> 
+<span onclick="toggleOutput('gptoss_training_run')" style="cursor: pointer;">▼ output</span>
+ <span id="uv-indicator-gptoss_training_run" onclick="toggleUvLogsFromHeader('gptoss_training_run')" style="cursor: pointer;">▶ uv-logs</span>
+</span> | 
+Cell: gptoss_training_run | deps: torch, numpy | 40.24s
+ | <button class="run-btn" onclick="runCell('gptoss_training_run')">▶ run</button>
+<button class="copy-btn" onclick="copyCell('gptoss_training_run')">Copy</button>
+<a href="cells/gptoss_training_run.py" target="_blank" class="raw-btn">Raw</a>
+</div>
+<div id="code-gptoss_training_run" class="cell-code" data-lines="131">
+<div class="highlight-with-lines">
+<div class="line-numbers" id="lines-gptoss_training_run">
+<a class="line-number" data-cell="gptoss_training_run" data-line="1" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 1, true);">1</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="2" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 2, true);">2</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="3" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 3, true);">3</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="4" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 4, true);">4</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="5" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 5, true);">5</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="6" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 6, true);">6</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="7" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 7, true);">7</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="8" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 8, true);">8</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="9" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 9, true);">9</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="10" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 10, true);">10</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="11" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 11, true);">11</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="12" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 12, true);">12</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="13" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 13, true);">13</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="14" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 14, true);">14</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="15" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 15, true);">15</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="16" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 16, true);">16</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="17" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 17, true);">17</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="18" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 18, true);">18</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="19" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 19, true);">19</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="20" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 20, true);">20</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="21" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 21, true);">21</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="22" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 22, true);">22</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="23" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 23, true);">23</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="24" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 24, true);">24</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="25" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 25, true);">25</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="26" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 26, true);">26</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="27" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 27, true);">27</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="28" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 28, true);">28</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="29" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 29, true);">29</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="30" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 30, true);">30</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="31" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 31, true);">31</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="32" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 32, true);">32</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="33" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 33, true);">33</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="34" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 34, true);">34</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="35" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 35, true);">35</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="36" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 36, true);">36</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="37" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 37, true);">37</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="38" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 38, true);">38</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="39" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 39, true);">39</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="40" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 40, true);">40</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="41" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 41, true);">41</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="42" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 42, true);">42</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="43" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 43, true);">43</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="44" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 44, true);">44</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="45" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 45, true);">45</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="46" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 46, true);">46</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="47" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 47, true);">47</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="48" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 48, true);">48</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="49" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 49, true);">49</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="50" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 50, true);">50</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="51" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 51, true);">51</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="52" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 52, true);">52</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="53" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 53, true);">53</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="54" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 54, true);">54</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="55" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 55, true);">55</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="56" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 56, true);">56</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="57" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 57, true);">57</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="58" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 58, true);">58</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="59" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 59, true);">59</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="60" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 60, true);">60</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="61" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 61, true);">61</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="62" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 62, true);">62</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="63" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 63, true);">63</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="64" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 64, true);">64</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="65" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 65, true);">65</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="66" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 66, true);">66</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="67" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 67, true);">67</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="68" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 68, true);">68</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="69" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 69, true);">69</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="70" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 70, true);">70</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="71" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 71, true);">71</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="72" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 72, true);">72</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="73" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 73, true);">73</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="74" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 74, true);">74</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="75" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 75, true);">75</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="76" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 76, true);">76</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="77" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 77, true);">77</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="78" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 78, true);">78</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="79" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 79, true);">79</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="80" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 80, true);">80</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="81" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 81, true);">81</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="82" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 82, true);">82</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="83" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 83, true);">83</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="84" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 84, true);">84</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="85" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 85, true);">85</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="86" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 86, true);">86</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="87" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 87, true);">87</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="88" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 88, true);">88</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="89" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 89, true);">89</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="90" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 90, true);">90</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="91" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 91, true);">91</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="92" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 92, true);">92</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="93" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 93, true);">93</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="94" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 94, true);">94</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="95" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 95, true);">95</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="96" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 96, true);">96</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="97" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 97, true);">97</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="98" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 98, true);">98</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="99" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 99, true);">99</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="100" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 100, true);">100</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="101" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 101, true);">101</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="102" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 102, true);">102</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="103" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 103, true);">103</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="104" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 104, true);">104</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="105" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 105, true);">105</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="106" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 106, true);">106</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="107" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 107, true);">107</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="108" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 108, true);">108</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="109" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 109, true);">109</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="110" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 110, true);">110</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="111" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 111, true);">111</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="112" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 112, true);">112</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="113" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 113, true);">113</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="114" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 114, true);">114</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="115" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 115, true);">115</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="116" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 116, true);">116</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="117" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 117, true);">117</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="118" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 118, true);">118</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="119" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 119, true);">119</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="120" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 120, true);">120</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="121" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 121, true);">121</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="122" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 122, true);">122</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="123" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 123, true);">123</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="124" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 124, true);">124</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="125" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 125, true);">125</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="126" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 126, true);">126</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="127" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 127, true);">127</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="128" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 128, true);">128</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="129" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 129, true);">129</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="130" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 130, true);">130</a>
+<a class="line-number" data-cell="gptoss_training_run" data-line="131" href="#cell-gptoss_training_run" onclick="event.preventDefault(); selectCellLine('gptoss_training_run', 131, true);">131</a>
+</div>
+<div class="code-wrap">
+<div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch</span><span class="w"> </span><span class="kn">import</span> <span class="n">nn</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">bench_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">to_dtype</span><span class="p">,</span> <span class="n">tensor_stats</span><span class="p">,</span> <span class="n">set_seed</span><span class="p">,</span> <span class="n">bench_context</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">config</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span>
+    <span class="n">NUM_EXPERTS</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">TOP_K</span><span class="p">,</span>
+    <span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">DTYPE</span><span class="p">,</span> <span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">WEIGHT_SEED</span><span class="p">,</span> <span class="n">EXPERT_SEED</span><span class="p">,</span> <span class="n">INPUT_SEED</span><span class="p">,</span> <span class="n">GENERAL_SEED</span>
+<span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="c1"># Discover the upstream artifact directory from env</span>
+<span class="n">data_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;UVNOTE_INPUT_SAVE_DATA&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span>
+
+<span class="n">router_weight</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_weight.pt&#39;</span><span class="p">)</span>
+<span class="n">router_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj_bias.pt&#39;</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Loaded shared weights from artifacts&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">router_weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up sum: </span><span class="si">{</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down sum: </span><span class="si">{</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssTrainingRouter</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span> <span class="o">=</span> <span class="n">TOP_K</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_weight</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">router_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dim</span><span class="p">)</span>
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">linear</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">weight</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">bias</span><span class="p">)</span>
+        <span class="n">router_top_value</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">topk</span><span class="p">(</span><span class="n">router_logits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">router_top_value</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">router_top_value</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">router_top_value</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">router_scores</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">router_logits</span><span class="p">)</span><span class="o">.</span><span class="n">scatter_</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">router_indices</span><span class="p">,</span> <span class="n">router_top_value</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssTrainingExperts</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">NUM_EXPERTS</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">expert_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">())</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="mf">1.702</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">limit</span> <span class="o">=</span> <span class="mf">7.0</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">router_indices</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">routing_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="n">num_experts</span> <span class="o">=</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="c1"># Force training mode path (expert loop instead of batched)</span>
+        <span class="n">next_states</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">expert_mask</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">one_hot</span><span class="p">(</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">num_classes</span><span class="o">=</span><span class="n">num_experts</span><span class="p">)</span>
+            <span class="n">expert_mask</span> <span class="o">=</span> <span class="n">expert_mask</span><span class="o">.</span><span class="n">permute</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+            <span class="n">expert_hit</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">greater</span><span class="p">(</span><span class="n">expert_mask</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">nonzero</span><span class="p">()</span>
+
+        <span class="k">for</span> <span class="n">expert_idx</span> <span class="ow">in</span> <span class="n">expert_hit</span><span class="p">[:]:</span>
+            <span class="n">expert_idx</span> <span class="o">=</span> <span class="n">expert_idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="n">_</span><span class="p">,</span> <span class="n">token_idx</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">expert_mask</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">])</span>
+            <span class="n">current_state</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="p">[</span><span class="n">token_idx</span><span class="p">]</span>
+            <span class="n">gate_up</span> <span class="o">=</span> <span class="n">current_state</span> <span class="o">@</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj_bias</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span>
+            <span class="n">gate</span><span class="p">,</span> <span class="n">up</span> <span class="o">=</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">::</span><span class="mi">2</span><span class="p">],</span> <span class="n">gate_up</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">::</span><span class="mi">2</span><span class="p">]</span>
+            <span class="n">gate</span> <span class="o">=</span> <span class="n">gate</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+            <span class="n">up</span> <span class="o">=</span> <span class="n">up</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">min</span><span class="o">=-</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">,</span> <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">limit</span><span class="p">)</span>
+            <span class="n">glu</span> <span class="o">=</span> <span class="n">gate</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">gate</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span><span class="p">)</span>
+            <span class="n">gated_output</span> <span class="o">=</span> <span class="p">(</span><span class="n">up</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">glu</span>
+            <span class="n">out</span> <span class="o">=</span> <span class="n">gated_output</span> <span class="o">@</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj_bias</span><span class="p">[</span><span class="n">expert_idx</span><span class="p">]</span>
+            <span class="n">weighted_output</span> <span class="o">=</span> <span class="n">out</span> <span class="o">*</span> <span class="n">routing_weights</span><span class="p">[</span><span class="n">token_idx</span><span class="p">,</span> <span class="n">expert_idx</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span>
+            <span class="n">next_states</span><span class="o">.</span><span class="n">index_add_</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">token_idx</span><span class="p">,</span> <span class="n">weighted_output</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+        <span class="n">next_states</span> <span class="o">=</span> <span class="n">next_states</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">next_states</span>
+
+<span class="k">class</span><span class="w"> </span><span class="nc">GptOssTrainingMoEMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">,</span> <span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router</span> <span class="o">=</span> <span class="n">GptOssTrainingRouter</span><span class="p">(</span><span class="n">router_weight</span><span class="p">,</span> <span class="n">router_bias</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">GptOssTrainingExperts</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="p">,</span> <span class="n">gate_up_proj_bias</span><span class="p">,</span> <span class="n">down_proj</span><span class="p">,</span> <span class="n">down_proj_bias</span><span class="p">)</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="n">router_scores</span><span class="p">,</span> <span class="n">router_indices</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">router</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">routed_out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_indices</span><span class="o">=</span><span class="n">router_indices</span><span class="p">,</span> <span class="n">routing_weights</span><span class="o">=</span><span class="n">router_scores</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">routed_out</span><span class="p">,</span> <span class="n">router_scores</span>
+
+<span class="c1"># Run the model</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">GENERAL_SEED</span><span class="p">)</span>
+
+<span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">dtype</span> <span class="o">=</span> <span class="n">to_dtype</span><span class="p">(</span><span class="n">DTYPE</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">=== GPT-OSS Implementation (Training Mode - Expert Loop) ===&quot;</span><span class="p">)</span>
+<span class="c1"># Initialize model with loaded weights and force training mode</span>
+<span class="n">model</span> <span class="o">=</span> <span class="n">GptOssTrainingMoEMLP</span><span class="p">(</span>
+    <span class="n">router_weight</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">router_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span>
+    <span class="n">down_proj_bias</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+<span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+
+<span class="c1"># Set to training mode to force expert loop path</span>
+<span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">experts</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down proj sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">experts</span><span class="o">.</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Model training mode: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">training</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="c1"># Generate the same input as other implementations</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">INPUT_SEED</span><span class="p">)</span>
+<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span>
+
+<span class="c1"># Benchmark the model with varied inputs to prevent caching artifacts</span>
+<span class="n">tokens</span> <span class="o">=</span> <span class="n">BATCH_SIZE</span> <span class="o">*</span> <span class="n">SEQ_LEN</span>
+<span class="k">with</span> <span class="n">bench_context</span><span class="p">(</span><span class="n">warmup</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span> <span class="n">iters</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">tokens</span><span class="o">=</span><span class="n">tokens</span><span class="p">,</span> <span class="n">save_json</span><span class="o">=</span><span class="s2">&quot;gptoss_training_results.json&quot;</span><span class="p">,</span> <span class="n">vary_inputs</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">as</span> <span class="n">bench</span><span class="p">:</span>
+    <span class="n">output</span><span class="p">,</span> <span class="n">stats</span> <span class="o">=</span> <span class="n">bench</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Output sum: </span><span class="si">{</span><span class="n">output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</pre></div>
+
+<div class="code-line-highlight" id="line-highlight-gptoss_training_run"></div>
+</div>
+</div>
+</div>
+<div id="output-gptoss_training_run" class="cell-output">
+<div class="cell-stdout">Loaded shared weights from artifacts
+Router weight sum: 12.588732
+Gate/up sum: 1026.601807
+Down sum: 206.729263
+
+=== GPT-OSS Implementation (Training Mode - Expert Loop) ===
+Router weight sum: 12.588732
+Gate/up proj sum: 1026.601807
+Down proj sum: 206.729340
+Model training mode: True
+
+┌─ Benchmark Configuration ─────────────────────────────┐
+│ Warmup: 10              Iters: 50              │
+│ Tokens: 100                                        │
+│ Input Variation: Enabled (prevents caching artifacts)  │
+└────────────────────────────────────────────────────────┘
+
+Base Input: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.486445, 0.446746], mean=-0.000048, std=0.099986, norm=33.936142
+Input Variation: +0.001 * iteration (deterministic)
+
+Warming up (10 iterations)...
+Benchmarking (50 iterations)...
+  Progress: 20% complete (avg: 49.963 ms)
+  Progress: 40% complete (avg: 49.344 ms)
+  Progress: 60% complete (avg: 48.274 ms)
+  Progress: 80% complete (avg: 47.165 ms)
+
+Output tensors:
+  Primary: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.064982, 0.061193], mean=0.000100, std=0.013510, norm=4.585560
+  Auxiliary: shape=(100, 128), dtype=torch.float32, device=cuda:0, range=[0.000000, 0.302948], mean=0.007812, std=0.043553, norm=5.005893
+
+━━━━━━━━━━━━━━━━━━━━ Benchmark Results ━━━━━━━━━━━━━━━━━━━━
+Iterations: 50
+
+Latency Statistics:
+  Average: 46.010 ms
+  Min:     39.207 ms
+  Max:     51.098 ms
+  Std Dev: 3.259 ms
+
+Percentiles:
+  P50 (median): 46.133 ms
+  P95:          50.721 ms
+  P99:          51.008 ms
+
+Throughput:
+  Tokens/sec: 2173.4
+  Std Dev:    158.7
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+
+Saved benchmark results to gptoss_training_results.json
+
+Output sum: 11.532237
+</div>
+<div class="uv-install-logs" id="uv-logs-gptoss_training_run">
+<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
+<div class="uv-logs-content" style="display: none;">
+Downloading setuptools (1.1MiB)
+Downloading sympy (6.0MiB)
+Downloading numpy (16.2MiB)
+Downloading networkx (1.9MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading triton (148.3MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 26 packages in 448ms
+</div>
+</div>
+<div class="cell-artifacts">
+<h4>Artifacts:</h4>
+<a href="artifacts/gptoss_training_run/gptoss_training_results.json" class="artifact" target="_blank">gptoss_training_results.json</a>
+</div>
+</div>
+</div>
+
 <h2>MegaBlocks Implementation</h2>
 <p>This section runs the MegaBlocks MoE implementation with optimized kernels from the Hugging Face hub.</p>
+<div class="cell cell-failed" id="cell-megablocks_run">
+<div class="cell-header">
+<span class="collapse-indicators">
+<span onclick="toggleCode('megablocks_run')" style="cursor: pointer;">▼ code</span> 
+<span onclick="toggleOutput('megablocks_run')" style="cursor: pointer;">▼ output</span>
+ <span id="uv-indicator-megablocks_run" onclick="toggleUvLogsFromHeader('megablocks_run')" style="cursor: pointer;">▶ uv-logs</span>
+</span> | 
+Cell: megablocks_run | deps: torch, numpy, kernels | 40.58s | FAILED
+ | <button class="run-btn" onclick="runCell('megablocks_run')">▶ run</button>
+<button class="copy-btn" onclick="copyCell('megablocks_run')">Copy</button>
+<a href="cells/megablocks_run.py" target="_blank" class="raw-btn">Raw</a>
+</div>
+<div id="code-megablocks_run" class="cell-code" data-lines="95">
+<div class="highlight-with-lines">
+<div class="line-numbers" id="lines-megablocks_run">
+<a class="line-number" data-cell="megablocks_run" data-line="1" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 1, true);">1</a>
+<a class="line-number" data-cell="megablocks_run" data-line="2" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 2, true);">2</a>
+<a class="line-number" data-cell="megablocks_run" data-line="3" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 3, true);">3</a>
+<a class="line-number" data-cell="megablocks_run" data-line="4" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 4, true);">4</a>
+<a class="line-number" data-cell="megablocks_run" data-line="5" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 5, true);">5</a>
+<a class="line-number" data-cell="megablocks_run" data-line="6" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 6, true);">6</a>
+<a class="line-number" data-cell="megablocks_run" data-line="7" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 7, true);">7</a>
+<a class="line-number" data-cell="megablocks_run" data-line="8" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 8, true);">8</a>
+<a class="line-number" data-cell="megablocks_run" data-line="9" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 9, true);">9</a>
+<a class="line-number" data-cell="megablocks_run" data-line="10" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 10, true);">10</a>
+<a class="line-number" data-cell="megablocks_run" data-line="11" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 11, true);">11</a>
+<a class="line-number" data-cell="megablocks_run" data-line="12" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 12, true);">12</a>
+<a class="line-number" data-cell="megablocks_run" data-line="13" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 13, true);">13</a>
+<a class="line-number" data-cell="megablocks_run" data-line="14" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 14, true);">14</a>
+<a class="line-number" data-cell="megablocks_run" data-line="15" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 15, true);">15</a>
+<a class="line-number" data-cell="megablocks_run" data-line="16" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 16, true);">16</a>
+<a class="line-number" data-cell="megablocks_run" data-line="17" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 17, true);">17</a>
+<a class="line-number" data-cell="megablocks_run" data-line="18" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 18, true);">18</a>
+<a class="line-number" data-cell="megablocks_run" data-line="19" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 19, true);">19</a>
+<a class="line-number" data-cell="megablocks_run" data-line="20" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 20, true);">20</a>
+<a class="line-number" data-cell="megablocks_run" data-line="21" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 21, true);">21</a>
+<a class="line-number" data-cell="megablocks_run" data-line="22" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 22, true);">22</a>
+<a class="line-number" data-cell="megablocks_run" data-line="23" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 23, true);">23</a>
+<a class="line-number" data-cell="megablocks_run" data-line="24" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 24, true);">24</a>
+<a class="line-number" data-cell="megablocks_run" data-line="25" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 25, true);">25</a>
+<a class="line-number" data-cell="megablocks_run" data-line="26" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 26, true);">26</a>
+<a class="line-number" data-cell="megablocks_run" data-line="27" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 27, true);">27</a>
+<a class="line-number" data-cell="megablocks_run" data-line="28" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 28, true);">28</a>
+<a class="line-number" data-cell="megablocks_run" data-line="29" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 29, true);">29</a>
+<a class="line-number" data-cell="megablocks_run" data-line="30" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 30, true);">30</a>
+<a class="line-number" data-cell="megablocks_run" data-line="31" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 31, true);">31</a>
+<a class="line-number" data-cell="megablocks_run" data-line="32" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 32, true);">32</a>
+<a class="line-number" data-cell="megablocks_run" data-line="33" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 33, true);">33</a>
+<a class="line-number" data-cell="megablocks_run" data-line="34" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 34, true);">34</a>
+<a class="line-number" data-cell="megablocks_run" data-line="35" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 35, true);">35</a>
+<a class="line-number" data-cell="megablocks_run" data-line="36" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 36, true);">36</a>
+<a class="line-number" data-cell="megablocks_run" data-line="37" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 37, true);">37</a>
+<a class="line-number" data-cell="megablocks_run" data-line="38" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 38, true);">38</a>
+<a class="line-number" data-cell="megablocks_run" data-line="39" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 39, true);">39</a>
+<a class="line-number" data-cell="megablocks_run" data-line="40" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 40, true);">40</a>
+<a class="line-number" data-cell="megablocks_run" data-line="41" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 41, true);">41</a>
+<a class="line-number" data-cell="megablocks_run" data-line="42" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 42, true);">42</a>
+<a class="line-number" data-cell="megablocks_run" data-line="43" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 43, true);">43</a>
+<a class="line-number" data-cell="megablocks_run" data-line="44" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 44, true);">44</a>
+<a class="line-number" data-cell="megablocks_run" data-line="45" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 45, true);">45</a>
+<a class="line-number" data-cell="megablocks_run" data-line="46" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 46, true);">46</a>
+<a class="line-number" data-cell="megablocks_run" data-line="47" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 47, true);">47</a>
+<a class="line-number" data-cell="megablocks_run" data-line="48" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 48, true);">48</a>
+<a class="line-number" data-cell="megablocks_run" data-line="49" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 49, true);">49</a>
+<a class="line-number" data-cell="megablocks_run" data-line="50" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 50, true);">50</a>
+<a class="line-number" data-cell="megablocks_run" data-line="51" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 51, true);">51</a>
+<a class="line-number" data-cell="megablocks_run" data-line="52" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 52, true);">52</a>
+<a class="line-number" data-cell="megablocks_run" data-line="53" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 53, true);">53</a>
+<a class="line-number" data-cell="megablocks_run" data-line="54" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 54, true);">54</a>
+<a class="line-number" data-cell="megablocks_run" data-line="55" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 55, true);">55</a>
+<a class="line-number" data-cell="megablocks_run" data-line="56" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 56, true);">56</a>
+<a class="line-number" data-cell="megablocks_run" data-line="57" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 57, true);">57</a>
+<a class="line-number" data-cell="megablocks_run" data-line="58" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 58, true);">58</a>
+<a class="line-number" data-cell="megablocks_run" data-line="59" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 59, true);">59</a>
+<a class="line-number" data-cell="megablocks_run" data-line="60" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 60, true);">60</a>
+<a class="line-number" data-cell="megablocks_run" data-line="61" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 61, true);">61</a>
+<a class="line-number" data-cell="megablocks_run" data-line="62" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 62, true);">62</a>
+<a class="line-number" data-cell="megablocks_run" data-line="63" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 63, true);">63</a>
+<a class="line-number" data-cell="megablocks_run" data-line="64" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 64, true);">64</a>
+<a class="line-number" data-cell="megablocks_run" data-line="65" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 65, true);">65</a>
+<a class="line-number" data-cell="megablocks_run" data-line="66" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 66, true);">66</a>
+<a class="line-number" data-cell="megablocks_run" data-line="67" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 67, true);">67</a>
+<a class="line-number" data-cell="megablocks_run" data-line="68" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 68, true);">68</a>
+<a class="line-number" data-cell="megablocks_run" data-line="69" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 69, true);">69</a>
+<a class="line-number" data-cell="megablocks_run" data-line="70" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 70, true);">70</a>
+<a class="line-number" data-cell="megablocks_run" data-line="71" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 71, true);">71</a>
+<a class="line-number" data-cell="megablocks_run" data-line="72" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 72, true);">72</a>
+<a class="line-number" data-cell="megablocks_run" data-line="73" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 73, true);">73</a>
+<a class="line-number" data-cell="megablocks_run" data-line="74" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 74, true);">74</a>
+<a class="line-number" data-cell="megablocks_run" data-line="75" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 75, true);">75</a>
+<a class="line-number" data-cell="megablocks_run" data-line="76" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 76, true);">76</a>
+<a class="line-number" data-cell="megablocks_run" data-line="77" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 77, true);">77</a>
+<a class="line-number" data-cell="megablocks_run" data-line="78" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 78, true);">78</a>
+<a class="line-number" data-cell="megablocks_run" data-line="79" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 79, true);">79</a>
+<a class="line-number" data-cell="megablocks_run" data-line="80" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 80, true);">80</a>
+<a class="line-number" data-cell="megablocks_run" data-line="81" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 81, true);">81</a>
+<a class="line-number" data-cell="megablocks_run" data-line="82" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 82, true);">82</a>
+<a class="line-number" data-cell="megablocks_run" data-line="83" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 83, true);">83</a>
+<a class="line-number" data-cell="megablocks_run" data-line="84" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 84, true);">84</a>
+<a class="line-number" data-cell="megablocks_run" data-line="85" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 85, true);">85</a>
+<a class="line-number" data-cell="megablocks_run" data-line="86" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 86, true);">86</a>
+<a class="line-number" data-cell="megablocks_run" data-line="87" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 87, true);">87</a>
+<a class="line-number" data-cell="megablocks_run" data-line="88" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 88, true);">88</a>
+<a class="line-number" data-cell="megablocks_run" data-line="89" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 89, true);">89</a>
+<a class="line-number" data-cell="megablocks_run" data-line="90" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 90, true);">90</a>
+<a class="line-number" data-cell="megablocks_run" data-line="91" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 91, true);">91</a>
+<a class="line-number" data-cell="megablocks_run" data-line="92" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 92, true);">92</a>
+<a class="line-number" data-cell="megablocks_run" data-line="93" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 93, true);">93</a>
+<a class="line-number" data-cell="megablocks_run" data-line="94" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 94, true);">94</a>
+<a class="line-number" data-cell="megablocks_run" data-line="95" href="#cell-megablocks_run" onclick="event.preventDefault(); selectCellLine('megablocks_run', 95, true);">95</a>
+</div>
+<div class="code-wrap">
+<div class="highlight"><pre><span></span><span class="kn">import</span><span class="w"> </span><span class="nn">torch</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch</span><span class="w"> </span><span class="kn">import</span> <span class="n">nn</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">torch.nn</span><span class="w"> </span><span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">kernels</span><span class="w"> </span><span class="kn">import</span> <span class="n">get_kernel</span><span class="p">,</span> <span class="n">get_local_kernel</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">bench_utils</span><span class="w"> </span><span class="kn">import</span> <span class="n">to_dtype</span><span class="p">,</span> <span class="n">tensor_stats</span><span class="p">,</span> <span class="n">set_seed</span><span class="p">,</span> <span class="n">bench_context</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">config</span><span class="w"> </span><span class="kn">import</span> <span class="p">(</span>
+    <span class="n">NUM_EXPERTS</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">TOP_K</span><span class="p">,</span>
+    <span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">DTYPE</span><span class="p">,</span> <span class="n">DEVICE</span><span class="p">,</span>
+    <span class="n">WEIGHT_SEED</span><span class="p">,</span> <span class="n">EXPERT_SEED</span><span class="p">,</span> <span class="n">INPUT_SEED</span><span class="p">,</span> <span class="n">GENERAL_SEED</span>
+<span class="p">)</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">pathlib</span><span class="w"> </span><span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">from</span><span class="w"> </span><span class="nn">collections</span><span class="w"> </span><span class="kn">import</span> <span class="n">namedtuple</span>
+<span class="kn">import</span><span class="w"> </span><span class="nn">os</span>
+
+<span class="c1"># Discover the upstream artifact directory from env</span>
+<span class="n">data_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;UVNOTE_INPUT_SAVE_DATA&#39;</span><span class="p">,</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Loading weights from: </span><span class="si">{</span><span class="n">data_dir</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="n">router_weight</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_weight.pt&#39;</span><span class="p">)</span>
+<span class="n">router_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;router_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;gate_up_proj_bias.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj.pt&#39;</span><span class="p">)</span>
+<span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">data_dir</span><span class="p">)</span> <span class="o">/</span> <span class="s1">&#39;down_proj_bias.pt&#39;</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;Loaded shared weights from artifacts&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Router weight sum: </span><span class="si">{</span><span class="n">router_weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Gate/up sum: </span><span class="si">{</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+<span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Down sum: </span><span class="si">{</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+<span class="k">def</span><span class="w"> </span><span class="nf">build_megablocks_model</span><span class="p">(</span><span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">):</span>
+    <span class="c1"># Download optimized kernels from the Hugging Face hub</span>
+    <span class="n">megablocks</span> <span class="o">=</span> <span class="n">get_kernel</span><span class="p">(</span><span class="s2">&quot;kernels-community/megablocks&quot;</span><span class="p">,</span> <span class="n">revision</span><span class="o">=</span><span class="s2">&quot;v0.0.2&quot;</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">megablocks</span><span class="o">.</span><span class="n">layers</span><span class="o">.</span><span class="n">MegaBlocksMoeMLP</span><span class="p">()</span>
+
+    <span class="c1"># Create attribute container for expert weights</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">namedtuple</span><span class="p">(</span>
+        <span class="s2">&quot;Experts&quot;</span><span class="p">,</span> <span class="p">[</span><span class="s2">&quot;gate_up_proj&quot;</span><span class="p">,</span> <span class="s2">&quot;gate_up_proj_bias&quot;</span><span class="p">,</span> <span class="s2">&quot;down_proj&quot;</span><span class="p">,</span> <span class="s2">&quot;down_proj_bias&quot;</span><span class="p">,</span> <span class="s2">&quot;hidden_size&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="c1"># Use loaded router weights for consistency</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">router</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">NUM_EXPERTS</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+    <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+        <span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span><span class="n">router_weight</span><span class="p">)</span>
+        <span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span><span class="n">router_bias</span><span class="p">)</span>
+
+    <span class="c1"># Attach loaded expert weights to the experts container</span>
+    <span class="n">e</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">experts</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="mf">1.702</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">capacity_factor</span> <span class="o">=</span> <span class="mi">32</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">gate_up_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">down_proj_bias</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">down_proj_bias</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+    <span class="n">e</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">HIDDEN_SIZE</span>
+
+    <span class="c1"># Log weight statistics for comparison</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;[MegaBlocks] Router weight sum: </span><span class="si">{</span><span class="n">model</span><span class="o">.</span><span class="n">router</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;[MegaBlocks] Gate/up projection shape: </span><span class="si">{</span><span class="nb">tuple</span><span class="p">(</span><span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="si">}</span><span class="s2">, sum: </span><span class="si">{</span><span class="n">e</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;[MegaBlocks] Down projection shape: </span><span class="si">{</span><span class="nb">tuple</span><span class="p">(</span><span class="n">e</span><span class="o">.</span><span class="n">down_proj</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="si">}</span><span class="s2">, sum: </span><span class="si">{</span><span class="n">e</span><span class="o">.</span><span class="n">down_proj</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">model</span>
+
+<span class="c1"># Create a wrapper to match the interface of other implementations</span>
+<span class="k">class</span><span class="w"> </span><span class="nc">MegaBlocksMoEWrapper</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="k">def</span><span class="w"> </span><span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">megablocks_model</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">megablocks_model</span>
+
+    <span class="k">def</span><span class="w"> </span><span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="c1"># MegaBlocks expects input in the format (batch, seq_len, hidden_dim)</span>
+        <span class="n">output</span><span class="p">,</span> <span class="n">dummy_routing_weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">output</span><span class="p">,</span> <span class="n">dummy_routing_weights</span>
+
+<span class="c1"># Run the model</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">GENERAL_SEED</span><span class="p">)</span>
+
+<span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">DEVICE</span><span class="p">)</span>
+<span class="n">dtype</span> <span class="o">=</span> <span class="n">to_dtype</span><span class="p">(</span><span class="n">DTYPE</span><span class="p">)</span>
+
+<span class="nb">print</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">=== MegaBlocks Implementation ===&quot;</span><span class="p">)</span>
+<span class="c1"># Build MegaBlocks model with loaded weights</span>
+<span class="n">megablocks_model</span> <span class="o">=</span> <span class="n">build_megablocks_model</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+<span class="n">model</span> <span class="o">=</span> <span class="n">MegaBlocksMoEWrapper</span><span class="p">(</span><span class="n">megablocks_model</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+
+<span class="c1"># Generate the same input as other implementations</span>
+<span class="n">set_seed</span><span class="p">(</span><span class="n">INPUT_SEED</span><span class="p">)</span>
+<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">BATCH_SIZE</span><span class="p">,</span> <span class="n">SEQ_LEN</span><span class="p">,</span> <span class="n">HIDDEN_SIZE</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span>
+
+<span class="c1"># Benchmark the model with varied inputs to prevent caching artifacts</span>
+<span class="n">tokens</span> <span class="o">=</span> <span class="n">BATCH_SIZE</span> <span class="o">*</span> <span class="n">SEQ_LEN</span>
+<span class="k">with</span> <span class="n">bench_context</span><span class="p">(</span><span class="n">warmup</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span> <span class="n">iters</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">tokens</span><span class="o">=</span><span class="n">tokens</span><span class="p">,</span> <span class="n">save_json</span><span class="o">=</span><span class="s2">&quot;megablocks_results.json&quot;</span><span class="p">,</span> <span class="n">vary_inputs</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">as</span> <span class="n">bench</span><span class="p">:</span>
+    <span class="n">output</span><span class="p">,</span> <span class="n">stats</span> <span class="o">=</span> <span class="n">bench</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">x</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Output sum: </span><span class="si">{</span><span class="n">output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span><span class="si">:</span><span class="s2">.6f</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</pre></div>
+
+<div class="code-line-highlight" id="line-highlight-megablocks_run"></div>
+</div>
+</div>
+</div>
+<div id="output-megablocks_run" class="cell-output">
+<div class="cell-stdout">Loading weights from: /repo/moe_benchmarks/megablocks_yamoe/.uvnote/cache/f8744f31d9cf720409852d42748815c6d61f005a2a9b297b7b9bf986ed98bb90
+Loaded shared weights from artifacts
+Router weight sum: 12.588732
+Gate/up sum: 1026.601807
+Down sum: 206.729263
+
+=== MegaBlocks Implementation ===
+[MegaBlocks] Router weight sum: 12.588732
+[MegaBlocks] Gate/up projection shape: (128, 1152, 2304), sum: 1026.601807
+[MegaBlocks] Down projection shape: (128, 1152, 1152), sum: 206.729340
+
+┌─ Benchmark Configuration ─────────────────────────────┐
+│ Warmup: 10              Iters: 50              │
+│ Tokens: 100                                        │
+│ Input Variation: Enabled (prevents caching artifacts)  │
+└────────────────────────────────────────────────────────┘
+
+Base Input: shape=(1, 100, 1152), dtype=torch.float32, device=cuda:0, range=[-0.486445, 0.446746], mean=-0.000048, std=0.099986, norm=33.936142
+Input Variation: +0.001 * iteration (deterministic)
+
+Warming up (10 iterations)...
+</div>
+<div class="uv-install-logs" id="uv-logs-megablocks_run">
+<div class="uv-logs-header" onclick="toggleUvLogs(this)">▶ UV Install Logs</div>
+<div class="uv-logs-content" style="display: none;">
+Downloading sympy (6.0MiB)
+Downloading setuptools (1.1MiB)
+Downloading nvidia-nvjitlink-cu12 (37.4MiB)
+Downloading numpy (16.2MiB)
+Downloading nvidia-cufile-cu12 (1.1MiB)
+Downloading nvidia-cudnn-cu12 (674.0MiB)
+Downloading nvidia-cusolver-cu12 (255.1MiB)
+Downloading nvidia-cuda-cupti-cu12 (9.8MiB)
+Downloading triton (148.3MiB)
+Downloading nvidia-cuda-nvrtc-cu12 (84.0MiB)
+Downloading nvidia-nccl-cu12 (307.4MiB)
+Downloading nvidia-cusparse-cu12 (274.9MiB)
+Downloading nvidia-cusparselt-cu12 (273.9MiB)
+Downloading nvidia-curand-cu12 (60.7MiB)
+Downloading torch (846.9MiB)
+Downloading nvidia-cufft-cu12 (184.2MiB)
+Downloading hf-xet (3.0MiB)
+Downloading nvidia-cublas-cu12 (566.8MiB)
+Downloading networkx (1.9MiB)
+ Downloading nvidia-cufile-cu12
+ Downloading hf-xet
+ Downloading setuptools
+ Downloading networkx
+ Downloading nvidia-cuda-cupti-cu12
+ Downloading numpy
+ Downloading sympy
+ Downloading nvidia-nvjitlink-cu12
+ Downloading nvidia-curand-cu12
+ Downloading nvidia-cuda-nvrtc-cu12
+ Downloading triton
+ Downloading nvidia-cufft-cu12
+ Downloading nvidia-cusolver-cu12
+ Downloading nvidia-cusparselt-cu12
+ Downloading nvidia-cusparse-cu12
+ Downloading nvidia-nccl-cu12
+ Downloading nvidia-cublas-cu12
+ Downloading nvidia-cudnn-cu12
+ Downloading torch
+Installed 37 packages in 545ms
+</div>
+</div>
+<div class="cell-stderr">Fetching 66 files:   0%|          | 0/66 [00:00&lt;?, ?it/s]
+Fetching 66 files:   2%|▏         | 1/66 [00:00&lt;00:24,  2.66it/s]
+Fetching 66 files:  14%|█▎        | 9/66 [00:00&lt;00:02, 20.99it/s]
+Fetching 66 files:  24%|██▍       | 16/66 [00:00&lt;00:01, 31.57it/s]
+Fetching 66 files:  32%|███▏      | 21/66 [00:01&lt;00:02, 17.74it/s]
+Fetching 66 files:  53%|█████▎    | 35/66 [00:01&lt;00:01, 29.20it/s]
+Fetching 66 files:  71%|███████   | 47/66 [00:01&lt;00:00, 40.39it/s]
+Fetching 66 files:  85%|████████▍ | 56/66 [00:01&lt;00:00, 43.01it/s]
+Fetching 66 files:  97%|█████████▋| 64/66 [00:01&lt;00:00, 47.82it/s]
+Fetching 66 files: 100%|██████████| 66/66 [00:01&lt;00:00, 35.14it/s]
+/tmp/tmpsyirxqys/cuda_utils.c:5:10: fatal error: Python.h: No such file or directory
+    5 | #include &lt;Python.h&gt;
+      |          ^~~~~~~~~~
+compilation terminated.
+Traceback (most recent call last):
+  File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/megablocks_run.py&quot;, line 102, in &lt;module&gt;
+    output, stats = bench(model, x)
+                    ^^^^^^^^^^^^^^^
+  File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/bench_utils.py&quot;, line 189, in runner
+    result, times_s = _bench_engine(call, warmup=warmup, iters=iters, device=device, dtype=dtype, input_gen=input_gen)
+                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/bench_utils.py&quot;, line 96, in _bench_engine
+    _ = call(input_gen())
+        ^^^^^^^^^^^^^^^^^
+  File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/bench_utils.py&quot;, line 177, in &lt;lambda&gt;
+    call = lambda x: fn(x, *args[1:], **kwargs)
+                     ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/repo/moe_benchmarks/megablocks_yamoe/.uvnote/cells/megablocks_run.py&quot;, line 81, in forward
+    output, dummy_routing_weights = self.model(hidden_states)
+                                    ^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1773, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/nn/modules/module.py&quot;, line 1784, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 896, in forward
+    output, expert_weights_out, *_ = moe_forward(
+                                     ^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 730, in moe_forward
+    x, tokens_per_expert = forward_fn(**forward_args)
+                           ^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 457, in forward_once
+    x = permute_and_compute(
+        ^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/layers.py&quot;, line 401, in permute_and_compute
+    x = ops.binned_gather(x, indices, bins, expert_capacity, top_k)
+        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/torch/autograd/function.py&quot;, line 576, in apply
+    return super().apply(*args, **kwargs)  # type: ignore[misc]
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/stk_autocast.py&quot;, line 30, in decorate_fwd
+    return fwd(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/ops/binned_gather.py&quot;, line 26, in forward
+    return kernels.binned_gather(x, indices, None, bins, bin_size, top_k)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/huggingface/hub/models--kernels-community--megablocks/snapshots/e0fb1437de3f8d7079c4da13be8cb64dc0cfcdd5/build/torch28-cxx11-cu128-x86_64-linux/megablocks/backend/kernels.py&quot;, line 419, in binned_gather
+    _binned_copy[(num_experts, expert_capacity)](
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/jit.py&quot;, line 390, in &lt;lambda&gt;
+    return lambda *args, **kwargs: self.run(grid=grid, warmup=False, *args, **kwargs)
+                                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 239, in run
+    benchmark()
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in benchmark
+    timings = {config: self._bench(*args, config=config, **kwargs) for config in pruned_configs}
+              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 228, in &lt;dictcomp&gt;
+    timings = {config: self._bench(*args, config=config, **kwargs) for config in pruned_configs}
+                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 160, in _bench
+    return self.do_bench(kernel_call, quantiles=(0.5, 0.2, 0.8))
+           ^^^^^^^^^^^^^
+  File &quot;/usr/lib/python3.11/functools.py&quot;, line 1001, in __get__
+    val = self.func(instance)
+          ^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/autotuner.py&quot;, line 121, in do_bench
+    return driver.active.get_benchmarker()
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 30, in __getattr__
+    return getattr(self._initialize_obj(), name)
+                   ^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 26, in _initialize_obj
+    self._obj = self._init_fn()
+                ^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/driver.py&quot;, line 12, in _create_driver
+    return active_drivers[0]()
+           ^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 715, in __init__
+    self.utils = CudaUtils()  # TODO: make static
+                 ^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/driver.py&quot;, line 62, in __init__
+    mod = compile_module_from_src(
+          ^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 88, in compile_module_from_src
+    so = _build(name, src_path, tmpdir, library_dirs or [], include_dirs or [], libraries or [])
+         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File &quot;/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/runtime/build.py&quot;, line 51, in _build
+    subprocess.check_call(cc_cmd, stdout=subprocess.DEVNULL)
+  File &quot;/usr/lib/python3.11/subprocess.py&quot;, line 413, in check_call
+    raise CalledProcessError(retcode, cmd)
+subprocess.CalledProcessError: Command &#x27;[&#x27;/usr/bin/gcc&#x27;, &#x27;/tmp/tmpsyirxqys/cuda_utils.c&#x27;, &#x27;-O3&#x27;, &#x27;-shared&#x27;, &#x27;-fPIC&#x27;, &#x27;-Wno-psabi&#x27;, &#x27;-o&#x27;, &#x27;/tmp/tmpsyirxqys/cuda_utils.cpython-311-x86_64-linux-gnu.so&#x27;, &#x27;-lcuda&#x27;, &#x27;-L/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/lib&#x27;, &#x27;-L/usr/lib/x86_64-linux-gnu&#x27;, &#x27;-I/tmp/uvnote-run-4n1mby1e/home/.cache/uv/environments-v2/megablocks-run-8802ebf6d3566120/lib/python3.11/site-packages/triton/backends/nvidia/include&#x27;, &#x27;-I/tmp/tmpsyirxqys&#x27;, &#x27;-I/usr/include/python3.11&#x27;]&#x27; returned non-zero exit status 1.</div>
+</div>
+</div>
+
 <h2>Performance Visualization</h2>
 <p>This section reads all benchmark results and creates a comprehensive performance comparison chart.</p>
     </div>