Pramodith commited on 15 days ago

Commit

55142ca

verified ·

1 Parent(s): 43849eb

Upload folder using huggingface_hub

Browse files

Files changed (42) hide show

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_animation.svg +123 -0
benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_latency.svg +0 -0
benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_throughput.svg +0 -0
benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_animation.svg +123 -0
benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_latency.svg +0 -0
benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_throughput.svg +0 -0
benchmark_results/bnpo_loss_compiled/results.json +206 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_animation.svg +123 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_latency.svg +0 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_throughput.svg +0 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_animation.svg +123 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_latency.svg +0 -0
benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_throughput.svg +0 -0
benchmark_results/bnpo_loss_eager/results.json +206 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_animation.svg +105 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_latency.svg +0 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_throughput.svg +0 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_animation.svg +105 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_latency.svg +0 -0
benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_throughput.svg +0 -0
benchmark_results/grpo_loss_compiled/results.json +174 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_animation.svg +105 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_latency.svg +0 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_throughput.svg +0 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_light_animation.svg +105 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_light_latency.svg +0 -0
benchmark_results/grpo_loss_eager/grpo_loss_eager_light_throughput.svg +0 -0
benchmark_results/grpo_loss_eager/results.json +174 -0
benchmark_results/reverse_kl_compiled/results.json +206 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_animation.svg +123 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_latency.svg +0 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_throughput.svg +0 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_animation.svg +123 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_latency.svg +0 -0
benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_throughput.svg +0 -0
benchmark_results/reverse_kl_eager/results.json +206 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_animation.svg +123 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_latency.svg +0 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_throughput.svg +0 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_light_animation.svg +123 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_light_latency.svg +0 -0
benchmark_results/reverse_kl_eager/reverse_kl_eager_light_throughput.svg +0 -0

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_animation.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_latency.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_dark_throughput.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_animation.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_latency.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/bnpo_loss_compiled_light_throughput.svg ADDED Viewed

benchmark_results/bnpo_loss_compiled/results.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+  "results": [
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch128_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.0359,
+        "std_ms": 0.0038,
+        "min_ms": 0.0332,
+        "max_ms": 0.0701,
+        "q1_ms": 0.0344,
+        "q3_ms": 0.0357,
+        "iqr_ms": 0.0013,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.0771
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch128_seqlen08192_compiled",
+      "timingResults": {
+        "mean_ms": 0.0351,
+        "std_ms": 0.0033,
+        "min_ms": 0.0327,
+        "max_ms": 0.0557,
+        "q1_ms": 0.0336,
+        "q3_ms": 0.035,
+        "iqr_ms": 0.0014,
+        "outliers": 14,
+        "iterations": 200,
+        "refMeanMs": 0.0771
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch16_seqlen01024_compiled",
+      "timingResults": {
+        "mean_ms": 0.0355,
+        "std_ms": 0.0042,
+        "min_ms": 0.0331,
+        "max_ms": 0.0706,
+        "q1_ms": 0.034,
+        "q3_ms": 0.0351,
+        "iqr_ms": 0.0011,
+        "outliers": 21,
+        "iterations": 200,
+        "refMeanMs": 0.0811
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch16_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.0355,
+        "std_ms": 0.004,
+        "min_ms": 0.0319,
+        "max_ms": 0.0591,
+        "q1_ms": 0.0338,
+        "q3_ms": 0.0352,
+        "iqr_ms": 0.0014,
+        "outliers": 24,
+        "iterations": 200,
+        "refMeanMs": 0.0709
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch32_seqlen02048_compiled",
+      "timingResults": {
+        "mean_ms": 0.0358,
+        "std_ms": 0.0042,
+        "min_ms": 0.032,
+        "max_ms": 0.0569,
+        "q1_ms": 0.0338,
+        "q3_ms": 0.0355,
+        "iqr_ms": 0.0017,
+        "outliers": 27,
+        "iterations": 200,
+        "refMeanMs": 0.0763
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch64_seqlen04096_compiled",
+      "timingResults": {
+        "mean_ms": 0.0344,
+        "std_ms": 0.0031,
+        "min_ms": 0.032,
+        "max_ms": 0.0557,
+        "q1_ms": 0.0331,
+        "q3_ms": 0.0341,
+        "iqr_ms": 0.001,
+        "outliers": 32,
+        "iterations": 200,
+        "refMeanMs": 0.0739
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch128_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.0323,
+        "std_ms": 0.0034,
+        "min_ms": 0.03,
+        "max_ms": 0.053,
+        "q1_ms": 0.0311,
+        "q3_ms": 0.0318,
+        "iqr_ms": 0.0007,
+        "outliers": 25,
+        "iterations": 200,
+        "refMeanMs": 0.0808
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch128_seqlen08192_compiled",
+      "timingResults": {
+        "mean_ms": 0.0318,
+        "std_ms": 0.0032,
+        "min_ms": 0.0293,
+        "max_ms": 0.0502,
+        "q1_ms": 0.0304,
+        "q3_ms": 0.0317,
+        "iqr_ms": 0.0013,
+        "outliers": 17,
+        "iterations": 200,
+        "refMeanMs": 0.0845
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch16_seqlen01024_compiled",
+      "timingResults": {
+        "mean_ms": 0.0317,
+        "std_ms": 0.0031,
+        "min_ms": 0.0293,
+        "max_ms": 0.0593,
+        "q1_ms": 0.0304,
+        "q3_ms": 0.0317,
+        "iqr_ms": 0.0013,
+        "outliers": 17,
+        "iterations": 200,
+        "refMeanMs": 0.079
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch16_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.0306,
+        "std_ms": 0.0035,
+        "min_ms": 0.0279,
+        "max_ms": 0.0534,
+        "q1_ms": 0.0289,
+        "q3_ms": 0.0306,
+        "iqr_ms": 0.0017,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.084
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch32_seqlen02048_compiled",
+      "timingResults": {
+        "mean_ms": 0.0305,
+        "std_ms": 0.0035,
+        "min_ms": 0.0279,
+        "max_ms": 0.051,
+        "q1_ms": 0.0288,
+        "q3_ms": 0.0308,
+        "iqr_ms": 0.002,
+        "outliers": 15,
+        "iterations": 200,
+        "refMeanMs": 0.0764
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch64_seqlen04096_compiled",
+      "timingResults": {
+        "mean_ms": 0.0315,
+        "std_ms": 0.0033,
+        "min_ms": 0.0293,
+        "max_ms": 0.0543,
+        "q1_ms": 0.0302,
+        "q3_ms": 0.0311,
+        "iqr_ms": 0.0009,
+        "outliers": 21,
+        "iterations": 200,
+        "refMeanMs": 0.0739
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "7972ab0e834be24d",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "68426064f76adff2066ad365f6c97be3fe279bd6b20d025b3dc5614f9b2da449"
+}

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_animation.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_latency.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_dark_throughput.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_animation.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_latency.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/bnpo_loss_eager_light_throughput.svg ADDED Viewed

benchmark_results/bnpo_loss_eager/results.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+  "results": [
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch128_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0358,
+        "std_ms": 0.0035,
+        "min_ms": 0.0323,
+        "max_ms": 0.0536,
+        "q1_ms": 0.0342,
+        "q3_ms": 0.0358,
+        "iqr_ms": 0.0017,
+        "outliers": 17,
+        "iterations": 200,
+        "refMeanMs": 0.5552
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch128_seqlen08192_eager",
+      "timingResults": {
+        "mean_ms": 0.0344,
+        "std_ms": 0.0031,
+        "min_ms": 0.0314,
+        "max_ms": 0.0537,
+        "q1_ms": 0.0329,
+        "q3_ms": 0.0345,
+        "iqr_ms": 0.0015,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.6466
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch16_seqlen01024_eager",
+      "timingResults": {
+        "mean_ms": 0.0345,
+        "std_ms": 0.0171,
+        "min_ms": 0.0305,
+        "max_ms": 0.2718,
+        "q1_ms": 0.0319,
+        "q3_ms": 0.033,
+        "iqr_ms": 0.0011,
+        "outliers": 23,
+        "iterations": 200,
+        "refMeanMs": 0.5868
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch16_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0324,
+        "std_ms": 0.0027,
+        "min_ms": 0.0301,
+        "max_ms": 0.0508,
+        "q1_ms": 0.0312,
+        "q3_ms": 0.0324,
+        "iqr_ms": 0.0012,
+        "outliers": 17,
+        "iterations": 200,
+        "refMeanMs": 0.5832
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch32_seqlen02048_eager",
+      "timingResults": {
+        "mean_ms": 0.0343,
+        "std_ms": 0.0033,
+        "min_ms": 0.031,
+        "max_ms": 0.0513,
+        "q1_ms": 0.0325,
+        "q3_ms": 0.0346,
+        "iqr_ms": 0.0021,
+        "outliers": 19,
+        "iterations": 200,
+        "refMeanMs": 0.6265
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_batch64_seqlen04096_eager",
+      "timingResults": {
+        "mean_ms": 0.0328,
+        "std_ms": 0.0029,
+        "min_ms": 0.0306,
+        "max_ms": 0.0499,
+        "q1_ms": 0.0317,
+        "q3_ms": 0.0326,
+        "iqr_ms": 0.0009,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.5698
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch128_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0317,
+        "std_ms": 0.0034,
+        "min_ms": 0.0285,
+        "max_ms": 0.052,
+        "q1_ms": 0.0305,
+        "q3_ms": 0.0314,
+        "iqr_ms": 0.0009,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.1858
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch128_seqlen08192_eager",
+      "timingResults": {
+        "mean_ms": 0.0292,
+        "std_ms": 0.0028,
+        "min_ms": 0.0273,
+        "max_ms": 0.0455,
+        "q1_ms": 0.0281,
+        "q3_ms": 0.0289,
+        "iqr_ms": 0.0008,
+        "outliers": 23,
+        "iterations": 200,
+        "refMeanMs": 0.1633
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch16_seqlen01024_eager",
+      "timingResults": {
+        "mean_ms": 0.0311,
+        "std_ms": 0.0267,
+        "min_ms": 0.0256,
+        "max_ms": 0.4049,
+        "q1_ms": 0.0276,
+        "q3_ms": 0.0295,
+        "iqr_ms": 0.0018,
+        "outliers": 18,
+        "iterations": 200,
+        "refMeanMs": 0.1761
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch16_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0288,
+        "std_ms": 0.003,
+        "min_ms": 0.027,
+        "max_ms": 0.0554,
+        "q1_ms": 0.0278,
+        "q3_ms": 0.0284,
+        "iqr_ms": 0.0006,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.1755
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch32_seqlen02048_eager",
+      "timingResults": {
+        "mean_ms": 0.031,
+        "std_ms": 0.0034,
+        "min_ms": 0.0281,
+        "max_ms": 0.0484,
+        "q1_ms": 0.0296,
+        "q3_ms": 0.0306,
+        "iqr_ms": 0.0009,
+        "outliers": 27,
+        "iterations": 200,
+        "refMeanMs": 0.1533
+      },
+      "verified": true
+    },
+    {
+      "workload": "bnpoLossBenchmark.bnpo_loss_fwd_batch64_seqlen04096_eager",
+      "timingResults": {
+        "mean_ms": 0.031,
+        "std_ms": 0.0041,
+        "min_ms": 0.0286,
+        "max_ms": 0.0625,
+        "q1_ms": 0.0294,
+        "q3_ms": 0.0305,
+        "iqr_ms": 0.0011,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.1678
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "84e79b2f3ee3088a",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "68426064f76adff2066ad365f6c97be3fe279bd6b20d025b3dc5614f9b2da449"
+}

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_animation.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_latency.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_dark_throughput.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_animation.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_latency.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/grpo_loss_compiled_light_throughput.svg ADDED Viewed

benchmark_results/grpo_loss_compiled/results.json ADDED Viewed

	@@ -0,0 +1,174 @@

+{
+  "results": [
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch128_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.0329,
+        "std_ms": 0.0042,
+        "min_ms": 0.0301,
+        "max_ms": 0.0632,
+        "q1_ms": 0.031,
+        "q3_ms": 0.0326,
+        "iqr_ms": 0.0016,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.0874
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch128_seqlen08192_compiled",
+      "timingResults": {
+        "mean_ms": 0.0337,
+        "std_ms": 0.0045,
+        "min_ms": 0.0305,
+        "max_ms": 0.065,
+        "q1_ms": 0.0318,
+        "q3_ms": 0.0333,
+        "iqr_ms": 0.0015,
+        "outliers": 23,
+        "iterations": 200,
+        "refMeanMs": 0.0824
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch16_seqlen01024_compiled",
+      "timingResults": {
+        "mean_ms": 0.0323,
+        "std_ms": 0.0045,
+        "min_ms": 0.0286,
+        "max_ms": 0.0621,
+        "q1_ms": 0.0306,
+        "q3_ms": 0.0321,
+        "iqr_ms": 0.0015,
+        "outliers": 24,
+        "iterations": 200,
+        "refMeanMs": 0.0626
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch32_seqlen02048_compiled",
+      "timingResults": {
+        "mean_ms": 0.0324,
+        "std_ms": 0.0046,
+        "min_ms": 0.0286,
+        "max_ms": 0.0688,
+        "q1_ms": 0.0305,
+        "q3_ms": 0.0321,
+        "iqr_ms": 0.0016,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.0633
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch64_seqlen04096_compiled",
+      "timingResults": {
+        "mean_ms": 0.0349,
+        "std_ms": 0.0058,
+        "min_ms": 0.0315,
+        "max_ms": 0.0814,
+        "q1_ms": 0.0325,
+        "q3_ms": 0.0341,
+        "iqr_ms": 0.0016,
+        "outliers": 26,
+        "iterations": 200,
+        "refMeanMs": 0.0869
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch128_seqlen02781_compiled",
+      "timingResults": {
+        "mean_ms": 0.033,
+        "std_ms": 0.0038,
+        "min_ms": 0.0295,
+        "max_ms": 0.0543,
+        "q1_ms": 0.0313,
+        "q3_ms": 0.0333,
+        "iqr_ms": 0.0019,
+        "outliers": 16,
+        "iterations": 200,
+        "refMeanMs": 0.0772
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch128_seqlen08192_compiled",
+      "timingResults": {
+        "mean_ms": 0.0331,
+        "std_ms": 0.0032,
+        "min_ms": 0.0295,
+        "max_ms": 0.0535,
+        "q1_ms": 0.0316,
+        "q3_ms": 0.0331,
+        "iqr_ms": 0.0015,
+        "outliers": 19,
+        "iterations": 200,
+        "refMeanMs": 0.0767
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch16_seqlen01024_compiled",
+      "timingResults": {
+        "mean_ms": 0.033,
+        "std_ms": 0.0032,
+        "min_ms": 0.029,
+        "max_ms": 0.051,
+        "q1_ms": 0.0315,
+        "q3_ms": 0.0332,
+        "iqr_ms": 0.0016,
+        "outliers": 17,
+        "iterations": 200,
+        "refMeanMs": 0.0845
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch32_seqlen02048_compiled",
+      "timingResults": {
+        "mean_ms": 0.0339,
+        "std_ms": 0.006,
+        "min_ms": 0.03,
+        "max_ms": 0.0674,
+        "q1_ms": 0.0314,
+        "q3_ms": 0.0331,
+        "iqr_ms": 0.0017,
+        "outliers": 23,
+        "iterations": 200,
+        "refMeanMs": 0.1052
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch64_seqlen04096_compiled",
+      "timingResults": {
+        "mean_ms": 0.034,
+        "std_ms": 0.004,
+        "min_ms": 0.031,
+        "max_ms": 0.0623,
+        "q1_ms": 0.0323,
+        "q3_ms": 0.0339,
+        "iqr_ms": 0.0016,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.0796
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "ad285d68b8c8c0ff",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "ff35d63fbca37cfcbf5c94f067c930adc2bd0043ce6788f286dbad5a4f9b9d4a"
+}

benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_animation.svg ADDED Viewed

benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_latency.svg ADDED Viewed

benchmark_results/grpo_loss_eager/grpo_loss_eager_dark_throughput.svg ADDED Viewed

benchmark_results/grpo_loss_eager/grpo_loss_eager_light_animation.svg ADDED Viewed

benchmark_results/grpo_loss_eager/grpo_loss_eager_light_latency.svg ADDED Viewed

benchmark_results/grpo_loss_eager/grpo_loss_eager_light_throughput.svg ADDED Viewed

benchmark_results/grpo_loss_eager/results.json ADDED Viewed

	@@ -0,0 +1,174 @@

+{
+  "results": [
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch128_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0313,
+        "std_ms": 0.0029,
+        "min_ms": 0.0281,
+        "max_ms": 0.0482,
+        "q1_ms": 0.03,
+        "q3_ms": 0.0314,
+        "iqr_ms": 0.0013,
+        "outliers": 16,
+        "iterations": 200,
+        "refMeanMs": 0.6643
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch128_seqlen08192_eager",
+      "timingResults": {
+        "mean_ms": 0.0309,
+        "std_ms": 0.0031,
+        "min_ms": 0.0285,
+        "max_ms": 0.0477,
+        "q1_ms": 0.0298,
+        "q3_ms": 0.0306,
+        "iqr_ms": 0.0008,
+        "outliers": 19,
+        "iterations": 200,
+        "refMeanMs": 0.5961
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch16_seqlen01024_eager",
+      "timingResults": {
+        "mean_ms": 0.0315,
+        "std_ms": 0.0033,
+        "min_ms": 0.0293,
+        "max_ms": 0.0507,
+        "q1_ms": 0.0302,
+        "q3_ms": 0.0311,
+        "iqr_ms": 0.0009,
+        "outliers": 23,
+        "iterations": 200,
+        "refMeanMs": 0.6132
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch32_seqlen02048_eager",
+      "timingResults": {
+        "mean_ms": 0.0302,
+        "std_ms": 0.0029,
+        "min_ms": 0.028,
+        "max_ms": 0.0467,
+        "q1_ms": 0.029,
+        "q3_ms": 0.0299,
+        "iqr_ms": 0.0008,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.6043
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_batch64_seqlen04096_eager",
+      "timingResults": {
+        "mean_ms": 0.0295,
+        "std_ms": 0.003,
+        "min_ms": 0.0268,
+        "max_ms": 0.0465,
+        "q1_ms": 0.0279,
+        "q3_ms": 0.03,
+        "iqr_ms": 0.002,
+        "outliers": 12,
+        "iterations": 200,
+        "refMeanMs": 0.5798
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch128_seqlen02781_eager",
+      "timingResults": {
+        "mean_ms": 0.0306,
+        "std_ms": 0.0032,
+        "min_ms": 0.0281,
+        "max_ms": 0.0513,
+        "q1_ms": 0.0293,
+        "q3_ms": 0.0302,
+        "iqr_ms": 0.0009,
+        "outliers": 24,
+        "iterations": 200,
+        "refMeanMs": 0.1716
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch128_seqlen08192_eager",
+      "timingResults": {
+        "mean_ms": 0.0302,
+        "std_ms": 0.0031,
+        "min_ms": 0.0284,
+        "max_ms": 0.0594,
+        "q1_ms": 0.0291,
+        "q3_ms": 0.0299,
+        "iqr_ms": 0.0008,
+        "outliers": 21,
+        "iterations": 200,
+        "refMeanMs": 0.1701
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch16_seqlen01024_eager",
+      "timingResults": {
+        "mean_ms": 0.0306,
+        "std_ms": 0.0027,
+        "min_ms": 0.0286,
+        "max_ms": 0.0455,
+        "q1_ms": 0.0294,
+        "q3_ms": 0.0304,
+        "iqr_ms": 0.001,
+        "outliers": 16,
+        "iterations": 200,
+        "refMeanMs": 0.1741
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch32_seqlen02048_eager",
+      "timingResults": {
+        "mean_ms": 0.0299,
+        "std_ms": 0.0029,
+        "min_ms": 0.0269,
+        "max_ms": 0.0488,
+        "q1_ms": 0.0287,
+        "q3_ms": 0.0301,
+        "iqr_ms": 0.0015,
+        "outliers": 14,
+        "iterations": 200,
+        "refMeanMs": 0.1647
+      },
+      "verified": true
+    },
+    {
+      "workload": "GrpoLossBenchmark.grpo_loss_fwd_batch64_seqlen04096_eager",
+      "timingResults": {
+        "mean_ms": 0.0314,
+        "std_ms": 0.0028,
+        "min_ms": 0.0289,
+        "max_ms": 0.0465,
+        "q1_ms": 0.0301,
+        "q3_ms": 0.0312,
+        "iqr_ms": 0.0011,
+        "outliers": 22,
+        "iterations": 200,
+        "refMeanMs": 0.1751
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "87ec9b61421d0121",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "ff35d63fbca37cfcbf5c94f067c930adc2bd0043ce6788f286dbad5a4f9b9d4a"
+}

benchmark_results/reverse_kl_compiled/results.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+  "results": [
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch01_seqlen064_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.1039,
+        "std_ms": 0.0035,
+        "min_ms": 0.1,
+        "max_ms": 0.1229,
+        "q1_ms": 0.1018,
+        "q3_ms": 0.104,
+        "iqr_ms": 0.0022,
+        "outliers": 28,
+        "iterations": 200,
+        "refMeanMs": 0.2322
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch02_seqlen128_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.2483,
+        "std_ms": 0.0035,
+        "min_ms": 0.2418,
+        "max_ms": 0.2612,
+        "q1_ms": 0.2457,
+        "q3_ms": 0.2513,
+        "iqr_ms": 0.0057,
+        "outliers": 2,
+        "iterations": 200,
+        "refMeanMs": 0.6455
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch04_seqlen256_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.8322,
+        "std_ms": 0.0044,
+        "min_ms": 0.8232,
+        "max_ms": 0.8623,
+        "q1_ms": 0.8303,
+        "q3_ms": 0.8335,
+        "iqr_ms": 0.0032,
+        "outliers": 18,
+        "iterations": 200,
+        "refMeanMs": 2.2082
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen1024_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 6.1083,
+        "std_ms": 0.0054,
+        "min_ms": 6.097,
+        "max_ms": 6.1513,
+        "q1_ms": 6.1054,
+        "q3_ms": 6.11,
+        "iqr_ms": 0.0046,
+        "outliers": 13,
+        "iterations": 200,
+        "refMeanMs": 16.4779
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen512_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 3.0861,
+        "std_ms": 0.0045,
+        "min_ms": 3.0769,
+        "max_ms": 3.1155,
+        "q1_ms": 3.0832,
+        "q3_ms": 3.0883,
+        "iqr_ms": 0.0051,
+        "outliers": 5,
+        "iterations": 200,
+        "refMeanMs": 8.3849
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen981_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 5.8622,
+        "std_ms": 0.0044,
+        "min_ms": 5.8544,
+        "max_ms": 5.8821,
+        "q1_ms": 5.859,
+        "q3_ms": 5.8646,
+        "iqr_ms": 0.0056,
+        "outliers": 6,
+        "iterations": 200,
+        "refMeanMs": 15.8101
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch01_seqlen064_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.0657,
+        "std_ms": 0.0041,
+        "min_ms": 0.0619,
+        "max_ms": 0.093,
+        "q1_ms": 0.0635,
+        "q3_ms": 0.0656,
+        "iqr_ms": 0.0021,
+        "outliers": 24,
+        "iterations": 200,
+        "refMeanMs": 0.1434
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch02_seqlen128_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.1234,
+        "std_ms": 0.0041,
+        "min_ms": 0.1187,
+        "max_ms": 0.1464,
+        "q1_ms": 0.1208,
+        "q3_ms": 0.1244,
+        "iqr_ms": 0.0036,
+        "outliers": 16,
+        "iterations": 200,
+        "refMeanMs": 0.3277
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch04_seqlen256_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 0.3764,
+        "std_ms": 0.0037,
+        "min_ms": 0.3699,
+        "max_ms": 0.3926,
+        "q1_ms": 0.3733,
+        "q3_ms": 0.3787,
+        "iqr_ms": 0.0054,
+        "outliers": 2,
+        "iterations": 200,
+        "refMeanMs": 0.9228
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen1024_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 2.658,
+        "std_ms": 0.0089,
+        "min_ms": 2.6359,
+        "max_ms": 2.6859,
+        "q1_ms": 2.6524,
+        "q3_ms": 2.663,
+        "iqr_ms": 0.0106,
+        "outliers": 4,
+        "iterations": 200,
+        "refMeanMs": 6.6033
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen512_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 1.38,
+        "std_ms": 0.0035,
+        "min_ms": 1.37,
+        "max_ms": 1.3924,
+        "q1_ms": 1.3776,
+        "q3_ms": 1.3818,
+        "iqr_ms": 0.0042,
+        "outliers": 6,
+        "iterations": 200,
+        "refMeanMs": 3.3854
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen981_vocab248320_compiled",
+      "timingResults": {
+        "mean_ms": 2.5422,
+        "std_ms": 0.0091,
+        "min_ms": 2.5286,
+        "max_ms": 2.5773,
+        "q1_ms": 2.5356,
+        "q3_ms": 2.5455,
+        "iqr_ms": 0.0099,
+        "outliers": 9,
+        "iterations": 200,
+        "refMeanMs": 6.2191
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "ca5cbc20b4d2c7d8",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "690eea1f54f31bef1ad248380201005fd667d4b9c535f92f06eb6a5a33380d22"
+}

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_animation.svg ADDED Viewed

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_latency.svg ADDED Viewed

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_dark_throughput.svg ADDED Viewed

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_animation.svg ADDED Viewed

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_latency.svg ADDED Viewed

benchmark_results/reverse_kl_compiled/reverse_kl_compiled_light_throughput.svg ADDED Viewed

benchmark_results/reverse_kl_eager/results.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+  "results": [
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch01_seqlen064_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.1029,
+        "std_ms": 0.0032,
+        "min_ms": 0.0982,
+        "max_ms": 0.1129,
+        "q1_ms": 0.101,
+        "q3_ms": 0.1036,
+        "iqr_ms": 0.0026,
+        "outliers": 27,
+        "iterations": 200,
+        "refMeanMs": 0.5293
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch02_seqlen128_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.248,
+        "std_ms": 0.0037,
+        "min_ms": 0.2417,
+        "max_ms": 0.2592,
+        "q1_ms": 0.2451,
+        "q3_ms": 0.251,
+        "iqr_ms": 0.0058,
+        "outliers": 0,
+        "iterations": 200,
+        "refMeanMs": 1.624
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch04_seqlen256_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.8321,
+        "std_ms": 0.0035,
+        "min_ms": 0.8234,
+        "max_ms": 0.854,
+        "q1_ms": 0.8306,
+        "q3_ms": 0.8335,
+        "iqr_ms": 0.003,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 6.174
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen1024_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 6.1046,
+        "std_ms": 0.0041,
+        "min_ms": 6.0961,
+        "max_ms": 6.1376,
+        "q1_ms": 6.1023,
+        "q3_ms": 6.106,
+        "iqr_ms": 0.0037,
+        "outliers": 9,
+        "iterations": 200,
+        "refMeanMs": 48.4051
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen512_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 3.0816,
+        "std_ms": 0.0035,
+        "min_ms": 3.0743,
+        "max_ms": 3.0939,
+        "q1_ms": 3.0794,
+        "q3_ms": 3.0832,
+        "iqr_ms": 0.0038,
+        "outliers": 8,
+        "iterations": 200,
+        "refMeanMs": 24.3385
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_batch08_seqlen981_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 5.8549,
+        "std_ms": 0.0045,
+        "min_ms": 5.8459,
+        "max_ms": 5.8819,
+        "q1_ms": 5.8524,
+        "q3_ms": 5.8561,
+        "iqr_ms": 0.0037,
+        "outliers": 14,
+        "iterations": 200,
+        "refMeanMs": 46.4274
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch01_seqlen064_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.0638,
+        "std_ms": 0.0027,
+        "min_ms": 0.0604,
+        "max_ms": 0.0787,
+        "q1_ms": 0.0624,
+        "q3_ms": 0.064,
+        "iqr_ms": 0.0016,
+        "outliers": 20,
+        "iterations": 200,
+        "refMeanMs": 0.2532
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch02_seqlen128_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.1217,
+        "std_ms": 0.0038,
+        "min_ms": 0.1166,
+        "max_ms": 0.1428,
+        "q1_ms": 0.1193,
+        "q3_ms": 0.1227,
+        "iqr_ms": 0.0034,
+        "outliers": 19,
+        "iterations": 200,
+        "refMeanMs": 0.7671
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch04_seqlen256_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 0.3753,
+        "std_ms": 0.0033,
+        "min_ms": 0.3695,
+        "max_ms": 0.3843,
+        "q1_ms": 0.3726,
+        "q3_ms": 0.3779,
+        "iqr_ms": 0.0053,
+        "outliers": 0,
+        "iterations": 200,
+        "refMeanMs": 2.869
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen1024_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 2.6484,
+        "std_ms": 0.0065,
+        "min_ms": 2.6364,
+        "max_ms": 2.7044,
+        "q1_ms": 2.6449,
+        "q3_ms": 2.6515,
+        "iqr_ms": 0.0067,
+        "outliers": 3,
+        "iterations": 200,
+        "refMeanMs": 22.3336
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen512_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 1.365,
+        "std_ms": 0.0046,
+        "min_ms": 1.3548,
+        "max_ms": 1.3865,
+        "q1_ms": 1.3618,
+        "q3_ms": 1.3675,
+        "iqr_ms": 0.0057,
+        "outliers": 4,
+        "iterations": 200,
+        "refMeanMs": 11.2401
+      },
+      "verified": true
+    },
+    {
+      "workload": "ReverseKLBenchmark.reverse_kl_fwd_batch08_seqlen981_vocab248320_eager",
+      "timingResults": {
+        "mean_ms": 2.5316,
+        "std_ms": 0.0059,
+        "min_ms": 2.5203,
+        "max_ms": 2.5523,
+        "q1_ms": 2.5272,
+        "q3_ms": 2.5355,
+        "iqr_ms": 0.0083,
+        "outliers": 3,
+        "iterations": 200,
+        "refMeanMs": 21.4099
+      },
+      "verified": true
+    }
+  ],
+  "machineInfo": {
+    "gpu": "NVIDIA H100 80GB HBM3",
+    "backend": "CUDA 13.0",
+    "pytorchVersion": "2.11.0+cu130",
+    "os": "Linux 6.11.0-1016-nvidia",
+    "cpu": "x86_64"
+  },
+  "kernelCommitSha": "3e023eb5121761b8",
+  "benchmarkScriptPath": "benchmarks",
+  "benchmarkScriptSha": "690eea1f54f31bef1ad248380201005fd667d4b9c535f92f06eb6a5a33380d22"
+}

benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_animation.svg ADDED Viewed

benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_latency.svg ADDED Viewed

benchmark_results/reverse_kl_eager/reverse_kl_eager_dark_throughput.svg ADDED Viewed

benchmark_results/reverse_kl_eager/reverse_kl_eager_light_animation.svg ADDED Viewed

benchmark_results/reverse_kl_eager/reverse_kl_eager_light_latency.svg ADDED Viewed

benchmark_results/reverse_kl_eager/reverse_kl_eager_light_throughput.svg ADDED Viewed