harshithsaiv
/

kv-cache-compression

+{
+  "model": "llama-3-8b",
+  "results": [
+    {
+      "context_len": 512,
+      "peak_memory_gb": 16.27,
+      "fp16_mb": 67.11,
+      "uniform8_mb": 33.55,
+      "mixed_precision_mb": 32.9,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 50.3
+    },
+    {
+      "context_len": 1024,
+      "peak_memory_gb": 16.47,
+      "fp16_mb": 134.22,
+      "uniform8_mb": 67.11,
+      "mixed_precision_mb": 65.8,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 89.1
+    },
+    {
+      "context_len": 2048,
+      "peak_memory_gb": 16.88,
+      "fp16_mb": 268.44,
+      "uniform8_mb": 134.22,
+      "mixed_precision_mb": 131.6,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 172.4
+    },
+    {
+      "context_len": 4096,
+      "peak_memory_gb": 17.69,
+      "fp16_mb": 536.87,
+      "uniform8_mb": 268.44,
+      "mixed_precision_mb": 263.2,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 349.8
+    },
+    {
+      "context_len": 8192,
+      "peak_memory_gb": 19.31,
+      "fp16_mb": 1073.74,
+      "uniform8_mb": 536.87,
+      "mixed_precision_mb": 526.39,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 735.4
+    },
+    {
+      "context_len": 16384,
+      "peak_memory_gb": 22.55,
+      "fp16_mb": 2147.48,
+      "uniform8_mb": 1073.74,
+      "mixed_precision_mb": 1052.77,
+      "compression_vs_fp16": 2.04,
+      "compression_vs_8bit": 1.02,
+      "prefill_ms": 1628.0
+    },
+    {
+      "context_len": 32768,
+      "peak_memory_gb": "OOM",
+      "fp16_mb": 4294.967296,
+      "note": "FP16 OOM, compressed might fit"
+    }
+  ]
+}