harshithsaiv
/

kv-cache-compression

+"""
+Full benchmark suite comparing:
+1. FP16 baseline
+2. Uniform 8-bit quantization
+3. Our mixed per-head quantization
+Across: memory, speed, perplexity
+"""
+import torch
+import json
+import os
+import sys
+import time
+import math
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from datasets import load_dataset
+sys.path.append(os.path.expanduser("~/kv-hack"))
+from kernel.quant_cache import MixedPrecisionKVCache
+# ── config ──────────────────────────────────────────
+MODEL_NAME = sys.argv[1] if len(sys.argv) > 1 else "mistral-7b"
+MODEL_PATHS = {
+    "mistral-7b": "~/kv-hack/mistral-model",
+    "llama-3-8b": "~/kv-hack/llama-model",
+}
+model_path  = os.path.expanduser(MODEL_PATHS[MODEL_NAME])
+results_dir = os.path.expanduser(f"~/kv-hack/results/{MODEL_NAME}")
+# load bit allocation
+with open(f"{results_dir}/bit_allocation.json") as f:
+    bit_alloc_raw = json.load(f)
+bit_alloc = {
+    int(l): [bit_alloc_raw[l][str(h)]
+             for h in range(len(bit_alloc_raw[l]))]
+    for l in bit_alloc_raw
+}
+num_layers = len(bit_alloc)
+avg_bits   = sum(b for l in bit_alloc.values() for b in l) / \
+             sum(len(l) for l in bit_alloc.values())
+print(f"Benchmarking: {MODEL_NAME}")
+print(f"Avg bits: {avg_bits:.2f}")
+# ── load model ──────────────────────────────────────
+print("Loading model...")
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+model     = AutoModelForCausalLM.from_pretrained(
+    model_path, dtype=torch.float16, device_map="cuda"
+)
+model.eval()
+print(f"Model loaded: {torch.cuda.memory_allocated()/1e9:.2f} GB")
+# ── helper: compute KV compression at given context ──
+def measure_kv_compression(context_len: int):
+    input_ids = torch.randint(1, 1000, (1, context_len)).cuda()
+    with torch.no_grad():
+        out = model(input_ids, use_cache=True)
+        kv  = out.past_key_values
+    fp16_bytes       = 0
+    compressed_bytes = 0
+    uniform8_bytes   = 0
+    for layer_idx in range(num_layers):
+        k = kv.layers[layer_idx].keys
+        v = kv.layers[layer_idx].values
+        # FP16 baseline
+        fp16_bytes += k.numel() * 2 + v.numel() * 2
+        # uniform 8-bit
+        uniform8_bytes += k.numel() + v.numel()  # 1 byte per element
+        # our mixed precision
+        cache = MixedPrecisionKVCache(bit_alloc[layer_idx])
+        cache.store(k, v)
+        compressed_bytes += cache.memory_bytes()
+    return {
+        "context_len":       context_len,
+        "fp16_mb":           round(fp16_bytes / 1e6, 2),
+        "uniform8_mb":       round(uniform8_bytes / 1e6, 2),
+        "mixed_precision_mb": round(compressed_bytes / 1e6, 2),
+        "compression_vs_fp16": round(fp16_bytes / compressed_bytes, 2),
+        "compression_vs_8bit": round(uniform8_bytes / compressed_bytes, 2),
+    }
+# ── helper: measure perplexity ───────────────────────
+def measure_perplexity(num_samples: int = 50):
+    print(f"  Computing perplexity on {num_samples} WikiText samples...")
+    dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")
+    texts   = [t for t in dataset["text"] if len(t.strip()) > 100][:num_samples]
+    total_loss = 0
+    total_tokens = 0
+    for text in texts:
+        inputs = tokenizer(
+            text, return_tensors="pt",
+            max_length=512, truncation=True
+        ).to("cuda")
+        if inputs["input_ids"].shape[1] < 10:
+            continue
+        with torch.no_grad():
+            out  = model(**inputs, labels=inputs["input_ids"])
+            loss = out.loss.item()
+        n = inputs["input_ids"].shape[1]
+        total_loss   += loss * n
+        total_tokens += n
+    ppl = math.exp(total_loss / total_tokens)
+    return round(ppl, 2)
+# ── helper: measure decode speed ─────────────────────
+def measure_speed(context_len: int = 512, n_tokens: int = 100):
+    input_ids = torch.randint(1, 1000, (1, context_len)).cuda()
+    # warmup
+    with torch.no_grad():
+        _ = model.generate(
+            input_ids, max_new_tokens=10,
+            do_sample=False,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    torch.cuda.synchronize()
+    t0 = time.time()
+    with torch.no_grad():
+        _ = model.generate(
+            input_ids, max_new_tokens=n_tokens,
+            do_sample=False,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    torch.cuda.synchronize()
+    elapsed = time.time() - t0
+    return round(n_tokens / elapsed, 1)
+# ── helper: peak memory at context ───────────────────
+def measure_peak_memory(context_len: int):
+    torch.cuda.reset_peak_memory_stats()
+    input_ids = torch.randint(1, 1000, (1, context_len)).cuda()
+    with torch.no_grad():
+        _ = model(input_ids, use_cache=True)
+    torch.cuda.synchronize()
+    return round(torch.cuda.max_memory_allocated() / 1e9, 2)
+# ── RUN ALL BENCHMARKS ───────────────────────────────
+print("\n" + "="*60)
+print("1. KV CACHE COMPRESSION AT DIFFERENT CONTEXT LENGTHS")
+print("="*60)
+compression_results = []
+for ctx in [512, 1024, 2048, 4096, 8192]:
+    print(f"  Context {ctx}...", end=" ", flush=True)
+    r = measure_kv_compression(ctx)
+    compression_results.append(r)
+    print(f"FP16={r['fp16_mb']}MB  "
+          f"Uniform8={r['uniform8_mb']}MB  "
+          f"Ours={r['mixed_precision_mb']}MB  "
+          f"({r['compression_vs_fp16']}x vs FP16)")
+print("\n" + "="*60)
+print("2. PEAK GPU MEMORY AT DIFFERENT CONTEXT LENGTHS")
+print("="*60)
+memory_results = []
+for ctx in [1024, 4096, 8192]:
+    print(f"  Context {ctx}...", end=" ", flush=True)
+    mem = measure_peak_memory(ctx)
+    memory_results.append({"context": ctx, "peak_memory_gb": mem})
+    print(f"{mem} GB")
+print("\n" + "="*60)
+print("3. DECODE SPEED")
+print("="*60)
+print("  Measuring tokens/sec...", end=" ", flush=True)
+speed = measure_speed()
+print(f"{speed} tokens/sec")
+print("\n" + "="*60)
+print("4. PERPLEXITY (quality check)")
+print("="*60)
+perplexity = measure_perplexity(num_samples=50)
+print(f"  Perplexity: {perplexity}")
+# ── SAVE ALL RESULTS ─────────────────────────────────
+benchmark_results = {
+    "model":              MODEL_NAME,
+    "avg_bits":           round(avg_bits, 2),
+    "compression":        compression_results,
+    "memory":             memory_results,
+    "decode_tokens_per_sec": speed,
+    "perplexity":         perplexity,
+    "summary": {
+        "fp16_8k_mb":     next(r["fp16_mb"] for r in compression_results if r["context_len"] == 8192),
+        "ours_8k_mb":     next(r["mixed_precision_mb"] for r in compression_results if r["context_len"] == 8192),
+        "compression_8k": next(r["compression_vs_fp16"] for r in compression_results if r["context_len"] == 8192),
+    }
+}
+out_path = f"{results_dir}/benchmark_results.json"
+with open(out_path, "w") as f:
+    json.dump(benchmark_results, f, indent=2)
+print("\n" + "="*60)
+print("SUMMARY")
+print("="*60)
+print(f"Model:          {MODEL_NAME}")
+print(f"Avg bits:       {avg_bits:.2f}")
+print(f"Perplexity:     {perplexity}")
+print(f"Speed:          {speed} tokens/sec")
+print(f"KV @ 8K ctx:    {benchmark_results['summary']['fp16_8k_mb']}MB → {benchmark_results['summary']['ours_8k_mb']}MB ({benchmark_results['summary']['compression_8k']}x)")
+print(f"\n✅ Saved to {out_path}")