feat: auto-save integration results to JSON

Browse files

Files changed (3) hide show

integrate.py +41 -0
results/llama-3-8b/integrate_results.json +32 -0
results/mistral-7b/integrate_results.json +32 -0

integrate.py CHANGED Viewed

@@ -119,3 +119,44 @@ for prompt in prompts:
     print(f"Output: {result['text'][len(prompt):len(prompt)+150]}")
 print("\n✅ Quantized inference working!")

     print(f"Output: {result['text'][len(prompt):len(prompt)+150]}")
 print("\n✅ Quantized inference working!")
+# ── save results ─────────────────────────────────────
+import json
+from datetime import datetime
+all_results = {
+    "model": MODEL_NAME,
+    "timestamp": datetime.now().isoformat(),
+    "avg_bits": avg_bits,
+    "theoretical_compression": round(16 / avg_bits, 2),
+    "prompts": []
+}
+print("\n" + "="*60)
+print("QUANTIZED INFERENCE TEST")
+print("="*60)
+for prompt in prompts:
+    print(f"\nPrompt: {prompt[:50]}...")
+    result = run_quantized_generation(prompt, max_new_tokens=50)
+    print(f"Peak memory:   {result['peak_memory_gb']:.2f} GB")
+    print(f"KV cache:      {result['fp16_kb']:.0f} KB → {result['compressed_kb']:.0f} KB")
+    print(f"Compression:   {result['compression_ratio']:.2f}x")
+    print(f"Speed:         {result['tokens_per_sec']:.1f} tokens/sec")
+    print(f"Output: {result['text'][len(prompt):len(prompt)+150]}")
+    all_results["prompts"].append({
+        "prompt": prompt,
+        "compression_ratio": result["compression_ratio"],
+        "peak_memory_gb": result["peak_memory_gb"],
+        "tokens_per_sec": result["tokens_per_sec"],
+        "fp16_kb": result["fp16_kb"],
+        "compressed_kb": result["compressed_kb"],
+    })
+# save
+out_path = f"{results_dir}/integrate_results.json"
+with open(out_path, "w") as f:
+    json.dump(all_results, f, indent=2)
+print(f"\n✅ Results saved to {out_path}")

results/llama-3-8b/integrate_results.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "model": "llama-3-8b",
+  "timestamp": "2026-05-03T01:43:03.151972",
+  "avg_bits": 7.84375,
+  "theoretical_compression": 2.04,
+  "prompts": [
+    {
+      "prompt": "The history of artificial intelligence began",
+      "compression_ratio": 2.02,
+      "peak_memory_gb": 16.078,
+      "tokens_per_sec": 37.0,
+      "fp16_kb": 896.0,
+      "compressed_kb": 443.2
+    },
+    {
+      "prompt": "Explain how transformers work in deep learning:",
+      "compression_ratio": 2.03,
+      "peak_memory_gb": 16.078,
+      "tokens_per_sec": 37.0,
+      "fp16_kb": 1280.0,
+      "compressed_kb": 631.5
+    },
+    {
+      "prompt": "Write a Python function to sort a list:",
+      "compression_ratio": 2.03,
+      "peak_memory_gb": 16.078,
+      "tokens_per_sec": 36.6,
+      "fp16_kb": 1280.0,
+      "compressed_kb": 631.5
+    }
+  ]
+}

results/mistral-7b/integrate_results.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "model": "mistral-7b",
+  "timestamp": "2026-05-03T01:42:28.883064",
+  "avg_bits": 6.953125,
+  "theoretical_compression": 2.3,
+  "prompts": [
+    {
+      "prompt": "The history of artificial intelligence began",
+      "compression_ratio": 2.28,
+      "peak_memory_gb": 14.512,
+      "tokens_per_sec": 37.5,
+      "fp16_kb": 896.0,
+      "compressed_kb": 393.4
+    },
+    {
+      "prompt": "Explain how transformers work in deep learning:",
+      "compression_ratio": 2.29,
+      "peak_memory_gb": 14.513,
+      "tokens_per_sec": 37.4,
+      "fp16_kb": 1408.0,
+      "compressed_kb": 615.9
+    },
+    {
+      "prompt": "Write a Python function to sort a list:",
+      "compression_ratio": 2.28,
+      "peak_memory_gb": 14.513,
+      "tokens_per_sec": 37.7,
+      "fp16_kb": 1280.0,
+      "compressed_kb": 560.2
+    }
+  ]
+}