open GPU pool + drop tee + warmup pass in init

- chute_config: exclude broad pool instead of include:pro_6000, remove tee:true (lower compute_multiplier, wider scheduler pool)
- miner.py: dummy inference in Miner.__init__ to warm CUDA kernels before first /predict

Files changed (2) hide show

chute_config.yml +6 -3
miner.py +8 -0

chute_config.yml CHANGED Viewed

@@ -9,11 +9,14 @@ NodeSelector:
   gpu_count: 1
   min_vram_gb_per_gpu: 16
   max_hourly_price_per_gpu: 2
-  include:
-    - pro_6000
 Chute:
-  tee: true
   timeout_seconds: 900
   shutdown_after_seconds: 86400
   concurrency: 4

   gpu_count: 1
   min_vram_gb_per_gpu: 16
   max_hourly_price_per_gpu: 2
+  exclude:
+    - "5090"
+    - b200
+    - h200
+    - h20
+    - mi300x
 Chute:
   timeout_seconds: 900
   shutdown_after_seconds: 86400
   concurrency: 4

miner.py CHANGED Viewed

@@ -62,6 +62,14 @@ class Miner:
         active = self.sess.get_providers()[0]
         print(f"✅ ONNX beverage model loaded (provider={active})")
     def __repr__(self) -> str:
         return f"BeverageONNX(in={self.input_size}, cls={self.num_classes})"

         active = self.sess.get_providers()[0]
         print(f"✅ ONNX beverage model loaded (provider={active})")
+        # Warm CUDA kernels / ORT graph so the very first /predict isn't slow.
+        warm = np.zeros((64, 64, 3), dtype=np.uint8)
+        try:
+            self._infer(warm)
+            print("✅ ONNX warmup pass done")
+        except Exception as e:
+            print(f"⚠️ ONNX warmup pass failed: {e}")
     def __repr__(self) -> str:
         return f"BeverageONNX(in={self.input_size}, cls={self.num_classes})"

open GPU pool + drop tee + warmup pass in __init__

open GPU pool + drop tee + warmup pass in init