Spaces:

visualisable-ai
/

api

Paused

gary-boon Claude Opus 4.5 commited on Dec 14, 2025

Commit

5f122aa

1 Parent(s): a2875a2

Add DEVICE env var to force CPU mode on DGX Spark

GB10 GPU (sm_121 compute capability) is not yet supported by
PyTorch/NGC containers. This adds a DEVICE environment variable
override to force CPU mode until GPU support is available.

- Add os import to model_service.py
- Check DEVICE env var before auto-detecting device
- Support DEVICE=cpu or DEVICE=cuda to override detection
- Default .env.spark.example to DEVICE=cpu for Spark

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (2) hide show

.env.spark.example +4 -0
backend/model_service.py +12 -3

.env.spark.example CHANGED Viewed

@@ -19,3 +19,7 @@ MAX_CONTEXT=8192
 BATCH_SIZE=1
 TORCH_DTYPE=fp16
 # TORCH_DTYPE=bf16               # Use bf16 for Devstral (Phase 3)

 BATCH_SIZE=1
 TORCH_DTYPE=fp16
 # TORCH_DTYPE=bf16               # Use bf16 for Devstral (Phase 3)
+# Device Override (set to 'cpu' if GPU not supported yet)
+# DEVICE=cuda                    # Default: auto-detect
+DEVICE=cpu                       # Force CPU until GB10 GPU support available

backend/model_service.py CHANGED Viewed

@@ -8,6 +8,7 @@ from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 import asyncio
 import json
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from typing import Optional, List, Dict, Any
@@ -119,8 +120,16 @@ class ModelManager:
     async def initialize(self):
         """Load model on startup"""
         try:
-            # Detect device
-            if torch.cuda.is_available():
                 self.device = torch.device("cuda")
                 device_name = "CUDA GPU"
             elif torch.backends.mps.is_available():
@@ -129,7 +138,7 @@ class ModelManager:
             else:
                 self.device = torch.device("cpu")
                 device_name = "CPU"
             logger.info(f"Loading model on {device_name}...")
             # Load model

 from pydantic import BaseModel
 import asyncio
 import json
+import os
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from typing import Optional, List, Dict, Any
     async def initialize(self):
         """Load model on startup"""
         try:
+            # Check for device override from environment
+            device_override = os.environ.get("DEVICE", "").lower()
+            if device_override == "cpu":
+                self.device = torch.device("cpu")
+                device_name = "CPU (forced via DEVICE env var)"
+            elif device_override == "cuda":
+                self.device = torch.device("cuda")
+                device_name = "CUDA GPU (forced via DEVICE env var)"
+            elif torch.cuda.is_available():
                 self.device = torch.device("cuda")
                 device_name = "CUDA GPU"
             elif torch.backends.mps.is_available():
             else:
                 self.device = torch.device("cpu")
                 device_name = "CPU"
             logger.info(f"Loading model on {device_name}...")
             # Load model