Spaces:

BoostedJonP
/

powell-assistant

Sleeping

BoostedJonP commited on Sep 8, 2025

Commit

5119833

1 Parent(s): 8b45180

additional cpu fallback

Files changed (2) hide show

app.py CHANGED Viewed

@@ -40,16 +40,32 @@ def load_model():
             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
-            model = AutoModelForCausalLM.from_pretrained(
-                MODEL_NAME,
-                trust_remote_code=True,
-                torch_dtype=torch.float32,  # Use float32 for CPU
-                device_map="cpu",  # Explicitly set to CPU
-                attn_implementation="eager",
-                use_cache=True,
-                cache_dir="/tmp/model_cache",
-                low_cpu_mem_usage=True,  # Helpful for CPU environments
-            )
         logger.info("Model loaded successfully!")
     except Exception as e:

             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
+            try:
+                model = AutoModelForCausalLM.from_pretrained(
+                    MODEL_NAME,
+                    trust_remote_code=True,
+                    torch_dtype=torch.float32,  # Use float32 for CPU
+                    device_map="cpu",  # Explicitly set to CPU
+                    attn_implementation="eager",
+                    use_cache=True,
+                    cache_dir="/tmp/model_cache",
+                    low_cpu_mem_usage=True,  # Helpful for CPU environments
+                )
+            except Exception as cpu_error:
+                logger.warning(f"CPU loading failed with device_map: {cpu_error}")
+                # Fallback: try without device_map
+                logger.info("Trying fallback CPU loading without device_map")
+                model = AutoModelForCausalLM.from_pretrained(
+                    MODEL_NAME,
+                    trust_remote_code=True,
+                    torch_dtype=torch.float32,
+                    attn_implementation="eager",
+                    use_cache=True,
+                    cache_dir="/tmp/model_cache",
+                    low_cpu_mem_usage=True,
+                )
+                # Move model to CPU manually
+                model = model.to("cpu")
         logger.info("Model loaded successfully!")
     except Exception as e:

requirements.txt CHANGED Viewed

@@ -1,6 +1,5 @@
 torch>=2.0.0,<2.3.0
 transformers==4.48.0
 accelerate>=0.20.0
-bitsandbytes>=0.41.0
 gradio>=4.0.0,<5.0.0
 safetensors>=0.4.0

 torch>=2.0.0,<2.3.0
 transformers==4.48.0
 accelerate>=0.20.0
 gradio>=4.0.0,<5.0.0
 safetensors>=0.4.0