Spaces:

BoostedJonP
/

powell-assistant

Sleeping

App Files Files Community

BoostedJonP commited on Sep 8, 2025

Commit

476d1eb

1 Parent(s): 5119833

fixed cpu loading issue

Browse files

Files changed (2) hide show

app.py +15 -26
requirements.txt +2 -2

app.py CHANGED Viewed

@@ -40,36 +40,25 @@ def load_model():
             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
-            try:
-                model = AutoModelForCausalLM.from_pretrained(
-                    MODEL_NAME,
-                    trust_remote_code=True,
-                    torch_dtype=torch.float32,  # Use float32 for CPU
-                    device_map="cpu",  # Explicitly set to CPU
-                    attn_implementation="eager",
-                    use_cache=True,
-                    cache_dir="/tmp/model_cache",
-                    low_cpu_mem_usage=True,  # Helpful for CPU environments
-                )
-            except Exception as cpu_error:
-                logger.warning(f"CPU loading failed with device_map: {cpu_error}")
-                # Fallback: try without device_map
-                logger.info("Trying fallback CPU loading without device_map")
-                model = AutoModelForCausalLM.from_pretrained(
-                    MODEL_NAME,
-                    trust_remote_code=True,
-                    torch_dtype=torch.float32,
-                    attn_implementation="eager",
-                    use_cache=True,
-                    cache_dir="/tmp/model_cache",
-                    low_cpu_mem_usage=True,
-                )
-                # Move model to CPU manually
-                model = model.to("cpu")
         logger.info("Model loaded successfully!")
     except Exception as e:
         logger.error(f"Error loading model: {e}")
         return None, None
     model.generation_config.use_cache = True

             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
+            model = AutoModelForCausalLM.from_pretrained(
+                MODEL_NAME,
+                trust_remote_code=True,
+                torch_dtype=torch.float32,
+                attn_implementation="eager",
+                use_cache=True,
+                cache_dir="/tmp/model_cache",
+                low_cpu_mem_usage=True,
+            )
+            # Move model to CPU manually
+            model = model.to("cpu")
         logger.info("Model loaded successfully!")
+        logger.info(f"Model device: {next(model.parameters()).device}")
+        logger.info(f"Model dtype: {next(model.parameters()).dtype}")
     except Exception as e:
         logger.error(f"Error loading model: {e}")
+        logger.error(f"Error type: {type(e).__name__}")
         return None, None
     model.generation_config.use_cache = True

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
-torch>=2.0.0,<2.3.0
 transformers==4.48.0
 accelerate>=0.20.0
 gradio>=4.0.0,<5.0.0
-safetensors>=0.4.0

+torch>=2.0.0
 transformers==4.48.0
 accelerate>=0.20.0
 gradio>=4.0.0,<5.0.0
+safetensors>=0.4.0