Spaces:

BoostedJonP
/

powell-assistant

Sleeping

BoostedJonP commited on Oct 8, 2025

Commit

185a134

1 Parent(s): 30494ce

revert quantization removal breaking tensor shape

Files changed (1) hide show

app.py CHANGED Viewed

@@ -44,24 +44,16 @@ def load_model():
             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
-            if hasattr(config, "quantization_config"):
-                logger.info("Removing quantization configuration for CPU execution")
-                try:
-                    delattr(config, "quantization_config")
-                except AttributeError:
-                    config.quantization_config = None
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_NAME,
                 config=config,
                 trust_remote_code=True,
-                torch_dtype=torch.float32,
                 attn_implementation="eager",
                 cache_dir="/tmp/model_cache",
-                low_cpu_mem_usage=True,
-                quantization_config=None,
             )
             # Move model to CPU manually
-            model = model.to("cpu")
         logger.info("Model loaded successfully!")
         logger.info(f"Model device: {next(model.parameters()).device}")

             )
         else:
             logger.info("CUDA not available, loading with CPU optimizations")
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_NAME,
                 config=config,
                 trust_remote_code=True,
+                torch_dtype=torch.float16,
                 attn_implementation="eager",
                 cache_dir="/tmp/model_cache",
             )
             # Move model to CPU manually
+            model = model.to(device="cpu", dtype=torch.float32)
         logger.info("Model loaded successfully!")
         logger.info(f"Model device: {next(model.parameters()).device}")