Spaces:

mclemcrew
/

CoMix-Demo

Sleeping

App Files Files Community

mclemcrew commited on Mar 25, 2025

Commit

567c1ca

1 Parent(s): 0c81883

try again

Browse files

Files changed (1) hide show

app.py +12 -24

app.py CHANGED Viewed

@@ -51,34 +51,22 @@ def load_model():
         processor = AutoProcessor.from_pretrained(MODEL_ID)
         logger.info("Processor loaded successfully")
-        # Check if Accelerate is available
-        try:
-            import accelerate
-            logger.info(f"Accelerate version: {accelerate.__version__}")
-            has_accelerate = True
-        except ImportError:
-            logger.warning("Accelerate not found. Will load model without device mapping.")
-            has_accelerate = False
-        # Check if GPU is available
         if torch.cuda.is_available():
             gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3
             logger.info(f"GPU memory: {gpu_memory:.2f} GB")
-            if has_accelerate:
-                # With Accelerate, use device mapping
-                logger.info("Loading model with FP16 precision on GPU")
-                model = Qwen2AudioForConditionalGeneration.from_pretrained(
-                    MODEL_ID,
-                    torch_dtype=torch.float16,
-                    device_map="auto",
-                    low_cpu_mem_usage=True
-                )
-            else:
-                # Without Accelerate, load directly to GPU
-                logger.info("Loading model directly to GPU")
-                model = Qwen2AudioForConditionalGeneration.from_pretrained(MODEL_ID)
-                model = model.to("cuda").half()  # Move to GPU and convert to FP16
         else:
             # Load on CPU if no GPU
             logger.info("Loading model on CPU")
@@ -90,7 +78,7 @@ def load_model():
     except Exception as e:
         logger.error(f"Error loading model or processor: {e}")
         raise
 def process_audio(audio_url):
     """Process audio from URL"""
     logger.info(f"Processing audio: {audio_url}")

         processor = AutoProcessor.from_pretrained(MODEL_ID)
         logger.info("Processor loaded successfully")
+        # Force disable bitsandbytes integration
+        os.environ["DISABLE_BITSANDBYTES_CUDA_SETUP"] = "TRUE"
         if torch.cuda.is_available():
             gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3
             logger.info(f"GPU memory: {gpu_memory:.2f} GB")
+            # Load directly with FP16 but without 8-bit quantization
+            logger.info("Loading model with FP16 precision")
+            model = Qwen2AudioForConditionalGeneration.from_pretrained(
+                MODEL_ID,
+                torch_dtype=torch.float16,
+                device_map="auto",
+                quantization_config=None,  # Explicitly disable quantization
+                low_cpu_mem_usage=True
+            )
         else:
             # Load on CPU if no GPU
             logger.info("Loading model on CPU")
     except Exception as e:
         logger.error(f"Error loading model or processor: {e}")
         raise
 def process_audio(audio_url):
     """Process audio from URL"""
     logger.info(f"Processing audio: {audio_url}")