Spaces:

ButterM40
/

Roleplay-Chat-Box

Running

App Files Files Community

ButterM40 commited on Nov 20

Commit

a94158b

1 Parent(s): bf6aead

Fix syntax error: add missing except clause and fix indentation

Browse files

Files changed (1) hide show

backend/models/character_manager.py +30 -27

backend/models/character_manager.py CHANGED Viewed

@@ -75,34 +75,37 @@ class CharacterManager:
                     use_fast=True,
                     cache_dir=None
                 )
-            # Smart GPU/CPU loading
-            cuda_available = torch.cuda.is_available()
-            use_gpu = settings.DEVICE == "cuda" and cuda_available
-            if use_gpu:
-                gpu_name = torch.cuda.get_device_name(0)
-                gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3
-                logger.info(f"🚀 Loading with GPU: {gpu_name} ({gpu_memory:.1f}GB VRAM)")
-                self.base_model = AutoModelForCausalLM.from_pretrained(
-                    settings.BASE_MODEL,
-                    torch_dtype=torch.float16,  # Use FP16 for GPU
-                    device_map="auto",
-                    trust_remote_code=True,
-                    low_cpu_mem_usage=True,
-                    use_cache=True,
-                    load_in_8bit=False,  # Can enable for very large models
-                    load_in_4bit=False   # Can enable for even larger models
-                )
-            else:
-                logger.info("💻 Loading with CPU (CUDA not available or disabled)...")
-                self.base_model = AutoModelForCausalLM.from_pretrained(
-                    settings.BASE_MODEL,
-                    torch_dtype=torch.float32,
-                    trust_remote_code=True,
-                    use_cache=True
-                )
         except Exception as e:
             logger.error(f"Failed to load base model {settings.BASE_MODEL}: {e}")
             logger.info("Trying alternative Qwen models...")

                     use_fast=True,
                     cache_dir=None
                 )
+                # Smart GPU/CPU loading
+                cuda_available = torch.cuda.is_available()
+                use_gpu = settings.DEVICE == "cuda" and cuda_available
+                if use_gpu:
+                    gpu_name = torch.cuda.get_device_name(0)
+                    gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3
+                    logger.info(f"🚀 Loading with GPU: {gpu_name} ({gpu_memory:.1f}GB VRAM)")
+                    self.base_model = AutoModelForCausalLM.from_pretrained(
+                        settings.BASE_MODEL,
+                        torch_dtype=torch.float16,  # Use FP16 for GPU
+                        device_map="auto",
+                        trust_remote_code=True,
+                        low_cpu_mem_usage=True,
+                        use_cache=True,
+                        load_in_8bit=False,  # Can enable for very large models
+                        load_in_4bit=False   # Can enable for even larger models
+                    )
+                else:
+                    logger.info("💻 Loading with CPU (CUDA not available or disabled)...")
+                    self.base_model = AutoModelForCausalLM.from_pretrained(
+                        settings.BASE_MODEL,
+                        torch_dtype=torch.float32,
+                        trust_remote_code=True,
+                        use_cache=True
+                    )
+            except Exception as inner_e:
+                logger.error(f"Failed to load fallback model in inner try: {inner_e}")
+                raise inner_e
         except Exception as e:
             logger.error(f"Failed to load base model {settings.BASE_MODEL}: {e}")
             logger.info("Trying alternative Qwen models...")