Spaces:

developer-lunark
/

kaidol-thinking-experiment

Sleeping

App Files Files Community

developer-lunark commited on Jan 20

Commit

f383abd

verified ·

1 Parent(s): a29ae54

Add error info to mock response for debugging

Browse files

Files changed (1) hide show

app.py +21 -4

app.py CHANGED Viewed

@@ -163,10 +163,12 @@ class ModelManager:
         self.current_model = None
         self.current_model_name = None
         self.tokenizer = None
     def load_model(self, model_name: str):
         """Load model with 4-bit quantization and LoRA adapter"""
         if not GPU_AVAILABLE:
             return False
         if self.current_model_name == model_name:
@@ -177,10 +179,13 @@ class ModelManager:
         model_info = MODELS.get(model_name)
         if not model_info:
             return False
         try:
             print(f"Loading {model_name}...")
             # 4-bit quantization config
             bnb_config = BitsAndBytesConfig(
@@ -191,35 +196,46 @@ class ModelManager:
             )
             # Load base model
             base_model = AutoModelForCausalLM.from_pretrained(
                 model_info["base_model"],
                 quantization_config=bnb_config,
                 device_map="auto",
                 trust_remote_code=True,
             )
             # Load LoRA adapter
             self.current_model = PeftModel.from_pretrained(
                 base_model,
                 model_info["hf_repo"],
                 trust_remote_code=True,
             )
             self.current_model.eval()
             # Load tokenizer
             self.tokenizer = AutoTokenizer.from_pretrained(
                 model_info["base_model"],
                 trust_remote_code=True,
             )
             if self.tokenizer.pad_token is None:
                 self.tokenizer.pad_token = self.tokenizer.eos_token
             self.current_model_name = model_name
-            print(f"Loaded {model_name} successfully")
             return True
         except Exception as e:
-            print(f"Error loading {model_name}: {e}")
             self.unload_model()
             return False
@@ -269,8 +285,9 @@ class ModelManager:
             return self._mock_response(model_name)
     def _mock_response(self, model_name: str) -> str:
-        """Fallback mock response"""
-        return f"<think>\n모델 {model_name}이 응답을 생성 중...\n</think>\n\n안녕~ 반가워!"
 # Global model manager
 model_manager = ModelManager()

         self.current_model = None
         self.current_model_name = None
         self.tokenizer = None
+        self.last_error = None
     def load_model(self, model_name: str):
         """Load model with 4-bit quantization and LoRA adapter"""
         if not GPU_AVAILABLE:
+            self.last_error = "GPU not available"
             return False
         if self.current_model_name == model_name:
         model_info = MODELS.get(model_name)
         if not model_info:
+            self.last_error = f"Model {model_name} not found in registry"
             return False
         try:
             print(f"Loading {model_name}...")
+            print(f"  Base model: {model_info['base_model']}")
+            print(f"  LoRA adapter: {model_info['hf_repo']}")
             # 4-bit quantization config
             bnb_config = BitsAndBytesConfig(
             )
             # Load base model
+            print("  Loading base model...")
             base_model = AutoModelForCausalLM.from_pretrained(
                 model_info["base_model"],
                 quantization_config=bnb_config,
                 device_map="auto",
                 trust_remote_code=True,
             )
+            print("  Base model loaded!")
             # Load LoRA adapter
+            print("  Loading LoRA adapter...")
             self.current_model = PeftModel.from_pretrained(
                 base_model,
                 model_info["hf_repo"],
                 trust_remote_code=True,
             )
             self.current_model.eval()
+            print("  LoRA adapter loaded!")
             # Load tokenizer
+            print("  Loading tokenizer...")
             self.tokenizer = AutoTokenizer.from_pretrained(
                 model_info["base_model"],
                 trust_remote_code=True,
             )
             if self.tokenizer.pad_token is None:
                 self.tokenizer.pad_token = self.tokenizer.eos_token
+            print("  Tokenizer loaded!")
             self.current_model_name = model_name
+            self.last_error = None
+            print(f"Loaded {model_name} successfully!")
             return True
         except Exception as e:
+            import traceback
+            error_msg = f"{type(e).__name__}: {str(e)}"
+            print(f"Error loading {model_name}: {error_msg}")
+            traceback.print_exc()
+            self.last_error = error_msg
             self.unload_model()
             return False
             return self._mock_response(model_name)
     def _mock_response(self, model_name: str) -> str:
+        """Fallback mock response with error info"""
+        error_info = f"\nError: {self.last_error}" if self.last_error else ""
+        return f"<think>\n[Mock Mode] 모델 로딩 실패{error_info}\n</think>\n\n안녕~ 반가워!"
 # Global model manager
 model_manager = ModelManager()