Machlovi
/

GGuard

@@ -49,13 +49,13 @@ class EndpointHandler:
         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.model, self.tokenizer = FastLanguageModel.from_pretrained(
-            model_name=model_id,
             max_seq_length=self.max_seq_length,
             load_in_4bit=self.load_in_4bit,
         )
         # Load LoRA adapter
-        self.model = PeftModel.from_pretrained(self.model, lora_adapter)
         self.model.eval()
         # Move model to the device (GPU or CPU)

         self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.model, self.tokenizer = FastLanguageModel.from_pretrained(
+            model_name=lora_adapter,
             max_seq_length=self.max_seq_length,
             load_in_4bit=self.load_in_4bit,
         )
         # Load LoRA adapter
+        # self.model = PeftModel.from_pretrained(self.model, lora_adapter)
         self.model.eval()
         # Move model to the device (GPU or CPU)