Machlovi
/

GGuard

+from unsloth import FastLanguageModel
+from peft import PeftModel
+import torch
+# Load the base model
+base_model_name = "unsloth/gemma-3-12b-it-bnb-4bit"
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name=base_model_name,
+    max_seq_length=4096,  # Must match fine-tuning
+    load_in_4bit=True,
+)
+# Load the fine-tuned LoRA adapter
+lora_model_name = "Machlovi/Gemma3_12_MegaHateCatplus"
+model = PeftModel.from_pretrained(model, lora_model_name)
+input_text = "Why do we need to go to see something?"
+inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
+with torch.no_grad():
+    outputs = model.generate(**inputs, max_new_tokens=4)
+# Decode and print response
+response = tokenizer.decode(outputs[0], skip_special_tokens=True)