DisgustingOzil
/

qalaw-mistral-model

Model card Files Files and versions

DisgustingOzil commited on Mar 22, 2024

Commit

47fb3fa

·

verified ·

1 Parent(s): e4c3b73

Update README.md

Files changed (1) hide show

README.md +16 -10

README.md CHANGED Viewed

@@ -19,22 +19,29 @@ os.environ["WANDB_DISABLED"] = "true"
 ### Inference
 ```python
 from peft import AutoPeftModelForCausalLM
 from transformers import AutoTokenizer
 model = AutoPeftModelForCausalLM.from_pretrained(
-        "DisgustingOzil/Academic-ShortQA-Generator", # YOUR MODEL YOU USED FOR TRAINING
         load_in_4bit = load_in_4bit,
     )
-tokenizer = AutoTokenizer.from_pretrained("DisgustingOzil/Academic-ShortQA-Generator")
 from unsloth import FastLanguageModel
-model, tokenizer = FastLanguageModel.from_pretrained(
-        model_name = "lora_model", # YOUR MODEL YOU USED FOR TRAINING
-        max_seq_length = max_seq_length,
-        dtype = dtype,
-        load_in_4bit = load_in_4bit,
-    )
-FastLanguageModel.for_inference(model)
 inputs = tokenizer(
 [
@@ -43,7 +50,6 @@ inputs = tokenizer(
         "", # output - leave this blank for generation!
     )
 ], return_tensors = "pt").to("cuda")
 outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
 tokenizer.batch_decode(outputs)

 ### Inference
 ```python
+load_in_4bit = True
 from peft import AutoPeftModelForCausalLM
 from transformers import AutoTokenizer
+import torch
+alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
+### Instruction:
+Generate Answer of the question asked :
+### Input:
+{}
+### Response:
+{}"""
 model = AutoPeftModelForCausalLM.from_pretrained(
+        "DisgustingOzil/qalaw-mistral-model", # YOUR MODEL YOU USED FOR TRAINING
         load_in_4bit = load_in_4bit,
+        torch_dtype=torch.float16,
     )
+tokenizer = AutoTokenizer.from_pretrained("DisgustingOzil/qalaw-mistral-model")
 from unsloth import FastLanguageModel
+FastLanguageModel.for_inference(model) # Enable native 2x faster inference
 inputs = tokenizer(
 [
         "", # output - leave this blank for generation!
     )
 ], return_tensors = "pt").to("cuda")
 outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
 tokenizer.batch_decode(outputs)