lifatsastain
/

teach_lora1

@@ -83,10 +83,11 @@ new_tokens = output_ids[0][inputs["input_ids"].shape[-1]:]
 print(tokenizer.decode(new_tokens, skip_special_tokens=True))
 ```
 ## IF YOU WANT TALK IN LONG CONVERSATION
-```from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from peft import PeftModel
 import torch
 BASE_MODEL = "Qwen/Qwen2.5-7B-Instruct"
 LORA_PATH  = "lifatsastain/teach_lora1"
@@ -116,14 +117,14 @@ conversation_history = []
 def chat(user_message):
     conversation_history.append({"role": "user", "content": user_message})
     messages = [{"role": "system", "content": SYSTEM}] + conversation_history
     text = tokenizer.apply_chat_template(
         messages, tokenize=False, add_generation_prompt=True
     )
-    inputs = tokenizer(text, return_tensors="pt").to(model.device)
     with torch.no_grad():
         output_ids = model.generate(
             **inputs,
@@ -133,10 +134,10 @@ def chat(user_message):
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id
         )
     new_tokens = output_ids[0][inputs["input_ids"].shape[-1]:]
     response = tokenizer.decode(new_tokens, skip_special_tokens=True)
     conversation_history.append({"role": "assistant", "content": response})
     return response
@@ -155,6 +156,7 @@ while True:
         continue
     response = chat(user_input)
     print(f"\nTutor: {response}\n")
 '''
@@ -174,11 +176,12 @@ while True:
 | Max sequence length    | 512                            |
 | Quantization           | 4-bit NF4                      |
 | Optimizer              | paged_adamw_8bit               |
 ### Framework Versions
-- PEFT 0.18.1
-- TRL 0.29.0
-- Transformers 5.3.0
-- PyTorch 2.10.0+cu126
-- Datasets 4.7.0

 print(tokenizer.decode(new_tokens, skip_special_tokens=True))
 ```
 ## IF YOU WANT TALK IN LONG CONVERSATION
+```python
 from peft import PeftModel
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+import bitsandbytes
 BASE_MODEL = "Qwen/Qwen2.5-7B-Instruct"
 LORA_PATH  = "lifatsastain/teach_lora1"
 def chat(user_message):
     conversation_history.append({"role": "user", "content": user_message})
     messages = [{"role": "system", "content": SYSTEM}] + conversation_history
     text = tokenizer.apply_chat_template(
         messages, tokenize=False, add_generation_prompt=True
     )
+    inputs = tokenizer(text, return_tensors="pt").to(model.device)
     with torch.no_grad():
         output_ids = model.generate(
             **inputs,
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id
         )
     new_tokens = output_ids[0][inputs["input_ids"].shape[-1]:]
     response = tokenizer.decode(new_tokens, skip_special_tokens=True)
     conversation_history.append({"role": "assistant", "content": response})
     return response
         continue
     response = chat(user_input)
     print(f"\nTutor: {response}\n")
 '''
 | Max sequence length    | 512                            |
 | Quantization           | 4-bit NF4                      |
 | Optimizer              | paged_adamw_8bit               |
+|----------------------------------------------------------
 ### Framework Versions
+- transformers: 5.3.0
+- bitsandbytes: 0.49.2
+- peft: 0.18.1
+- torch: 2.10.0+cu126
+- trl: 0.29.0
+- datasets: 4.7.0