microsoft
/

bitnet-b1.58-2B-4T

Text Generation

large-language-model

8-bit precision

Model card Files Files and versions

shumingma commited on Apr 16, 2025

Commit

6280e9d

·

1 Parent(s): dc4f215

update readme

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -92,11 +92,12 @@ messages = [
     {"role": "system", "content": "You are a helpful AI assistant."},
     {"role": "user", "content": "How are you?"},
 ]
-chat_input = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
 # Generate response
-chat_outputs = model.generate(chat_input, max_new_tokens=50)
-response = tokenizer.decode(chat_outputs[0][chat_input.shape[-1]:], skip_special_tokens=True) # Decode only the response part
 print("\nAssistant Response:", response)
 ```

     {"role": "system", "content": "You are a helpful AI assistant."},
     {"role": "user", "content": "How are you?"},
 ]
+prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)
 # Generate response
+chat_outputs = model.generate(**chat_input, max_new_tokens=50)
+response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # Decode only the response part
 print("\nAssistant Response:", response)
 ```