tencent
/

Youtu-LLM-2B

Text Generation

Model card Files Files and versions

Update README.md

#10

by pjort - opened Jan 6

base: refs/heads/main

←

from: refs/pr/10

Discussion Files changed

Files changed (1) hide show

README.md +11 -9

README.md CHANGED Viewed

@@ -100,7 +100,6 @@ The following example demonstrates how to load the model, enable Reasoning Mode,
 ```python
 import re
-import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # 1. Configure Model
@@ -119,17 +118,19 @@ prompt = "Hello"
 messages = [{"role": "user", "content": prompt}]
 # Use apply_chat_template to construct input; set enable_thinking=True to activate Reasoning Mode
-input_ids = tokenizer.apply_chat_template(
-    messages,
-    tokenize=True,
-    add_generation_prompt=True,
-    return_tensors="pt",
     enable_thinking=True
-).to(model.device)
 # 4. Generate Response
 outputs = model.generate(
-    input_ids,
     max_new_tokens=512,
     do_sample=True,
     temperature=1.0,
@@ -137,6 +138,8 @@ outputs = model.generate(
     repetition_penalty=1.05
 )
 # 5. Parse Results
 full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -157,7 +160,6 @@ thought, final_answer = parse_reasoning(full_response)
 print(f"\n{'='*20} Thought Process {'='*20}\n{thought}")
 print(f"\n{'='*20} Final Answer {'='*20}\n{final_answer}")
 ```
 ### 3. Key Configuration Details

 ```python
 import re
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # 1. Configure Model
 messages = [{"role": "user", "content": prompt}]
 # Use apply_chat_template to construct input; set enable_thinking=True to activate Reasoning Mode
+inputs = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True,
     enable_thinking=True
+)
+input_ids = tokenizer(inputs, return_tensors="pt").to(model.device)
+print("Input prepared. Starting generation...")
 # 4. Generate Response
 outputs = model.generate(
+    **input_ids,
     max_new_tokens=512,
     do_sample=True,
     temperature=1.0,
     repetition_penalty=1.05
 )
+print("Generation complete!")
 # 5. Parse Results
 full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
 print(f"\n{'='*20} Thought Process {'='*20}\n{thought}")
 print(f"\n{'='*20} Final Answer {'='*20}\n{final_answer}")
 ```
 ### 3. Key Configuration Details