tencent
/

Youtu-LLM-2B

Text Generation

Model card Files Files and versions

update quickstart

#13

by hevans - opened 10 days ago

base: refs/heads/main

←

from: refs/pr/13

Discussion Files changed

Files changed (2) hide show

README.md +11 -9
generation_config.json +1 -0

README.md CHANGED Viewed

@@ -104,7 +104,6 @@ The following example demonstrates how to load the model, enable Reasoning Mode,
 ```python
 import re
-import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # 1. Configure Model
@@ -123,23 +122,27 @@ prompt = "Hello"
 messages = [{"role": "user", "content": prompt}]
 # Use apply_chat_template to construct input; set enable_thinking=True to activate Reasoning Mode
-input_ids = tokenizer.apply_chat_template(
-    messages,
-    tokenize=True,
-    add_generation_prompt=True,
-    return_tensors="pt",
     enable_thinking=True
-).to(model.device)
 # 4. Generate Response
 outputs = model.generate(
-    input_ids,
     max_new_tokens=512,
     do_sample=True,
     temperature=1.0,
     top_p=0.95,
     repetition_penalty=1.05
 )
 # 5. Parse Results
 full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -161,7 +164,6 @@ thought, final_answer = parse_reasoning(full_response)
 print(f"\n{'='*20} Thought Process {'='*20}\n{thought}")
 print(f"\n{'='*20} Final Answer {'='*20}\n{final_answer}")
 ```
 ### 3. Key Configuration Details

 ```python
 import re
 from transformers import AutoTokenizer, AutoModelForCausalLM
 # 1. Configure Model
 messages = [{"role": "user", "content": prompt}]
 # Use apply_chat_template to construct input; set enable_thinking=True to activate Reasoning Mode
+input_text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True,
     enable_thinking=True
+)
+model_inputs = tokenizer([input_text], return_tensors="pt").to(model.device)
+print("Input prepared. Starting generation...")
 # 4. Generate Response
 outputs = model.generate(
+    **model_inputs,
     max_new_tokens=512,
     do_sample=True,
     temperature=1.0,
+    top_k=20,
     top_p=0.95,
     repetition_penalty=1.05
 )
+print("Generation complete!")
 # 5. Parse Results
 full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
 print(f"\n{'='*20} Thought Process {'='*20}\n{thought}")
 print(f"\n{'='*20} Final Answer {'='*20}\n{final_answer}")
 ```
 ### 3. Key Configuration Details

generation_config.json CHANGED Viewed

@@ -2,6 +2,7 @@
     "_from_model_config": true,
     "bos_token_id": 128000,
     "eos_token_id": 128001,
     "do_sample": true,
     "temperature": 1.0,
     "top_k": 20,

     "_from_model_config": true,
     "bos_token_id": 128000,
     "eos_token_id": 128001,
+    "pad_token_id": 128001,
     "do_sample": true,
     "temperature": 1.0,
     "top_k": 20,