openbmb
/

MiniCPM4.1-8B

Text Generation

Model card Files Files and versions

BigDong commited on Sep 5, 2025

Commit

10cd12a

·

1 Parent(s): 5914bfe

update README.md

Files changed (1) hide show

README.md +9 -9

README.md CHANGED Viewed

@@ -151,9 +151,9 @@ model_inputs = tokenizer([prompt_text], return_tensors="pt").to(device)
 model_outputs = model.generate(
     **model_inputs,
-    max_new_tokens=8192,
-    top_p=0.7,
-    temperature=0.7
 )
 output_token_ids = [
     model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs['input_ids']))
@@ -242,8 +242,8 @@ response = client.chat.completions.create(
     messages=[
         {"role": "user", "content": "Write an article about Artificial Intelligence."},
     ],
-    temperature=0.7,
-    max_tokens=8192,
 )
 print(response.choices[0].message.content)
@@ -263,7 +263,7 @@ from transformers import AutoTokenizer
 from vllm import LLM, SamplingParams
 model_name = "openbmb/MiniCPM4.1-8B"
-prompt = [{"role": "user", "content": "Please recommend 5 tourist attractions in Beijing."}]
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 input_text = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
@@ -275,7 +275,7 @@ llm = LLM(
     dtype="bfloat16",
     gpu_memory_utilization=0.8,
 )
-sampling_params = SamplingParams(top_p=0.7, temperature=0.7, max_tokens=8192, repetition_penalty=1.02)
 outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
@@ -301,8 +301,8 @@ response = client.chat.completions.create(
     messages=[
         {"role": "user", "content": "Write an article about Artificial Intelligence."},
     ],
-    temperature=0.7,
-    max_tokens=1024,
     extra_body=dict(add_special_tokens=True),  # Ensures special tokens are added for chat template
 )

 model_outputs = model.generate(
     **model_inputs,
+    max_new_tokens=32768,
+    top_p=0.95,
+    temperature=0.6
 )
 output_token_ids = [
     model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs['input_ids']))
     messages=[
         {"role": "user", "content": "Write an article about Artificial Intelligence."},
     ],
+    temperature=0.6,
+    max_tokens=32768,
 )
 print(response.choices[0].message.content)
 from vllm import LLM, SamplingParams
 model_name = "openbmb/MiniCPM4.1-8B"
+prompt = [{"role": "user", "content": "Write an article about Artificial Intelligence."}]
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 input_text = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
     dtype="bfloat16",
     gpu_memory_utilization=0.8,
 )
+sampling_params = SamplingParams(top_p=0.95, temperature=0.6, max_tokens=32768)
 outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
     messages=[
         {"role": "user", "content": "Write an article about Artificial Intelligence."},
     ],
+    temperature=0.6,
+    max_tokens=32768,
     extra_body=dict(add_special_tokens=True),  # Ensures special tokens are added for chat template
 )