|
|
--- |
|
|
license: apache-2.0 |
|
|
datasets: |
|
|
- p1atdev/gsm8k-ja-slim |
|
|
- SyntheticVeryEasyMath5k |
|
|
- SyntheticEasyMath1k |
|
|
language: |
|
|
- ja |
|
|
base_model: |
|
|
- Qwen/Qwen2.5-1.5B |
|
|
library_name: transformers |
|
|
tags: |
|
|
- grpo |
|
|
--- |
|
|
|
|
|
# Qwen2.5 1.5B R15 |
|
|
|
|
|
The `<|im_end|>` token does not work. |
|
|
|
|
|
## Example |
|
|
|
|
|
```py |
|
|
from transformers import pipeline |
|
|
|
|
|
messages = [ |
|
|
{ |
|
|
"role": "system", |
|
|
"content": """\ |
|
|
あなたは思慮深いassistantとして回答します。 |
|
|
userの質問に対して、<think></think>ブロック内で思考してから、<answer></answer>内にファイナルアンサーし、最後に<|im_end|>で回答終了してください。 |
|
|
具体的には「<think>ここで思考</think><answer>ここに最終解答</answer><|im_end|>」というような形です。 |
|
|
userの指示に対応しなさい。""".strip(), |
|
|
{ |
|
|
"role": "user", |
|
|
"content": """次の問題を解き、計算結果を数値のみで解答してください。 |
|
|
ブレナンは学校の課題のために研究をしており、参考にするためにインターネットからファイルをコンピュータにダウンロードする必要がありました。800個のファイルをダウンロードした後、役に立たないものを70%削除しました。さらに400個のファイルをダウンロードしましたが、再び3/5が関係ないことに気づきました。2回目にダウンロードした関係のないファイルを削除した後、彼は何個の価値のあるファイルを持っていましたか?""", |
|
|
}, |
|
|
] |
|
|
prompt = tokenizer.apply_chat_template( |
|
|
messages, |
|
|
tokenize=False, |
|
|
add_generation_prompt=True, |
|
|
) |
|
|
prompt += "<think>" # optional |
|
|
print(prompt) |
|
|
|
|
|
print( |
|
|
pipe( |
|
|
prompt, |
|
|
do_sample=True, |
|
|
max_new_tokens=512, |
|
|
temperature=0.9, |
|
|
)[0]["generated_text"][len(prompt) :].strip() |
|
|
) |
|
|
``` |
|
|
|