Update README.md
Browse files
README.md
CHANGED
|
@@ -12,7 +12,7 @@ base_model:
|
|
| 12 |
|
| 13 |
# Qwen3-8B-mathRL-ja
|
| 14 |
|
| 15 |
-
- [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`
|
| 16 |
- [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
|
| 17 |
- 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。
|
| 18 |
|
|
|
|
| 12 |
|
| 13 |
# Qwen3-8B-mathRL-ja
|
| 14 |
|
| 15 |
+
- [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`max_new_tokens=256`で、[ryota39/gsm8k-ja](https://huggingface.co/datasets/ryota39/gsm8k-ja)を使って事後学習したモデルです。
|
| 16 |
- [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
|
| 17 |
- 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。
|
| 18 |
|