ryota39
/

Qwen3-8B-math-RL-ja

Model card Files Files and versions

ryota39 commited on Dec 9, 2025

Commit

95c256a

·

verified ·

1 Parent(s): 09f181c

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ base_model:
 # Qwen3-8B-mathRL-ja
-- [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`max\tokens=256`で、[ryota39/gsm8k-ja](https://huggingface.co/datasets/ryota39/gsm8k-ja)を使って事後学習したモデルです。
 - [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
 - 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。

 # Qwen3-8B-mathRL-ja
+- [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`max_new_tokens=256`で、[ryota39/gsm8k-ja](https://huggingface.co/datasets/ryota39/gsm8k-ja)を使って事後学習したモデルです。
 - [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
 - 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。