ryota39 commited on
Commit
95c256a
·
verified ·
1 Parent(s): 09f181c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -12,7 +12,7 @@ base_model:
12
 
13
  # Qwen3-8B-mathRL-ja
14
 
15
- - [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`max\tokens=256`で、[ryota39/gsm8k-ja](https://huggingface.co/datasets/ryota39/gsm8k-ja)を使って事後学習したモデルです。
16
  - [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
17
  - 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。
18
 
 
12
 
13
  # Qwen3-8B-mathRL-ja
14
 
15
+ - [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)を少ないトークン予算の元`max_new_tokens=256`で、[ryota39/gsm8k-ja](https://huggingface.co/datasets/ryota39/gsm8k-ja)を使って事後学習したモデルです。
16
  - [tinker_cookbook](https://tinker-docs.thinkingmachines.ai/rl/rl-basic)の[rl_basic.py](https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/recipes/rl_basic.py)に従い、accuracy_rewardとformat_rewardを最大化するようなモデルの重みを学習しています。
17
  - 詳細は[Tinker APIと限られたトークン長でのLLMの強化学習](https://zenn.dev/kaeru39/articles/e4c7d19ab13bea)に記載しています。
18