AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
Paper • 2504.16891 • Published • 27
日本語数学推論のためのChain-of-Thought (CoT) モデルです。 llm-jp-4-8bをベースに、306,366件の日本語CoTデータセットでSFT(教師あり微調整)を行いました。
本モデルはFT-LLM2026コンペティションにおける我々のアプローチの中間成果物です。このCoTモデルをベースとして、さらにTIRデータでSFTを行い最終モデルを構築しています。
| 項目 | 値 |
|---|---|
| ベースモデル | llm-jp-4-8b (80億パラメータ) |
| 学習手法 | SFT(教師あり微調整)/ フルパラメータ |
| 学習データ | 日本語CoTデータセット(306,366件) |
| フレームワーク | NeMo + Megatron-LM |
| 精度 | bf16-mixed |
OpenMathReasoning(NVIDIAのAIMO-2優勝手法)の学習手法に倣い、以下の設定でSFTを実施しました。
| パラメータ | 値 |
|---|---|
| 学習率 | 2e-5 |
| エポック数 | 2 |
| バッチサイズ | 96 |
| 最大系列長 | 4,096 |
| オプティマイザ | AdamW (β₁=0.9, β₂=0.98) |
| 重み減衰 | 0.1 |
| ウォームアップ | 20 steps |
| スケジューラ | CosineAnnealing |
| 精度 | bf16-mixed |
| PEFT | なし(フルパラメータ) |
StackMathQAの問題に対してDeepSeek V3を用いて日本語CoT形式の解法を生成し、回答検証(文字列一致・数値比較・LLMジャッジ)を経て306,366件のデータを構築しました。
詳細はCoTデータセットのページを参照してください。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "AcroYAMALEX/acro-yamalex-llmjp-4-math-cot"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="bfloat16", device_map="auto")
prompt = """あなたは熟練した数学の専門家であり、注意深い問題解決者です。与えられた数学の問題に対して、ステップバイステップで思考し、最終的な答えを \\boxed{...} で示してください。
### 指示:
1から100までの自然数の和を求めてください。
### 応答:
"""
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
システムプロンプトで数学の専門家としての役割を指定し、ユーザーメッセージとして数学の問題を与えます。
<think>タグで囲まれた思考過程と、\boxed{}形式の最終回答を生成します。
<think>
1からnまでの自然数の和の公式は n(n+1)/2 です。
n = 100 を代入すると...
</think>
1から100までの自然数の和は、公式 n(n+1)/2 を用いて計算できます。
| リソース | リンク |
|---|---|
| CoTデータセット | AcroYAMALEX/acro-yamalex-llmjp-4-math-cot |
| TIRデータセット | AcroYAMALEX/acro-yamalex-llmjp-4-math-tir |
| TIRモデル(最終モデル) | AcroYAMALEX/acro-yamalex-llmjp-4-math-tir |
| 論文 | NLP2026にて発表予定 |
佐々木峻・山本大輝・樋口慎・吉岡駿(アクロクエストテクノロジー株式会社)
MIT License