allenai/tulu-3-sft-mixture
Viewer • Updated • 939k • 17.9k • 251
RLVR(Reinforcement Learning with Verifiable Rewards)을 활용해 수학 추론 능력을 강화한 Qwen3-1.7B 기반 모델. 본 체크포인트는 IF-RLVR과 달리 alignment tax 없이 GSM8K·HumanEval·IFEval에서 동시에 최고점을 기록한 지점(step 300)에 해당.
loss_type=grpo, KL beta=0.1, temperature=0.8)SFT init 대비 변화량(Δ).
| Benchmark | SFT init | step 300 | Δ |
|---|---|---|---|
| GSM8K | 81.35 | 82.79 | ▲1.44 |
| MATH (Hendrycks) | 63.08 | 61.82 | ▼1.26 |
| HumanEval (base) | 62.80 | 65.85 | ▲3.05 |
| HumanEval (plus) | 55.49 | 57.32 | ▲1.83 |
| MBPP (base) | 69.31 | 68.52 | ▼0.79 |
| MBPP (plus) | 58.20 | 57.41 | ▼0.79 |
| IFEval (avg) | 54.01 | 55.89 | ▲1.88 |
| IFEval (prompt_strict) | 46.21 | 48.43 | ▲2.22 |
| IFEval (inst_strict) | 58.03 | 59.95 | ▲1.92 |
| IFEval (prompt_loose) | 49.91 | 51.76 | ▲1.85 |
| IFEval (inst_loose) | 61.87 | 63.43 | ▲1.56 |
| IFBench (avg) | 12.99 | 13.45 | ▲0.46 |
Bold는 전체 학습 구간(step 100–400)에서의 최고점을 의미. step 300은 GSM8K, HumanEval(base/plus), IFEval(전 metric), IFBench에서 전 구간 최고점을 기록.
자세한 step별 분석 및 비교 실험(Dolci-Math)은 training report 참조.
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "ny1031/Qwen3-1.7B-SFT-RLVR-Math"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
messages = [{"role": "user", "content": "Janet has 24 apples. She gives 1/3 to her friend and eats 2. How many are left?"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(model.device)
outputs = model.generate(inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True))
MIT
Base model
Qwen/Qwen3-1.7B-Base