efd517d 95790fa 482cb80 95790fa
1
2
3
4
5
6
7
8
9
10
--- language: - en base_model: - unsloth/Qwen3-4B-Base --- # ⚠️This model isn't just a quantized model of unsloth/Qwen3-4B-Base 冬休みの自由研究としてUnslothのGRPOを使ってトレーニングしたQwen3-4B-Baseモデル。数学推論に特化させた…つもりなだけで実際はあんまりうまく動作しない。