ilgee
/

Multiclass-Think-RM-8B

@@ -11,7 +11,7 @@ tags:
 # Multiclass-Think-RM-8B
-Multiclass-Think-RM-8B is a generative reward model with long-horizon reasoning capabilities, introduced in the paper [Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models](https://arxiv.org/abs/2505.16265).
 This model is fine-tuned from [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) using a two-stage training process: (1) reasoning-oriented supervised fine-tuning (SFT) using [ilgee/hs2-naive-reasoning-multiclass-max](https://huggingface.co/datasets/ilgee/hs2-naive-reasoning-multiclass-max) and (2) reinforcement learning with verifiable rewards (RLVR) using a prompt part of [ilgee/hs2-naive-reasoning-multiclass-max](https://huggingface.co/datasets/ilgee/hs2-naive-reasoning-multiclass-max).
@@ -83,7 +83,7 @@ message = tokenizer.apply_chat_template(
 ## Performance
-For detailed performance metrics on RewardBench, RM-Bench, HelpSteer2-Preference, and HelpSteer3-Preference, please refer to Tables 1, 2, and 3 in the paper: [Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models](https://arxiv.org/abs/2505.16265)
 ## Citation

 # Multiclass-Think-RM-8B
+Multiclass-Think-RM-8B is a generative reward model with long-horizon reasoning capabilities, introduced in the paper [Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models](https://openreview.net/pdf?id=UfQAFbP6xq).
 This model is fine-tuned from [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) using a two-stage training process: (1) reasoning-oriented supervised fine-tuning (SFT) using [ilgee/hs2-naive-reasoning-multiclass-max](https://huggingface.co/datasets/ilgee/hs2-naive-reasoning-multiclass-max) and (2) reinforcement learning with verifiable rewards (RLVR) using a prompt part of [ilgee/hs2-naive-reasoning-multiclass-max](https://huggingface.co/datasets/ilgee/hs2-naive-reasoning-multiclass-max).
 ## Performance
+For detailed performance metrics on RewardBench, RM-Bench, HelpSteer2-Preference, and HelpSteer3-Preference, please refer to Tables 1, 2, and 3 in the paper: [Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models](https://openreview.net/pdf?id=UfQAFbP6xq)
 ## Citation