sarosavo
/

Master-RM

@@ -1,6 +1,6 @@
 ---
-license: apache-2.0
-library_name: transformers
 datasets:
 - virtuoussy/Multi-subject-RLVR
 - sarosavo/Master-RM
@@ -18,8 +18,9 @@ language:
 - vie
 - tha
 - ara
-base_model:
-- Qwen/Qwen2.5-7B-Instruct
 ---
 # Robust Reward Model for LLM-as-a-Judge
@@ -28,6 +29,7 @@ This repository contains a robust, general-domain generative reward model presen
 - **Paper**: [One Token to Fool LLM-as-a-Judge](https://huggingface.co/papers/2507.08794)
 - **Training Data**: [https://huggingface.co/datasets/sarosavo/Master-RM](https://huggingface.co/datasets/sarosavo/Master-RM)
 - **Training algorithm**: Standard supervised fine-tuning, see Appendix A.2 for more details.
 ## Model Description
@@ -118,7 +120,6 @@ bash reward_server/RLVR_train.sh {METHOD} {PRETRAIN_PATH} {DATA_PATH} {REWARD_AP
 # REWARD_API:      remote reward server url, e.g., http://127.0.0.1:8000/get_reward
 ```
 ## Citation
 If you use this model, please cite:

 ---
+base_model:
+- Qwen/Qwen2.5-7B-Instruct
 datasets:
 - virtuoussy/Multi-subject-RLVR
 - sarosavo/Master-RM
 - vie
 - tha
 - ara
+library_name: transformers
+license: apache-2.0
+pipeline_tag: text-classification
 ---
 # Robust Reward Model for LLM-as-a-Judge
 - **Paper**: [One Token to Fool LLM-as-a-Judge](https://huggingface.co/papers/2507.08794)
 - **Training Data**: [https://huggingface.co/datasets/sarosavo/Master-RM](https://huggingface.co/datasets/sarosavo/Master-RM)
+- **Code/GitHub Repository**: [https://github.com/Yulai-Zhao/Robust-Reward-Model](https://github.com/Yulai-Zhao/Robust-Reward-Model)
 - **Training algorithm**: Standard supervised fine-tuning, see Appendix A.2 for more details.
 ## Model Description
 # REWARD_API:      remote reward server url, e.g., http://127.0.0.1:8000/get_reward
 ```
 ## Citation
 If you use this model, please cite: