Safe Reward Model - a puwaer Collection

puwaer 's Collections

Uncensored-Models

Safety Preference Dataset

Safe Reward Model

Doujinshi-dataset

Safe Reward Model

updated Nov 15, 2025

This model is a Reward Model (RM) for evaluating safety quality in English, Chinese, and Japanese

puwaer/Safe-Reward-Qwen3-0.6B

Text Classification • 0.6B • Updated Nov 15, 2025 • 4
puwaer/Safe-Reward-Qwen3-1.7B

Text Classification • 2B • Updated Nov 15, 2025 • 4
puwaer/Unsafe-Reward-Qwen3-0.6B

Text Classification • 0.6B • Updated Nov 15, 2025 • 1
puwaer/Unsafe-Reward-Qwen3-1.7B

Text Classification • 2B • Updated Nov 15, 2025 • 1 • 2