RM-NLHF - a Tongyi-ConvAI Collection

Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
- Website
- Community
- Solutions
Log In
Sign Up

Tongyi-ConvAI 's Collections

RM-NLHF

updated Feb 25

Official collection for paper "Reward Modeling from Natural Language Human Feedback".

Tongyi-ConvAI/Baseline-Outcome-Reward-Qwen-7B

8B • Updated Feb 25 • 2
Tongyi-ConvAI/RM-NLHF-Qwen-32B

33B • Updated Feb 25 • 2
Tongyi-ConvAI/Final-MetaRM-RM-NLHF-Qwen-32B

32B • Updated Feb 25 • 1
Tongyi-ConvAI/Final-MetaRM-RM-NLHF-Qwen-7B

7B • Updated Feb 25 • 1
Tongyi-ConvAI/Cold-Start-MetaRM-RM-NLHF-Qwen-7B

7B • Updated Feb 25 • 2
Tongyi-ConvAI/Cold-Start-MetaRM-RM-NLHF-Qwen-32B

32B • Updated Feb 26 • 4 • 1
Tongyi-ConvAI/RM-NLHF-Qwen-7B

8B • Updated Feb 25 • 4 • 2
Tongyi-ConvAI/RM-NLHF

Viewer • Updated Feb 25 • 49.5k • 34 • 2

Collection guide
Browse collections

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs