Reward model - a transZ Collection

transZ 's Collections

Reward model

updated May 11

Reward modelling

RLHFlow/SHP-standard

Viewer • Updated May 9, 2024 • 93.3k • 30

Note Training
transZ/shp

Viewer • Updated Jan 23 • 10.3k • 4

Note Test and validation
RLHFlow/HH-RLHF-Helpful-standard

Viewer • Updated Apr 27, 2024 • 115k • 93 • 4

Note Training
transZ/anthropic_helpful_test

Viewer • Updated Jan 23 • 2.33k • 8

Note Test
RLHFlow/HH-RLHF-Harmless-and-RedTeam-standard

Viewer • Updated May 8, 2024 • 42.3k • 37 • 4

Note Training
transZ/anthropic_harmless_test

Viewer • Updated Jan 23 • 2.3k • 8

Note Test
transZ/helpsteer3

Viewer • Updated Feb 7 • 18.6k • 4

Note Training and testing
RLHFlow/PKU-SafeRLHF-30K-standard

Viewer • Updated Apr 29, 2024 • 26.9k • 19 • 3

Note Training
transZ/pku_safe_rlhf

Viewer • Updated Feb 7 • 1.22k • 5

Note Test
HuggingFaceH4/cai-conversation-harmless

Viewer • Updated Feb 2, 2024 • 44.8k • 235 • 17

Note Training and testing
transZ/helpsteer3_v2

Viewer • Updated Apr 6 • 18.3k • 5
transZ/ultrafeedback

Viewer • Updated Apr 21 • 55.5k • 14
transZ/rail_hh_10k

Viewer • Updated May 11 • 9.82k • 16