DMoERM - a quanshr Collection

quanshr 's Collections

DMoERM

updated Jul 4, 2024

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

Paper • 2403.01197 • Published Mar 2, 2024
quanshr/mtmc-rlhf

Viewer • Updated May 10, 2024 • 21.7k • 115 • 11