DMoERM - a quanshr Collection

quanshr 's Collections

AugCon

DMoERM

DMoERM

updated Jul 4

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

Paper • 2403.01197 • Published Mar 2
quanshr/mtmc-rlhf

Viewer • Updated May 10 • 21.7k • 83 • 9