RLHF - a sjtuzhaoxh Collection

sjtuzhaoxh 's Collections

Model

RLHF

RLHF

updated Dec 5, 2023

Nash Learning from Human Feedback

Paper • 2312.00886 • Published Dec 1, 2023 • 14