标签: RLHF

1 篇文章

RLHF and PPO
给定同一个输入,模型生成的多个候选回答中,人类会对这些回答进行排序。RM 需要学会预测这个排序。 1. 数据格式 假设对于同一个 prompt,我们有两段候选回答: chosen (c) → 人类更喜欢的回答 rejected (r) → 人类不喜欢的回答 Reward Model 会给它们各自输出一个分数: [R_\theta(x, y_c), …