RLHF – Ferina

给定同一个输入，模型生成的多个候选回答中，人类会对这些回答进行排序。RM 需要学会预测这个排序。 1. 数据格式假设对于同一个 prompt，我们有两段候选回答： chosen (c) → 人类更喜欢的回答 rejected (r) → 人类不喜欢的回答 Reward Model 会给它们各自输出一个分数： [R_\theta(x, y_c), …