Hugging Face 02月15日
让 LLM 来评判 | 奖励模型相关内容
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

奖励模型通过学习人工标注数据预测分数,可作为人工评估代理的奖励函数改进其他模型。文章介绍了其类型、训练数据、评估方法、优劣势及使用技巧等内容。

🎯奖励模型通过学习成对 prompt 数据预测分数,优化目标是对齐人类偏好。

🌟常见奖励模型类型如 Bradley-Terry 模型,输出分值遵循特定公式。

💪奖励模型有输出相对分数和绝对分数之分,各有优缺点。

📊介绍了奖励模型用于评估的方法,如胜率和胜算概率等。

👍阐述了奖励模型的优劣势及使用的技巧与提示。

原创 Hugging Face 2025-02-14 10:30 广东

奖励模型可以作为人工评估代理的奖励函数,用来改进其他模型

这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章:

什么是奖励模型?

奖励模型通过学习人工标注的成对 prompt 数据来预测分数,优化目标是对齐人类偏好。训练完成后,奖励模型可以作为人工评估代理的奖励函数,用来改进其他模型。

成对比较评分

最常见的奖励模型类型是 Bradley-Terry 模型,它的输出是一个分值,遵循以下公式:

奖励模型的训练数据只需要成对比较的答案,这比收集分数数据更容易。因此训练好的模型只能比较同一个 prompt 下的多个答案孰优孰劣,无法跨 prompt 比较。

其他模型在此方法的基础上进行了扩展,可以预测一个回答优于另一个的概率值 (例如基于 LLaMA3 的奖励模型)。

基于 LLaMA3 的奖励模型https://hf.co/RLHFlow/pair-preference-model-LLaMA3-8B

这样模型就能 (理论上) 以数值来判断多个回答之间的细微差别,不过只能针对同一 prompt 对应的回答进行对比,跨 prompt 的回答概率值就没有对比意义了。另外当回答较长时,可能会受到上下文长度和内存限制的影响。

绝对分数

还有一些奖励模型 (如SteerLM) 的输出是绝对分数。这类模型使用起来更加方便,可以直接对回答评估分数,而无需构造成对。但是数据收集就比较困难了,因为在衡量人类偏好时,绝对分数就显得相对不那么稳定。

SteerLMhttps://arxiv.org/abs/2311.09528

最近有人提出了更强力的模型,可以同时输出绝对分数和相对分数。如HelpSteer2-PreferenceArmoRM

奖励模型用于评估的方法

给定一个 prompts 数据集,输入 LLM 生成回答,并请求奖励模型对回答评分。

如果使用的奖励模型输出是绝对分数,可以对所有回答的分数求平均来获取最终得分。

其实更常用的奖励模型输出是相对分数,对其求平均可能会受到异常值的影响 (某些非常好或非常差的回答),因为不同 prompt 的评估分数可能具有不同的尺度 (某些 prompt 会比其他的更简单或困难)。

总上,我们可以使用:

奖励模型的优劣势

优势:

劣势:

使用奖励模型进行评估的技巧与提示


英文原文:https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/what-about-reward-models.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

奖励模型 评估方法 优劣势 使用技巧
相关文章