Hugging Face 2024年12月12日
人工评估 | 基础概念
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文是“人工评估”系列文章的首篇,深入探讨了人工评估的基础概念及其在模型评估中的重要作用。文章详细介绍了系统化人工评估的三种方式:无数据集评估、有数据集评估以及基于错误注释的评估审查,并讨论了非正式评估方法,如Vibes检查和Arenas众包评估。此外,文章还全面分析了人工评估的优势和劣势,包括灵活性、数据污染问题、与人类偏好的相关性,以及第一印象偏差、语气偏差、自我偏好偏差和身份背景偏差等问题,为读者提供了对人工评估全面而深入的理解。

📝系统化人工评估主要分为三种:1. 无数据集时,通过提供任务说明和打分指南进行评估;2. 有数据集时,将prompt输入模型得到输出,再提供给标注员评估;3. 有数据集和评分结果时,通过错误注释审查评估。

👥非正式评估方法包括Vibes检查和Arenas众包评估。Vibes检查利用非公开数据进行人工评估,把握模型整体效果;Arenas通过社区用户投票,汇总为Elo排名,评判“最优模型”。

✅人工评估的优势在于其灵活性,几乎适用于所有任务;能够避免数据污染,因为人工书写的问题prompt与训练集无交叉;评估结果与人类偏好高度相关。

❌人工评估的劣势包括:易受第一印象、语气、自我偏好和身份背景等偏差影响;系统化人工评估成本高、扩展性差、重复性低;非正式人工评估则存在高度主观性、评分偏好不具代表性和易被操控等问题。

💰系统化人工评估,尤其是付费的人工,具有高质量数据、数据隐私和可解释性的优势,但成本较高,扩展性差,重复性低。非正式人工评估成本较低,能发现边缘用例,扩展性高,但高度主观,评分偏好不具代表性,容易被操控。

原创 Hugging Face 2024-12-11 10:31 广东

人工评估有哪些分类,各自的优劣又如何?

这是 人工评估 系列文章的第一篇《基础概念》,全系列包括:

    基础概念

    人工标注员

    技巧与提示

什么是人工评估?

人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。

系统化评估

系统化的人工评估主要有 3 种方式:

如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分理由。

如果你手头 已经有数据集 (例如 收集了一组 prompt,并确保这些 prompt 不会迫使模型输出不当回答),可以自行将 prompt 输入模型得到输出,然后将输入 prompt、输出回答、打分指南一起提供给标注员评估 (如果模型意外输出不当,则得分为 0,反之为 1)。

如果你手头 既有数据集也有评分结果,可以让人工标注员通过错误注释的方法 (这种方法同样可以作为评估系统,适用于上面的情况) 来对评估进行审查。在测试新评估系统时,这一步非常重要,但是技术测层面属于对评估系统的评估,因此略微超出本文的讨论范围。

错误注释https://ehudreiter.com/2022/06/01/error-annotations-to-evaluate/

注:

非正式评估

基于人类的评估方法还有两种不那么正式的方法:

Vibes 检查 是一种使用非公开数据进行人工评估的方法,用来在多个场景用例 (如代码编程和文学创作等) 上测试来把握整体效果。评估结果通常会被当作轶事证据而分享在 Twitter 和 Reddit 上,不过它们很容易受到主观认知偏差的影响 (换句话说,人们往往只相信自己相信的结果)。尽管如此,这些结果依然能作为你自己测试的一个不错起点

你自己测试的一个不错起点https://olshansky.substack.com/p/vibe-checks-are-all-you-need

Arenas 是一种众包人工评估的方法,用来给多个模型表现排名。一个知名的例子是LMSYS 聊天机器人 Arena 评估, 社区用户通过与多个模型对话来分辨孰优孰劣并投票。总的投票结果将汇总为 Elo 排名 (这场多个模型比赛的排名),来评判出 “最优模型”。

人工评估的优劣势

LMSYS 聊天机器人 Arena 评估https://hf.co/spaces/lmsys/chatbot-arena-leaderboard

优势:

劣势:

系统化人工评估

系统化人工评估 (尤其是付费的人工) 的优势:

缺点:

非正式人工评估

优势:

劣势:

原文链接:https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/basics.md

作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工评估 模型评估 系统化评估 非正式评估 数据标注
相关文章