Hugging Face 03月01日
让 LLM 来评判 | 设计你自己的评估 prompt
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文总结了设计用于评估大型语言模型(LLM)的Prompt的关键原则和技巧。一个好的Prompt应具备精确、清晰、逻辑分明且格式明确的特点。文章详细介绍了如何通过清晰的任务描述、精细的评估标准、明确的输出格式以及一些“推理”评估步骤来优化Prompt。此外,还探讨了提升评估准确性的方法,如使用Few-shot示例、引用参考、思维链(CoT)以及多轮分析等。同时,也提到了通过引入奖励机制或参考社会学中的问卷设计来减少模型偏见。

🎯**任务描述清晰**: Prompt需要明确指出LLM的任务是什么(Your task is to do X)以及将提供什么信息(You will be provided with Y)。

⚖️**评估标准精细**: 详细的评分细则至关重要,例如,明确属性Z的评分范围(1-5分)以及每个分值的具体含义,或者说明属性Z存在的条件。

🔗**加入“推理”评估步骤**: 在评估任务之前,要求模型先仔细阅读样本,识别关键信息,并进行必要的推理,以提高评估的准确性。

📝**输出格式明确**: 为了提高一致性,Prompt应明确输出格式,例如使用JSON格式,并包含特定的字段(如“Score”和“Reasoning”)。

原创 Hugging Face 2025-02-26 10:30 广东

良好的 prompt 应该是精确、清晰、逻辑分明且格式明确的

这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:

通用 prompt 设计建议

我总结的互联网上通用 prompt 的通用设计原则如下:

Prompt 书写灵感可以参考MixEvalMTBench的 prompt 模板。

其他要点:

提升评估准确性

可以通过以下方式或技术来提升评估准确性 (有可能会增加成本):

注:如要减少模型偏见,可以参考社会学中的问卷设计,然后根据使用场景来书写 prompt。如想使用模型来替代人工评估,可以设计类似的评价指标:如计算标注员一致性,使用正确的问卷方法来减少偏见等。

不过在实际应用中,大多数人并不需要完全可复现且高质量无偏的评估,快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果,这种情况也是能接受的)。


英文原文:https://raw.githubusercontent.com/huggingface/evaluation-guidebook/refs/heads/main/translations/zh/contents/model-as-a-judge/designing-your-evaluation-prompt.md

原文作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM评估 Prompt设计 AI评估
相关文章