IT之家 2024年12月18日
谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind团队发布FACTS Grounding基准测试,旨在评估大型语言模型(LLMs)基于给定材料的作答准确性,并减少“幻觉”现象。该数据集包含1719个示例,覆盖金融、科技等领域,每个示例含文档、系统指令和提示词。评估过程使用Gemini 1.5 Pro等模型作为评委,衡量答案的充分性、事实准确性和文档支持性。该基准测试分为公共和私有数据集,以防止作弊。谷歌的Gemini模型在事实准确性方面表现突出,此举有望提升LLMs的可靠性和应用范围。

📊 FACTS Grounding基准测试旨在评估大型语言模型(LLMs)在回答问题时,是否能准确基于给定材料,避免捏造信息(即“幻觉”),从而提升LLMs的事实准确性。

📚 该数据集包含1719个示例,涵盖金融、科技、零售、医疗和法律等多个领域。每个示例包括一篇文档、一条要求LLM基于文档的系统指令和随附的提示词,文档长度最长可达32000个token。

⚖️ 评估方案采用Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款模型作为评委,评估答案的充分性、事实准确性和文档支持性,通过两阶段评估,计算模型在所有示例上的平均得分。

🥇 在FACTS Grounding基准测试中,谷歌的Gemini模型在事实准确的文本生成方面取得了最高分,表明其在处理事实性任务上具有较高水平。

IT之家 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集

在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

评估方案

在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FACTS Grounding 大型语言模型 事实准确性 Gemini DeepMind
相关文章