IT之家 2024年10月31日
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 为了衡量语言模型的准确性,开源了一个名为 SimpleQA 的新基准,用于评估语言模型回答简短的事实性问题的能力。SimpleQA 旨在解决当前语言模型有时会产生错误输出或未经证实的答案,即“幻觉”问题。该基准拥有高正确性、多样性、前沿挑战性和高效用户体验等特点,通过简洁明了的问题和答案,可快速评估模型在事实准确性方面的表现。SimpleQA 的开源旨在推动 AI 研究的发展,提升模型的可信度和可靠性。

🤔 **高正确性:** SimpleQA 的参考答案由两名独立的 AI 训练师验证,确保评分的公正性。

📚 **多样性:** SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。

🔥 **前沿挑战性:** SimpleQA 比起早期的基准更具挑战性,尤其针对如 GPT-4 等前沿模型,例如 GPT-4 在 SimpleQA 上的得分不足 40%。

🚀 **高效用户体验:** SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。

📊 **低方差:** SimpleQA 包含 4326 道问题,在评估中应具有较低的方差。

IT之家 10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。

OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。

IT之家附有关地址:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI SimpleQA 语言模型 事实准确性 基准
相关文章