即使是最好的AI也无法超越这一新基准得分甚至不到10%

Cnbeta 01月24日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

人工智能安全中心和Scale AI公司联合推出名为“人类最后的考试”的新基准，旨在评估前沿人工智能系统的推理和知识能力。该基准包含数千个涵盖数学、人文科学和自然科学等学科的众包问题，难度极高。初步研究显示，即使是顶尖的公开人工智能系统在该测试中的得分也低于10%。此举旨在解决现有基准的“饱和”问题，避免模型在现有测试中取得高分却无法处理新问题。该基准将向研究界开放，以促进人工智能的进一步发展。

🎯“人类最后的考试”是一项新的AI基准，由人工智能安全中心(CAIS)和Scale AI公司联合发布，用于评估前沿人工智能系统的能力。

📚 该基准包含数千个众包问题，涵盖数学、人文科学和自然科学等多个学科，旨在测试AI系统在广泛领域的专家级推理和知识水平。

📉 初步研究表明，即使是顶尖的公开AI系统，在该基准测试中的得分也低于10%，这突显了现有AI在处理复杂问题和推理方面的局限性。

⚙️ 该基准的推出旨在解决“基准饱和”问题，即模型在现有测试中表现出色，但无法处理新问题，这降低了基准作为未来模型进展精确测量的效用。

🌍 CAIS和Scale AI计划向研究界开放此基准，以便研究人员能够深入研究并评估新的人工智能模型。

非营利组织人工智能安全中心（CAIS）和提供数据标注和人工智能开发服务的 Scale AI 公司发布了一项具有挑战性的新基准，用于前沿人工智能系统。

该基准名为"人类最后的考试"（Humanity's Last Exam），包含数千个众包问题，涉及数学、人文科学和自然科学等学科。

在一项初步研究中，甚至没有一个公开的旗舰人工智能系统能在 "人类最后的考试 "中获得超过10%的分数。

这项新基准被称为 "人类最后的考试"，它评估了人工智能系统是否已经在数学、人文科学和自然科学等广泛领域实现了世界级的专家级推理和知识能力。整个秋季，CAIS 和 Scale AI 从专家那里收集了大量问题，汇集成最难、最广泛的问题，以难倒人工智能模型。开发该考试是为了应对"基准饱和"的挑战：模型经常在现有测试中取得接近满分的成绩，但可能无法回答这些测试以外的问题。基准饱和降低了基准作为未来模型进展精确测量的效用。

CAIS联合创始人兼执行董事丹-亨德里克斯（Dan Hendrycks）说："我们希望找到能够测试模型在人类知识和推理前沿能力的问题。我们无法预测模型的发展速度。当我在 2021 年发布 MATH 基准--一个具有挑战性的竞赛数学数据集时，最好的模型得分还不到 10%；很少有人预测，仅仅三年之后，得分就会超过 90%。现在，'人类最后的考试'表明，模型仍然无法回答一些专家封闭式问题。"

CAIS 和 Scale AI 表示，他们计划向研究界开放该基准，以便研究人员能够 "深入挖掘变化 "并评估新的人工智能模型。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签