IT之家 01月24日
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能安全中心与Scale AI联合推出“人类终极考试”,旨在评估前沿AI系统的综合能力。该测试由来自50个国家/地区、500多个机构的近1000名学科专家出题,涵盖数学、人文学科和自然科学等多个领域。题目形式多样,包括图表和图像的复杂题型,旨在全面考察AI系统在跨学科知识和多模态信息处理方面的能力。初步研究显示,所有公开可用的旗舰AI系统在该测试中的准确率均未超过10%,揭示了当前AI在复杂问题处理上的短板。该测试将向研究社区开放,以促进AI模型的深入研究。

🌍 “人类终极考试”由全球近千名专家出题,覆盖多学科领域,旨在全面评估AI能力。

🖼️ 测试题目形式多样,包含图文结合的复杂题型,考察AI多模态信息处理能力。

📉 初步测试结果显示,现有AI系统准确率均未超过10%,凸显其在处理复杂问题上的不足。

IT之家 1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。

据IT之家了解,该基准测试包含来自 50 个国家 / 地区 500 多个机构的近 1,000 名学科专家撰稿人提出问题,这些专家主要由教授、研究人员和研究生学位持有者组成,涵盖数学、人文学科和自然科学等多个领域。为增加测试的挑战性,题目形式多样,包括结合图表和图像的复杂题型。这种设计旨在全面考察 AI 系统在跨学科知识和多模态信息处理方面的能力。

在初步研究中,所有公开可用的旗舰 AI 系统在该测试中的回答准确率均未超过 10%。这一结果表明,尽管当前 AI 技术在特定领域已取得显著进展,但在应对复杂、综合性的问题时仍存在明显短板。

CAIS 和 Scale AI 表示,他们计划将这一基准测试向研究社区开放,以便研究人员能够“深入挖掘差异”并评估新开发的 AI 模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 基准测试 AI能力评估
相关文章