AI & Big Data 03月25日 16:52
新一代基準測試ARC-AGI-2登場,挑戰AI的推理效率與通用能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ARC Prize基金会发布了通用人工智能基准测试ARC-AGI的第二版ARC-AGI-2。新版本提高了测试难度,旨在评估人工智能在未知情境下的即时推理能力和学习效率。与前代相比,ARC-AGI-2更侧重于考察模型对隐式逻辑规则和语义变化的理解。测试结果显示,现有主流模型在未经过专门训练的情况下,难以通过该测试。同时,ARC-AGI-2也加入了效率评估指标,强调了人工智能解决问题的成本效益,突显了解决问题效率的重要性。

🧠 ARC-AGI-2是ARC Prize基金会推出的通用人工智能基准测试的第二版,旨在评估人工智能在未知情境中的即时推理能力和学习效率,并促进对高效通用系统的研究。

🧐 ARC-AGI-2的测试题目设计对人类解题者相对容易,但对人工智能系统极具挑战性,排除了纯记忆或拟合的可能性,需要模型具备基本流体智力才能通过测试。

🤔 ARC团队总结了人工智能目前面临的三项主要困难:符号诠释、组合推理和情境式规则应用。现有模型难以理解符号背后的语义逻辑,在处理多组规则或规则相互影响时容易出错,且倾向于对表面模式过度拟合。

💰 ARC-AGI-2正式纳入效率评估指标,将解题成本列为与通过率同等重要的衡量面向。测试结果显示,人工智能解决问题的成本远高于人类,突显了解决问题效率的重要性。

由ARC Prize基金會主導,通用人工智慧基準測試ARC-AGI釋出第二版本。ARC-AGI-2相較於前一版進一步提高難度,設計仍維持對人類解題者相對容易,但對人工智慧系統極具挑戰性的特性,目的在於評估人工智慧,在未知情境中的即時推理能力與學習效率,並促進對高效通用系統的研究。

ARC-AGI系列起始於2019年,最初版本ARC-AGI-1即已針對深度學習模型容易依賴記憶與模式擷取的弱點設計題目,要求系統從訓練資料學習需要先具備的核心知識,並在評測資料集中應用這些知識於未見過的新題目。此種設計排除了純記憶或擬合的可能,需具備基本流動智力(Fluid Intelligence)才能通過測驗。

ARC-AGI-2所有測試任務均由超過400名一般參與者的控制實驗,確認至少兩位受試者能在兩次以內完成,這與人工智慧系統的評測條件一致,即每題最多兩次作答機會。官方指出,純粹基於大語言模型的系統如GPT-4.5,在ARC-AGI-2的公用測試集表現為0%通過率,顯示現行主流模型在沒有事先訓練的情況下,無法對這類具有隱含邏輯規則與語意變化的任務做出正確的反應。

ARC團隊根據測試結果,歸納出人工智慧目前的三項明顯困難,首先,符號詮釋方面,人工智慧系統能辨識圖形對稱與圖像變化,但無法理解符號背後的語意或邏輯功能;其次,在組合推理(Compositional Reasoning)上,當題目需要同時套用多組規則或這些規則彼此影響時,現行模型容易出錯;第三,情境式規則應用也是困難點,模型傾向於對表面模式過度擬合,而缺乏根據上下文靈活調整規則運用的能力。

目前先進模型在ARC-AGI-1與ARC-AGI-2之間的表現差異,清楚呈現出模型在處理更高層次推理任務時的不足。以OpenAI的o3-low系統為例,在ARC-AGI-1中可達75.7%的通過率,但在ARC-AGI-2中的得分僅剩約4%,而GPT-4.5等純語言模型在新版本更是完全無法作答成功。

ARC-AGI-2也正式納入效率評估指標,將解題成本列為與通過率同等重要的衡量面向。根據官方資料,人類解題成本約為每題17美元,而OpenAI o3系列系統需花費約200美元以上資源才能完成極少量題目,突顯出解得出來與解得有效率之間的落差,也是ARC-AGI-2試圖呈現的核心問題。ARC團隊強調,真正的智慧不應僅止於問題能否解決,而是能否以近似人類的資源使用效率快速做出正確判斷。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ARC-AGI-2 通用人工智能 基准测试 人工智能推理
相关文章