36kr 前天 20:11
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的金牌模型在IMO竞赛中虽在第6题失利,却展现了“高智商的诚实”。与以往“幻觉式”的错误答案不同,新一代大模型在缺乏有效证据时,能够主动表示“不确定”或“无法回答”,这标志着模型正从胡编乱造转向更可靠、具备“自我意识”的阶段。这种能力有助于模型在面对难题时避免生成看似合理实则错误的解决方案,为AI的进一步发展奠定坚实基础。该团队仅用两月便达成IMO金牌目标,体现了OpenAI对研究自主权和通用技术研发的重视。

💡 承认“不会”是大模型AI的重要进步:过去,AI模型常在知识盲区生成看似可信但错误的答案,迫使用户耗费精力去验证。而OpenAI的金牌模型在IMO竞赛中,即便投入大量计算资源也未得出答案,而是直接表示“无法回答”,这种“高智商的诚实”避免了幻觉陷阱,标志着模型正从“胡编乱造”转向更可靠的阶段。

🧠 模型展现“自我意识”:当AI模型能够主动承认自己不知道或不确定时,这代表着一种初步的“自我意识”。这种能力使得模型在面对复杂或超出其知识范围的问题时,能够坦诚地表达局限性,而不是冒险提供可能误导人的错误信息,这对于构建更值得信赖的AI系统至关重要。

🚀 快速攻克IMO金牌目标:OpenAI的IMO金牌小分队由Alex Wei、Sheryl Hsu和Noam Brown三位研究员组成,他们仅用了两个月的时间就实现了获得IMO金牌的目标。这得益于OpenAI对研究人员的高度自主权,以及团队专注于开发通用技术而非专门针对竞赛的策略。

🌐 OpenAI的研发理念:OpenAI团队强调优先发展通用技术,而非仅仅为特定竞赛优化模型。这种策略使得其AI模型具有更广泛的应用潜力,能够解决更普遍的问题,并推动AI技术整体的进步。Alex Wei曾参与开发了首个用于外交游戏的人类级人工智能CICERO,也体现了团队在通用AI领域的实力。

这一次,“不会”竟成了大模型的高光时刻。

虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。

正如OpenAI研究员Noam Brown在最新访谈中所揭示的:

当IMO推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。

在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex WeiSheryl HsuNoam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。

有网友帮忙总结了个太长不看版:

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。

三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。

IMO金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可IMO金牌模型的价值。

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。

IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。

有一个由2025×2025个单位正方形组成的网格。Matilda希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。

网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出Matilda需要放置的最少瓷砖数量。

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但Alex Wei表示:

能看到模型避免产生幻觉是很好的。

Noam Brown也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”

这代表模型开始具备“自我意识”。

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。

有趣的是,在Alex Wei 2024年刚加入OpenAI一周时,Noam Brown就曾问过他,团队何时能获得IMO金牌。

当时Alex Wei认为2025年不太可能实现。

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标——IMO金牌。

Noam Brown还表示:

OpenAI有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。

Alex还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。

OpenAI IMO金牌核心团队

OpenAI IMO核心团队仅由三名研究人员构成。

Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。

Alex还曾在谷歌、微软和Meta实习,后于2024年1月加入OpenAI,现任研究科学家。他曾是FAIR团队成员,参与开发了首个用于外交游戏的人类级人工智能——CICERO。

Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入OpenAI。

Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基·梅隆大学获硕士和博士学位。他曾任职于DeepMind和Meta,于2023年6月加入OpenAI。

参考链接:

[1]https://x.com/chatgpt21/status/1950606890758476264

[2]https://www.youtube.com/watch?v=EEIPtofVe2Q

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型AI IMO竞赛 OpenAI AI伦理 自我意识
相关文章