编辑:编辑部 HXZ

OpenAI o1,在IQ测试中拿到了第一名!
大佬Maxim Lott,给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试,结果表明,o1稳居第一名。
紧随其后的,就是Claude-3 Opus和Bing Copilot,分别取得了第二名和第三名。
注意,这套智商测试题,属于门萨会员的离线智商测试,不在任何AI训练数据中,因此结果非常具有参考性。
著名数学家陶哲轩也对o1进行了实测,发现自己向模型提出一个措辞模糊的数学问题后,它竟然能成功识别出克莱姆定理。
更巧的是,就在o1发布之后,OpenAI的研究副总裁Mark Chen发表观点称:如今的大型神经网络,可能已经具有足够的算力,在测试中表现出一些意识了。
相信AI具有意识的行业领导者,如今已经有了一串长长的名单,包括但不限于——

    Geoffrey Hinton(人工智能教父,被引用次数最多的AI科学家)

    Ilya Sutskever(被引次数第三多的AI科学家)

    Andrej Karpathy

如今,业内许多人都相信AI具有意识,而且正在等待「奥弗顿之窗」进一步打开,从而使公众愿意接受这一点。
甚至有人预言:在2024/2025年,AI一定会具有意识,因为如今模型的行为已经明显表现出感知能力了。
有网友发现,o1不仅是对经验性的STEM学科很强,它甚至能够假设出一种全新的意识理论。
有人觉得,o1向无限推理模型迈出的一小步,已经具备意识的雏形。

陶哲轩:o1竟能识别出克莱姆定理


而在实测中,陶哲轩发现:o1模型在数学方面的的性能更强了!
首先,他提出了一个措辞模糊的数学问题,如果能搜索文献并找到合适的定理,即克莱姆定理(Cramer's theorem),就可以解决这个问题。
之前的实验中,GPT能够提到一些相关概念,但细节都是胡编乱造的无意义内容。
而这一次,o1成功识别出了克莱姆定理,并给出了令人满意的答案。

完整回答:https://shorturl.at/wwRu2

在下面这个例子中,提出的问题是更有挑战性的复变函数分析,结果同样好于之前的GPT系列模型。
在有大量提示词和引导的情况下,o1能输出正确且表述良好的解决方案,但不足之处在于无法自行产生关键的概念性想法,而且犯了明显错误。
陶哲轩形容,这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,GPT给人的感觉则是一个完全无法胜任工作的学生。
可能只需要经过一两次迭代,再加上其他工具的集成,比如计算机代数包和证明辅助工具,就能让o1模型蜕变为「称职的研究生」,届时这个模型将在研究任务中发挥重要作用。

完整回答:https://shorturl.at/ZrJyK

上下滑动查看

上下滑动查看

上下滑动查看
第三个实验中,陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理,需要先将其分解为子引理并给出形式化表述,但不需要给出证明。
定理的内容,具体来说,是将素数定理的一种形式建立为另一种形式的推论。
实验结果也很不错,因为模型理解了这个任务,并对问题进行了合理的初步分解。
然而,可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据,生成的代码中也有几处错误。
尽管仍有缺陷,但这次实验结果已经能让人预见到o1在数学研究中的实际应用。
类似的模型如果针对Lean和Mathlib进行微调,并集成到集成开发环境(IDE)中,在形式化项目中将会发挥极大的作用。
在之前的多次演讲中,陶哲轩曾反复强调过AI工具在定理形式化中的应用,看来大神的预言又会成真了。

完整回答:https://shorturl.at/OGtjt

计算机教授用动画揭秘:o1如何花更多时间思考?

    OpenAI o1的命名代表了AI能力的新水平;计数器重置为1

    「Preview」表示这是完整模型的早期版本

    「Mini」意味着这是o1模型的较小版本,针对速度进行了优化

    「o」代表OpenAI

    o1不是一个「系统」;它是一个经过训练的模型,在返回最终答案之前生成长思维链

    o1的图标象征性地表示为一个具有非凡能力的外星生命
    o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户
    o1-preview是o1模型的早期检查点,既不大也不小
    o1-mini在STEM任务中表现更好,但世界知识有限
    相比o1-preview,o1-mini在某些任务中表现出色,尤其是与代码相关的
    o1的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer)

    o1-mini能够探索比o1-preview更多的思维链

    o1模型即将支持更大的输入上下文
    o1模型可以处理更长、更开放式的任务,与GPT-4o相比,减少了对输入分块的需求
    o1可以在提供答案之前生成长思维链,这与之前的模型不同

    目前还没有办法在思维链推理过程中暂停以添加更多上下文,但正在为未来的模型探索这一功能

    o1-preview目前还不能使用工具,但计划支持函数调用、代码解释器和浏览功能
    工具支持、结构化输出和系统提示将在未来更新中添加
    用户可能会在未来版本中获得对思考时间和token限制的控制权
    计划在API中启用流式处理并考虑推理进度

    多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能

    o1会在推理过程中生成隐藏的思维链
    没有计划向API用户或ChatGPT透露思维链token
    思维链token被总结,但不保证忠实于实际推理过程
    提示词中的指令可以影响模型如何思考问题
    强化学习(RL)被用来改善o1中的思维链,仅依靠提示的GPT-4o在性能上无法匹敌

    思考阶段看起来较慢是因为它总结了思考过程,而答案的生成通常更快

    o1-mini对ChatGPT Plus用户有每周50次提示的限制
    在ChatGPT中,所有提示词的计数是相同的
    随着时间的推移,将推出更多API访问层级和更高的使用限制

    API中的提示缓存是一个很受欢迎的需求,但目前还没有时间表

    o1模型的定价预计将遵循每1-2年降价的趋势
    一旦使用限制提高,将支持批量API定价
    微调在路线图上,但目前还没有时间表
    o1的扩展受到研究和工程人才的限制
    推理计算的新扩展范式可能会为未来几代模型带来显著收益

    反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)

    o1使用强化学习进行训练从而实现推理能力
    o1在诗歌等横向任务中展现出了创造性思维和强大的性能
    o1的哲学推理和泛化能力,如破译密码,令人印象深刻
    研究人员使用o1创建了一个GitHub机器人,可以ping正确的CODEOWNERS进行审核
    在内部测试中,o1通过自问难题来衡量其能力
    正在添加广泛的世界领域知识,并将在未来版本中改进

    计划在o1-mini的未来迭代中使用更新的数据(目前为2023年10月)

    o1受益于提供边缘案例或推理风格的提示
    与早期模型相比,o1对提示中的推理线索更敏感

    在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的块会对推理产生负面影响

    由于还处在早期测试阶段,o1-preview的使用限制较低,但之后会有所增加

    正在积极改进延迟和推理时间

    o1能够思考「生命是什么?」这类哲学问题
    研究人员发现o1在处理复杂任务和从有限指令中泛化的能力令人印象深刻

    o1的创造性推理能力,如自问自答以衡量其能力,展示了其高水平的问题解决能力

参考资料:

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523