“反击”马斯克，奥特曼说OpenAI有“好得多”的自动驾驶技术

文 | 赛博汽车

OpenAI的CEO山姆·奥特曼和特斯拉CEO马斯克的矛盾，已经是硅谷热门的八卦。

两人都是OpenAI的联合创始人，但是奥特曼将OpenAI转向商业化运营之后，马斯克指责其背离初心，并起诉他违背创始协议。另外，马斯克还成立xAI，和OpenAI直接竞争。

奥特曼也奋起反击，公布邮件显示，马斯克试图掌控OpenAI，遭到拒绝后才不断阻挠。

奥特曼可能还酝酿了一个“以其之道还施彼身”的反击举措，那就是研发自动驾驶，和特斯拉FSD竞争。

最近，奥特曼在做客了自己兄弟杰克·奥特曼的脱口秀，不知是否和兄弟聊天说漏了嘴。

他说：

我想我们有一些新技术，可以为普通汽车提供自动驾驶，而且比当前技术要好得多。
I think we have some new technology that could just do self-driving for standard cars way better than any current approach has worked.

这里说比“当前技术”“好得多”，当然也包括马斯克的FSD。

不过，奥特曼并没有详细介绍这一技术和推进的时间表。只是说：

如果我们的人工智能技术真能驾驭汽车，那还是很酷的。
If our AI techniques can like really go drive a car that's still pretty cool.

根据纽约时报旗下DealBook的消息，该技术尚处于早期阶段，商业化也还要很远。

据其分析，这一技术涉及 OpenAI的Sora视频软件及其机器人团队，但OpenAI 发言人没有置评。

此前，OpenAI并没有直接探索自动驾驶业务，只是通过投资布局了一些自动驾驶、汽车智能化的公司。

当然，作为AI应用中最被看好的一个场景，自动驾驶拥有广阔前景，也吸引了巨大关注。OpenAI如果真有绝招，是绝对不会放弃如此巨大的市场的。

如此看来，奥特曼和马斯克以后大概率会吵得更凶。

什么绝招？

奥特曼上下嘴唇一碰，大家就要相信，OpenAI真有“好得多”的自动驾驶技术吗？

毕竟当前自动驾驶也是强手如林，谷歌旗下Waymo、特斯拉、Moblieye、高通、博世、还有一大批来自中国的企业，都已经探索很久了。

OpenAI可能的技术路径是什么呢？

大家可能都会回想起2024年初，OpenAI发布了Sora——文本生成视频模型。

Sora生成的视频

Sora可以根据用户输入的文本，快速制作长达一分钟的高保真视频，还能获取现有的静态图像并从中生成视频。

Sora生成的视频一下子惊艳了世人，因为这一模型能够理解复杂场景中不同元素之间的物理属性及其关系，掌握物体在物理世界中的存在和运动方式，从而生成足以以假乱真的视频。

几乎在Sora一发布，自动驾驶、智能驾驶业界就讨论说，可将Sora用于自动驾驶的模拟和训练，生成合成视频数据，尤其是一些极限场景Corner Case，以弥补现实数据不足或成本高的问题。

然而，也有专业人士迅速指出，Sora生成的画面，并不完全符合物理原理，也可能难以捕捉驾驶动态，如刹车或转弯的物理行为。因此，并不能用来作为智驾模型训练的视频数据。

不过，后来很多的研究者和从业者认为，符合物理原理的仿真，还是能够为数据训练提供数据的。或者，也可以用于强化训练模型。

近来，自动驾驶业界热衷于搭建“世界模型”来作为自动驾驶模型的基座模型。而OpenAI一开始，就将Sora定义为可以生成视频的世界模型。

像蔚来、小鹏等开发的世界模型，逻辑是让AI系统创建心理上的世界地图，以理解世界的运作方式，就像人类对世界的理解一样，然后在此基础上去驾驶车辆。

Sora的部分理念与世界模型模拟真实世界的目标有一定的契合度。

另外，当前自动驾驶开发的主流理念，都是“大数据-大模型-大算力”打法。OpenAI没有驾驶数据，要想给出更好的自动驾驶技术，大算力没问题，大模型也可以有，大数据则是无源之水——如果能靠仿真生成，至少逻辑上说得通。但不少专家认为，依赖仿真数据存在巨大风险。

OpenAI的汽车智能化业务

OpenAI自己没搞过自动驾驶，也没有过做过智能座舱，但是通过其投资，也有所设计。

2023 年OpenAI 向Ghost Autonomy投资500万美元。这家自动驾驶公司还同时获得了微软的算力支持，也曾尝试将AI语言模型应用于自动驾驶。但是，它在2024年就倒闭了。

Ghost Autonomy的自动驾驶车辆

2025年6月10日，OpenAI和汽车智能化公司Applied Intuition达成合作。双方合作聚焦于把最新AI技术发展成果融入现代汽车，使其转型为智能伙伴。

官方通告说，通过将大语言模型驱动的语音助手和智能体引入车内，下一代汽车将成为具备深度个性化体验的生产力工具。

通告还说，合作的核心目标之一是实现移动设备与私人车辆智能系统的无缝连接。此外，Applied Intuition 还将在多个部门部署 ChatGPT，助力员工提升工作效率、优化策略规划，以更高效地实现公司目标。

从这些描述来看，合作更偏向于智能座舱的人机交互方面，而不是直接应用于自动驾驶。

从语言模型到多模态模型、世界模型

业界曾有观点认为，依托大语言模型的快速进步，自动驾驶一类的空间智能可能很快实现。但是，如今的AI大牛们，都认为，光靠语言模型，是不够的。

OpenAI虽然以大语言模型震惊世人，仍以大型语言模型（LLM）为核心，但已逐步向多模态模型和世界模型领域延伸。

奥特曼也曾经表示，世界模型需具备“理解物理因果关系、预测事件发展” 的能力，这与 LLM 的推理能力结合，可能推动AGI（通用人工智能）突破。

不仅仅是OpenAI这么判断。包括人工智能教母李飞飞、Meta首席人工智能（AI）科学家Yann LeCun（杨立昆）都有类似观点。

杨立昆就说，当前AI虽在多个领域展现惊人能力，其仍缺乏理解物理世界、持久记忆、逻辑推理与分层规划四大人类智能核心特征。

而没有这些能力的AI，是不可能驾驶汽车的。

解决方案，众人所指，都是世界模型。

杨立昆在Meta开源世界模型V-JEPA 2是说，在世界模型的帮助下，AI不再需要数百万次的训练才能掌握一项新的能力，世界模型直接告诉了AI世界是怎样运行的，这可以极大提升效率。

听起来，有点奥特曼没说出来的自动驾驶“大招”的影子。

实践层面，AI时代“卖铲子”的英伟达已经递上新“铲子”。

在CES 2025上，英伟达CEO黄仁勋说，“机器人的 ChatGPT 时刻即将到来。与大语言模型类似，世界基础模型（World Model）对推动机器人和自动驾驶汽车的开发至关重要。”

英伟达发布的Cosmos 世界基础模型，就是专为物理交互、工业环境和驾驶环境的高质量生成而构建，具备生成逼真视频、创建合成训练数据等能力，帮助机器人和汽车更好地理解物理世界。

英伟达Cosmos世界模型示意图

意思是，Cosmos 世界基础模型比起Sora来，是不是仿真，本来就是“真”。

对此，OpenAI肯定已经着手推进，将自己的AI版图扩展到空间智能上。

其实，OpenAI很早就有机器人团队，但2021 年解散了。2024年，机器人团队重新组建，并在 2025 年进一步扩大，并招聘不少硬件机器人相关职位。

此外，OpenAI还与机器人初创公司 Figure 建立了合作关系，为其人形机器人提供 AI 模型支持。

人形机器人的基础模型和自动驾驶非常接近。在探索世界模型的过程中，OpenAI如果有所突破，并将其应用于自动驾驶，是顺理成章的。毕竟，自动驾驶市场是毫无疑问的万亿美元级市场。

奥特曼即便做不成自动驾驶，在马斯克自以为傲的领域阻击一下他，也算是报一箭之仇啊。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

什么绝招？

OpenAI的汽车智能化业务

从语言模型到多模态模型、世界模型

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签