智源社区 05月30日 19:23
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了由自动驾驶领域两位资深人士创立的Odyssey公司,该公司致力于世界模型的研发。Odyssey能够以极快的速度(40毫秒/帧)生成视频,并支持用户实时交互,无需高端显卡。该公司已获得2700万美元融资,并已开放免费试用。文章深入探讨了世界模型与视频模型的区别,以及Odyssey在技术上的创新,包括窄分布模型。此外,文章还提及了世界模型在自动驾驶领域的应用前景,以及特斯拉等公司在该领域的布局。

🚀 Odyssey的核心在于构建世界模型,区别于传统的视频模型。世界模型能够根据当前状态和用户动作预测未来状态,从而实现实时交互,这使其更适合于交互式视频应用。

💡 Odyssey采用了窄分布模型,该模型在广泛的视频数据上进行预训练,然后在特定地点的密集视频数据上进行后训练,以提高模型的稳定性和自回归生成的持久性,从而解决世界模型在实时交互中可能出现的不稳定性问题。

💻 Odyssey目前已发布预览版,支持每秒30帧的视频生成速度,并可通过H100 GPU集群提供算力支持。虽然目前仍处于早期阶段,但其潜力已获得用户认可,且未来随着算力提升,视频传输速度还将进一步提高。

💰 Odyssey的两位创始人均来自自动驾驶领域,拥有深厚的行业背景。他们的经验为构建世界模型提供了独特的视角,并吸引了包括谷歌GV和皮克斯创始人等知名机构和人士的投资。

李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果!

无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。

40毫秒/帧啥概念?

人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。

而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。

就像是在探索一个平行宇宙的感觉~

而除了产品迅速引人关注,更值得说道的还是其背后研发公司。

两位联合创始人Oliver CameronJeff Hawke均在自动驾驶领域有着深厚从业背景,虽然公司成立不到2年,但一亮相就获得了资本青睐。

迄今为止,Odyssey已从EQT Ventures、谷歌GV和Air Street Capital等投资机构筹集了2700万美元(约合人民币1.9亿),皮克斯创始人/图灵奖得主Ed Catmull还是其董事会成员。

目前Odyssey发布即免费可用,网友们已经第一时间涌入服务器(官网始终显示排队中)

那么,新玩家Odyssey究竟有哪些亮点呢?

世界模型≠视频模型

一上来,Odyssey就在最新官方博客中解释:世界模型≠视频模型

他们认为,乍一看世界模型好像是视频生成模型的完美应用,但后者的架构、参数和数据集实际上并不适用于前者。

为此他们还提供了一个对比表格:

背后所反映的,其实是二者工作原理的不同。

视频模型通过构建结构化嵌入一次性生成固定帧,适合视频剪辑(中间无需更改)但不适合交互;

而世界模型则能够根据当前状态和用户动作灵活预测下一个状态,支持实时交互,这对于交互式视频至关重要。

以上差异也代表着世界模型的不同发展阶段。

早期阶段,大多数关于世界模型的研究主要集中在:从类似《我的世界》、《雷神之锤》这样的游戏中学习像素和动作。

由于局限于游戏范围内,这为世界模型可能实现的功能划定了一个“已知低上限”。

而Odyssey相信:

从几十年的真实生活视频中学习像素和动作有望提升这一上限。

由于真实世界的视频具有更丰富的视觉信息,以及全方位/不受限制的动作类型,因此世界模型能超越传统游戏逻辑,提升模型的上限。

不过Odyssey也承认,从开放式真实视频中学习相当困难,比如视频内容嘈杂多样、动作连续且不可预测等等。

他们表示,与语言、图像或视频模型相比,世界模型目前还处于起步阶段

当中最大的挑战是自回归建模,即根据先前状态预测未来状态。由于模型生成的输出会反馈到模型的上下文中,因此会影响后续的预测。

在语言模型中,由于状态空间相对有限,这种反馈问题不大。但在世界模型中,状态空间要复杂得多,这可能导致模型的不稳定性,因为模型可能会偏离其训练数据的分布范围。

尤其对于实时模型来说,这种不稳定性更为明显,因为它们在处理复杂的潜在动态时能力较弱。

针对上述问题,Odyssey开发了一种窄分布模型(narrow distribution model)。

这种模型首先在广泛的视频数据上进行预训练,然后在特定地点的密集视频数据上进行后训练。这种后训练方法虽然会牺牲一些模型的通用性,但可以提高模型的稳定性和自回归生成的持久性。

与此同时,为了提高模型的泛化能力,Odyssey爆料他们正在开发下一代世界模型。

虽然Odyssey自称当前这个还只是早期预览版,“可能相对粗糙”,但网友的第一波实测已经证明了其潜力。

提供实测的网友表示,对任何想要体验的人来说,这很酷!

而且,随着更大规模的算力集群支持,Odyssey的视频传输速度还会提升。

据悉,预览版当前由美国和欧盟的H100 GPU集群提供算力支持,传输速度为30 FPS,能输出5分钟甚至更长时间的连贯视频。

30 FPS啥概念?

游戏中这一配置仍处于入门阶段,属于相对能“流畅运行”的范畴,一些3A大作可能要求会更高。

不过,鉴于用户当前能免费体验(官方称每小时体验成本为1~2美元),还要啥自行车(doge)。

由两位自动驾驶大牛创立

Odyssey成立于2023年,他们创建之初就铁了心要做世界模型。

这不仅是因为他们将世界模型作为下一个AI前沿,更在于团队的“自动驾驶血统”在这方面拥有天然优势。

Odyssey官方博客中曾经写道:

事实上,我们90%以上的技术人员的大部分职业生涯都是在Cruise、Wayve、Waymo和特斯拉等公司从事自动驾驶汽车的开发工作。这种经历让我们对构建世界的模型的问题有了独特的见解。

联创兼CEO Oliver Cameron,十几年职业生涯都奉献给了自动驾驶。

    2013~2017年,任Udacity实验室(脱胎于斯坦福)产品与工程副总裁,领导200余人合力打造了一辆开源自动驾驶汽车;
    2017~2021年,联合创办了明星自动驾驶公司Voyage,该公司后被通用旗下的自动驾驶子公司Cruise收购;
    2021~2023年,跟随Voyage加入Cruise任产品副总裁。
    2023年至今,从自动驾驶转投世界模型。

而且,至今他还是无人驾驶飞行器Skyways的董事会成员。

联创兼CTO Jeff Hawke,创办Odyssey前在另一家明星自动驾驶公司Wayve干了5年。

任职Wayve技术副总裁时期,带领团队打造了业界首个用于公共道路自动驾驶汽车的学习型驾驶员系统,即利用深度学习和计算机视觉进行驾驶学习。

而在Wayve之前,他的研究更多和“机器人”挂钩。

从2008年到2017年,什么叉车机器人、医疗机器人等,通通都研究了个遍,后来还去了牛津机器人研究所读博。

以上二位这次也亲自参与了打造Odyssey预览版,其余技术人员的名单如下:

最后,除了Odyssey这家公司,目前已经有超过10家车企和自动驾驶公司提出了世界模型的概念,其中包括特斯拉、蔚来、理想、地平线、商汤、元戎启行、Momenta等。

可以预见,仍处于起步阶段的世界模型,或许就是下一个兵家必争之地。

而且自动驾驶车企,已经成为孕育世界模型的天然温床。

那么,你看好这家公司吗?

在线体验:
https://experience.odyssey.world/

参考链接:
[1]https://x.com/olivercameron/status/1927765618574385664
[2]https://x.com/odysseyml/status/1927767196756853179
[3]https://x.com/koltregaskes/status/1927779284615110829
[4]https://odyssey.world/introducing-interactive-video

—  —

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~


一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Odyssey 世界模型 AI 自动驾驶
相关文章