智源社区 2024年11月03日
全球首款AI游戏诞生!无需游戏引擎,视频模型直出「我的世界」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Decart和Etched两家初创公司联合推出了世界上首个实时、可玩、可交互的世界模型——Oasis。Oasis基于AI模型,无需游戏引擎,仅通过键盘输入即可实时生成开放世界游戏,支持玩家移动、跳跃、拾取物品等操作。该模型经过数百万小时游戏视频训练,并开源了代码和500M参数版本的模型权重,用户可在网页端体验。虽然目前分辨率为360p,但未来在Etched的Sohu芯片上运行优化模型后可达到4K级别。Oasis的技术核心在于视频和交互,代表着AI生成视频模型的进一步发展,未来将广泛应用于游戏、教育和生成式内容等领域。该项目获得了红杉资本的2100万美元投资,并引发了业界对AI生成式交互体验新纪元的关注。

🤔**Oasis模型:AI驱动的实时交互式游戏** Oasis模型是由Decart和Etched两家初创公司共同开发,它是一个无需游戏引擎,仅通过键盘输入就能实时生成开放世界游戏的AI模型。Oasis经过了数百万小时游戏视频的训练,能够理解游戏规则和物理原理,允许玩家进行移动、跳跃、拾取物品、打破砖块等操作,并生成包含图形渲染和物理交互的视频内容。Oasis模型的架构基于Transformer,由ViT驱动的VAE和DiT驱动的扩散主干组成,利用Decart的推理引擎和Etched的Sohu芯片实现了实时视频生成,目前在H100上运行时能以360p的分辨率实现每秒20帧的渲染,并开源了代码和500M参数版本的模型权重,用户可以在网页端体验这款AI生成的开放世界游戏。Oasis模型的出现标志着AI生成游戏领域取得了重大突破,它不再依赖于传统的游戏引擎,而是利用AI模型直接生成游戏内容,为游戏开发带来了新的可能性。

🎮**Oasis的技术架构:ViT+DiT+Transformer** Oasis模型的架构采用了Transformer架构,并结合了ViT和DiT两种技术,分别负责对游戏信息进行整理和生成游戏内容。其中,ViT(Vision Transformer)作为VAE的一部分,负责对游戏画面进行识别和处理,将游戏中的各种信息进行加工整理,相当于工厂里的原材料整理车间。而DiT(Diffusion Transformer)则作为模型的主干,负责根据处理后的信息生成游戏内容,例如游戏场景、物体等,相当于工厂的核心生产线。Oasis模型还使用了加速过的轴向、时空和因果注意力机制来克服长序列中的模型发散问题,保证了模型的稳定性和效率。此外,Oasis模型采用了Diffusion Forcing进行训练,每次只生成一帧,并根据游戏输入在token级别调节每个帧,从而实现了对游戏内容的高可操纵性。Oasis模型的这种架构设计,使得它能够理解复杂的游戏机制,例如物体和建筑、照明的物理规律等,并生成符合物理规则的游戏内容。

💡**Sohu芯片:加速视频生成,降低成本** Etched公司开发的Sohu芯片是世界上第一个基于Transformer架构的ASIC芯片,专为LLM推理加速打造。与英伟达的GPU相比,Sohu芯片在Transformer模型推理方面具有显著优势,例如,在Llama 70B模型的推理性能方面,1张Sohu芯片的性能相当于20张H100或10张B200芯片。Sohu芯片的出现为视频生成模型的应用提供了新的解决方案,能够有效降低视频生成所需的算力和成本。视频生成模型的推理过程非常耗费算力,每个帧包含数百甚至数千个token,需要并行处理多次才能完全去噪,导致推理速度慢、成本高。而Sohu芯片的出现,则可以有效解决这一问题,为视频生成模型的实际应用提供了可能性。

💸**Decart公司:AI模型效率提升,降低成本** Decart公司成立于2023年9月,致力于提高AI模型的效率和降低运行成本,提供更快、更可靠的训练以及实时推理。Oasis模型的实时推理能力正是Decart公司技术实力的体现。Decart公司已经与一家GPU云服务商达成了数百万美元的交易,并获得了红杉资本2100万美元的投资,这表明了投资机构对Decart公司技术的认可。Decart公司联合创始人Moshe Shalev和Dean Leitersdorf表示,Oasis模型只是他们实时推理方面的热身实验,未来几个月将发布更具有颠覆性的成果。Decart公司在AI模型效率提升和成本降低方面的努力,为AI模型的广泛应用奠定了基础,也为Oasis模型的进一步发展提供了强有力的支持。

💰**红杉资本投资:看好AI生成式交互体验** 红杉资本对Oasis背后的初创公司Decart进行了2100万美元的投资,这表明了红杉资本对AI生成式交互体验的未来发展充满信心。红杉资本合伙人Shaun Maguire认为,Decart团队是「超精英的AI工程师」、「合作过的技术最有天赋的团队之一」,正在将生成式体验推向极致。Oasis模型的出现,标志着AI生成式交互体验进入了一个新的阶段,未来将有可能改变人们与数字世界互动的方式。红杉资本的投资,不仅为Oasis模型的进一步发展提供了资金支持,也为AI生成式交互体验的未来发展注入了新的活力。

编辑:乔杨 十二

现在,不用游戏引擎,AI就可以自动生成游戏了?

今天,两家初创公司Decart和Etched宣布,他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。

Oasis经过了数百万小时游戏视频的训练,仅接收用户的键盘输入即可实时生成开放世界游戏,但其中并不包含任何游戏引擎,只有一个AI基座模型。

游戏允许玩家进行移动、跳跃、拾取物品、打破砖块等操作,生成的视频内容中不仅包含图形学的渲染,也能体现出对物理原则和游戏规则的理解。

在没有任何延迟的情况下,Oasis在H100上运行时能以360p的分辨率实现每秒20帧的渲染,并实时生成视频交互内容。

此前,虽然谷歌已经发布了首个AI游戏引擎GameNGen,但并没有在发布论文后开源。

然而,此次两家初创联手研发的Oasis不仅开源了代码,还公开了500M参数版本的模型权重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main

此外,官网上已经放出了游戏demo,感兴趣的玩家从项目官网进入即可在网页端试玩,体会一下复刻Minecraft的画风。

项目网址:https://oasis.decart.ai/ 

虽然全AI生成是一大亮点,但在动辄4K HDR的的今天,360p的分辨率显得相当复古,可能对2024年的人类双眼不太友好。

幸好,如果在Etched打造的Sohu芯片上运行100B+参数的优化模型,就能达到4K级别的实时渲染,并发用户数量也将提升超过10x。

就在模型发布的今天,红杉资本也宣布以2100万美金投资Oasis背后的其中一家初创公司Decart。

虽然Oasis看起来是一个游戏,但事实上,真正的技术重点却是「视频」和「交互」。

OpenAI今年发布的Sora可以说是视频模型的「第一枪」。随着视频模型开始扩展,它们正在学习代表整个物理世界和游戏,从而赋能一个全新的产品类别。

从短视频社交媒体到视频通话,再到流媒体,目前超过70%的互联网流量来自视频;但另一方面,视频的数据密集程度相当高,AI生成视频所需的FLOPs比文本或图像多出10×。

因此,大部分人工智能推理工作负载将来自视频。无论是游戏、教育还是生成式内容,大型、低延迟、交互式的视频模型将成为下一波人工智能产品的核心。

Oasis是如何炼成的

之前谷歌推出的GameNGen本质上仍是一个由AI驱动的游戏引擎,但Oasis的底层机制并不是游戏引擎,而是单一的视频生成模型,相当于一个能交互、可玩的Sora。

那么,Oasis究竟是如何做到的?

根据博客介绍,技术团队进行了数百次架构和数据实验,以确定用于快速生成自回归交互式视频的最佳架构。

Oasis模型均基于Transformer架构,由基ViT的变分自动编码器(VAE)和基于DiT的潜在扩散主干组成,使用了加速过的轴向、时空和因果注意力机制来克服长序列中的模型发散(divergence)。

Oasis的ViT+DiT架构

你可以简单把它理解一个分工明确的工厂,各个组件各司其职。

VAE就像是工厂里负责整理和识别原材料(游戏里的各种信息)的车间,它基于ViT(Vision Transformer)架构,能够对看到的游戏画面的相关信息进行加工整理。

主干即工厂的核心生产线,基于DiT(Diffusion Transformer)架构,负责将加工处理好的信息产出游戏内容,比如游戏场景、物体等。

同时,利用Decart的推理引擎,结合Etched公司的Sohu(Transformer架构的ASIC)芯片,实现了实时视频生成。

这种架构选择保证了在Sohu芯片上的稳定扩展和快速推理,并且以自回归方式生成帧,能够根据游戏输入实时交互。

Sora这类模型根据用户输入的文本内容直出视频,但Oasis使用Diffusion Forcing进行训练,每次只生成一帧,根据游戏输入在token级别调节每个帧,因此可操纵性很高。

之所以能够被称为「世界模型」,是因为Oasis已经能够了解复杂的游戏机制,例如理解物体和建筑、照明的物理规律等等。

模型理解照明的物理原理

放置立方体砖块

不过,在生成游戏画面的时候,还有一个问题就是如何保证时间稳定性。因为在自回归模型中,一个画面出错了,后面可能就会越来越乱,如同多米诺骨牌一样。

解决这个问题需要长上下文生成方面的创新,Oasis的方案是部署动态噪声(dynamic noising)。

Decart团队也表示,未来将针对部分远处物体出现模糊、不确定对象的时间一致性等问题进行研究,逐步提升Oasis的游戏体验。

两家初创,强强联手

生成式交互体验新纪元这就来了吗?这两家初创公司又是什么来头?

据公开报道,Oasis模型是由Decart和Etched两家初创公司共同推出的。

Decart成立于2023年9月,一直致力于提高AI模型的效率和降低运行成本,提供更快、更可靠的训练以及实时推理,成立三个月后便与一家GPU云服务商达成了数百万美元的交易。

Decart联合创始人Moshe Shalev和Dean Leitersdorf

今天,红杉资本更是豪掷2100万美金对其进行了投资,合伙人Shaun Maguire更是大力称赞Decart的团队,认为他们是「超精英的AI工程师」、「合作过的技术最有天赋的团队之一」,正在将生成式体验推向极致。

目前推出的Oasis只是一个实时推理方面的热身实验,接下来的几个月,他们还将发布更具有颠覆性的成果。

另一家初创Etched是来自美国的人工智能芯片公司,成立于2022年,三位核心创始人均为哈佛辍学生。

他们最耀眼的成绩,就是推出了Sohu——世界上第一个基于Transformer架构的ASIC芯片,专为LLM推理加速打造,不仅快过Groq,也能碾压英伟达最新的B200。

以Llama 70B模型的推理性能为例,1张Sohu≈20张H100≈10张B200。

令人咂舌的性能背后,是Etched的一场豪赌般的权衡。

打造针对特定算法的AI芯片,将模型架构直接烧录到芯片的硬件结构中,这意味着无法运行其他模型,比如CNN、RNN或LSTM,但对Transformer来说,就能得到有史以来最快的芯片。

2022年,创始团队大胆预言——Transformer将占领世界,于是投入花了两年时间研发,得到了今天的Sohu。

Etched创始人之一Gavin Uberti表示,「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片,但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部...」

能高效推理的AI芯片,对于极耗算力的视频生成而言,可以说是类似于Scaling Law的福音。

虽然文生视频模型已经达到了很好的生成效果,但速度非常慢,成本也很高。

视频中的每个帧包含数百甚至数千个token,必须并行处理多次才能完全去噪。最好的模型平均每秒生成不到一帧,而且每个用户每分钟的费用可能高达1美元。

这种低效高成本的推理,不得不说是视频生成模型用于实际应用的一大障碍,而这正是Sohu芯片期望解决的问题。

今年6月,Etched宣布已经筹集了1.2亿美元的资金用于扩大生产,并与台积电合作,以35人的精干团队直接放话挑战市值3万亿的英伟达。

参考资料:
https://x.com/shaunmmaguire/status/1852092981022794128
https://www.decart.ai/articles/oasis-interactive-ai-video-game-model
https://www.etched.com/blog-posts/oasis



Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI游戏 Oasis 视频生成 Transformer Sohu芯片
相关文章