当地时间12月4日,Google旗下人工智能企业DeepMind发布了大型基础世界模型Genie 2。该模型可以通过用户提供的一张图片和文字描述,生成一个720p清晰度、可交互的3D场景。用户在正常情况下可以使用键盘和鼠标操控,稳定地在其中自由探索10秒至20秒至多1分钟的时间。Genie 2拥有强大的可预测3D场景能力,即使生成的部分内容不在用户视野范围内,系统也能保持该区域内容整体的一致性。
DeepMind表示,游戏一直是Google研究的重心。该公司早期与Atari游戏进行合作,并发布了AlphaGo和AlphaStar等参与游戏竞技的人工智能程序,还与游戏开发者合作,研究通用智能体。同时,Google旗下的YouTube拥有时长达上亿小时的游戏视频数据。Google此前暗示过,其协议允许DeepMind使用YouTube内的视频进行模型训练,但这一行为因可能侵犯相关视频知识产权而引发讨论。截至目前,DeepMind并未过多透露数据来源及训练方法细节。
Genie 2发布后,DeepMind CEO戴密斯·哈萨比斯在社交媒体X上发布信息,邀请马斯克一起制作AI游戏。马斯克今年多次表现出对AI游戏制作的强烈兴趣,曾在10月发表将AI与游戏结合可能性的见解,还于11月底发文称其创立的xAI将成立AI游戏工作室。
尽管DeepMind宣称该模型将被用于游戏开发,但相关技术尚未成熟,并不具备可玩性。目前,Genie 2的官方定位仍然是用于互动体验原型制作及AI智能体评估的“研究与创新工具”。Google研究人员指出,以Genie 2为代表的大世界模型能够根据需求快速创建可人为操控的3D环境,这一技术拥有训练和评估具身智能体的发展前景,能够为具身智能相关研究提供丰富的虚拟训练数据。
世界模型研究有望成为人工智能领域的下一个重大突破,Google在该领域的投入也正在持续加大。两年前,DeepMind就已雇佣了蒂姆·罗克塔谢尔。他此前在Meta工作,因对电子游戏的开放性实验而闻名。去年10月,DeepMind还成功招募了曾负责OpenAI旗下视频生成器Sora开发工作的蒂姆·布鲁克斯,并任命其负责公司的视频生成技术和世界模拟器的研发。
依托人工智能技术进行3D世界模型制作的公司不止Google一家。Genie 2发布的前一天,著名计算机科学家、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞联合创办的空间智能初创企业World Labs在网络上公布了其研发的首个AI系统技术成果。与Genie 2相同,该软件也能只凭借用户提供的参考图和描述语句就生成可编辑、有景深效果、可交互的3D虚拟世界,且比Genie 2更加注重复现物理世界规律。World Labs将其发布的这项技术称为“迈向空间智能的第一步”。