原创 集智编辑部 2025-02-28 17:46 上海
WHAM的突破不仅在于技术层面,更在于以用户需求驱动模型设计的范式转变。
摘要
生成性人工智能(AI)有潜力通过支持人类创意构思,即新想法的生成,来改变创意产业。然而,模型能力的局限性带来了将这些技术更全面融入创意实践中的关键挑战。迭代调整和发散性思维仍然是通过技术支持创意的关键,但这些实践在现有的生成性AI模型中得不到充分支持。以游戏开发为视角,我们展示了如何利用对用户需求的理解,推动生成性AI模型的开发和评估,以与这些创意实践保持一致。具体而言,我们介绍了一种先进的生成性模型——世界与人类行为模型(WHAM),并展示了它能够生成一致且多样化的游戏序列,并保留用户的修改,这三项能力被我们认为是确保这种一致性的关键。与以往那些需要手动定义或提取结构的创意支持工具不同,生成性AI模型可以从现有数据中学习相关结构,开启了更广泛应用的潜力。
研究领域:生成式人工智能,游戏开发,WHAM模型,一致性,多样性,持久性
论文题目:World and Human Action Models towards gameplay ideation
发表时间:2025年2月19日
论文地址:https://www.nature.com/articles/s41586-025-08600-3
期刊名称:Nature
生成式人工智能正逐步渗透创意产业,但在支持人类发散性思维和迭代式创作上仍面临瓶颈。传统模型常因缺乏上下文一致性、生成多样性不足或无法保留用户修改而受限。微软团队以游戏开发为切入点,提出世界与人类行为模型(World and Human Action Models, WHAM),通过捕捉玩家行为数据,突破生成式AI的三大关键能力:一致性、多样性和持久性,为创意实践提供新工具。
用户需求:游戏开发者需要怎样的AI搭档?
团队访谈了27位游戏开发者,发现两大核心需求:
1. 发散性思维需要边界约束:创意并非天马行空,需符合游戏世界观、物理规则和叙事逻辑。例如,玩家角色不能穿墙,场景风格需与游戏IP一致。
2. 迭代控制权必须握在人类手中:开发者需通过“微调”让细节“感觉对味”,例如调整角色跳跃弧度或武器特效。一位参与者表示:“真正让游戏体验惊艳的,往往是数千个微小决策的堆积。”
这为AI模型设定了明确目标:生成内容需在一致性框架内提供多样性选项,并支持用户修改的内容能够持久地融入游戏中。
WHAM模型:从玩家行为中学习“游戏规则”
WHAM基于Transformer架构,以离散化token序列处理游戏画面(Frame)和手柄操作(Controller Action),其设计亮点包括:
数据驱动:使用真实玩家在3D对战游戏《Bleeding Edge》中的7年游戏数据(超500万局对战)进行训练。
多模态建模:通过VQGAN图像编码器将画面转换为token,并将手柄摇杆操作离散化为11档位,实现画面与行为的联合预测。
长上下文支持:1.6B参数的大模型可处理1秒(10帧)的上下文,生成长达2分钟连贯的游戏画面。
图 1. WHAM架构。将人类游戏玩法定义为一系列离散的tokens,在图像观察和控制器动作之间交替进行。
三项核心能力实测:
WHAM如何通过“考试”?
1. 一致性:虚拟世界的物理法则
用Fréchet视频距离(FVD)评估生成画面与真实游戏的动态一致性。结果显示,WHAM生成的10秒视频与人类操作的FVD值接近基准线,且模型越大、训练计算量越高,一致性越强。案例中,WHAM成功模拟角色攀爬楼梯、避开障碍等符合物理规则的行为。
图 2. 一致性结果。(a)在训练计算预算(FLOPS)上的一系列WHAM大小的FVD。FVD适用于更大的模型和计算预算。(b)来自1.6B WHAM的两个示例代(每行一个)的关键帧。每代2分钟,表明1.6B WHAM能够产生长期一致的游戏玩法。
2. 多样性:一场游戏的多元可能
通过Wasserstein距离衡量生成操作与人类玩家行为的分布匹配度。在相同初始画面下,WHAM能生成多条分支:角色可选择突袭、绕行或与队友协作。实验表明,模型生成的多样性接近人类玩家基线,且通过调整损失权重可进一步优化。
图 3. 多样性的结果。(a)通过与人类行为的Wasserstein距离来衡量的三种WHAM变体的多样性。在102,400个总动作(1,024个轨迹,每个轨迹有100个动作)中,我们对10,000个人类和模型动作进行子采样,并计算它们之间的距离。我们重复10次,并绘制平均值±1标准差。更接近于人与人之间的基线会更好。均匀随机动作的距离为5.3。所有的模型都可以通过训练来改进,并且可以通过增加动作损失的权重来进一步改进。(b)在相同的起始背景下产生的来自1.6B WHAM的三代的例子。我们看到了行为多样性的例子(玩家角色绕着刷出位置转,而不是直奔跳跃点)和视觉多样性的例子(玩家角色所乘坐的悬浮板有不同的皮肤)。
3. 持久性:用户修改的持久保留
当开发者向画面中添加新角色或道具(如能量核心Powercell),WHAM能在后续生成中稳定保留这些元素。实验显示,若用5帧修改画面作为提示,85%的添加内容可持久存在。例如,插入的“垂直跳板”虽在原游戏中不存在,但WHAM仍能将其融入场景并维持互动逻辑。
图 4. 编辑过程和定性持久性结果。成功持久性的示例包括Powercell、角色和垂直跳跃平台(Vertical Jumppad)。在我们的持久性评估中,WHAM的生成都是基于无操作(no-op)动作进行的,因此玩家角色和相机应该保持静止。示例中,插入的Powercell在1秒的生成过程中稳定持久,而插入的对手开始攻击玩家角色并造成伤害。垂直跳跃平台被插入到一个地图区域中,该区域在真实游戏和我们的数据中并未出现。然而,它在WHAM的生成过程中始终得以持久。
创意工具箱:WHAM演示器的实战应用
团队发布WHAM Demonstrator原型,展示模型如何支持创意流程:
视觉化提示:用户可选取任意画面作为起点,生成多条剧情分支。
动态迭代:直接涂改画面元素(如新增敌人),观察生成内容如何响应。
混合创作:将不同分支的片段拼接,探索融合可能性(如“吸血鬼角色+科幻场景”)。
WHAM模型、评测数据集及演示器均已发布于Hugging Face。
启示:
生成式AI的下一站是“人类创造力倍增器”
WHAM的突破不仅在于技术层面,更在于以用户需求驱动模型设计的范式转变。游戏开发仅是起点,同类方法可拓展至音乐、影视等创意领域。未来,AI或将像Photoshop一样,成为创作者“直觉的延伸”——而微软团队已开源模型权重与评测数据集,邀请全球开发者共同探索人机协作的边界。
彭晨 | 编译
-集智活动预告-
大模型2.0读书会启动
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年11月30日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!
详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!
推荐阅读
2. Max Tegmark组新工作:利用调和损失训练可解释的AI模型
3. 首个专为AI从业者打造的量子机器学习(Quantum Machine Learning)教程发布
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会