不会打游戏的大模型不是好AI？甲骨文最强模型用《宝可梦》当“期末考”

深度财经头条 02月25日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

甲骨文发布了其最新模型Claude 3.7 Sonnet，这是一款兼具推理能力和文本生成能力的混合模型。该模型最独特之处在于其拓展思考能力，能够在增加计算和时间成本的基础上解决更具挑战性的问题。甲骨文通过《精灵宝可梦（红）》测试了该模型的推理能力，结果显示3.7版本已经能够击败道馆领袖，而之前的3.0版本甚至无法离开新手村。此外，利用游戏作为AI模型基准测试已成为行业趋势，加州理工大学和英伟达的团队也曾推出Voyager组件，让GPT-4攻略《我的世界》。微软也推出了能生成游戏视觉效果和控制器输入的Muse模型。

💡甲骨文发布Claude 3.7 Sonnet，一款独特的混合模型，兼具推理能力和实时文本生成能力，并具备拓展思考的能力，可通过增加计算成本来解决复杂问题。

🎮甲骨文使用《精灵宝可梦（红）》测试Claude 3.7 Sonnet，模型配备基本内存、屏幕像素输入和功能调用，成功击败道馆领袖，而旧版本甚至无法通过新手村。

🕹️加州理工大学和英伟达推出Voyager组件，与GPT-4交互攻略《我的世界》，Voyager具有强大的情境学习能力，在多个方面优于其他AI模型。

🎨微软推出Muse模型，可生成游戏视觉效果和控制器输入，已在《Bleeding Edge》中进行训练，旨在支持游戏设计中的创造力，对3D游戏有深入理解。

财联社2月25日讯（编辑马兰）甲骨文周一发布了其最强模型Claude 3.7 Sonnet，据甲骨文称，该模型同时具备推理能力和传统实时生成文本的能力，是市面上唯一的混合模型。

Claude 3.7 Sonnet的一个独特功能是其能够进行拓展思考，与OpenAI的o3-mini和Deepseek R1一样，它可以在增加计算和时间成本的基础上来推理更具挑战性的问题。

而测试Claude 3.7 Sonnet推理能力的一项重要测试就是打游戏。

据甲骨文周一的博客文章显示，该公司在《精灵宝可梦（红）》测试了Claude 3.7 Sonnet，为模型配备了基本内存、屏幕像素输入和功能调用，以便模型可以连续闯关并不受模型的上下文限制。

好消息是，3.7版本的模型与3.0版本相比“大有出息”。上一个版本3.0连离开游戏新手村都做不到，而3.7已经成功走到宝可梦道馆Boss身前，并击败道馆领袖赢得了徽章。

不过，甲骨文并未公布3.7花费了多少计算能力才做到这一步，以及每闯完一关所耗费的时间。甲骨文只透露，3.7 Sonnet执行了35000次操作才打到最后一位道馆馆主Surge处。

AI也得会打游戏

利用游戏作为人工智能模型的基准测试实际上在业内也并不罕见，加州理工大学和英伟达的一支团队此前就推出过Voyager组件，与GPT-4交互来攻略另一款热门游戏《我的世界》。

Voyager据介绍包括三个关键模块：最大化探索的自动课程；用于存储和检索复杂行为的技能库与生成可执行代码的新迭代提示机制。据研究团队介绍，Voyager表现出强大的情境学习能力，获得的独特物品、行近距离以及解锁成就的速度都优于基准人工智能模型。

上周，微软也官宣加入了AI打游戏的潮流之中。微软推出了一款模型Muse可以生成游戏视觉效果和控制器输入，称其可以支持人们在设计游戏时的创造力，并已经在多人竞技战斗游戏《Bleeding Edge》中进行训练。

Gaming AI公司副总裁Fatima Kardar表示，Muse的突破之处在于它对3D游戏的详细了解，包括游戏物理以及游戏如何对玩家的控制操作做出反应。这意味着该模型能够创建一致且多样化的游戏玩法，进一步帮助到游戏创作者。

AI也得会打游戏

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签