人工智能的下一个浪潮，会是具身智能吗？

2025-04-11 08:03 北京

从离身智能到具身智能

自AI的概念诞生之日起，科学家们就热衷于探讨它的发展路径。第一阶段毫无疑问是计算智能，经过半个多世纪，AI在运算能力和记忆方面早已超越人类。第二阶段，是感知智能，让机器可以看得懂听得懂这个世界。科学界认为，尚未到来的第三阶段，是认知智能，甚至提到一个词：认知时代。

目前，人类已经完成了“人工智能初级阶段”的原始积累，正式进入向“更高阶段”迈进的时代。AI正向着实现具身化，具备推理能力发展。可以说，具身智能揭开了人类驯服机器的科学路径，小到在分子或原子上进行操作的纳米机器，大到震天撼地的巨型机械，无不乖乖地服从人类的操控指令，替代或者协助人类完成复杂的任务。

具身智能这条路径能通向通用人工智能吗？这个问题现在给出确定的答案还为时尚早，但知古而论今，《具身智能》这本书以当前比较火热的话题为引，讨论了人工智能的过去、现在和将来。

本文摘编自《具身智能》第五章。荐读之。

《具身智能》

出版时间：2025年1月

出版社：中信出版社

当人类进入了信息时代，人工智能也宛如冰块一般，炽热与寒意同在。人们既狂热地期待着智能带来的诸多惊喜，又恐惧着可能无法掌控的命运。

从1956年达特茅斯会议开始正式使用人工智能（artiﬁcial intelligence，AI）这个词以来，近70年间，人工智能历经了至少3次起落，从摇旗呐喊到陷入彷徨。

2010年前后，由于ImageNet等一系列学术亮点的出现，人工智能在学术界逐渐进入炽热的时期。2016年谷歌人工智能程序AlphaGo战胜围棋世界冠军李世石，2022年OpenAI发布ChatGPT，终于把这份火热传递给了大众。

当生命用40多亿年的进化所形成的最高智慧——大脑皮质，被人工神经网络快速逼近；当几十亿人类用50 多年缔造的互联网数据被大语言模型用不到100天的时间吞噬（GPT—4的训练时间估算为90~100天）；当我们生活中的电子产品都在被冠以AI之名，如AI电脑，AI手机，AI汽车……我们正在进入一个新的时代，一个被 “硅基生命”包围的时代。

通用人工智能是什么样子？一个可以对话的机器目前来看远远不是AI的终点。所谓的强人工智能，要多强才算强？随着不同科技大佬的发声，具身智能的概念浮出了水面。这种智能体不仅拥有物理形态，还能与物理世界互动。

具身智能等于人形机器人吗？它究竟是什么？是一种方法论还是一个发展阶段？具身智能会带来什么不同吗？

带着这些疑问，我们可能要回到梦的起点，“人工智能之父”——艾伦·图灵的那个久远的午后。

机器的智能从何处来

进入大模型时代之后，图灵测试已不再被提起。这并不是因为图灵测试已经过时，而是因为想要“骗过人”光会聊天还不行，还要展现出能够理解复杂情境、处理多维度问题并进行情感共鸣和逻辑推断的能力。这也对测试者本身提出了更高的要求，可以说，1000个图灵测试就有1000个结果，因为每个测试的复杂性和深度可能都不同，且受测试者的主观判断和经验影响极大。这种多样性和不确定性使得传统的图灵测试不再足以全面评估人工智能的真实智能水平，而人类需要更全面、更深人的方法来理解和评价人工智能的能力。

这就回到对“智能”本身的定义。在人工智能发展的过程中，不同学派对“真正的智能”有着不同的定义，这种定义的模糊和变化让研究者时而兴奋，时而沮丧。

早期的科学家对人工智能的快速发展抱有乐观态度，部分原因是当时的智能程序已经能够解决复杂的代数问题证明几何定理，并且能够像专业棋手一样下国际象棋。对普通人来说，无论是解决复杂的数学问题还是展现高超的棋艺，都是极具挑战性的任务，因此这些能力被视为智能的象征。

与此同时，像识别一张桌子和一束花，或者用腿自由行走这样的行为，被归类为“常识”或“本能”，看似无须动用智能。因此，人们推测，如果机器能轻松解决数学推理等难题，那么处理更简单的任务自然不在话下。这种思想在古典人工智能时期非常流行，在长时间内影响着人工智能的发展方向，研究者都在致力于通过让机器解决一系列技术难题来证明人工智能的智能程度在不断提升。

这些研究方向逐渐被证明是有缺陷的。尽管现代人工智能能够轻松击败世界顶尖的棋手，表现出出色的图像识别和逻辑推理等技能，我们依然必须面对一个事实：现有的人工智能并不代表真正的“智能”，它们依赖人类提供的数据、设定的模型、编写的程序和构建的架构，并且只能在特定的领域和规则下发挥作用。在这些限制下，人工智能展示的行为并非自我思考的结果，而是对预设程序的机械执行。它们缺乏自我判断能力，更不用说具备直觉、感知、意识和情感等人类独有的复杂属性了。这说明，古典人工智能主义在理解智能的本质时存在根本的误区。

具身一定是“人形”吗

让我们再回到1950年，看看图灵是怎么说的。他在经典论文《计算机与智能》的结尾处，展望了两条人工智能可能的发展道路：一条道路是聚焦抽象活动，例如下国际象棋，我们将其称为离身智能；另一条道路则是赋予机器真正的身体感官，并且用类似教导一个孩童的方式来训练智能体，也就是我们所说的具身智能。

“具身”的含义并非指字面上的“身体”，而是指通过身体的感知来实现的智能。

在1925年的科幻小说《陶威尔教授的头颅》中，医学教授陶威尔致力于研究如何使“离体”的人体器官复活。当实验初见成效之时，助手凯恩害死了陶威尔，同时复活了他的头颅，只为在后续研究中攫取陶威尔脑中的智慧。故事中，头颅代表了“认知”，但由于没有“身体”，因此属于“离身”范畴。值得一提的是，小说的创作灵感源于作者别利亚耶夫的患病经历。当时他因为患脊椎病在床上躺了整整3年，肢体长期不能动弹，感觉自己是一个没有身体的脑袋。

你可能会问：那“具身智能”是不是就是给最强大脑型的大模型装上“新身体”？如果真的这么简单就好了。感觉和意识还源于与世界的多维度互动。以“好吃”的感觉为例，这不仅是味蕾上的感觉，还包括食物带来的视觉影响和嗅觉体验。这种感觉不仅是生理上的，还是我们与客观事物互动的直接结果。这种综合性的感知被内化为大脑中的意识，并作为行动的先验标准。

因此，人类与外部环境的互动需要通过“躯体”这一媒介来完成。人工智能缺乏实体“躯体”，只能与预设的数据进行互动，无法从与环境的真实互动中获得“常识”，也就不可能形成真正的自我感觉和意识。反之，我们如果想让人工智能具备真正的意识，就必须首先赋予它能自主控制的躯体，并让它像普通个体一样融入物理世界和人类社会。

这样的“躯体”需要什么要素呢?让我们还是以最熟悉的参考物——人作为蓝本。

按照“模仿游戏”的逻辑，如果我们期望具身智能体在人类世界中不仅生存，还要能与物理环境互动并与人自然交流，那么这些智能体首先需要的就是感知环境的能力。对人类而言，这一问题能够通过感官得到解决：眼睛提供视觉信息，耳朵负责听觉，皮肤感受触觉等等。

看到、听到之后，人类接下来就会进行思考，这一过程由大脑掌管。具身智能体在接收到信息后，需要进行适当的反应或决策。例如，一个想喝水的智能体观察到周围有水壶和杯子，基于水壶里有水、杯子能装水的认知，就会制订一个行动计划：走向水壶，拿起杯子，倒水，最终喝水。

这一系列动作不仅需要身体的协调性，还依赖于中枢神经系统的精确控制，展现了人类身体精细的控制能力，这种行动能力是经过数百万年进化而形成的。

执行完行动后，智能体需要再次感知以了解环境的变化，这就形成一个“感知-认知-决策-行动-感知”的循环，它也成为具身智能体与外界交互的基础。

最后，讨论具身智能的进化也非常关键。人类从猿人到现代人的进化耗时数百万年，但今天的具身智能显然无法等待如此漫长的时间。幸运的是，现代科技和理论已为具身智能提供了更加高效的成长和进化的条件，使其能在更短的时间内实现复杂功能的发展。

站在当下去预测未来一定是不准确的，即使是最厉害的科幻小说家也很难跳出现有知识体系进行延伸。预言本身是一件吃力不讨好的事，作为科研工作者，我们当下也并非想让人工智能“长出身体”，更何况人工智能的“身体”也未必呈现人形。