对话理想智驾负责人：撕掉「奶爸车」标签，智驶是理想的「新引擎」

当辅助驾驶的浪潮席卷而来，我们似乎都感受到了一个瓶颈：在高速公路上，它像个老手，稳健可靠；可一回到复杂的城市街道，它就变回了需要时时看管的「新手」。为什么会这样？

本质上，之前以「端到端」为代表的AI驾驶模型，其核心是模仿学习，像「猴子开车」。你让一只猴子看1000万段人类开车的视频，它能学会模仿人的动作——在什么情况下打方向盘，什么时候踩刹车。靠着这种「模仿」，理想汽车在短短7个月内，就将辅助驾驶的平均接管里程从12公里提升到了120公里。

然而，模仿终究是模仿。「猴子」并不会真正思考，它只是在应激反应。当遇到一个从未见过的街角，一个突然窜出的行人，一个复杂的、充满不确定性的路口时，这只「猴子」的大脑就宕机了。因为它只会「怎么做」，却不懂「为什么」。

整个行业，都走到了这个模仿的瓶颈前。下一步，路在何方？

答案，藏在一个全新的概念里——VLA（视觉-语言-行为）大模型。

2025年7月底，在北京理想汽车的研发总部，极客公园在理想i8正式发布前，深度体验了理想第一版VLA模型，这也是国内第一个量产上车的VLA模型。同时还访谈了理想汽车自动驾驶研发高级副总裁郎咸朋博士及核心研发成员团队，在与他们的深度访谈中，我们得以一窥这场变革的核心。

如果说过去的端到端是两步式：「看见，然后行动」。那么VLA的核心，就是在「看见」（Vision）和「行动」（Action）之间，植入了一个至关重要的环节——语言（Language）。它就如同一个会思考、能推理的大脑，它不仅能看懂「前方有障碍物」，更能结合上下文理解「这是一条狭窄的双向车道，对向有来车，我应该减速避让，而不是冒险超车」。

这种「内心戏」的思考过程，让汽车的行为决策不再是一个冰冷的黑箱，而是变得可以理解，也更接近人类的思维。我们终于有机会窥见，那只「猴子」的脑子里，在想些什么。

那么，拥有了「大脑」的VLA司机，想成为一个什么样的角色？

理想的答案出人意料，却又在情理之中：不做「老司机」，要做「私人司机」。

这二者有什么区别？老司机关注的是「我怎么把车开好」，核心是驾驶者本身；私人司机关注的是「怎么让乘客坐得舒服、安心」，核心是乘坐者。

因此，在首个VLA版本中，「安全」被放在了「效率」之前。当遇到复杂的路况，它宁愿慢一点、稳一点，也绝不做任何让家人感到不安的激进冒险。它的每一次决策，都以你和家人的安心为优先准则。

当然，要实现这一切，绝非易事。理想汽车的路径，并非是跳过模仿学习直接进入VLA，而是建立在数据、算力、算法和工程能力上的长期积累。

特别值得一提的是，理想汽车VLA的训练场是「世界模型仿真系统」。你可以把它理解成一个为AI司机量身打造的、无限逼真的「元宇宙」驾驶模拟器。在这个虚拟世界里，AI不再是单纯模仿，而是通过一次次「试错」去探索和学习。

它每天可以在这里「行驶」超过30万公里，经历现实中普通人一生都难遇到的极端、危险场景（Corner Case）。它会经历无数次失败，并从失败中总结经验，以惊人的速度进化。

今天，第一版的VLA系统相比过去，也许只是在舒适性上迈出了一小步。但真正的变革在于，它的进化将不再是线性的，而是指数级的。当它的平均接管里程从100公里跃升至1000公里时，一个新的时代就将开启。

这场深刻的变革才刚刚拉开序幕。也许在不久的将来，当我们再次坐进驾驶座，会发现那个曾经需要我们时时警惕的系统，已经成为了一个值得托付的「人」。

自动驾驶的「ChatGPT时刻」，或许比我们想象中来得更快。

理想汽车自动驾驶研发高级副总裁郎咸朋博士 | 图片来源：理想汽车

以下为访谈内容，部分有删减：

访谈嘉宾：

理想汽车自动驾驶研发高级副总裁郎咸朋博士

理想汽车自动驾驶高级算法专家詹锟

理想汽车自动驾驶高级算法专家湛逸飞

VLA：通往更高阶自动驾驶的「必经之路」？

Q：去年，「端到端」成为辅助驾驶主流方案，但也很快遇到瓶颈，VLA是当时唯一考虑的技术路线吗？还是有其它备选方案？

郎咸朋：我们一直保持对前沿算法的探索，做端到端时也在考虑下一代技术。当时业内最有前途的就是VLA，它不仅用于辅助驾驶，更是具身智能和未来机器人领域的通用技术框架。经过长时间的调研和探索，我们制定了VLA的技术方向。

Q：VLA看似并未颠覆「端到端」，这是否意味着它更多是工程能力的创新，而非革命性的技术路线革新？

詹锟：VLA不只是工程方面的创新。VLA也是一种端到端（场景输入，轨迹输出），但算法的创新是多了「思考」。端到端可以理解为VA（视觉-动作），VLA加入了Language（语言），对应思考和理解，把机器人范式统一。但VLA作为大模型，部署在边缘端算力上极具挑战，需要工程创新，必须有大算力芯片才能部署。

Q：行业有观点认为，VLA和「好的模型」是两回事，后者更多取决于数据和强化学习。您如何看待这个观点？

詹锟：我赞同VLA是一种模型架构，不一定代表是好模型。任何模型的设计思路只代表想法，不代表能落地。要训练出好的VLA模型，需要更好的数据、算力、算法、工程部署。我们认为，辅助驾驶想往L4或更高能力前进，L（语言）是必经之路。

Q：多模态大模型尚未迎来真正的「ChatGPT时刻」，理想此时量产VLA，这是一个足够好的解法了吗？它距离那个引爆点还有多远？

詹锟：多模态没达到GPT时刻。VLA在机器人领域泛化能力不强，但在辅助驾驶这个相对统一的范式里，有机会做到一个GPT时刻。

我们承认，现在的VLA是业界第一个要推向量产的版本，肯定会存在缺陷。这次尝试是想用VLA探索一条新路径，不一定非要达到GPT时刻才能量产落地。只要能通过评测、仿真验证它能给用户带来「更好、更舒适、更安全」的体验，就可以交付。

GPT时刻更多指的是很强的通用性和泛化性。我们会在落地以后，随着用户数据迭代、场景和交互的丰富，逐渐往ChatGPT时刻迁移。到明年我们如果到了1000MPI，可能会给用户一种真的到了VLA的ChatGPT时刻的感觉。

Q：从「司机Agent」到「更好的家庭司机」，理想对VLA的终极价值思考，发生了哪些变化？未来它将如何重塑我们的出行空间？

郎咸朋：我们之前的「司机Agent」说法迭代了，现在我们认为VLA应先专注于成为一个好的「私人司机」。

我们认为VLA是一个底层能力，对用户最大的价值就是把车开好。如果车都开不好，做其他事没有意义。而且，我们分析后认为，目前的AI Agent产品还处于比较初级的阶段。

所以我们重新审视VLA的能力，核心还是把车开好，为用户提供一个安全、舒适、安心且越开越好的司机体验。这是我们今年VLA上车后想实现的目标。

未来，在VLA模型的基础上，辅助驾驶会向「移动空间」的思路发展。当车辆能做到足够安心、安全后，它就能帮你去做其他事情，我相信那一天会很快到来。

解构大脑 —— VLA的「七十二变」与「数据炼金术」

Q：理想自研的MindGPT基座模型，究竟比行业开源模型「好用」在何处？

詹锟：我们自研的基座模型对部署VLA有很大作用，我们VLA是4B模型，比以前更大了，但推理速度更快了。核心原因是我们自研的基座架构，专门对嵌入式芯片做了定制的MoE混合专家架构，并不是业界任何一个开源模型都能达到这个效率。VLA的推理帧率在10Hz左右，我们做了很多优化，把思考过程尽可能地能够在车端推理出来。

Q：云端大模型参数量是越大越好吗？面对友商的72B模型，理想的32B模型如何应战？车企判断模型大小的标准是什么？

郎咸朋：关于云端模型72B好还是32B好，我觉得各有各的好。关键看你是否能把模型训练到的能力，蒸馏好了之后，能落到自己的芯片上，做好优化、量化的部署，并且转换成用户的实际价值。能做到这点，都是好的应用。

当然，模型的参数量越大，训练消耗的资源就会越多，效率也可能低一点。把大模型蒸馏成小模型，能力损失也可能存在，这很考验各家工程师的能力。最终，我们还是要看最终的产品体验以及给用户带来的价值。

湛逸飞：其实也不完全只看参数量，你给它什么数据也是非常重要的。现在很多大模型都是基于互联网通用数据，而数据污染已越来越严重。我们理想汽车的云端大模型，是基于自己的数据去做训练，它在驾驶场景的理解上，比那些通用大模型的能力要强很多。我们需要的正是它对驾驶场景的理解能力。

Q：在VLA的训练中，在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令，我们是如何解决的？

詹锟：首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。

第一，我们需要对不好的数据做精细的清洗，清洗的越多，质量就越好。

第二，生成数据。之前会有很多大语言模型会有幻觉，本质上因为「大模型」对这个东西是不理解的或者没见过的，在它这个领域之外回答问题。所以我们需要构建很多数据，甚至生成数据，去让它把这个领域理解到位，能把所有的知识能够知道，甚至知道它什么不知道，这是它很重要的一个能力。

通过这两个思路，其实大幅能降低语言模型的幻觉能力，甚至反常识的东西。

第三，超级对齐，让它去更做到符合人类价值观，比如刚刚那个例子，不能跨对向车道，就是类似的思路，这是第一个问题。

相比端到端，VLA的不同之处是在「看见」（Vision）和「行动」（Action）之间，加入了语言（Language） | 图片来源：视觉中国

Q：在浩如烟海的数据中，理想如何像炼金术士一样，定义并筛选出能训练出「老司机」的「黄金数据」？

湛逸飞：我们需要的数据，一个词总结就是「老司机数据」。我们会在云端用大模型对数据进行检查，看它是否符合我们定义的「老司机」标准。比如，在望京有些右转车道上有违停车，我们到底需不需要车辆压实线绕行？如果不绕，在望京就没法右转。我们对这些数据理解花费了很大功夫，并做了很多清洗。

郎咸朋：对于corner case和困难场景，我们会通过生成数据来提供。在强化学习阶段，数据更大的作用是训练世界模型，让它更符合真实世界，所以我们更多的训练数据来自合成。

我们从理想ONE就开始做数据闭环。2020年，我们就积累了1500万左右的有效回传数据。这5年做下来，从去年端到端开始，对手才真正把理想辅助驾驶当回事，但为时已晚，因为这些能力建设不是一天两天就能完成的。

如果还沿着端到端的思路做VLA，速度一定会变慢。我们的最终目标，是在云端建立一个模拟真实物理世界的世界模型，让算法在里面跑，就像在《SimCity》里一样。到那时，算法在模拟世界里跑一天，等于在真实世界跑好几年的训练速度。一年之后，当一个1000MPI的产品放在你面前时，大家会觉得辅助驾驶真的来了。我相信理想肯定是第一个走出来的。

Q：VLA如何凭空理解「前进10米」这类物理概念？我们真的能完全信任一个大模型做出的判断吗？

詹锟：我们不会单纯地让模型学习向前走10米、12米这样生硬的数据。但在海量的通识数据中，有很多对物理空间的理解，比如前方白车距离多少米。现在的大模型也已加入很多物理空间的知识。

我们分享的五步训练法，第一步就是加入通识能力和物理世界的知识，第二步进行微调，将能力和action结合。当我们把海量数据喂给它以后，数据具备组合泛化能力，并不是教什么学什么。当量级达到一定规模时，会涌现出一些能力。它懂了数字，懂了米数，当给它一个新的东西，就存在组合泛化的机制。我们也非常关注现在大模型的进展，随时可以向辅助驾驶上迁移。

Q：VLA的「大脑」再聪明，也需要敏锐的「眼睛」。在感知层面，我们如何持续进化，解决类似「懂车帝测试」中暴露出的问题？

郎咸朋：还是要继续提升技术能力。在VLA中，我们对感知有一个比较大的升级，能看得更远、更精细。

比较典型的两个例子是：我们动态物体纯视觉的检测范围从原来的150米扩到了200米，OCC通用物体检测从原来的80米扩到了125米。这都是目前在VLA上做的技术能力提升，包括数据、包括推理性能的提升才能做到。目前我们确实会在基础能力上做更多提升。

理想如何将VLA大脑塞进车里？

Q：从规则到端到端，再到VLA，理想的智驾算力经历了怎样的指数级增长？未来的算力规划蓝图是怎样的？

郎咸朋：算力增长过程与技术方案相关。在规则算法时代，训练卡只用于训练BEV模型和感知模型，数量较少。但在端到端时代，模型训练需要大量算力，我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS，增长了10倍左右。我们认为训练算力是一方面，同时要增加推理算力。

Q：理想是如何在Thor芯片上压榨出翻倍算力的？将精度从FP16降至FP8甚至FP4，如何做到性能不降反升？

詹锟：我们从去年开始用Orin芯片做大模型部署，通过魔改CUDA底层、重写PTX底层指令等方式实现。理想汽车辅助驾驶团队的工程部署能力是一以贯之的，从早期地平线J3，到Orin，再到Thor芯片，很多技巧、分析方法和工具链都继承下来了。

关键是我们打磨细节的能力，通过做底层分析解决瓶颈。VLA从最初推理一帧需要500-600毫秒到最后实现10Hz，提升了近10倍的效率。这其中有非常多的细节，比如调整算子，让它和芯片能力更匹配。大家常用的推理模型会用FP16，我们把它降到FP8，性能做了非常大的提升，未来还会用FP4进一步把芯片算力压榨出来。

郎咸朋：自研芯片的核心原因是能针对自己的算法进行特定优化，性价比和效率都会很高。现在依然使用Thor芯片，是因为英伟达对新算子支持较好，算力也比较充足，在VLA迭代过程中依然有变化的可能性。如果未来算法锁定，为了更好的效率和成本，大家都会考虑自研芯片。

Q：在车端部署VLA大模型时，理想是否会有一些轻量化的版本？如何在这场「性能」与「效率」的博弈中取得平衡的？

詹锟：在部署时的效率和蒸馏上我们做了非常多平衡。架构上，我们的基座模型是自研的8x0.4B的MOE模型，这个架构非常适合英伟达芯片，推理速度快的同时模型容量大。

优化上，我们最早训练了一个32B的云端大模型，把它做出的思考和推理流程蒸馏到3.2B的MoE模型上。我们也针对Diffusion做了工程优化，并不是直接使用标准Diffusion，而是进行了推理的压缩。以前Diffusion可能要推理10步，我们使用了flow matching流匹配只需要推理2步就可以了，这方面的压缩也是导致我们真正能够部署VLA的本质原因。

Q：面对未来，理想会走上自研智驾芯片的道路吗？

郎咸朋：自研芯片的核心原因是能针对自己的算法进行特定地优化处理，性价比和效率都会很高。现在我们依然使用Thor芯片，是因为英伟达对一些新的算子支持比较好，算力也比较充足，在整体VLA迭代过程中依然有变化的可能性。如果未来算法锁定，为了更好的效率和成本，大家都会考虑自研芯片的。

Q：在Orin与Thor两个平台，理想后续的VLA推送会「一视同仁」吗？两个平台的能力差距何时会显现？

郎咸朋：我们Orin X或Thor平台都会同步推送。目前测试来看在能力上没有任何差异，帧率上也没有差异，都是10帧。唯一的差异可能是底盘不同导致的舒适度体验差异。

后续的推送节奏也是同步的。我们现在肯定不会做这种差异化。但随着下一步的迭代，如果我们在INT4的量化上有一些突破，那时可能会有一定差异，但现在谈这个还为时尚早。

仿真，何以成为理想的「杀手锏」？

Q：面对「安全、舒适、效率」的「不可能三角」，现阶段的VLA，做出了怎样的取舍？

郎咸朋：我们的数据显示，理想车主的人驾数据是约60万公里出一次事故，而使用辅助驾驶功能是350到400万公里发生一次事故。我们的目标是将辅助驾驶的MPA（每两次事故间的平均里程）提升到人类驾驶的10倍。

在不可能三角中，我们的排序是安全、舒适，最后是效率。安全由MPA指标衡量，是最高优先级；舒适是在保障安全的基础上，我们通过优化MPI（每两次人工干预间的平均里程）来重点提升舒适度，减少因急刹、重刹等不佳体验导致的接管；效率排在安全和舒适之后。例如，即便走错路，我们也不会通过危险的动作立刻纠正，而是在保证安全和舒适的基础上去追求效率。

Q：理想为何敢大幅减少实车测试，并断言仿真测试效果更好？这背后的底气是什么？

郎咸朋：我们认为实车测试有很多问题，成本是其中一方面，最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时，实车测试的效率太低了，在实车测试过程中要开过去之后再复测回来，我们现在的仿真效果完全可以媲美实车测试，现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。

从去年端到端版本我们就已经开始进行仿真测试的验证，目前我们认为它的可靠性和有效性都很高，所以我们以此替代了实车测试。但仍有一些测试是无法替代的，比如硬件耐久测试，但和性能相关的测试我们基本上会使用仿真测试替代，效果也非常好。

Q：仿真世界如何做到复刻真实物理世界？理想的「杀手锏」是什么？

湛逸飞：我们在2024年进行了150多万公里实车测试，来验证仿真环境的可靠性。

最初世界模型仿真的真实性确实存在问题，但我们通过与实车测试数据对比，在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化，让仿真一致性达到了非常高的程度。虽然没有达到100%，但准确率也可以在99.9%以上。

例如，我们针对仿真环境中「200米外看不清红绿灯」的问题，对红绿灯的视野模型和相机分辨率仿真进行了大量优化。正是用过去一年的时间将仿真系统的可靠性提升到了很好的程度，我们才会放心地去使用这套系统。

Q：在仿真训练中，如何判定一个场景的训练已经「毕业」？从「实习司机」到「老司机」的进化需要多久？

湛逸飞：强化学习是一个循环交替的过程。每一轮仿真，我们会给它一个打分（reward），这个reward会反向改变模型参数，然后我们再拿它去仿真，产生新行为。这个过程不是瞬间完成的，也没有固定时长，主要和场景的难度相关。直到它通过了我们在仿真环境里的所有metrics，我们才判断这个场景的训练完成了。

Q：如果满分是100分，您会给今天我们体验的VLA版本打多少分？要达到怎样的标准才能让您安心地将它推向市场？

郎咸朋：我们内部有自己的评分机制。大家试驾的这版VLA，内部打分已经全面超越了我们最后一个端到端版本OTA7.5，但在一些小的分数上可能还有波动。

在真正推送给用户之前，我们会做到一个明显的效果提升。大家体验的主要是我们在舒适度上的一些提升。接下来，我们会在「安全、合规、导航、效率」等维度上都会有较大幅度的提升。

我们的目标是，让熟悉我们车的用户一上车就会有非常大的体验提升；让没用过辅助驾驶的人，在使用时也会有很强的安全感、安心感和舒适度。

Scaling Law信仰，让理想成为理想

Q：您如何判断辅助驾驶的商业化落地时间表？理想的变现之路将如何铺开？

郎咸朋：从技术层面看，我们认为VLA模型可以走向更高级别的辅助驾驶，但它现在处于起步阶段，约等于端到端的上限。我相信VLA的迭代速度也会非常快，但这需要完备的算法、算力和数据等基础能力，以及工程能力的支撑。VLA的训练需要和成熟的仿真环境来进行强化学习，和之前单纯依靠实车数据模仿学习是完全不同的。

商业变现最核心的影响因素是国家的法律政策。从技术上看L4级别的辅助驾驶落地会非常快，但从商业角度看，还有很多问题需要考虑，比如保险和事故赔偿等。

Q：如果一个新玩家想入局VLA，会面临哪些难以逾越的挑战？理想的核心技术壁垒是什么？

郎咸朋：新玩家想做VLA模型，没法跳过规则算法和端到端阶段。VLA要建立在之前的基础上，如果没有完整的通过实车采集的数据闭环，是没有数据能够去训练世界模型的。

理想汽车之所以能够落地VLA模型，是因为我们有12亿公里的数据。只有在充分了解这些数据的基础上，才能够更好地生成数据。如果没有这些数据基础，首先不能训练世界模型，其次也不清楚要生成什么样的数据。同时，基础训练和推理算力的支撑也需要大量资金和技术能力。

Q：在研发VLA过程中最大的挑战是什么？理想在组织架构上进行了怎样的调整？

郎咸朋：我觉得挑战最大的是要把整个研发流程进行迭代。每一个技术革新都伴随着研发流程的迭代。去年端到端需要数据驱动流程，今年做VLA就必须要做强化学习的流程，需要快速验证我们世界模型的可靠性，也需要快速搭建高效的仿真环境。

组织层面，我们是IPD（项目制）组织。不管是去年做端到端，还是今年做VLA，都是成立内部项目组来做。这反而成为我们的一种优势。去年端到端是180个人，今年VLA是200多个人，我们觉得不需要几千人去做。我觉得做得最好的是特斯拉，永远都是那一两百人，做的还都挺好的。

Q：作为国内VLA的「探路者」，理想在「摸着石头过河」时，踩过最大的「坑」是什么？组织架构为此做出了怎样的变革？

郎咸朋：我有个最大的体验，就是对整个行业和辅助驾驶的判断与认知，决定了我们是否会踩坑。

我们很早就理解辅助驾驶是个人工智能问题，必须做好算法、数据和算力。我们从2021年开始搭建数据闭环，这是我们能做端到端的基础。

同时，去年在做端到端时我们就在反思，它是不是就够了。我们对人工智能的理解不是模仿学习，而是要像人类一样有思维和推理能力，去解决没有见过的事情。所以我们很快从端到端切换到了VLA方案。

小的工程细节、优化等小坑肯定有，但我们没有遇到大的判断失误。

詹锟：我补充一下，可能也不叫坑，是个经验。就是要相信AI的力量，相信Scaling Law（规模法则）。我们之前相信data Scaling Law（数据规模法则），看到了很好的效果；下一步就是坚信，当我们能给更多的数据、更大的训练时长，它总能出更好的效果。这是AI界的「the bitter lesson（苦涩的教训）」，我们要坚信这一点。

Q：最新的调研中，智能驾驶在消费者购车决策中的权重有多高？

郎咸朋：我们市场部的同学是做过调研的，并且给到我的反馈肯定是需要，都是排在首选top3里的。

现在新购车的人对智驾的要求，我觉得一年前可能问这个问题大家还有点质疑，但现在我相信特别是新购车的用户智驾一定是排在它的首先选要素里的，像去年麦肯锡的调研基本上都是第一或第二的购车要素。

Q：未来，理想是否会将VLA这项核心能力，向行业开放、赋能吗？

郎咸朋：我认为是可以的，我们希望为行业做贡献。但前提是，第一，我们是不是能够很好地验证这套系统，因为整个VLA的发展还是在技术周期的初期阶段，需要继续提升；第二，是否其他人有能力和我们一起去做这件事，因为他也需要有自己的评测方式、仿真环境，以及强化学习训练能力。

从公司或我个人的态度上，是希望能够促进行业发展，但从目前VLA技术发展阶段来看，依然是比较初级的，它的发展速度可能会比较快，像端到端一样，用一年的时间将效果提升10倍。行业发展速度会非常快，我相信明年沟通的时候可能会讨论一下开源的问题。

VLA：通往更高阶自动驾驶的「必经之路」？

解构大脑 —— VLA的「七十二变」与「数据炼金术」

理想如何将VLA大脑塞进车里？

仿真，何以成为理想的「杀手锏」？

Scaling Law信仰，让理想成为理想

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签