原创 理想TOP2 2025-06-08 12:24 北京
本文经过认真思考,有任何不同意见都可在评论区留言,我都会回复的。
1.MindVLA的设计过程
2.MindVLA的训练过程
3.MindVLA 3D空间理解能力如何获得
4.如何从0设计和训练语言模型,使其具备驾驶知识和推理能力
5.Diffusion如何与语言模型结合
6.如何解决VLA在车端芯片的实时推理
3D高斯具备出色的多尺度3D几何表达能力也能承载丰富语义,最关键的是通过图片RGB进行自监督训练,从而充分利用真实数据区获得优秀3D表征。
从0开始设计和训练适合VLA的基座模型,任何开源的llm模型都不具备良好的3D空间理解能力。
VLA基座设计里稀疏化是关键,实现参数量扩容时,不大幅度增加推理负担。
理想通过两个维度实现稀疏化,第一采用MoE架构,通过多个专家实现模型扩容,保证计划参数量不会大幅增加。第二引入Sparse Attention进一步提升稀疏化率与端侧推理效率。新的基座模型训练过程中,花很多时间去找最佳数据配比,融入了大量3D数据和自动驾驶相关的图文数据,减少了文史类数据的比例。
为了模型的3D空间理解和推理能力,加入了未来帧的预测生成和稠密深度的预测等训练任务。训练模型去学习人类的思考过程,并自主切换快思考和慢思考。
慢思考经过思维链CoT再输出action token,为了实时性,使用固定且简短的CoT模板。快思考不经过CoT直接输出action token。
采用小词表和投机推理,大幅提升CoT效率。针对action token推理,创新使用并行解码,即同一个阐述方法模型两种推理模式,语言逻辑的推理,通过因果注意力机制逐字输出,action token采用双向注意力机制一次性全部输出。
经过上面一系列设计和优化,实现模型的参数规模与实时推理性能之间的平衡。
利用diffusion将action token解码成最终的驾驶轨迹,不仅生成自车轨迹,还预测其他车辆和行人轨迹,大幅度提升复杂交通环境中的博弈能力。
Diffusion另外一个巨大优势,根据外部的条件输入改变生成结果,在图像生成领域被称为多风格生成,理想使用了多层的Dit去实现理想同学开快点我赶时间这样的功能。
采用了常微分方程的ode采样器大幅加速的diffusion生成过程,使其在2~3步内就可以生成稳定的轨迹,解决生成效率低的问题。
使用强化学习,让系统超越人类驾驶水平,过去主要有两个限制。
限制1:早期架构未实现端到端的可训,强化学习作为稀疏弱监督,如果无法实现高效无损信息传递,强化学习效果会大打折扣。
限制2:强化学习高度依赖良好交互环境,过于基于3D游戏引擎,真实度不足,另外场景建设效率低于与规模小,容易让模型学片,去hack reward model。
理想此前已获得端到端可训的VLA模型,解决限制1。通过特意在不同视角下添加噪音来训练生成模型,恢复模糊视角。让生成模型具备多视角生成能力,与3D重建联合优化后,获得各视角都接近真实世界的3D环境,来解决限制2。
目前还有很多人以为理想在自动驾驶领域是在跟随特斯拉,其实已经完全不是了。在V10-11时期,说理想是在跟随特斯拉没有任何问题,从V12开始,理想跟随特斯拉的尺度越来越低。确实是因为特斯拉说端到端是work的,让理想敢于去尝试端到端,这没有认为问题。理想的VLM由系统一(快系统),系统二(慢系统)组成,其中快系统的部分说是跟随特斯拉也是一点问题没有。但是慢系统部分,说跟随特斯拉就有问题了,因为特斯拉压根就没提这个点。类比:特斯拉拥有更多的超充桩(类比算力/数据),所以特斯拉可以直接纯电行驶。理想超充资源不足(算力/数据不如特斯拉),所以决定出一款增程车(快系统类比纯电部分,慢系统类比加油部分,特斯拉丝滑度更高类比电池比增程车电池大很多)。提醒读者注意,就像正文一开始提到的,任意两个事物不太可能所有细节都可以类比,理想VLM 快慢系统衔接顺畅程度是远没有增程车用电用油那么好。更恰当一点的类比是,理想VLM是2018年的充电桩密度,加油站密度只有充电桩密度的1/20,但是在1/20的情况下比充电桩更有用。(这个类比确实比较绕,TOP2暂时想不到更通俗更直接的类比了)即理想VLM,是特斯拉作为引路人,让理想敢于去尝试端到端,没有特斯拉,理想即使会尝试,也会更久之后了。但是特斯拉具备理想不具备的一些条件(更多的算力数据),理想想出了VLM这么一个办法(类比充电桩不足的时候我加个增程器),让量产车可以去跑。在开发VLM过程,是理想自己想到把两个系统合成一个系统,要去做VLA的,即VLM到VLA,不是在追随特斯拉了,而是基于VLM的自然演进路线。王兴2020年7月的评论是非常有先见性的:“我算是见过中外各国许多创业者了,李想是少有的真能 Think Different 的人。可笑又可叹的是,很多人一方面对已成为传奇的苹果Think Different广告顶礼膜拜,另一方面却对身边正在发生的Think Different视而不见甚至百般嘲讽。叶公好龙。”加微信,进群深度交流理想长期基本面。不是车友群。