2025-05-08 23:02 四川
②:VLA的VL基座模型为什么要自己去预训练。用第三方LLM做VLM的经验已经告诉我们,如果不是用原生的基座模型。模型蒸馏以后其他LLM模型里面和驾驶场景无关的知识能力客观来说会影响模型本体的能力上限。【而车端算力是非常宝贵的,因此做原生驾驶场景的基座模型就是一个非常艰难,但是必须要做的事情】
【当然如果某一家可能会有更高的车端算力,我觉得尝试用第三方LLM去做蒸馏后强化学习也是可以尝试一下,毕竟各家搞科研的VLA机器人都是用开源的LLM】这也没错
③:VLA 相较于 E2E+VLM最大的两个差异:-1,是没有双系统协同了,所以不需要用VLM去指挥E2E; -2,VLA因为所有信息都是转成了Token在进LLM【蒸馏后的基座模型,这里简化描述。部分复杂指令会上云进VL模型】,因此多模态信息对齐在自动驾驶领域第一次达成【实时视觉感知、语义信息、导航信息、驾驶员需求信息等等】。
换句话说,用VLA可以让,AD系统真的看懂、看清楚、理解【车机导航】,注意是理解车机导航和真实路口场景的匹配和真实的轨迹预期,而并非是理解车机导航的播发信息【现在XX米后右转】
④:此外这里和@大雁jassy 谈到当时因为VLA构架用了3dgs【用很多个小椭球+每个椭球一个高维度颜色来描述三维世界的,所以文字这类信息在他的表示里应该算是复杂纹理,不知道能不能用3dgs的方式高效的表达且传导给后面的llm】这个疑问我当时就认可,怎么解决。
现在给出的解法是用了2D Vit 和3D表征同时进VLA模型,所以确实解决了3D场景的表达理解和文字信息的表达理解。
这个细节反向证明了,目前看VLA这个构架图【真实性、透明性】就是非常非常高的
⑤:VLA司机模型,这里还有一个事情。相较于原来的端到端模型重复造轮子的就小多了。举个最简单例子:E2E 500wclips 升级到800W clips 其实是重新训练的
VLA司机模型 1.0 和2.0 都是来自于32B 的VL模型蒸馏后强化学习做的,本质上数据利用率会高的多的【大幅度减少了重复分析数据、匹配数据造轮子的工作】@本诺__ 对吧~
⑥:能力提升的预测【客观来说,模型参量增加表现增强是客观存在的】。这里我们来探讨一下,E2E模型1000W clips的模型参量大概率是 小于1B的,而VLA司机基座模型是【3.2+0.8=4B】。还有一个云端增强的32B的VL模型,
所以?大家能理解能力的增强?【复杂场景、真实理解、推理、长时序】
这也是我一直在说VLA提升的并不是E2E模型的流畅性,而是提高的顶层思维能力。
在讨论这个问题前,我觉得大家会有一个相对明确的共识:
【在自动驾驶/高级驾驶辅助领域中,VLA模型应该就是目前相对先进的构架】
对的,也许VLA不是最终解,但是是目前最先进的解法之一
那我们来看一下VLA的最重要的几个点:
【或者用这个几个重要点去看为什么VLA最后要和自研芯片一起搞?】
①:VLA的 BackBone 是什么?或者说它最核心的主干网络是什么?就是一个LLM。LLM的优势是在于多头注意具备超长的上下文文本,但是其最大劣势也在于多头注意超大的内存占用【当然,我们可以用稀疏注意等减少内存占用】。
但是客观来说,LLM就是特别吃内存、吃算力。 通用计算芯片去跑LLM ,例如现在OrinX去跑效率就是高不到哪里去【换句话说这个LLM 在边缘计算端的参量上不去】
上不去,就意味着能力有明显的能力上限。
那怎么解决,很简单【要么直接暴力出奇迹,上工控机,要么搞针对构架进行优化的自研芯片,提升车端的LLM的参量,从而提升车端VLA的能力】
②:VLA的最大的贡献是什么?【其实是多模态信息的对齐】
举个例子,在我们人类驾驶环境中真实世界不仅仅有交通参与者、静态障碍物、道路拓扑、还有文字标牌还有导航信息。这里有3D的信息、有2D的信息、还有文字信息等等。传统的E2E模型【狭义的视频进轨迹出】是很难【理解文字信息和2D、3D信息对齐】,注意是很难不是不行。比如说FSD客观来说也具备短Cot的思考,也能开出停车场【一方方面是它的E2E模型训练的足够好,另一方面也是车端算力真的大】
通过都转成Token后,VLA里面这个LLM能将 导航、3D、2D、文字等等乱七八糟的信息都丢进去。对齐后输出高维的决策Token,然后转成轨迹。
再用简单更简单的话说【VLA模型,能学会看懂真实世界的所有信息,并且有机会能读懂地图,而不是听地图播发】
③:用不用激光雷达?在VLA里面是否需要用激光雷达?我认为是不同企业有不同的解法@大雁jassy 五一的时候还在和Jassy讨论【人家是真研发啊,不是我这种草台班子】。其实要去看VLA构架在对3D【鸟瞰】信息的编码方式去看。这个3D信息转成Token 是否需要用点云去做真值矫正。
还有更多的是看企业将更多的精力放在哪个,走纯视觉还是融合方向。
客观来说现在激光雷达的点云刷新速度就是没有摄像头视觉感知的快,而且图像确实也比点云数据包含更加丰富的语义信息。
但是我同样也认为,点云数据也是一个非常好信息来源
【这不是一个非黑即白的状态,而是一个单纯资源偏好取舍的状态】
以上均为个人野路子猜测,不当之处请大家批评指正。谢谢大家。