VLA较E2E-VLM的3个提升点

2025-02-28 20:12 四川

原作者：大懒货

原文链接：

https://weibo.com/2062985282/PgmxNm2rL

以下为原文：

【技术向】自动驾驶领域能工程落地【VLA】视觉语言动作模型的贡献价值
~不亚于我们成功搞定千T算力的自动驾驶芯片~
VLA可能是目前从高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键敲门砖
基于目前学术研究探讨：AD领域的VLA可能的工作流
可以拿Open-VLA 这个参考图作为举例

1️⃣：信息感知：
多颗摄像头视频流、导航需求、自车定位、其他传感器信息通过统一编码、对齐
进入基于基座模型蒸馏后应对驾驶领域专一的LLM模型【参量数B至数十B？或者更高】
2️⃣：决策输出
通过驾驶领域专一的LLM模型直接输出决策、决策转换为轨迹并直接输出控制细节
VLA相较于现在的E2E-VLM 有以下几个差异【或者直接说提升的点吧】：
1️⃣：如果全局直接用VLA来控制驾驶领域，首先不需要考虑端到端模型和VLM模型握手的问题，不太可能出现在VLM告知端到端模型该怎么做，但是端到端模型不太清楚该怎么做【因为现在这个信息握手仍然是通过人工定义的方式处理】
2️⃣：VLA的模型参量相较于现在VLM有大幅度的提升，因此非常有可能在驾驶领域涌现出弱的人工智能处理能力。换句话说，针对于没有针对性训练过的场景，VLA也能通过多步骤逻辑推理、分析等方式处理。针对于复杂场景的能力会明显变强。
我们都知道现在VLM更多是通过语言模型去做场景的感知联动元动作，存在一定的弱智能和推理能力【like 有车打灯要小心、复杂路口要小心】，但是特别复杂场景的、需要长上下文背景信息的推理能力还是比较弱的，而VLA通过增加参量、基座模型专一训练成驾驶领域都可以在有限算力【OrinX/Thor】下尽可能提升驾驶领域的通用理解和思考能力，就像拥堵场景用VLA去解会比现在E2E-VLM解的表现好的多的。
3️⃣：针对于基于LLM去探索AD，针对模型的幻觉。这个肯定要用类似模型化的主动安全或者用其他强化学习的方式去兜底。既然@刘杰-理想大王已经官宣OrinX/Thor 都可以跑通VLA。那么大概率模型化的安全兜底应该也是跑通了。
再简单总结一下⭐⭐：
通过工程落地VLA，在2025年AD Max车主能看到在驾驶场景中，车辆会具备一定深度思考、复杂推理的一套智能驾驶。通过模型推理的方式让车辆更好应对复杂场景和那些可能没有见过的场景。
因为这个世界的变量太多了，我们很难通过数据训练实现模型应对100%的场景，因为能力泛化可能就需要基于模型分析、推理、乃至涌现的方式去实现~

加微信，进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签