理想 TOP2 03月02日
VLA较E2E-VLM的3个提升点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

自动驾驶领域迎来新突破!VLA(视觉语言动作模型)被认为是高阶驾驶辅助向真正自动驾驶过渡的关键。与现有E2E-VLM相比,VLA无需考虑模型握手问题,并通过大幅提升模型参数,在驾驶领域涌现出弱人工智能处理能力,即使在未训练过的复杂场景中,也能进行多步骤逻辑推理和分析。此外,针对LLM的幻觉问题,将采用模型化的主动安全或强化学习方式进行兜底,确保驾驶安全。预计2025年,AD Max车主将体验到车辆在复杂驾驶场景中深度思考和推理的智能驾驶能力,应对更多未曾见过的场景。

🧠 VLA视觉语言动作模型对自动驾驶领域的贡献价值巨大,不亚于成功研发出千T算力的自动驾驶芯片,是高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键。

🤝 VLA模型相较于现在的E2E-VLM,最大的优势在于全局直接用VLA控制驾驶,无需考虑端到端模型和VLM模型握手的问题,避免了信息传递不畅的问题。

🚀 VLA模型参数大幅提升,在驾驶领域涌现出弱人工智能处理能力,即使面对未针对性训练过的场景,也能通过多步骤逻辑推理、分析等方式进行处理,显著提升复杂场景应对能力。

🛡️ 针对基于LLM探索自动驾驶时可能出现的模型幻觉问题,将采用类似模型化的主动安全或强化学习的方式进行兜底,确保驾驶安全可靠。

2025-02-28 20:12 四川

原作者:大懒货

原文链接:

https://weibo.com/2062985282/PgmxNm2rL


以下为原文:

【技术向】自动驾驶 领域能工程落地【VLA】视觉语言动作模型的贡献价值
~不亚于我们成功搞定千T算力的自动驾驶芯片~
VLA可能是目前从高阶驾驶辅助【L2】走向真正自动驾驶【L3及更高】的关键敲门砖
基于目前学术研究探讨:AD领域 的VLA可能的工作流
可以拿Open-VLA 这个参考图作为举例

1️⃣:信息感知:
多颗摄像头视频流、导航需求、自车定位、其他传感器信息通过统一编码、对齐
进入 基于基座模型蒸馏后应对驾驶领域专一的LLM模型【参量数B至数十B?或者更高】
2️⃣:决策输出
通过驾驶领域专一的LLM模型直接输出决策、决策转换为轨迹并直接输出控制细节
VLA相较于现在的E2E-VLM 有以下几个差异【或者直接说提升的点吧】:
1️⃣:如果全局直接用VLA来控制驾驶领域,首先不需要考虑端到端模型和VLM模型握手的问题,不太可能出现在VLM告知端到端模型该怎么做,但是端到端模型不太清楚该怎么做【因为现在这个信息握手仍然是通过人工定义的方式处理】
2️⃣:VLA的模型参量相较于现在VLM有大幅度的提升,因此非常有可能在驾驶领域涌现出弱的人工智能处理能力。换句话说,针对于没有针对性训练过的场景,VLA也能通过多步骤逻辑推理、分析等方式处理。针对于复杂场景的能力会明显变强。
我们都知道现在VLM更多是通过语言模型去做场景的感知联动元动作,存在一定的弱智能和推理能力【like 有车打灯要小心、复杂路口要小心】,但是特别复杂场景的、需要长上下文背景信息的推理能力还是比较弱的,而VLA通过增加参量、基座模型专一训练成驾驶领域都可以在有限算力【OrinX/Thor】下尽可能提升驾驶领域的通用理解和思考能力,就像拥堵场景用VLA去解会比现在E2E-VLM解的表现好的多的。
3️⃣:针对于基于LLM去探索AD,针对模型的幻觉。这个肯定要用类似模型化的主动安全或者用其他强化学习的方式去兜底。既然@刘杰-理想 大王已经官宣OrinX/Thor 都可以跑通VLA。那么大概率模型化的安全兜底应该也是跑通了。
再简单总结一下⭐⭐:
通过工程落地VLA,在2025年AD Max车主能看到在驾驶场景中,车辆会具备一定深度思考、复杂推理的一套智能驾驶。通过模型推理的方式让车辆更好应对复杂场景和那些可能没有见过的场景。
因为这个世界的变量太多了,我们很难通过数据训练实现模型应对100%的场景,因为能力泛化可能就需要基于模型分析、推理、乃至涌现的方式去实现~


加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VLA 自动驾驶 人工智能 LLM 智能驾驶
相关文章