理想 TOP2 02月25日
VLA两大关键挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

元戎启行CEO周光在2025年1月表示,VLA模型是端到端2.0,相比1.0版本,它能处理更复杂的场景,并提供更高的透明度,解释动作和轨迹的原因。VLA方案的核心在于输入(摄像头、导航信号)、输出、视觉编码器、文本编码器和轨迹解码器。该模型通过视觉编码器提取图像特征,文本编码器处理用户交互,轨迹解码器输出车辆轨迹信号,文本解码器解释动作原因,关键特性是思维链,例如理解潮汐车道。VLA面临的挑战包括真实数据数量和实时响应速度,合成数据难以覆盖所有环境变化和关键状态。元戎启行已与头部车企合作,将VLA模型应用于量产车,并配备英伟达Thor芯片。

🧠VLA模型是端到端2.0,能够处理更复杂的场景,并提供更高的透明度,解释动作和轨迹的原因,采用全局信息和长下文信息进行高级推理。

🚗VLA方案的核心组成部分包括输入(摄像头、导航系统信号)、视觉编码器、文本编码器、轨迹解码器和文本解码器。视觉编码器负责提取图像的高级特征,文本编码器处理用户与汽车的交互,轨迹解码器将模型输出转换为车辆轨迹信号,而文本解码器则解释下一步动作的原因,例如识别行人并减速避让。

🚦VLA的关键特性是“思维链”,能够理解复杂的交通场景,例如潮汐车道。车辆能够通过文本信息识别可逆车道的道路标志,并与其他车辆交互,最终安全驶入潮汐车道。

💾VLA面临的关键挑战包括真实数据的数量和实时响应速度。合成数据无法完整覆盖所有环境变化(如闪电、天气等),并且缺乏关键状态(如行人违规横穿马路)。

RoboX 2025-02-23 22:25 四川

省流版:元戎启行CEO周光25年1月22日认为

VLA是端到端2.0,较端到端1.0核心两点关键提升:

1.能够处理更复杂的场景

2.透明度更高 会解释动作及轨迹原因 采用全局信息和长下文信息来做高级推理。


VLA方案核心是输入、输出、视觉编码器、文本编码器、轨迹编码器、文本解码器。

输入的是摄像头、导航系统信号。会通过两个编码器,视觉编码器对图像进行编码,从中提取高级特征。文本编码器,是用户与汽车交互。

轨迹解码器是把模型的输出换成接下来10秒30秒的带有速度和路径的轨迹信号。

文本解码器会解释下一步动作的原因,例如,“有两个行人正在试图过马路,车辆需要减速并等他们通过。”

VLA关键特性是思维链。例如可以读懂潮汐车道。

VLA两大关键挑战是真实数据数量和实时响应(100毫秒做出反应)。

合成数据无法完整覆盖环境变化(闪电、天气等),以及缺乏关键状态(行人违规横穿马路等)


以下为RoboX整理的原文:

25年1月22日,在第17届日本国际汽车工业技术展上,元戎启行CEO周光发表了一场演讲,对VLA模型(Vision Language Action Model,视觉语言动作模型)的特点进行了简要介绍,并宣布该公司已与某头部车企达成量产合作,共同推出搭载VLA模型的智能驾驶汽车,该车配备英伟达Thor芯片,将于今年投入消费者市场。


高精地图就像「作弊」

“高精度地图虽然在十年前非常有用,能帮助车辆定位,但这种方式更像是一种‘作弊’,因为它只能在限定范围内规避一定问题。”周光表示,最典型的案例就是传统基于规则的Robotaxi,至今仍只能在特定区域运营。

另外,自然还有高精度地图一直被诟病的「高成本」、「难以保持鲜度」等问题。

相比来看,无图化的「端到端」方案的优势在于:

VLA,将让智驾更强大

周光称,在过去的两年里,自动驾驶技术的进步远远超过了过去的20年,尤其是在结合了大语言模型之后。

2022年,元戎启行(以下简称「元戎」)不需要高精地图和高精定位,并将多个模块全部融合到一个通用感知网络中。该网络可以检测到3D动态障碍物和静态物体,例如地标、边界等等。

同年,元戎又开始使用深度学习方法来处理决策和规划,但那时性能还不够理想。

2023年,元戎进行了端到端的初步测试,并于2024年开始开发下一代端到端技术——视觉-语言-动作模型(VLA)。

“VLA与最新的生成式大模型相结合,让自动驾驶功能更强大。今年,这一新技术将被集成到量产车中,并实现交付。“周光说道。

他介绍称,传统的感知网络利用的是结构数据。而神经网络会使用原始向量,而且是高维向量,这些向量在神经模块之间传递信息,并通过超高带宽进行信息交换,避免信息丢失。

元戎的DeepRoute IO正是这样一个系统——IO代表输入和输出,即输入数据,输出控制命令,这意味着它是一个单一的神经网络。

传统方案与VLA、端到端的本质区别

“我认为VLA是端到端2.0。在第一代端到端的架构中,已经没有太多代码了。它就像神经网络或者大语言模型一样,从底端直接输入,并输出结果。”

要想搞清楚VLA方案,首先要搞清楚「输入、输出、视觉编码器、文本编码器,轨迹解码器」,以及它们如何工作。

周光解释称,所谓的「输入」,就是从摄像头、导航系统、地图等接收的「输入」信号。输入要通过两个编码器,文本编码器(text encoder)和视觉编码器(vision encoder)。

视觉编码器对图像进行编码,并从中提取高级特征;而文本编码器,更多代表着用户与汽车的交互。

“在传统方案中,会生成各类特征。虽然看起来简单,实际上它背后的网络复杂得多。它结合了文本特征等,然后通过模型进行输出。”

至于「输出」,是由轨迹解码器(trajectory decoder)把模型的输出转换成系统能理解的轨迹信号 ,它负责告诉用户接下来10秒,乃至30秒中,车辆会做什么,也就是给出带有速度和路径的轨迹。

同时,「文本解码器」也会解释下一步动作的原因。例如,“有两个行人正在试图过马路,车辆需要减速并等他们通过。”

相比之下,基于端到端技术的自动驾驶解决方案则更加高效,这种方案通过实时感知和重建世界,能够处理各种复杂和长尾的情况。

“由于它是基于神经网络的,因此具有很强的泛化能力,可以适应全球范围内的不同道路和环境。”

周光表示,在端到端技术加持下,轨迹解码器就像人类大脑一样工作,而不是像规则。

他介绍称,VLA的关键特性是「思维链」:“因为现实世界要复杂得多,规则库无法应对这种复杂度。你需要通过多重信息来决定如何通过复杂场景,也需要不断地与其他车辆博弈、交互。”

他为VLA的思维链举了个例子,例如潮汐车道,基于VLA的智能驾驶车辆,能通过文本等看懂可逆车道的道路标志,并从多重信息中确认此时的潮汐车道是否可行驶,并通过转向灯等与其他车辆交互,随即变换车道,进行转向,最终行驶至潮汐车道中。

这一系列动作都是使用VLA进行的,它可以利用类人的思维,通过对全局上下文的了解,去了解车道的情况,与其他车辆交互,并做出最优的、安全的决策。

在周光看来,VLA相比目前的端到端具备两点关键提升:

首先,它更具适应性,也就是VLA可以适应并处理复杂的现实世界场景;

其次,是透明度,也就是它会解释动作及轨迹原因,“传统的数据系统需要解释代码,但是作为人类,我可以自然解释操控原因,这就是高级推理。VLA正是具备了这样的高级推理,因为它采用了全局信息和长上下文(context)信息,它可以做出更好的决策并提高安全性。

VLA的关键挑战

然而,VLA技术仍然存在许多重大挑战。首当其冲的,自然还是数据,而且周光还强调了真实数据的重要性。

“真实世界的数据是不同的,它涵盖了大量的环境变化,例如闪电、天气等。这就是我们为什么使用真实世界数据的原因,因为合成数据无法完整覆盖这些变化。还有更重要的一点,就是合成数据缺乏关键状态。例如行人违规横穿马路等场景,是在模拟中是无法得到的。”

对于这点,周光认为,量产车的规模,决定了迭代的速度:“我们每个月出货量都在万台规模,拥有大量数据来开发VLA模型。在中国,我们在全国范围内进行测试,收集数据。由于中国各地的天气条件、不同城市都有差异,我们可以覆盖各种场景,并收集足够的数据用于训练。”

另外,「实时响应」也是一个很大的挑战。大模型需要数十亿量级的参数,以及数千种类型的计算。所以元戎选择与英伟达共同开发VLA模型,再加上元戎自己的推理引擎,可通过AI推理最大限度地提高模型性能。

“我们可以在100毫秒内对情况做出响应,这比人类还快。”

当周光提及近期在美国测试特斯拉FSD最新版本的感受时,他表示FSD的整体表现非常流畅、自然且可预测。

“但我也注意到了特斯拉数据的不足——美国湾区的车辆相比国内少得多,人流量、电动车的密度等都比中国低。如果想在中国部署这个系统,这些数据都是缺乏的。”

他认为,拥有足够的临界态数据,才意味着可以更好地和参与交通的其他车辆、行人进行交互。“我确信特斯拉也在使用相同的技术。”

周光表示,目前元戎正与多家主机厂进行量产合作,其中包括了SUV、乘用车和越野车等车型。

“去年,我们有三款车型实现量产,而今年会有超过10款,预计今年这些车型的产量将超过20万辆,甚至更多。”

周光提及,最近元戎与Smart建立了战略合作伙伴关系,同样涉及自动驾驶。而且,第一款使用元戎解决方案的MPV也将于今年第一季度上市。

预计在今年,元戎不仅会在量产汽车中部署VLA模型,还会使用这些技术探索Robotaxi。

“Robotaxi是商业逻辑,而不是一项技术。我认为Robotaxi应该使用端到端模型、使用VLA来运营。”他说道。


加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VLA模型 元戎启行 自动驾驶 端到端 智能驾驶
相关文章