理想 TOP2 05月14日 18:23
小鹏关于自己VLA路线的一些QA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小鹏汽车自动驾驶产品高级总监分享了小鹏汽车在智驾技术上的选择和考量。文章主要阐述了小鹏汽车为何选择云端大模型蒸馏而非直接训练车端小模型,以及VLA为何必须放在车端。同时,强调了车端芯片的重要性,并解释了小鹏汽车采用轻雷达+重算力方案的原因,旨在提高智驾的安全系数和性能。

☁️云端大模型蒸馏:小鹏汽车选择在云端训练72B参数的超大规模VLA模型,再通过蒸馏方法生成车端小模型,旨在让车端模型承袭云端大模型的智能,解决模态不统一的困境,提升模型效果。

🚗VLA必须车端部署:VLA作为新一代辅助驾驶的基础模型能力,必须放在车端以避免安全风险。在地库、高速等区域,网络延迟和丢失会导致控车无法及时响应,可能造成严重后果。

💻车端芯片的重要性:小鹏汽车强调车端芯片对于AI企业和硬件企业的重要性。强大的车端芯片算力,配合蒸馏、剪枝、量化等软件层面的优化,能更好地利用云端大模型的能力。

💡轻雷达+重算力方案:小鹏汽车选择轻雷达+重算力的方案,旨在提高智驾的安全系数。该方案通过提升视觉感知模型的容量、参数量和推理频率,降低端到端延时,提高视觉响应速度。

2025-05-09 22:31 四川

原作者:小鹏自动驾驶产品高级总监微博用户XP-Candice婷婷
原文链接:
https://weibo.com/7926776135/PqSjHhgEN

1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型?

小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。我们正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能“推云入端”。这比直接训练一个车端小模型更难,但上限也更高。

 

原因1:更强的规模法则效应。

模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。

 

原因2:解决“模态不统一”的困境。

自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到“模态不统一”的困境。模态不统一,指的是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个负面作用会随着数据量增大而越来越明显。


当数据量较小的时候(如只有100w or 200w训练数据),比如,在一个驾驶场景里,只会学到1-2种驾驶路径,这并不会产生明显的问题。

当数据量变得越来越大的时候,会看到越来越多重复的场景,且驾驶员的解法是不同的,这就会造成模型的confusion,会造成模态坍塌,最终模型学习到一个平均态。带来的结果就是模型并没有通过数据的增加实现 scaling law,产生更强的模型效果。

但如果本身云端训练了更大的模型,使模型有更大的参数量,更强的能力,这个模型作为老师,去教车端的模型学习,就会有“模态统一”的优势。小鹏的技术路线,用同一个模态,对于不同场景都用这个方式去训练,继而提升车端小模型的性能。

 

原因3:更大的云端模型,强化学习的效果更好。

更大的模型,后训练的效果会更好,能力会更强。通过更大的云端模型后训练,再向车端小模型去蒸馏,得到的结果,比直接车端的小模型直接去做强化后训练要好得多。

 

2、为什么VLA必须放在车端,不可能放在云端?

VLA是新一代辅助驾驶的基础模型能力,是正确的方向,但是VLA必须都放在车端

如果放在云端,会有极大的安全风险,因为在地库,高速等区域,网络延迟和网络丢失都会导致用户语言控车无法及时响应,可能导致严重后果。云端VLA适合的场景只有在没有延时顾虑的脱困场景,如L4场景下,车已经靠边停车了,或者车已经卡死了,在这种情形下,云端可以来做协同判断决策,2秒或者3秒的延迟都不是大问题。

所有跟控车相关的VLA都必须放在车端。别说是1-2秒的延迟,超过300毫秒的延迟,就会导致控车的风险。举例来说,车现在想要左转,已经进入十字路口一段时间了,再去发起左转决策,那么路径显然是错的。越小的延时,越可以降低安全风险,尤其是在车速较快的情况下和繁忙的城区场景。

通过云端交互的VLA,可以演示,但是不建议拿来物理世界真实使用

小鹏的物理世界模型+本地VLA体系,直接在本地部署,不光可以在中国使用,而且在全球范围内(因为很多国家车端网络很慢)都可以使用

 

3、为什么车端芯片这么重要?

自动驾驶的核心除了模型和数据外,核心在于本地端芯片。而为什么特斯拉、苹果、华为、小米都自研芯片,因为芯片对一家AI企业,对于一家硬件企业,都太重要了。

当我们在云端的大模型解决了最困难的问题后,剩下的核心问题,就是工程部署问题。工程部署问题在软件和模型层面,是蒸馏、剪枝、量化;在硬件层面,核心芯片算力做大,芯片和模型的耦合优化变强。

车端芯片的强大,是一家AI企业能不能把模型用好的分水岭。

我们研发了一颗可顶三颗主流车端芯片算力的图灵芯片,并且通过芯片、模型、编译等团队的紧密合作,追求模型和芯片的无缝藕合。小鹏的自研芯片,算力大,适合跑大模型,我们能让软件模型和芯片做联合设计,能最大程度的发挥出模型和芯片的协同效果。而且只有全栈自研才能联合设计硬件、软件、编译器和模型结构从而最大化全链路的效果。

我们应用自研芯片的量产车,马上就要与大家见面了,敬请期待

 

4、为什么小鹏使用的轻雷达+重算力方案,是物理世界模型+VLA的最佳组合?

在”让大脑更聪明”或者“戴上夜视眼镜”的选项中,我们选择了让大脑更聪明,来全面提高智驾的安全系数。

(1)反应更敏捷

去激光雷达后节约了20%的感知算力,升级了视觉感知模型的容量、参数量和推理的频率。计算简化让端到端的延时大幅降低,视觉的响应速度是激光雷达的近2倍,意味着响应时间几乎减半,能够明显提升整车的安全性和流畅性;综合大模型的能力和车端算力,我们的视觉信息处理帧率,可以达到业界主流激光雷达的处理帧率的12 倍,能够大幅度提高城市辅助驾驶的安全级别。

(2)脑容量更大,脑神经更发达

“聪明的大脑”需要脑容量足够大(我们自研芯片的算力是行业内pro车型的4-5倍),也需要脑子里的神经网络足够发达(我们的云端基座大模型有720亿的参数,是行业最高)。摄像头提供的输入信号更丰富,信息量更大,配合更强大的“大脑”可以更有效地利用上千倍信息量的输入信号,从而提高整个系统的上限。

(3)眼睛更雪亮

小鹏汽车的AI摄像头(鹰眼视觉),是前向+后向800万像素,结合Lofic技术,行业内车规级最高精的摄像头,看的比人类远,在夜间、大逆光、雨雪天等看的比人眼更清楚。


加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小鹏汽车 自动驾驶 云端大模型 车端芯片 VLA
相关文章