2025-05-09 22:31 四川
1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型?
小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。我们正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能“推云入端”。这比直接训练一个车端小模型更难,但上限也更高。
原因1:更强的规模法则效应。
模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。
原因2:解决“模态不统一”的困境。
自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到“模态不统一”的困境。模态不统一,指的是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个负面作用会随着数据量增大而越来越明显。
当数据量较小的时候(如只有100w or 200w训练数据),比如,在一个驾驶场景里,只会学到1-2种驾驶路径,这并不会产生明显的问题。
当数据量变得越来越大的时候,会看到越来越多重复的场景,且驾驶员的解法是不同的,这就会造成模型的confusion,会造成模态坍塌,最终模型学习到一个平均态。带来的结果就是模型并没有通过数据的增加实现 scaling law,产生更强的模型效果。
但如果本身云端训练了更大的模型,使模型有更大的参数量,更强的能力,这个模型作为老师,去教车端的模型学习,就会有“模态统一”的优势。小鹏的技术路线,用同一个模态,对于不同场景都用这个方式去训练,继而提升车端小模型的性能。
原因3:更大的云端模型,强化学习的效果更好。
更大的模型,后训练的效果会更好,能力会更强。通过更大的云端模型后训练,再向车端小模型去蒸馏,得到的结果,比直接车端的小模型直接去做强化后训练要好得多。
2、为什么VLA必须放在车端,不可能放在云端?
VLA是新一代辅助驾驶的基础模型能力,是正确的方向,但是VLA必须都放在车端。
如果放在云端,会有极大的安全风险,因为在地库,高速等区域,网络延迟和网络丢失都会导致用户语言控车无法及时响应,可能导致严重后果。云端VLA适合的场景只有在没有延时顾虑的脱困场景,如L4场景下,车已经靠边停车了,或者车已经卡死了,在这种情形下,云端可以来做协同判断决策,2秒或者3秒的延迟都不是大问题。
所有跟控车相关的VLA都必须放在车端。别说是1-2秒的延迟,超过300毫秒的延迟,就会导致控车的风险。举例来说,车现在想要左转,已经进入十字路口一段时间了,再去发起左转决策,那么路径显然是错的。越小的延时,越可以降低安全风险,尤其是在车速较快的情况下和繁忙的城区场景。
通过云端交互的VLA,可以演示,但是不建议拿来物理世界真实使用。
小鹏的物理世界模型+本地VLA体系,直接在本地部署,不光可以在中国使用,而且在全球范围内(因为很多国家车端网络很慢)都可以使用。
3、为什么车端芯片这么重要?
自动驾驶的核心除了模型和数据外,核心在于本地端芯片。而为什么特斯拉、苹果、华为、小米都自研芯片,因为芯片对一家AI企业,对于一家硬件企业,都太重要了。
当我们在云端的大模型解决了最困难的问题后,剩下的核心问题,就是工程部署问题。工程部署问题在软件和模型层面,是蒸馏、剪枝、量化;在硬件层面,核心芯片算力做大,芯片和模型的耦合优化变强。
车端芯片的强大,是一家AI企业能不能把模型用好的分水岭。
我们研发了一颗可顶三颗主流车端芯片算力的图灵芯片,并且通过芯片、模型、编译等团队的紧密合作,追求模型和芯片的无缝藕合。小鹏的自研芯片,算力大,适合跑大模型,我们能让软件模型和芯片做联合设计,能最大程度的发挥出模型和芯片的协同效果。而且只有全栈自研才能联合设计硬件、软件、编译器和模型结构从而最大化全链路的效果。
我们应用自研芯片的量产车,马上就要与大家见面了,敬请期待。
4、为什么小鹏使用的轻雷达+重算力方案,是物理世界模型+VLA的最佳组合?
在”让大脑更聪明”或者“戴上夜视眼镜”的选项中,我们选择了让大脑更聪明,来全面提高智驾的安全系数。
(1)反应更敏捷
去激光雷达后节约了20%的感知算力,升级了视觉感知模型的容量、参数量和推理的频率。计算简化让端到端的延时大幅降低,视觉的响应速度是激光雷达的近2倍,意味着响应时间几乎减半,能够明显提升整车的安全性和流畅性;综合大模型的能力和车端算力,我们的视觉信息处理帧率,可以达到业界主流激光雷达的处理帧率的12 倍,能够大幅度提高城市辅助驾驶的安全级别。
(2)脑容量更大,脑神经更发达
“聪明的大脑”需要脑容量足够大(我们自研芯片的算力是行业内pro车型的4-5倍),也需要脑子里的神经网络足够发达(我们的云端基座大模型有720亿的参数,是行业最高)。摄像头提供的输入信号更丰富,信息量更大,配合更强大的“大脑”可以更有效地利用上千倍信息量的输入信号,从而提高整个系统的上限。
(3)眼睛更雪亮
小鹏汽车的AI摄像头(鹰眼视觉),是前向+后向800万像素,结合Lofic技术,行业内车规级最高精的摄像头,看的比人类远,在夜间、大逆光、雨雪天等看的比人眼更清楚。