新智元报道
新智元报道
今天的自动驾驶,难点在哪
这些令人惊艳的案例背后,是小鹏团队对于自动驾驶AI的多年艰难攻关。要理解这个过程,首先我们需要明白的一个问题,就是如今自动驾驶的难点在哪里。虽然规则时代的自动驾驶模型,也能解决大部分常见的驾驶问题,但无法处理那些罕见的、复杂的、事关安全的长尾问题,也即corner case。而不解决corner case,就不可能走向真正的L3、L4。也就是说,自动驾驶真正的核心难点,在于处理那些罕见的、复杂的、事关安全的长尾问题。因为这些问题发生概率极低,就很难有足够数据让模型学习。那么,是否有可能让模型能像人类一样,基于常识和经验处理长尾问题呢?毕竟,人类学车也并不是遍历所有区域、所有场景。此时的破局点,就在于让自动驾驶模型从只会模仿学习,做到长出一个「大脑」,处理从未在训练数据中见过的场景。怎么办?小鹏汽车根据多年经验,决定进行一个大胆的实验——在云端训出一个会思考的超级大脑!神奇的事情发生了:云上大模型开始「涌现」。据刘先明介绍,研发团队训练了从10亿到720亿等不同尺寸的模型,持续向模型「投喂」更大规模的训练数据,他们清晰地看到了Scaling Law的显现,也就是说,模型参数越大、模型学习的数据越多,模型的性能越强。这是大模型浪潮以来,行业内首次明确验证规模法则(Scaling Law)在自动驾驶VLA模型上持续生效。接下来,我们把小鹏720亿参数的基座模型打开看看,这个「AI大脑」里有什么。它跟传统的「小脑」型自动驾驶模型最大的不同,就在于具备思维链推理的能力(CoT)。由此,模型仿佛具备开车能力和思考能力的「大脑」,能让汽车像人类一样主动思考和理解世界,处理训练数据中从未见过的长尾场景,而非机械执行程序员写好的规则。这种由过去纯粹只懂开车、不懂思考的「小脑」到「大脑」的飞跃,是自动驾驶技术的质变。从此,汽车有望完成从L2辅助驾驶到L4自动驾驶的纵向技术迭代,最终抵达真正的无人驾驶!小鹏汽车的VLA大模型以大语言模型为骨干网络,用了海量优质的自动驾驶数据训练而成,具备视觉理解能力、链式推理能力和动作生成能力。本身的强大性能加上后训练阶段的RL,让它获得了高度类人的CoT,即使在极为复杂、危险或罕见的场景,都能进行清晰的逻辑推理——「我面临的环境是什么样的?眼前有哪些影响我开车的关键对象?现在交通信号灯让不让走?我应该怎么操作既安全、又合规,最好还能比较有效率?想好了,我现在输出一条轨迹……」在这个过程中,小鹏持续「投喂」了更大规模的训练数据。目前,基座模型累计吃下了2000多万条视频片段(每条时长30秒)。团队也清晰地看到了Scaling Law的显现!L2无法进化到L4,突破口在哪里?
正如上文所述,此前很多人认为,L2无法进化到L4,就是因为当时的自动驾驶模型只会「模仿学习」,处理训练数据中见过的场景。小鹏的解法,就是用强化学习,做出高度拟人的「AI大脑」。但这过程中,就又遇到了一个难题:由于车端算力限制,最终能够部署上车的模型参数都很小,目前业界常见的车端模型参数只在几百万到十亿级别。这样,Scaling Law根本就无从发挥,更无法实现强大CoT。为此,小鹏早在去年,就独具慧眼地确定了云端基模技术路线——在云端「不计成本」地训练超大规模基座模型,再通过蒸馏,帮模型跳出车端算力的「一亩三分地」。刘先明介绍说,「云端基座模型+强化学习的组合,是让模型性能突破天际的最好方法」。前者,就好比人的智商,而后者,就好比能力激化器。巧的是,开车也正是个非常适用强化学习的领域。小鹏为此开发了自己的强化学习奖励模型,在完成预训练、SFT之后,就会进入RL阶段,从安全、效率、合规三个方向上激发基模潜能。如今,小鹏已经有几十万辆辅助驾驶车辆跑在全国各地,源源不断创造着新训练数据,包括大量长尾场景。而小鹏的车主们,也不断为AI辅助驾驶的智能所惊叹。比如,前不久一位福州用户开到了红绿灯路口,发现对面主干道有两棵大树,居然需要从两棵树的缝隙之间穿越而过,这复杂的路况让人类司机都会愣上一阵。这个典型的CoT场景,就需要模型做出大量实时推理:「我在哪?发生了什么?我要怎么走?」令人惊喜的是,小鹏智能辅助驾驶系统居然顺利地一把过了!而这,仅仅是一个开始。目前,小鹏汽车自动驾驶团队已经开始自研「世界模型」(World Model)了。作为实时建模和反馈系统,它基于动作信号模拟真实环境状态,渲染场景,生成场景内其他智能体(交通参与者)的响应,构建出闭环反馈网络。这一系统,将助力基座模型的强化学习训练,显著提升模型在复杂场景中的决策能力。
一流AI公司,成就一流自动驾驶公司
过去,全球自动驾驶的核心叙事者一直是Waymo、特斯拉。但小鹏CVPR的演讲证明,中国车企正在用AI重新定义游戏规则。正如刘先明所言,「大模型时代,想做一流的自动驾驶公司,首先必须成为一流的AI公司」。为了研发下一代自动驾驶基座模型,小鹏汽车从2024年开始布局,建成国内汽车行业首个万卡智算集群,算力高达10 EFLOPS,集群运行效率常年保持在90%以上,模型全链路迭代周期平均仅5天。如此算力规模和运营效率,足以媲美全球头部AI企业。这套云到端的生产流程,被命名为「云端模型工厂」,支持基座模型预训练、后训练、模型蒸馏,以及车端模型训练等全流程任务。与LLM不同的是,自动驾驶基座模型的研发面临更大的复杂性和挑战。自动驾驶模型需要融合摄像头、导航信息等多模态数据,形成对物理世界的精准认知,并在动态驾驶场景中完成推理、决策和控车操作。它的训练需要从头验证所有技术问题,包括Scaling Law。相较于大模型行业的「卷模型、卷技术」,汽车行业的AI化仍是少数派。特斯拉是这一赛道的先行者,其FSD系统背后强大的AI模型和基础设施令人叹服。而小鹏汽车正以同样的决心,加速追赶并试图超越。在CVPR上,小鹏首次披露了两项核心数据:数据处理能力:小鹏云上基模训练过程中,累计处理超40万小时的视频数据流式多处理器的利用率(streaming multiprocessor utilization)达到 85%。这些数字背后,是小鹏比照全球领先AI公司标准,从0搭建的数据和AI基础设施。刘先明从两个层面——云端模型训练和车端模型部署,拆解了小鹏自动驾驶团队提升模型训练效率的方法。云端模型训练
和AI圈熟知的大语言模型(LLM)的训练不同,自动驾驶VLM和VLA的训练,不仅受限于计算瓶颈,还面临数据加载和通信瓶颈。小鹏团队通过联合优化CPU、GPU和容错性,攻克了大规模并行训练的难题。针对数据加载问题,研发团队对CPU的利用作了如下优化:启用额外的CPU节点,以提升GPU节点的数据加载能力;对PyTorch进行定制化改造,降低进程间通信开销;采用激进的数据物化策略,进一步减轻CPU在数据加载上的负载;优化打乱(shuffling)模式,在速度与随机性之间取得平衡。针对GPU计算资源的利用,优化策略如下:使用FSDP 2实现模型分片使用FP8混合精度训练利用Flash Attention 3加快计算速度自定义Triton内核这些优化,让小鹏的「云端模型工厂」在处理海量多模态数据时,实现了极高的效率和稳定性。车端模型部署
团队自研的图灵AI芯片,为车端模型部署提供了得天独厚的优势。这款专为大模型设计的芯片,单颗算力就已经远超Orin-X,三颗更是超过了2200 TOPS,未来可以支持L3+级别的智驾体验。据悉,小鹏汽车的模型、编译器、芯片团队长期联合研发,针对下一代模型开展定制化工作。比如,定制AI编译器以最大化执行效率,协同设计硬件友好、量化友好的模型架构,确保软硬件充分耦合,目标就是「榨干」车端芯片的算力。以配备7个摄像头VLA模型为例,每2秒视频输入会产生超5000个token,导致巨大的计算压力。为此,他们还设计了针对VLA模型的token压缩方法,将token处理量压缩70%(从5000压缩至1500)。这种软硬协同的极致优化,让小鹏在车端算力有限的场景下,依然实现了高性能智驾。从CVPR的舞台到全球市场的布局,小鹏汽车以AI为核心,重新定义了自动驾驶的未来。其端到端大模型、强化学习和数据驱动的开发模式,不仅让中国车企在全球AI智驾领域占据一席之地,更向世界证明了AI创新的无限可能。在这条自动驾驶赛道上,小鹏正加速驶向改变世界的未来。
文章原文