理想 TOP2 03月25日 22:28
理想VLA相关论文合集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了理想汽车在自动驾驶领域的技术进展,特别是其VLA框架。文章分析了理想在GTC 2025上发布的14篇论文,涵盖了从强化学习、端到端自动驾驶到世界模型等多个关键技术方向。同时,文章也关注了理想与其他研究机构的合作,以及数据规模对模型性能的影响。通过对多篇论文的解读,揭示了理想在自动驾驶技术上的创新和发展。

💡理想汽车在GTC 2025上发布了14篇自动驾驶相关论文,内容涵盖了VLA框架、强化学习、端到端自动驾驶、世界模型等多个前沿技术。

🚗 TrajHF框架通过人类反馈强化学习(RLHF)微调生成轨迹模型,解决了自动驾驶轨迹规划中人类驾驶偏好对齐问题,提升了驾驶行为的拟人化。

🤖 GaussianAD框架基于3D高斯表示,实现了端到端自动驾驶,解决了现有方法在密集与稀疏场景表示之间的权衡问题,并在nuScenes数据集上取得了先进水平。

📈研究表明,数据规模对基于模仿学习的端到端自动驾驶模型性能至关重要,增加数据量可以显著提高模型在长尾场景中的泛化能力,但存在收益边界。

2025-03-25 20:36 四川

理想自动驾驶负责人郎咸朋在贾鹏GTC 2025讲完VLA整理了14篇论文。这14篇论文里有7篇TOP2此前发过细化阐述文章。



公众号理想TOP2后台回复【VLA】获得这14篇论文PDF。


可以留意的是,贾鹏GTC 2024讲的时候,VLM框架的论文是已经发了,这次GTC 2025讲的时候没发VLA框架论文,也没说后续会发。如果理想持续不发的话,可能是为了延缓友商追上的时间。


理想一系列对外公布自己技术细节的第一目的是招人广告,然后再是品宣一类的诉求。目前来说,在中国整车厂自动驾驶圈,理想的行业地位已经建立了,在中国AI圈的行业地位还在建立过程中。

就还是明确,理想有可能是刻意不发VLA框架论文的。


贾鹏GTC 2025讲VLA内容详见《理想贾鹏英伟达GTC讲VLA 1228字省流版/完整图文/完整视频


这14篇论文,一共出现了93个不同名的作者,19个不同的单位(视清华大学与清华MARS Lab这种为不同的两个单位)。


单位分别为:理想汽车、清华MARS Lab、清华大学、北京大学、中科院自动化所、中科院、上海交大浙江大学、哈工大深圳、北京理工大学、上海期智研究院、西湖大学、澳门大学、新加坡国立大学、阿卜杜拉国王科技大学、慕尼黑工业大学、康奈尔大学、英伟达、GigaAI。


其中93个不同名作者全部都是大陆拼音名。分别为:Bailin Li、Ben LuBoyuan Wang、Bu Jin、Chao Han、Chaojun Ni、Chen LiuChenxu Zhou、Chengzhong Xu、Chongjun Ni、Derun Li、Dongbin Zhao、Dongming Wu、Enhui Ma、Fan Liu、Fan Nie、Gangyi Hong、Guan Huang、Guosheng Zhao、Haian Jin、Haifeng Yuan、Haiyang Sun、Hang Zhao、Hao Gui、Haotong Lin、Haoyu Guo、Hengtong Hu、Hujun Bao、Huimin Wang、Jiahao Zhan、Jianbing Shen、Jianwei Ren、Jie Xiang、Jin Yang、Junbo Yin、Junjie Wu、Junpeng Jiang、Kaicheng Yu、Ke Jiang、Kun Zhan、Leimeng Xu、Lin Hu、Longchao Yang、Mengjie Yu、Miao Zhang、Mingxiao Huang、Ningyi Xu、Peng Jia、Pengxiang Li、Pengxuan Yang、Qiao Sun、Qichao Zhang、Rui Chen、Ruigang Yang、Shanghang Zhang、Sicheng Zuo、Sida Peng、Teng Zhang、Tianyi Yan、Weijie Wang、Wencheng Han、Wenjun Mei、Wenzhao Zheng、Xia Zhou、Xiaochuang Huo、Xiaofeng Wang、Xiaowei Zhou、Xiaoyu Tian、Xianpeng Lang、Xin Wen、Xinze Chen、Xueyang Zhang、Yang Wang、Yao Zheng、Yicheng Liu、Yida Wang、Yixian Li、Yong Pan、Yong Wu、Youyi Zhang、Yue Wang、Yuhang Zheng、Yunzhi Yan、Yupeng Zheng、Yuxin Yin、Zhen Xu、Zheng Zhu、Zhiyong Zhao、Zhongpu Xia、Zhongxu Sun、Zixun Xie。


可以合情猜测理想这波VLA的发展实际落地工作基本全部由在中国大陆接受中学教育的人完成,大概率这里面所有人都是中文母语使用者。当然,特斯拉、英伟达、谷歌以及其他海外公司对AI社区的贡献同样不应该忽视。没有Transformer,就没有此时此刻的AI发展与自动驾驶进展。Transformer的八位作者均没有中国背景。


公众号理想TOP2后台回复【VLA】获得这14篇论文PDF。

加微信,进群深度交流理想长期基本面。不是车友群。


Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

发布时间:2025年3月13日

备注:强化学习

概述:提出TrajHF框架,通过人类反馈强化学习(RLHF)微调生成轨迹模型,解决自动驾驶轨迹规划中人类驾驶偏好对齐问题。传统生成模型因数据集偏差和分布偏移难以捕捉驾驶风格的多样性(如风险偏好、交互行为),导致轨迹保守或偏离真实驾驶习惯。方法包含两个核心组件:1)多条件去噪器(MDC)基于扩散模型,融合激光雷达、图像等感知数据生成多模态轨迹,无需预设轨迹锚点;2)强化学习微调模块设计基于轨迹相似度的奖励函数(平均/终点位置误差),采用GRPO算法优化策略,结合行为克隆损失防止过拟合,实现人类偏好对齐。通过关键场景挖掘与自动标注流程构建偏好数据集,从接管数据提取“激进”等驾驶风格标签。实验表明,TrajHF在NavSim基准测试中PDMS达93.95(SOTA),人类评估的BOE指标显示生成轨迹更符合驾驶风格,验证了其在保持安全约束下提升驾驶行为拟人化的有效性,为个性化自动驾驶规划提供了新范式。


GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

发布时间:2024年12月13日

备注:端到端

概述:提出了一种基于3D高斯表示的端到端自动驾驶框架GaussianAD,旨在解决现有方法在密集与稀疏场景表示之间的权衡问题。该方法通过初始化均匀分布的3D高斯点云,利用环视图像逐步优化生成场景表示,结合稀疏卷积实现高效的3D感知(如目标检测、语义地图构建),并预测高斯点的动态3D流以建模场景演化。通过显式的高斯变换模拟未来场景,结合规划轨迹与真实观测的差异进行联合监督,实现端到端的运动规划。框架支持多任务协同训练,可灵活融入3D占据、检测、地图等感知标签作为辅助监督。在nuScenes数据集上的实验表明,该方法在运动规划(L2误差0.64m/碰撞率0.42%)、3D占据预测(mIoU 22.12%)和4D占据预测任务中均达到先进水平,验证了高斯表示在平衡稀疏性与场景建模能力方面的优势。

更详细内容见:《理想新论文: 以高斯为中心的端到端自动驾驶|目前最先进运动规划


Preliminary Investigation into Data Scaling Laws for Imitation Learning-BasedEnd-to-End Autonomous Driving

发布时间:2024年12月3日

备注:Scaling laws

概述:研究了基于模仿学习的端到端自动驾驶系统中数据规模扩展的规律,通过收集覆盖23种驾驶场景的400万次真实世界驾驶演示数据(约30,000小时),构建了名为ONE-Drive的大规模数据集。研究采用开环评估(轨迹拟合误差)和闭环模拟评估(安全性、规则遵循等五项指标)方法,揭示了三个核心发现:首先,模型轨迹拟合能力与训练数据量呈现幂律关系(ADE误差随数据量呈X^-0.188下降);其次,针对长尾场景(如辅道变道、匝道汇入)少量增加专项数据(如45%增量)可显著降低对应场景误差9.7-32.9%;第三,数据扩展赋予模型组合泛化能力,在未训练过的高速障碍避让(HIGHWAY_NUDGE_OBS)和红灯等待转向(WAIT_TURN)等新场景中,模型通过整合已知驾驶行为(高速行驶、障碍物缓行、转向控制)实现了零样本规划,2M数据量训练时新场景误差接近已训练场景水平。研究同时发现闭环评估性能在数据量超过2M后增速趋缓,表明单纯数据扩容存在收益边界,需结合数据分布优化。

更详细内容见:《理想&自动化所: 数据规模对端到端智驾模型泛化的影响


Generalizing Motion Planners with Mixture of Experts for AutonomousDriving

发布时间:2024年10月21日

备注:scaling law

概述:提出了一种基于混合专家(MoE)Transformer的自动驾驶运动规划模型StateTransformer-2(STR2),旨在解决现有数据驱动方法在复杂场景下泛化能力不足的问题。现有方法因设计复杂或训练策略不当导致模态崩溃和奖励失衡,STR2采用ViT编码器和MoE因果Transformer架构,通过专家路由机制分离不同驾驶奖励的学习过程,并引入轨迹分类任务避免连续空间回归的模态崩溃。实验基于NuPlan数据集,通过构建4K规模测试集和GPU加速的闭环仿真验证模型性能,结果显示STR2在开环精度、闭环仿真得分及零样本场景(如碰撞现场)中均优于PDM-Hybrid、PlanTF等基准方法。研究验证了模型在十亿级真实道路数据(LiAuto数据集)上的扩展性,证明随着数据和模型规模增长(最大达10亿参数),性能持续提升。开源了训练框架和评测工具,为运动规划领域提供了可复现的基准方案。


DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

发布时间:24年2月19日

备注:双系统

概述:提出了DriveVLM,旨在通过视觉语言模型(VLM)解决复杂场景理解与规划难题。DriveVLM基于多模块链式推理框架:场景描述模块解析天气、道路条件等环境要素并识别关键物体;场景分析模块评估物体属性、运动状态及其对主车的影响;分层规划模块通过元动作、决策描述和轨迹航点生成驾驶策略。为克服VLM空间推理弱、计算开销大的缺陷,DriveVLM-Dual融合传统自动驾驶技术,通过3D感知匹配关键物体提升定位精度,采用高频轨迹优化实现实时规划。研究构建了SUP-AD数据集并设计评估指标,实验表明在nuScenes数据集上DriveVLM-Dual的3秒轨迹误差(0.48m)和碰撞率(0.17%)均优于现有方法,在长尾场景处理中表现突出。系统已部署量产车辆,通过模型压缩(Qwen系列LLM)、视觉特征压缩(LDPNetv2)和推测采样(Eagle)等技术实现410ms推理速度,验证了实际道路有效性。

更详细内容见:《理想双系统发布会917字总结与完整图文》《李想昨天说的VLM是什么意思?


BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving

发布时间:2024年1月2日

备注:大模型

概述:提出了一种基于鸟瞰图(BEV)空间的自动驾驶文本-场景检索框架BEV-TSR,旨在解决传统图像检索方法在自动驾驶场景中全局特征缺失和复杂文本理解不足的问题。该方法采用BEV空间作为检索基础,利用BEV编码器提取场景的全局特征;文本端结合大型语言模型(LLM)提取语义特征,并通过知识图谱嵌入增强复杂文本的语义表达。特征对齐方面,设计共享跨模态嵌入(SCE)模块,利用可学习嵌入向量桥接BEV与文本特征空间,并引入标题生成任务强化模态对齐。为评估性能,基于nuScenes数据集构建了多级检索数据集nuScenes-Retrieval,包含通过感知结果增强的Easy版本和融合QA语义的Hard版本。实验表明,该方法在场景-文本双向检索任务中达到最优性能,top-1准确率分别为85.78%(场景到文本)和87.66%(文本到场景),显著优于CLIP、SigLIP等基线模型,消融实验验证了BEV空间、知识图谱和跨模态嵌入模块的有效性。


DiVE: DiT-based Video Generation with Enhanced Control

发布时间:2024年9月3日

备注:世界模型

概述:提出了一种基于扩散Transformer(DiT)的自动驾驶多视角视频生成框架DiVE,旨在解决复杂场景下高保真、时序一致且精准可控的视频生成问题。方法基于OpenSora架构改进,主要创新包括:(1)参数自由的空间视图膨胀注意力机制,通过重塑特征维度实现跨视角交互,保证多视角一致性;(2)联合交叉注意力模块整合鸟瞰图布局(包含实例坐标、航向等信息)与场景文本描述;(3)ControlNet-Transformer模块融合道路草图几何特征,提升道路控制精度;(4)多阶段训练策略结合修正流(Rectified Flow)降低推理步数,采用首k帧掩码策略实现任意长度视频生成,并扩展分类器无关引导技术协调多条件控制。实验在nuScenes数据集上验证了方法有效性,通过FVD、DTC等指标评估显示其生成的8秒视频在视觉质量、时序连贯性和控制精度(BEV分割mIoU达56.7)方面优于基线,特别是在极端案例中保持稳定表现。

更详细内容见:《理想提出首个基于Dit的框架, 用于生成长时间、高度一致性视频


OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving

发布时间:24年12月23日

备注:世界模型

概述:提出了OLiDM框架,用于生成自动驾驶场景中高保真、可控的LiDAR点云数据,解决现有方法在生成高质量、多样化前景物体方面的不足。OLiDM包含两个核心模块:对象-场景渐进生成(OPG)模块通过文本描述和几何条件生成可控的前景物体,并将物体作为先验条件引导场景生成,实现对象与场景的双层可控性,同时自动关联物体级标注;对象语义对齐(OSA)模块通过划分语义子空间优化扩散损失,纠正前景与背景的错位,提升物体生成质量。实验表明,OLiDM在KITTI-360数据集上的FPD指标优于UltraLiDAR 17.5,稀疏到稠密补全任务的语义IoU提升57.47%,并能提升主流3D检测器2.4%的mAP,验证了其在物体感知任务中的有效性。该框架首次实现了对象级与场景级LiDAR数据的协同生成,为自动驾驶仿真提供了更精准可控的解决方案。


Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting

发布时间:24年1月2日

备注:世界模型

概述:提出了Street Gaussians的动态城市场景建模方法,旨在解决自动驾驶场景中动态街道建模的效率和渲染质量问题。现有基于NeRF的方法因网络参数多导致训练慢、无法实时渲染,而该方法将场景分解为静态背景和动态车辆对象,采用显式的3D高斯点云表示:背景由带语义信息的3D高斯模型构成,动态车辆则通过可优化的跟踪姿态参数将局部坐标系映射到世界坐标系,并引入4D球谐函数建模时间相关的动态外观。通过激光雷达点云初始化与姿态优化策略,结合天空立方体贴图技术,该方法在Waymo和KITTI数据集上实现了30分钟快速训练和135FPS@1066×1600的高分辨率实时渲染,PSNR指标提升12.1%,动态对象渲染质量(PSNR*)提升13.9%。其显式表征支持场景编辑操作(如车辆位移/旋转/替换),并通过实验验证了语义分割、对象分解等扩展应用的可行性,为自动驾驶仿真提供了高效的动态场景建模解决方案。


ReconDreamer: Crafting World Models for Driving SceneReconstruction via Online Restoration

发布时间:24年11月29日

备注:世界模型

概述:提出ReconDreamer方法,旨在通过整合自动驾驶世界模型知识提升动态驾驶场景重建质量,重点解决现有方法在复杂机动轨迹(如多车道变换)下渲染效果差的问题。该方法包含两个核心组件:DriveRestorer通过在线修复机制消除渲染伪影,利用结构条件(3D边界框和高精地图)保持时空一致性;渐进式数据更新策略(PDUS)逐步扩展训练数据,使模型适应大范围视角偏移(如6米横向位移)。实验表明,ReconDreamer在NTA-IoU、NTL-IoU和FID指标上分别相对Street Gaussians提升24.87%、6.72%和29.97%,较DriveDreamer4D在6米变道场景的NTA-IoU提升195.87%,用户研究胜率达96.88%。该方法首次实现大跨度机动场景的有效渲染,通过分阶段整合世界模型知识降低修复难度,验证了在线修复与数据更新策略对提升闭环仿真场景重建效果的有效性。

更详细内容见:《理想汽车针对自动驾驶场景重建的在线修复与数据更新策略


DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

发布时间:24年11月18日

备注:世界模型

概述:提出DrivingSphere,一种高保真闭环自动驾驶仿真框架,旨在解决现有仿真系统在动态反馈和真实数据生成方面的不足。框架包含两个核心模块:动态环境组合模块通过BEV条件扩散模型OccDreamer生成城市级静态场景,结合动态交通参与者的时空位置管理,构建包含静态背景和动态对象的4D世界表示;视觉场景合成模块采用双路径条件编码策略,将4D占用数据转换为多视角视频,通过全局几何编码和局部语义投影捕捉物理关系,结合ID感知的角色编码确保跨视角跨帧的一致性。系统支持闭环反馈机制,实现自动驾驶算法与环境的动态交互:环境接收算法控制信号更新参与者位置,同时生成视觉数据反馈给算法。实验基于nuScenes数据集验证,在场景生成质量(FID 18.7)、视频保真度(FVD 325.8)和闭环评估指标(ADS 0.78)上优于现有方法,证明其能有效缩小仿真与真实场景的差距,为自动驾驶算法提供高保真、可交互的测试环境。

更详细内容见:《理想提出DrivingSphere直接构建高保真4D世界


StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models

发布时间:24年12月17日

备注:世界模型

概述:提出StreetCrafter可控视频扩散模型,用于解决自动驾驶场景中因视角偏离训练轨迹导致的街景合成质量下降问题。该方法通过将LiDAR点云渲染为像素级条件,将几何信息融入视频扩散模型,实现了精确相机控制的新视角合成与场景编辑能力。其核心创新包括:(1)设计基于LiDAR点云渲染的像素级条件机制,通过时空聚合形成全局点云并渲染为RGB图像,为扩散模型提供几何引导;(2)提出动态3D高斯溅射(3DGS)蒸馏框架,将生成模型的先验知识转化为实时渲染的3D场景表示,通过生成视角的额外监督增强外推能力;(3)在Waymo和PandaSet数据集上的实验表明,该方法在视角外推时PSNR达30.05/LPIPS 0.054,显著优于3DGS等基线方法,同时保持113FPS实时渲染性能,支持物体移除/替换等编辑操作而无需逐场景优化,验证了生成先验与几何表示的有效结合。


Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

发布时间:24年12月23日

备注:世界模型

概述:针对3D高斯溅射(3DGS)训练过程中存在的负载不均衡问题,提出了系统性优化方案。研究发现3DGS在渲染阶段存在三重负载不均衡:流式多处理器(SM)间静态分配导致的资源利用不均、图像分块(Tile)间高斯分布差异引发的计算量失衡,以及训练不同阶段数据特征动态变化带来的效率波动。为此,作者提出三项核心技术:首先采用块间动态负载分配技术,通过任务池动态调度实现SM资源均衡利用;其次设计高斯级并行渲染方法,将传统像素级并行转为高斯级并行,消除线程束(Warp)内计算分歧;最后结合细粒度分块策略,将像素任务粒度从128像素/块缩减至4像素/块,配合前两项技术实现多层次负载均衡。实验表明,组合优化使前向渲染内核性能最高提升7.52倍,SM利用率接近理论极限。此外,提出基于训练阶段特征的自适应内核选择策略,在训练初期采用负载均衡内核,后期切换为内存优化内核,实现全周期效率最优。该方法在保持渲染精度的同时,显著加速了3DGS模型的训练过程。

更详细内容见:《李想AI Talk提到的理想英伟达合作论文


DriveDreamer4D: World Models Are Effective Data Machinesfor 4D Driving Scene Representation

发布时间:24年10月17日

备注:世界模型

概述:提出了一种利用自动驾驶世界模型先验增强4D驾驶场景表示的方法,旨在解决现有传感器模拟方法(如NeRF和3DGS)因训练数据分布受限而难以渲染复杂驾驶动作(如变道、加减速)的问题。传统方法依赖与训练数据分布一致的前向驾驶场景,而现有世界模型生成的2D视频缺乏时空一致性。该方法通过两个核心模块实现改进:首先,新颖轨迹生成模块(NTGM)自动生成符合交通规则的结构化轨迹条件,并利用可控视频扩散模型合成新视角视频,确保交通元素的时空一致性;其次,表亲数据训练策略(CDTS)将时间对齐的真实与合成数据混合训练4D高斯模型(4DGS),通过正则化损失保证感知一致性。实验表明,DriveDreamer4D在新视角生成质量(FID相对提升32.1%、46.4%、16.3%)和交通代理时空一致性(NTA-IoU提升22.6%、43.5%、15.6%)上显著优于PVG、S³Gaussian和Deformable-GS等基线模型,用户研究平均胜率超80%。


李想本周六上午9点50左右将在汽车百人会2025演讲,读者可以预约一下。

加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

理想汽车 自动驾驶 VLA框架 世界模型 端到端自动驾驶
相关文章