理想开始做VLA主题报告了

2025-03-08 21:30 四川

引号内内容来自微博大懒货，原文链接：https://weibo.com/2062985282/5142030695536167

“理想自动驾驶贾鹏老师将做主题为【VLA：迈向自动驾驶物理智能体的关键一步】的报告

在 GTC2024 大会上，我们介绍了 DriveVLM-Dual，一种快-慢思考混合的自动驾驶系统，可协同发挥端到端 (传感器数据输入、轨迹输出) 模型和视觉语言模型 (VLM) 的优势。两个模型均基于大量人类驾驶数据进行训练，并展现出符合数据量扩展定律（data scaling law）的特性，系统在真实驾驶环境中的表现随训练数据量的增加而提升。双系统被部署在双 NVIDIA DRIVE AGX 车载平台上，并已经大规模交付给终端客户，覆盖超过 40 万辆汽车。今天，我们将介绍理想 VLA（视觉-语言-行动）模型。理想 VLA 模型将快慢系统结合为一个单一大模型并赋予该模型自主决定何时采用慢思维的能力。它实现了空间感知与理解、开放世界知识、语言推理和行动策略的统一并进行联合训练和优化。此模型已经部署在下一代单 NVIDIA DRIVE AGX 的车载平台上，展现出了诸多令人兴奋的特性和能力。这套系统可以被视为一个物理世界智能体的雏形，通过语言自然地与用户互动，执行复杂、开放世界的驾驶任务。这一进步不仅标志着技术上的飞跃，也预示着一种全新、前所未有的自动驾驶产品形态的出现。

Key Takeaways:

1️⃣：VLA 是空间智能、语言智能和 action policy 的统一，将快、慢思考结合为一个模型

2️⃣：VLA 是自动驾驶 Physical AI 的核心技术

3️⃣：模型由海量文本、视频、行为数据训练，由云端世界模型测试、验证，并由NVAIE进行加速

4️⃣：理想 VLA 系统已经在下一代 NVIDIA DRIVE AGX 平台上优化部署。

”

2024年VLM的时间线是：

2024年2月 DriveVLM论文发表

2024年3月理想汽车智能驾驶技术研发负责人贾鹏在英伟达GTC 2024分享理想双系统思路2024年6月李想在重庆作了关于VLM的脱稿演讲，给了现有的计算平台，有监督的L3级别自动驾驶100%可实现，1000万clips最早今年年底，最晚明年年初全量推送，无监督的L4自动驾驶三年内一定可以实现的预期。

2024年7月理想召开双系统发布会，详细介绍技术框架，并开启千人团VLM内测。

2024年10月 VLM第一次全量推送2025年1月鸟蛋用户开始1000万Clips内测

2025年2月 1000Clips全量推送

加微信，进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签