理想汽车在i8上市发布会上公布了其自研的VLA司机大模型,这是一款视觉语言行动模型。该模型旨在让AI真正成为人类司机,实现“买车送司机”的愿景。VLA的研发经历了从依赖规则算法和高精地图的“昆虫智能”,到端到端+VLM的“哺乳动物智能”,再到如今具备3D/2D视觉感知、语言理解和思维链推理能力的“人类智能”阶段。VLA司机大模型以“司机Agent”形式呈现,支持自然语言交互,并已实现双Orin-X芯片运行同等规模的VLA模型,使得Max版车型均可升级。Pro车型年底将升级城市NOA功能。
🚗 **VLA司机大模型定义与目标**:理想汽车推出的VLA(Vision-Language-Action Model)司机大模型,是其在智能驾驶领域的重要突破。该模型旨在使AI具备成为专业人类司机的能力,能够像人类一样理解和执行驾驶任务,甚至提出“买车送司机”的愿景,标志着智能驾驶正朝着更高级别迈进。
🧠 **VLA的智能化演进阶段**:VLA模型的实现是一个循序渐进的进化过程。第一阶段(2021年起)为依赖规则算法和高精地图的辅助驾驶,其智能水平类比“昆虫动物智能”。第二阶段(2023年起研究,2024年推送)采用端到端+VLM技术,使智能水平接近“哺乳动物智能”。当前进入第三阶段,VLA开启了“人类智能”阶段,能够融合3D和2D视觉感知物理世界,并拥有语言理解和思维链推理能力,实现“能看、能理解、能执行”。
🗣️ **“司机Agent”的交互与处理模式**:VLA司机大模型以“司机Agent(智能体)”的产品形态呈现,用户可以通过自然语言与Agent进行直接沟通。简单的通用指令由端侧的VLA模型即时处理,而复杂的指令则先由云端的VL基座模型进行深度解析,随后再交由VLA模型执行,这种分层处理机制保证了交互的效率和准确性。
💻 **软硬件协同优化实现高效运行**:为了让VLA司机大模型在车载硬件上高效运行,理想汽车自主研发了底层推理引擎,并利用自有编译团队,使得英伟达Orin-X芯片能够通过INT4量化方式运行VLM。结合芯片、控制器设计以及自研汽车操作系统等综合能力,成功实现了双Orin-X芯片以及Thor-U芯片运行同等规模的VLA司机大模型,为大规模应用奠定了基础。
🚀 **车型升级与功能拓展**:得益于上述技术积累,所有理想汽车Max版车型,包括2022款理想L9 Max,都将能够升级到VLA司机大模型。此外,搭载地平线J6M智驾芯片的Pro车型(如焕新版理想L系和i8 Pro),也计划在今年年底前升级城市NOA(Navigate on Autopilot)功能,进一步提升用户在城市道路的驾驶体验。
科技7月29日消息,在今晚举办的理想i8上市发布会上,理想自动驾驶负责人郎咸朋上台分享了理想自研VLA司机大模型的相关内容,据悉,这是一款视觉语言行动模型。
VLA即Vision-Language-Action Model,理想汽车希望该模型能让AI真正成为司机,成为交通领域的专业生产工具,像人类司机一样工作,甚至喊出了“买车送司机”的口号。

VLA的实现是一个进化过程,经历了三个阶段。
第一阶段是2021年起自研的依赖规则算法和高精地图的辅助驾驶,类似 “昆虫动物智能”。
第二阶段是2023年起研究,并于2024年正式推送的端到端+VLM 辅助驾驶,接近 “哺乳动物智能”。
第三阶段的 VLA 开启 “人类智能” 阶段,能通过3D和2D视觉的组合完整看到物理世界,且拥有完整的脑系统,具备语言、思维链推理能力,既能看,也能理解并真正执行行动。
VLA司机大模型以 “司机 Agent(智能体)” 的产品形态呈现,用户可通过自然语言与司机Agent沟通,简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。
理想汽车依托自有编译团队,自研底层推理引擎,使英伟达Orin-X芯片可通过INT4量化的方式运行VLM,并且凭借芯片、控制器设计和自研汽车操作系统等综合能力,实现了让双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型。
也正因如此,所有理想汽车Max版车型,即便是2022款理想L9 Max,均可升级到VLA司机大模型。
此外,郎咸朋还表示,搭载了地平线J6M智驾芯片的Pro车型(焕新版理想L系和i8 Pro),将在今年底升级城市NOA功能。







