理想 TOP2 2024年12月25日
理想智驾架构升级应该和PlanAgent这篇论文有关
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文基于对理想汽车相关论文的解读,推测其智驾架构正经历从VLM向VLA过渡的阶段。当前,理想的智驾能力在双orin芯片下有所提升,但实际体验提升不明显。VLA架构受限于车端算力,而VLM的核心是基于阿里Qwen的自然语言大模型,PlanAgent则采用多模态大模型。虽然PlanAgent在论文中表现出更好的效果,但其时延仍有待提升。与传统大语言模型相比,PlanAgent所需的场景描述词符量更少。文章还提及了理想汽车的直播活动,并鼓励读者关注。

🚗 理想智驾架构正从VLM向VLA过渡,当前智驾能力在双orin芯片下提升有限,并受限于车端算力。

🧠 VLM采用Qwen自然语言大模型,PlanAgent则使用多模态大模型,推测理想量产版将采用自研多模态大模型“新理想同学”。

⏱️ PlanAgent论文中时延较长,与VLM相比仍有差距,当前推理速度不适合作为系统二,可能仅适合作为系统三。

🧩 PlanAgent与传统LLM相比,所需场景描述词符量减少约三分之二,有助于提升效率。

原创 理想TOP2 2024-12-24 21:48 四川

核心观点基于TOP2阅读论文后的推测,建议读者充分批判性看待

省流版:

以下观点核心基于TOP2阅读论文后的推测,建议读者充分批判性看待

1.理想新的智驾架构升级为VLM与VLA之间的过渡态,一方面提升了基于双orin下的智驾能力上限(此时此刻千人团实际体验上限提升并不明显)。另一方面也有利于将来进阶到VLA。目前制约VLA最大的卡点是车端算力不足。

2.VLM内核是依靠阿里的Qwen,Qwen是大语言模型,只能处理自然语言。PlanAgent论文里效果最好的是GPT-4V,PlanAgent架构本身要求大模型能处理鸟瞰图,推测理想量产版实际会用自己的多模态大模型,即新的理想同学。

3.PlanAgent论文里用不同的多模态大模型去实验,时延是3-5秒左右的水平,VLM论文里时延是0.41秒,VLM发布会上时延是0.3秒,如果现阶段PlanAgent时延只能做到这个水平的话,那么是不够格当系统二的,只能当系统三。

4.与常规大语言模型(LLM)方法相比,PlanAgent需要的场景描述词符(token)量为1/3左右。(这个倒不是推测,是论文里直接写了,需要的token更少了肯定是好事)


以下为正文:

2024年6月3日,自动化所与理想汽车发布PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning。

PlanAgent是一个自动驾驶闭环规划框架。这个框架是基于多模态大语言模型。多模态的字面意思是多个不同模式的信息,比如文本、图像、音频、视频等。

将PlanAgent与24年2月那篇DriveVLM论文对比


PlanAgent相较VLM不同的地方有:

1.VLM底色是Qwen这样的大语言模型(即输入输出都是自然语言),PlanAgent底色是多模态大语言模型(输入场景鸟瞰图与基于图的文本提示,输出规划期所需要的指令)其中论文部分里用了多种多模态大模型做实验,GPT-4V效果最好。推荐理想实际量产版本将用自己新的基座大模型,即新理想同学。


VLM是视觉语言模型,由三部分组成,一个视觉编码器(19亿参数),一个视觉-语言适配器(8000万参数),一个大型语言模型(Qwen 77亿参数)。

即VLM里起作用的大模型一直是一个自然语言大模型,Qwen并不直接读取图像,而是通过视觉编码器,视觉-语言适配器将视频变成自然语言后,再让Qwen处理。

24年7月6日,理想双系统发布会上提到VLM参数量为22亿,应该是蒸馏了(可以理解成压缩),这也是为啥李想24年6月8日的脱稿演讲里专门提了一嘴是视觉语言模型,不是视觉大语言模型。

PlanAgent架构就是这张图:

由三个模块组成

场景信息提取模块(Environment Transformation module):为了实现高效的场景信息表示,设计了一个环境信息提取模块,能够提取具有车道信息的多模态输入。

推理模块(Reasoning module):为了实现场景理解和常识推理,设计了一个推理模块,该模块利用多模态大语言模型MLLM生成合理且安全的规划器代码。

反思模块(Reflection module):为了保障安全规划,设计了一个反思机制,能够通过仿真对规划器进行验证,过滤掉不合理的MLLM提案。


2.论文里,VLM时延比PlanAgent快得多

VLM在论文里时延为0.41秒,24年理想双系统发布会上进一步优化到了0.3秒(不过有效数字只有一位)。

PlanAgent论文里,不同MLLM模型推理时间不同,CogVLM-chat要4.405秒,LLaVa-7B要2.936秒,LLaVa-13B要3.694秒,输出效果最好的GPT-4V更是需要5.568秒。

就这个推理速度而言,做系统二是完全不够格的,只能当系统三。


3.常规大语言模型(LLM)方法相比,PlanAgent需要的场景描述词符(token)量为1/3左右。

需要的toke变少总归是好事。


李想将于12月25-27日(这周三到周五晚上八点)连续3天直播,推荐读者预约关注一下。

加微信,进群深度交流理想长期基本面。不是车友群。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

理想汽车 智驾架构 VLM VLA PlanAgent
相关文章