原创 理想TOP2 2024-12-24 21:48 四川
核心观点基于TOP2阅读论文后的推测,建议读者充分批判性看待
省流版:
以下观点核心基于TOP2阅读论文后的推测,建议读者充分批判性看待
1.理想新的智驾架构升级为VLM与VLA之间的过渡态,一方面提升了基于双orin下的智驾能力上限(此时此刻千人团实际体验上限提升并不明显)。另一方面也有利于将来进阶到VLA。目前制约VLA最大的卡点是车端算力不足。
2.VLM内核是依靠阿里的Qwen,Qwen是大语言模型,只能处理自然语言。PlanAgent论文里效果最好的是GPT-4V,PlanAgent架构本身要求大模型能处理鸟瞰图,推测理想量产版实际会用自己的多模态大模型,即新的理想同学。
3.PlanAgent论文里用不同的多模态大模型去实验,时延是3-5秒左右的水平,VLM论文里时延是0.41秒,VLM发布会上时延是0.3秒,如果现阶段PlanAgent时延只能做到这个水平的话,那么是不够格当系统二的,只能当系统三。
4.与常规大语言模型(LLM)方法相比,PlanAgent需要的场景描述词符(token)量为1/3左右。(这个倒不是推测,是论文里直接写了,需要的token更少了肯定是好事)
以下为正文:
2024年6月3日,自动化所与理想汽车发布PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning。
PlanAgent是一个自动驾驶闭环规划框架。这个框架是基于多模态大语言模型。多模态的字面意思是多个不同模式的信息,比如文本、图像、音频、视频等。
将PlanAgent与24年2月那篇DriveVLM论文对比
PlanAgent相较VLM不同的地方有:
1.VLM底色是Qwen这样的大语言模型(即输入输出都是自然语言),PlanAgent底色是多模态大语言模型(输入场景鸟瞰图与基于图的文本提示,输出规划期所需要的指令)其中论文部分里用了多种多模态大模型做实验,GPT-4V效果最好。推荐理想实际量产版本将用自己新的基座大模型,即新理想同学。
VLM是视觉语言模型,由三部分组成,一个视觉编码器(19亿参数),一个视觉-语言适配器(8000万参数),一个大型语言模型(Qwen 77亿参数)。
即VLM里起作用的大模型一直是一个自然语言大模型,Qwen并不直接读取图像,而是通过视觉编码器,视觉-语言适配器将视频变成自然语言后,再让Qwen处理。
24年7月6日,理想双系统发布会上提到VLM参数量为22亿,应该是蒸馏了(可以理解成压缩),这也是为啥李想24年6月8日的脱稿演讲里专门提了一嘴是视觉语言模型,不是视觉大语言模型。
PlanAgent架构就是这张图:
由三个模块组成
场景信息提取模块(Environment Transformation module):为了实现高效的场景信息表示,设计了一个环境信息提取模块,能够提取具有车道信息的多模态输入。
推理模块(Reasoning module):为了实现场景理解和常识推理,设计了一个推理模块,该模块利用多模态大语言模型MLLM生成合理且安全的规划器代码。
反思模块(Reflection module):为了保障安全规划,设计了一个反思机制,能够通过仿真对规划器进行验证,过滤掉不合理的MLLM提案。
2.论文里,VLM时延比PlanAgent快得多
VLM在论文里时延为0.41秒,24年理想双系统发布会上进一步优化到了0.3秒(不过有效数字只有一位)。
PlanAgent论文里,不同MLLM模型推理时间不同,CogVLM-chat要4.405秒,LLaVa-7B要2.936秒,LLaVa-13B要3.694秒,输出效果最好的GPT-4V更是需要5.568秒。
就这个推理速度而言,做系统二是完全不够格的,只能当系统三。
3.常规大语言模型(LLM)方法相比,PlanAgent需要的场景描述词符(token)量为1/3左右。
需要的toke变少总归是好事。
李想将于12月25-27日(这周三到周五晚上八点)连续3天直播,推荐读者预约关注一下。
加微信,进群深度交流理想长期基本面。不是车友群。