来源:雪球App,作者: 大唐同学,(https://xueqiu.com/2961204996/296511856)
$商汤-W(00020)$ 钢铁侠的“贾维斯”,在中国智能汽车上首次成为现实了。原来这么牛逼,我还是太低估了商汤这一次的突破升级,这才是革命性突破啊!
全球唯一,远超竞争对手!
关于WAIC上商汤绝影的一篇专业分析文章,分享给股友们。
摘自网页链接
全车只有7个摄像头,也不需要任何高精地图信息的AI老司机,能极限自主避障通行:
图片
能在没有任何车道线的乡村小路自由穿梭:
图片
这样的能力别说没有高精度雷达和信息,就是现在有这些手段的自动驾驶系统,也很难实现。
这还不够,在车内部,智能座舱突破了“一问一答”的传统模式,能够根据会根据你的的想法和要求,创造界面、修改界面,而且理解界面,替你去操作数百种不同的APP或者车内功能。
比如你想体验当地特色美食,座舱助手会自动帮你打开小红书、美团等等APP,精选出评价、价格等等信息,整理好呈现给你。
图片
以往的座舱助手,最多也只能停留在帮你打开某个APP这一步。
而且上面说到的智驾和智舱展现出的认知能力、交互执行能力,实际背后都是一个统一的大脑——商汤原生多模态大模型。
钢铁侠的“贾维斯”,在中国智能汽车上首次成为现实了。
绝影发布了什么?
上海WAIC上,商汤智能汽车业务绝影搞了一套完全不同于之前任何智能化玩家的产品思路。
仅从体验上看,仍然是分成智驾智舱两个部分。
首先是我们曾介绍过的CVPR 最佳论文,也是国内首个端到端自动驾驶系统上车,突破了以往规则驱动的体验。
除了开头展现的,还包括识别临时施工封闭路段中可通行区域,并且做出合理的必然通行规划。
像这种施工道路,左转场景突然遇到了隔离墙,需要系统及时把可通行区域从两个车道换成单车道:
图片
在没有任何高精地图、雷达测距这样先验信息、没有道路拓扑结构的情况下,UniAD能够在各种大小不一、形态不同的这样的路口实现左右转,而且能够正确响应这个红绿灯。
这样的能力对于想在主流规则驱动的智驾系统,难度很大。
还能在没有任何测距雷达辅助的情况下,通过极限限宽场景:
图片
实际上,UniAD之所以有这样的能力,实际上是在后台有“助攻”——DriveAGI,基础就是商汤的多模态大模型。
DriveAGI通过其实就是一个类似人类,有认知能力的大脑,对于路上的目标,不再是以前按单一目标画一个“框”识别出来,而是理解整个场景的含义,规划出合理的通行策略。
跟人开车没有什么不同,例如,因为DriveAGI的认知能力,UniAD能够准确识别理解救护车目标,并主动让路:
图片
而智能座舱层面,也是同样的多模态大模型发挥作用——Flex INTERFACE。
你也可以理解为车上有一个类人专属助理,你只需要告诉他你想要什么,接下来的触屏、搜索、结果呈现等等都是他帮你完成,并且还能给出建议。
而且这样的能力是跨应用、跨功能的,不单单局限在某一个域控制器上。
开头举了一个推荐餐馆的例子,更进一步,现在正值欧洲杯,我们“一边开车一边去找一个看比赛的餐馆”。你直接告诉车机:订一个晚上能够看欧洲杯比赛的餐馆。
图片
系统会把你的要求拆解成三个步骤。首先,到小红书看大家的点评,根据你的喜好和地理位置给出推荐,接着在美团进行这个预定,最后打开导航,告诉DriveAGI要去的目的地。
商汤给出的大模型上车答案,不是简单的在车机上给一个“文生图”应用接口来哄小孩子,而是通过多模态能力,突破原先智驾、智舱的能力、交互方式,给出颠覆式的体验。
什么是多模态?商汤为什么重视?
简单理解,一个“模态”,就是一种数据类型,可以是文本、语音、图像、视频等等。
多模态模型,是指能够同时输入、处理多种数据类型的模型。
实际上这两年大语言模型发展迅猛,但大的图像、视频数据模型却进展寥寥,一方面是因为这类数据的数据集不够完备丰富,收集制作成本很高。
二是因为图像、视频数据比文本复杂得多,直接训练需要的算力资源,难以承受。
图片
所以多模态模型诞生了,底层的思路是这样:既然大语言模型的学习、认知能力已经和人类差别不大了,那为什么不能用语言模型基础的范式框架去处理其他数据类型的任务呢?
实际上就是用大模型语义理解能力去看、去分辨图像、视频或者任何类型的数据。
多模态模型应用在智能汽车领域,带来的好处至少有这么几个:
首先是避免了“照猫画虎”重新构建图像、视频大模型的巨额成本。
其次,提前解决了自动驾驶研发中模型的“认知”难题。
有了一个能认知环境、路况的大脑,可以彻底替代高精地图,进一步降低智驾成本和上车速度。
多模态模型能理解图像、文本,自然也能理解代码,这就让它成为破解“端到端”黑盒子的关键突破点,用AI去理解、解释AI,有助于扫清端到端模型落地的安全顾虑。
智能座舱层面,多模态模型将图像、语音、视频的呢等作为决策依据,可以完成很多以前不敢想的功能。
多模态模型可以直接部署在车端,隐私和延迟问题完美解决。
所以总结一下,商汤绝影之所以在智驾、座舱上实现体验的突破,关键就在多模态模型上车。
图片
对于智驾多模态相当于一个“点读机”,图像、视频数据哪里不会点哪里,不理解的目标场景,都能给出准确的解释。
如果说端到端解决的是数据驱动替代规则驱动,以及信息逐级传递的损失问题,那么多模态解决的就是对场景的认知、理解、解释问题,让端到端的迭代进步有的放矢。
对于智舱来说,多模态就相当于一个超级管家“贾维斯”,所见即所得。
“AGI上车,时机刚刚好”
商汤智能汽车业务绝影,从来都不是一个单打独斗的团队。
他们的技术、产品,永远跟商汤集团的AGI战略紧紧绑定,同步发展。
比如「贾维斯」多模态模型背后,是商汤建成了万卡级别12 EFLOPS*(每秒120万亿次浮点运算)*算力。
所以绝影在汽车智能化革命中的理念和方法,也和大部分智能化技术供应商不同。
不是从自动驾驶或智能座舱任务、需求出发去倒推,而是从AGI发展角度,去正向推理判断智能汽车的发展趋势。
图片
对于自动驾驶,主流的玩家看到特斯拉放出的端到端模型有希望解决传统模式的泛化性难题,于是一股脑跟进。
但随后就遇到了算力基础门槛、一体化程度、数据利用效率的呢等难题。
但在商汤这里,端到端是解决问题的手段,而非目的。
其实从技术本质来讲,端到端其实是用AI模型替代人工规则,解决的是“数据驱动”问题,给无休止无上限投入人力、成本的传统自动驾驶模式画上句号,给自动驾驶指明了一条“出路”。
但还有一个问题是端到端本身不能解决的,那就是系统如何从感知向认知转变。
图片
直指泛化性、平顺性、可靠性、解释性这样事关自动驾驶“长治久安”的根本。
更直白的说,需要车端具备必须的AGI能力。
商汤联合创始人、绝影事业群总裁王晓刚博士认为,现在谈AGI上车,时间非但不早,而且很紧迫。
技术层面,智能汽车汽车其实就是机器人,面临的真实世界高度复杂,任务类型不可能是单一的分散的,仅靠模块化、专用化的模型,难以实现突破性的功能。
内部因素层面,只有通过技术层面革新,形成体验上、成本上的降维打击,才能摆脱低级的、不可持续的“价格战”内卷。
当然还有一个最重要的外部因素:特斯拉FSD已经紧锣密鼓在上海路测,AGI是目前中国汽车最有效的“弹药”。
$ChatGPT(BK1576)$ $无人驾驶(BK1501)$