原创 理想TOP2 2025-02-18 12:19 四川
本文经过长时间深度思考,推荐读者阅读。
本文核心观点:理想的野心是要成为全球顶尖的人工智能公司,李想判断AI公司最后拼的是基座模型能力,理想只能自研基座模型,无论多么难。
认为理想能接受长期用其他家基座的人,建议认为李想严重言行不一,理想汽车就只是一家汽车公司,AI公司就是在放空炮。
本文核心逻辑链:李想本人意愿将深刻决定理想汽车这家公司的战略前进方向,李想最底层的欲望是“掌握自己的命运,挑战成长的极限。”
李想信了OpenAI定义的AI五阶段,这意味着李想信AI将来是一个比自动驾驶行业大得多得多的一个行业,李想将挑战这个成长的极限。
而AI五阶段,每一个阶段,背后最核心的都是基座模型的能力,李想认为”基座模型将是超级入口,在一切产品,一切服务之上。”不掌握自己的基座,理想将丢失关键价值链,沦为代工厂。理想不接受自己是OPPO/联想这样的行业地位(OPPO没有自己的系统/芯片,无法做出最好的用户体验,赚钱能力离行业第一差得很远。笔记本关键价值链由windows/英特尔掌握)
DeepSeek目前发布的都是大语言模型,VLM可以用DeepSeek的基座,但VLA不行,VLA是车道信息与大语言模型混合的多模态基座,必须要车企提供车道数据,即本来也没法直接拿来用。
本文实质是一篇推理文,由两个基础根基点,以及大量李想自己的表达作为出发点。剩下的,由推理驱动。
两个基础根基点:
1.李想的观点有可能错误,有可能变来变去,但李想说的话都是他当时的真实想法。
2.李想这辈子只能“掌控自己的命运,挑战成长的极限”了,李想/理想汽车什么都可能变,包括但不限于家用这点,只要李想还是理想的CEO,唯独这点不会变的事。
以上两个根基支撑点不是从天而降或必然正确的,是TOP2经过大量分析观察得出的,本文不论述如何得到的。
可能不少读者把TOP2内核当作媒体,但TOP2非常明确自己不是媒体。TOP2和媒体最本质的区别是,TOP2文章内核是推理驱动,探索的是事物运转的规律。而媒体是信息驱动,探索的是怎么讲好故事,制造概念,挑逗情绪,获得流量。TOP2是侦探,不是媒体。
这篇文章可以有效体现推理驱动的文章是什么样子的。
以下为更细化论述:
理想是一家成长驱动而不是产品驱动的人工智能公司。(李想明确指出理想是成长驱动,明确否认理想是产品驱动)李想为绝对核心,理想最关键的战略走向最终拍板人只会是李想。
李想视汽车之家行业太小为其一生最大的遗憾。(AI Talk明确表达)
其中李想为绝对核心最关键体现在2个方面:
投票权占7成左右
李想明确视员工相关工作为最重要工作(AI Talk明确表达,产品事故第二,AI是第三),无论招聘、培训,还是一些组织和人力资源的制度,都是李想的优先级。广州车展,如果和重要的员工文化培训冲突,李想选择不去广州车展,去做员工文化培训。任何18级及18级以上,还包含少部分17级员工,李想都会面试。
这两点综合加在一切,可以保证理想战略选择方向一定掌握在李想手里。没有第一点,李想本人存在可能性被撸掉,没有第二点,下面的人阳奉阴违是所有组织形式的常态。理想当然也不可能在所有地方都坚决执行李想的理念,但把中上层价值观对齐,整体的价值观统一度可以达到一个很高的水平。
比如销售返佣这事,24年下半年理想销售非常严重,这与李想的理念有严重冲突,造成这件事背后的原因是一些运营思路挑战后,利益链结构先让一部分销售店长倾向于返佣,再慢慢蔓延至几乎全国所有门店。
当时存在的利益链结构包括但不限于:
1.订单压力 总部市场竞争,压力传递省总传递店长传递销售。
2.招了大量4S店的销售,基因上倾向于返佣。
3.一个月就pip导致销售没有任何冗余,原来两个月pip,还可以控制一下大小月,销售基于保工作目的返佣。
4. 在返佣这件事上,销售和客户反而成了利益共同体,销售为了保工作,客户为了更多优惠。北京总部层面这件事就有点像反腐,利益链以及执行面上难以有效监督。
5.银行自己有放贷压力,银行向销售返佣。
理想北京一开始不知道这件事,当时很多理想销售店长以为理想北京对这事实际是睁一只眼闭一只眼的。后来知道后,选择是积极想办法,破除关键利益链结构。
要说理想现在有没有返佣,相信也会存在的,但是比24年下半年还是有明显好转了。理想这个自调整机制,源自中上层价值观/理念和李想会深度对齐。
理想目前的车机基座模型可能用的是Llama,手机APP用的是自己的,VLM用的是基于Qwen蒸馏的语言模型。
VLM是视觉语言模型,由三部分组成,一个视觉编码器(19亿参数),一个视觉-语言适配器(8000万参数),一个大型语言模型(Qwen 77亿参数)。
即VLM里起作用的大模型一直是一个自然语言大模型,Qwen并不直接读取图像,而是通过视觉编码器,视觉-语言适配器将视频变成自然语言后,再让Qwen处理。
24年7月6日,理想双系统发布会上提到VLM参数量为22亿,应该是蒸馏了(可以理解成压缩),这也是为啥李想24年6月8日的脱稿演讲里专门提了一嘴是视觉语言模型,不是视觉大语言模型。
预期之后所有基座都会由理想自己提供,也可以提供更好的用户体验,预期理想长期都不会自己搞定先进制程制造。
Jim Fan:特斯拉 FSD v13 可能会grokking language tokens。Grok-1.5V 最让我兴奋的是解决自动驾驶边缘案例的潜力。使用语言进行 “思维链” (cot)将有助于汽车分解复杂的场景,用规则和反事实推理,并解释其决定。Grok-1.5V 可以帮助的是将像素 -> 动作映射提升到像素 -> 语言 -> 动作。
有了 @Tesla_AI 高度成熟的数据管道,用高质量的人类解释痕迹标记大量的边缘案例并不难,微调(finetune)Grok 在多模态 FSD 推理方面远远优于 GPT-4V 和Gemini。
之前也有类似的想法,比如 LINGO-1(Wayve)。但是特斯拉正在旋转一个无与伦比的数据飞轮,可以扩展(scale)到更远的地方。
马斯克回复:两种数据源可以无限拓展(scale):合成数据,它存在“这是真的吗?”的问题;以及真实世界的视频,它不存在这个问题。
Jim Fan目前是英伟达高级研究科学家,并和Yuke Zhu(朱玉可) 一起,在英伟达内部组建了通用具身智能体研究实验室。
可以看到Jim Fan核心表达了3个观点:
1.Grok 有很强的解决自动驾驶边缘案例的潜力
2.此前从像素 -> 动作映射,借助Grok,可以提升至像素 -> 语言 -> 动作映射。
3.Grok在多模态FSD推理方面远强于GPT-4V和Gemini, 因为特斯拉有高质量的人类解释标记边缘案例。
即我们可以准确无误的认为, Jim Fan明确认为Grok是相当有利于FSD能力提升,并且因为特斯拉有额外的Open AI/Google不掌握的数据,所以Grok 在多模态FSD推理可以远远更好。
即这里大的逻辑链是VLM可以直接用其他家的LLM,VLA不行。要么自己做,要么自己提供车道数据,请其他AI公司再做一个新的融合了车道信息与大语言模型的多模态基座。
对于有追求的公司,在目前的基础条件下(本来也没法直接拿来用),当然应该选择自己做。
TOP2推测,以下这条时间线逻辑主链很接近真相(具体小细节不一定):
由于汽车之家在汽车垂媒领域领先度太高(占了行业90%利润)李想在汽车之家待不住,必须得找新创业。李想找新创业大体就两个标准,这个行业必须足够大(最低限度得比汽车之家大十倍),李想有机会做成第一。
在2014与15年那个时间节点上,李想最终选择了造车,李想选择这个行业的前提是信自动驾驶能实现,因为信自动驾驶能实现,这个行业才会足够大与有变革期。李想不是一定会选造智能车的,任何一个足够大的行业,且李想有机会做到第一的,都是李想的考虑范围。当时李想不知道自动驾驶是个AI问题。极大概率没想过人形机器人。但李想知道自己造的是智能车,不是单纯的替换能源形式。
智能车做着做着,在2022年9月,李想与其团队达成共识,自动驾驶就是个AI问题,理想必须成为一家AI公司才能跟上产业发展需要。当时李想是否知道OpenAI这家公司不清楚(OpenAI破圈的GPT3.5在22年12月),但预期即使知道,重视度不会特别高。当时李想应该已经预期之后有一个稳的第二增长曲线,人形机器人,可以替代体力劳动者,这将比自动驾驶行业还要大很多。
当时李想大概率谈不上深度相信OpenAI定义的AI五阶段,也没有基座模型能力是其核心的认知。大概率还没系统全面学AI前沿论文,当时可能不知道pretrain(预训练)/finetune(微调)这些概念(23年春节媒体沟通会没提这些概念,24年12月AI Talk高频提类似概念),可能大致理解transformer的运转机制了。
研究AI研究着,2024年12月,李想信了OpenAI定义的AI五阶段,非常认可OpenAI这家公司的水平,认为AI关键锚点是基座模型,明确了基座模型是能力不是功能,基座模型是超级入口,将在一切产品一切服务之上。
已经可以在团队不愿意走端到端路线的前提下,说服(不是命令)团队走端到端路线,可以在OpenAI o1推出之前(不是之后),给团队明确说不要只放在预训练上,要花更多精力放在模型后训练上。o1发布后,整个大模型的训练范式和李想的判断是非常一致的。
李想是一个开会开得很少的人,张小珺采访李想的当周,李想一共只有9个会,其中两个会2小时,3个会1小时,3个会不到1小时。没有早会要开,晚上也不安排日程。
而李想表示每周会参加四到五次AI的会,有一个是每隔一天的会议,有一个是每周一次的AI例会。会讲两方面东西:一是最新论文,二是不同团队关于AI的最佳实践,哪怕一个很小的亮点都可以分享,它会对其他团队有相互启发。李想表示自己读论文能力很差的,但通过有效讲解和分析,李想对各个领域的AI前沿论文会有了解。
李想在24年12月的时候肯定是知道DeepSeek这家公司的(24年5月 V2就已经让DeepSeek在AI圈火了,已经初步实现了低价与高性能。)李想当时大概率就在团队的辅助下了解了V2首次引入的多头潜在注意力机制(MLA),与采用的MoE(混合专家)结构。至于当时是否就非常重视DeepSeek,这个不一定(现在肯定非常重视其团队关于AI的观点了)。
24年12月的李想已近有对AI训练思路,自动驾驶架构下关键判断的能力了(这个关键判断不是下面团队给几个方案让老板挑,而是直接引领团队走老板自己综合判断后的方向)。大概率还没有像DeepSeek那样对Transformer底层计算模式和内存管理做了创新优化,本质是对计算流程的重构的能力。
但李想的学习能力/成长速度/think different能力有机会让李想之后掌握这样的能力。
可以看到,虽然李想对理想汽车这家公司到底要做什么事变了不少,包括理想汽车的使命愿景价值观这么多年也是变来变去的,但是主线是非常明确的,李想为了挑战成长的极限而新创业,因为信自动驾驶而选择智能车创业。即挑战成长的极限是唯一的主线。
做着做着,自动驾驶的位置越来越靠后,一开始是终局,后来变成人形机器人的前置产业,到现在人形机器人最多也只是AI浪潮下的中间形态了,自动驾驶更是变成一个前期形态了。
绝大多数人如果能创办汽车之家/Oppo/联想这样的公司,会觉得很满足了,这样的人自然会愿意认真考虑是不是把车造好就行了,用DeepSeek就行了,但李想不是这样的人。
李想是视汽车之家行业太小是一生最大遗憾的人,是要掌控自己的命运,挑战成长的极限的人。
加微信,进群深度交流理想长期基本面。不是车友群。