深耕AI的 2025-01-06 11:31 北京
关于创新初心、技术路线、产品布阵
AI、具身智能、出海……2024年的科技创投圈,很少有人不和这几个词发生关联。岁尾年头,「云启实干派」栏目推出年终特别系列,我们和深耕其中的云启被投创业者们展开对话,聊了聊这一年这些赛道/方向的新变化和新机会,希望给大家带来来自一线创业者视角的认知与思考。
成立两年长成独角兽、大模型产品日均交互超30亿次、AI应用产品月活位居全球TOP10, 在外界看来,如同GPT掀起的AI2.0浪潮,2021年底以来的MiniMax似乎也经历了一场超预期的“狂飙”。但对MiniMax自己来说,实现AGI是早在ChatGPT出圈之前就锚定的方向,与之相关的结果皆是水到渠成。
2021年3月,云启投资团队结识了尚未正式创办MiniMax的闫俊杰,几个月后出资MiniMax天使轮融资,成为这家公司最早的天使投资机构。转眼三年多过去,生成式AI技术和应用态势都发生了极速变化,AI创业牌局也进入新一轮洗牌期。在此时点,闫俊杰如何回看MiniMax的创业初心,和技术、产品选择?站在一线创业者视角,他又如何看待AI产业2024年新突破和与之相伴的竞争优势?
刚刚过去的2024年冬天,云启创始合伙人毛丞宇和闫俊杰有过一次深入对话。「云启实干派·年终季」首篇,将和你分享部分精华内容。
*AI仍在快速发展,考虑此次对话与当下的时间差,文中观点判断仅作参考
01 谈AGI和创业初心
毛丞宇:我记得我们俩认识是2021年9月30号,陈昱最早见了你以后非常兴奋,催促我们另外两位合伙人和你尽快见面。当时我们约在黄埔江边陆家嘴那边,一晃也三年过去了。
闫俊杰:陈昱是我认识的第一个投资人,我记得我那年的3月份跟他就认识了。当时也没决定一定要创业,只是觉得通用人工智能这个技术趋势是对的。当时也还没有大模型这个词,只是看到此前几个月美国那边已经开始找到了foundation model的一些曙光。那时候我就想,如果能够把foundation model 做出来的话,那么模型就具备通用性,具备了通用性不需要定制了,就可以服务很多人、变成非常标准化的产品。这个在中国就变成非常成立的一件事。
毛丞宇:到了2024年,业界对于AGI、大模型都有很多不同的看法。(2024年)10月份,行业“大佬”们有一些密集的发声。Sam Altman比较乐观,说再有几年就实现AGI了,DeepMind 的CEO也认为未来十年AI可以做任何事情。但我看像Yann Lecun,他的一个观点又是让大家不要去研究语言大模型。对于这些观点,你有什么简单的点评或者观点吗?
闫俊杰:第一点,我还是觉得现在不管产品是to C还是to B ,本质上还是依赖于模型本身的能力。关于模型能力,我认为有几个指标比较重要:
第一是错误率,我认为是最基本的一个(影响)模型体验的指标。比如说为什么大模型大部分时候可以做比较好的问答,但是很多时候,比如在专业场景下会出现问题,作为Agent会出现问题,本质上是因为错误率太高了。解决复杂的问题就需要产生多步思考,多步的话,它的错误率基本上就是相乘的关系。所以很核心的一点,就是如何能让错误率能够一个数量一个数量地往下降。
第二点,是无限长度的输入跟输出。比如说,人不管是活到100岁还是60岁,其实是一个连续的历程。人的一生大概会处理的信息量可能是10亿token的量级。比如说我明天会干啥?很多时候是由历史的我和今天的我来决定的。因为它其实就是一个10亿token的量级。
第三是多模态。我们可以想象一下,我们在手机上都干什么。其实大部分的交互还是多模态的图片、视频等,当然也有文字。但对大部分人来说是字占比其实并没有很高。如果我们认为AI会越来越大众化的话,它应该就是多模态的交互的形态。
毛丞宇:MiniMax应该是这一波AI创业潮中最早又做大模型又做产品的公司,而且又是海外和国内同时做、生产力工具和AI内容平台同时做我觉得在我过往25年投资经验中很少碰到初创公司在短期资源有限、精力有限的情况下同时去在这么多方向上面进行布局。什么样底层的框架驱使你做了这种选择?
闫俊杰:移动互联网时代有两家公司的打法非常突出。一家是美团,它相当于超级 App的打法,最开始是团购,然后外卖。有了外卖之后就把更多生活服务功能放到App里。前提是,外卖是个高频的入口,在里面放一些更加低频的服务。这是美团的这个打法啊。
另外一种就是字节的打法,所有东西都是基于推荐的,但是不同内容品类对应不同的产品,一个产品一个App,一个产品比一个产品大一个数量级。我认为我们是字节的打法。
毛丞宇:这是你们一开始就想好的?
闫俊杰:对,我们做这样的选择,本质上是我们认为技术在快速变化,那显然我们很难在现在就去做五年之后的东西。我们应该做的事是基于当前的技术,做我们认为当前最合适的产品。积累的用户、流量、人才、技术,支撑我们做更大的产品。
02 谈中国AI新突破和竞争优势
毛丞宇:在你看来,2024年全球AI领域相对比较最大的突破是什么?有哪些带给你surprise?
闫俊杰:第一个进展,我觉得是多模态。2023年的这个时候其实还是很难以想象影视级的AI视频生成,当时只是能想象生成一张图片。
第二,我认为是形成了解决垂直领域问题的pipeline。2023年的这个时候,大家知道大语言模型能用了,但是它总又没那么靠谱,所以会拿垂直领域的数据来简单做个fine-tuning。这是去年大家的思路。但是今年的话,类似像o1变成了,我如何解决一个垂域问题呢?那就变成只要定义那个垂域里面的这个奖励函数,有套合成数据加强化学习的方法,可以来让它在垂域达到一定水平。那这套pipeline未来肯定不光局限在数学和代码,而是能延伸到更多领域里面。这样的话就提供了一个在专业领域里面到达专业水平的一条路径。
毛丞宇:我们拉回到国内,你认为中国的AI产业在过去一年有哪些重要的突破呢?中国的AI和国际领先水平现在还有多大差距?
闫俊杰:首先在多模态上,国内应该还算比较领先的。至少视频和声音领域是领先的,图片我相信很快也会。这个领先是通过在国际上的竞争来证明,不管是产品的用户量还是排行榜,确实国内目前多模态模型的规模还是大的。
但中国公司目前没有实现的,就是目前在实际使用中和GPT4o这个level 的模型有客观差距,不管是大厂还是创业公司,目前为止没有真正实现。虽然说看这些排行榜和学术类的评测集可以做得很高,但是在真正的使用中还是有客观差距的。我们MiniMax的目标是说在接下来的下一代模型里面,可以真正实现这个事。这个话我觉得可能是目前至少市场上拿得出来的模型里面的唯一一个短板。
所以从已经能拿得出来的模型上来看,我觉得除了文本之外,基本上都追平了。文本还需要一些时间,可能有半代的差距。那如果是考虑到美国还在研发中的一些模型,可能还有半个到一个数量级的差距。
毛丞宇:“出海”是2024年很火的一个词。我们在其他行业里面看到,但凡是中国市场上面卷出来的公司或产品,到了海外市场还是有一定的竞争力的。MiniMax在AI大语言模型领域里是出海比较早也比较领先的,所以想听你谈谈对中国AI产品出海优势的理解。
闫俊杰:这个行业我觉得本质还是技术驱动。技术驱动的核心还是在于技术市场有什么差异?中国目前在多模态相关联的技术上确实是比较好的。
第二,中国其实不光有工程师红利,还有产品运营的红利。美国有些公司基本上是其实是没有运营的岗位。而我们如果把技术红利再加上产品层面的创新,也包括运营,就相当于是说从一个单纯的技术的工具,到一些这种内容性的产品,这个实际上也是红利。
毛丞宇:等于在技术上面不落后,或者说保持统一水准;在运营方面就像TikTok、Temu这样的产品,发挥中国在运营的这方面的一些加强,能够在国际上还是能够保持有竞争力。
03 谈市场竞争与需求变化
毛丞宇:在外界看来,2024年悬在国内AI创业公司之上的很大一部分压力来自大厂竞争。你怎么看待彼此的优劣?
闫俊杰:首先我觉得中国的这些大厂大部分都还是非常强的。大厂之所以成为大厂,是因为它的人才、组织效率、商业化支撑都在一个比较好的水平。并且越往后的公司,这些能力其实进化得越强的。比如说好多公司还是保持一个非常好的创新活力,确实资源也更多。
一开始创业的时候,大厂也不做我们这些事,所以你可以独立发展。后面大厂来做这个事的时候,一开始也是感觉到压力比较大,但是后面意识到这样两件事的时候,就开始没有压力了。
第一件事其实是一些基本的常识:就是产品做的怎么样,在某些场景来看,本质上用户规模还是取决于产品留存率等指标,但是再往后可能是取决于商业化的效率。这其实是没法走捷径的,得需要花足够长的时间来打磨,花足够长的时间和用户在一起,花足够长的时间来实现更强的技术创新。
所以说,钱和资源对大家来说可能是有差异的,但是时间其实是一样的,甚至创业公司的时间还更长,因为创业公司更加专注。所以我觉得就是至少从时间的角度来说,对创业公司来说至少是公平的。
毛丞宇:我在想也正是因为这种让人倍感压力、很激烈的竞争,或者叫“卷”也好,使得AI大模型的成本确实下降得很快。我记得你也提到,当这些成本下降以后能够看到来自传统企业的一些调用、需求的增长。云启作为一个投了大量ToB公司的投资机构,也很关心,你们在传统企业对AI的使用中看到了怎样的变化?
闫俊杰:我觉得这个变化还是挺有趣的。在2023年大模型价格还比较贵的时候,当时使用API这些客户其实主要还是to C的公司,就这些企业可以认为主要是互联网公司。
成本下降之后,我发现需求很大的的场景是打标。就是各种企业内部的数据在打标,这个量其实比我们想的要大非常多。因为比大模型出来更早之前,比如说做安全、做舆情分析、做数据结构化的公司,很多类似公司,是依赖于不同的模型来实现打标。
现在的话发现其实大模型目前首先成本便宜了,并没有比传统模型成本更贵,其次通用性会变得更好。类似这样的场景,一旦客户用起来跑通了基本上就会一直有需求,并且会扩展到更多的场景里面去。
其实就是数据处理类的这种需求其实占比是非常大的,并且发展速度非常快。这就让我觉得AI应用变成了很多企业内部的一部分,成为了一个真正对企业有用的东西。
04 谈MiniMax的技术进阶路线
毛丞宇 :MiniMax给大家的印象之一,是早成立的、也是最早的开始用大语言模型来做to C产品,甚至要早于国外的同行。除此之外,可能也是最早在MOE架构还是非共识的时候,就把很大资源投入到这个架构上的公司。2024年又很领先地在国内推出基于线性的Attention特性的技术架构。你们的这些技术选择是出于怎样的考虑?
闫俊杰:其实做这些选择还是给我们带来了很多的挑战。但具体是什么技术可能没那么重要,比较关键的是,这让我们开始具备越来越强的研发能力。
2022年最开始的时候,第一代模型最早其实就是把别人的论文复现出来。所有的细节都有,我们就是把它复现出来。
之所以选择MOE这个技术方向,是因为发现再往上扩参数的话,用Dense就扩不上去了,至少我们自己没有那么多算力去扩。所以要扩的话只能做MOE。但相当于只知道这个技术方向,细节我们不知道。所以2023年的状态就从在别人的论文基础上来复现,转到细节要需要来自己摸索。
2024年就更不一样了。我们开始意识到,如果要再往上走,比如说要解决这个无限长度的输入和输出问题,我们一定要需要Linear Attention。这相当于我们不光没有可参考的细节,连方向没有了因为就美国那些公司他们其实也没这么大规模做过。这就相当于是说方向也得我们靠自己来定。
但我觉得我们在做这件事的还是比较幸运,花了大概半年就做了出来。这不是因为我们强,是因为我们之前做前面两代的时候其实积累了足够的经验。所以我觉得这本质上是一个科技创业公司,花了三年时间,从完全复现论文到开始具备自身核心创新能力的过程。
如果我们再往未来两年、三年或者五年来看,假设中国真的在人工智能这件事有领先的公司跑出来,我觉得它需要满足这两点:第一,在技术上具备比较独特的科技创新;第二,商业化、产品规模足够大。我觉得,2024年至少在有独特科技创新这个点上,我们算是做成了一次。