孔某人的低维认知 01月19日
聊MiniMax闫俊杰最近发言,兼谈如何进一步提升LLM的能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax创始人闫俊杰近期分享了其对AI发展的独到见解,强调技术驱动而非用户增长,认为不应套用移动互联网逻辑。他反对“用户越多,模型能力提升越快”的观点,主张通过技术手段提升模型能力,而非依赖用户数据。MiniMax重新定位为技术驱动公司,关注模型能力分级、Agent和Long Context能力。他认为,创业需有独特理解和创新,不应设定收入目标,而是专注于技术研发。MiniMax重视技术认知和实验,强调持续提升模型能力,并认为推理期计算是关键。他鼓励追求真正能力,而非盲目模仿,这体现了他对AI发展的深刻思考和长远布局。

💡 观点鲜明:闫俊杰明确提出反对“用户越多,模型能力提升越快”的观点,认为模型能力的提升不应依赖用户数据,而应通过技术手段实现。

🎯 技术驱动:MiniMax重新定位为技术驱动的公司,关注模型能力分级、Agent和Long Context能力,强调通过清晰定义模型能力分级,并逐步逼近目标。

🚀 创新为本:闫俊杰认为创业需要独特的理解和创新,不应盲目追求用户增长,而是应该专注于技术研发和模型能力的提升,并且要坚持技术驱动。

🧠 认知实验:MiniMax强调模型研发提升的方法论,既要靠认知,也要靠实验,认为决定公司研发效率的关键在于认知是否正确,以及实验设计和效率。

🔮 长期主义:MiniMax不急于推出产品,而是把重心放在技术研发上,坚信最终在一个领域做得好的公司,不一定是第一个做这个方向的公司,而是最能充分发挥这个方向潜力的公司。

原创 孔某人 2025-01-18 08:00 北京

重新进入炼丹时代

年底看来是各家集中发声的时候,李开复刚说完没多久,MiniMax就出来发言了。而且非共识观点不少,符合我认知的也不少,就来聊一下。

晚点对话 MiniMax 闫俊杰:千万别套用移动互联网的逻辑来做 AI

1、观点节选与评论

[1] 不是用户越多,模型能力就提升越快。所以不需要买量,也不应该为了产品而拖累模型发展。

虽然说过去一年多里,“用户数据更多,大模型数据飞轮就能转得更好”也不是一个很强的共识,但闫俊杰这次如此鲜明地提出反对意见,应该是公开发声里比较早的。

确实在半年前这方面还有一些模糊的地方,但最近半年的模型已经明显很强了,已经接近人类短时工作的水平。以及更主要的是,在Chatbot场景下,产品能自然收集到的数据并不能继续提升模型的能力,只能用于更了解具体的用户和人群,只能获得人类的偏好信息。(当然有人会觉得对齐人类偏好也能明显提升产品效果,更好熟悉用户query分布也能够优化模型结果。但人家志不在现有级别的产品,而是追求模型能力快速提升后顺带做的产品化来降维打击。)

现在如何寻找能够提升模型能力的数据成为主要的问题,如何评价模型的能力也成为主要的问题。

闫俊杰这样的观点也来自于他一直想做AGI,MiniMax也重新定位成一个技术驱动的公司。在他看来做A/B test现在不是做AGI的方式,也不应该花钱买量,因为核心发动机还是模型能力的发展,而这方面用户数据的价值已经不大。

[2] 认为做AGI应该:非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。

我并不觉得定义模型能力分级是一个很重要的目标,因为我们很难预判对未来。如果粗略地设定了一个模糊的目标,也很难指导当下的行动。

但把一些清晰的能力作为一个中间目标是一个不错的摸着石头过河的方式,也就是“我不知道XXX是不是AGI,但我相信AGI中肯定包括XXX,并且XXX看起来在现在有可能做出来,那么就应该去做”。提出好的这种中间问题(或者叫代理问题)能够更好的把资源转变为模型能力,数学推理能力就是一个好的代理问题。

[3] 下一步,Agent 是一个重要目标,而这里Long Context能力很重要。

目前看来,应用层根本做不好通用Agent,而模型层看起来更有一些希望。应用层也做不好通用的Memory能力,因此只能寄希望于模型层在Long Context方面的提升。

除了Long Context还需要什么能力才能做好Agent呢?推理能力?什么算推理能力,什么不算呢?还有什么呢?

2、其他观点摘录

创业、商业与信念:

技术相关:

3、个人评论

相对于前几天李开复的发言,这次的反差就很大。闫俊杰是有自己成体系的思考的,并且似乎言行合一。这作为一个创业者就会让人高看一眼。

很明显,闫俊杰还赌在技术发展上,或者说模型能力的快速提升上。这其实就是类似之前大家相信scaling law的那个状态的延续,但不再是指望有免费午餐,而是自己去探索去争取这个技术进步。

现在如何进一步提升模型能力这点重归“玄学”,大家对此没有了清晰的认识和共识的路径。我觉得这也不错,重新给个人(少数人)英雄主义提供了空间:到底要构建什么新能力,什么能力是可泛化的、是重要的、且是可以被通过数据构建的,能持续地回答这些问题并验证其判断的团队,会获得类似爱因斯坦一样的荣誉。

能力分级重要么?什么算Agent重要么?什么算推理、什么不算重要么?都不重要,讨论过于模糊的东西在短时间内达不成共识,对构建更强的模型没有帮助。还是让我们去思考具体的能力和具体的方式吧。

推理期计算是个重要的方面,我认为这是目前的必经之路。MiniMax还没有足够重视这个方面,有点可惜。可能是由于Minimax之前做到产品都是追求低延时的,所以对于这种高延迟方案习惯上无法接受吧。同时我也喜欢闫俊杰“不要随便模仿一个o1风格,而是要去正经的追求实现能力”的判断。

总体而言,我是比较认同和赞赏闫俊杰的思路的。有兴趣的读者可以去看看原文。不过,我对原文的内容并不都认同。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式

本文于2025.1.18首发于微信公众号

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax AGI 模型能力 技术驱动 Agent
相关文章