第一财经杂志 2024年09月18日
大模型进入瓶颈期如何突破?王小川、闫俊杰和沈向洋是这样想的
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了大模型领域的发展现状,包括近期出现的技术周期、下一代模型需要解决的错误率问题以及实现AGI的必要抓手。多位业内人士认为,过去18个月是大模型的一个小技术周期,模型智能水平有了显著提升,但下一代模型需要错误率大幅降低,并需要更清晰的数学原理。同时,他们强调找到一个足够难的应用场景作为抓手,倒推AGI的实现,例如AI医生、内容社区等。

🤔 **过去18个月是一个小技术周期** 过去18个月,从GPT3.5到GPT-4o,大模型智能水平有了量级的变化,助手类应用成为可能。GPT-4o推理成本下降不止10倍,用户渗透率上升至10%左右。未来模型性能的提升将带来新一轮的应用和渗透率的提升。

🤔 **下一代模型需要错误率低一个数量级** 目前GPT-4o模型的错误率约为20%,下一代模型的目标是将错误率降低到个位数百分比。错误率过高是智能体(agent)没有真正出现的根本原因,因为智能体需要多步规划,每一步的准确率都只有80%的话,最终的准确率就会变得很低。

🤔 **需要找到一个够难的抓手来倒推AGI的实现** 实现AGI需要找到一个足够难的应用场景作为抓手,例如AI医生、内容社区等。这些应用场景对AI的要求很高,能够倒推技术发展方向,避免盲目开发。

Key Points

过去18个月实际上是一个小的技术周期;

下一代模型需要错误率低一个数量级,还需要有更清楚的数学原理;

空谈AGI,不如找个够难的抓手倒推AGI的实现。

 

大模型领域似乎陷入了沉寂——如果有什么动态,也是坏消息。迄今为止,包括Inflection AI、Character AI、Adept AI和Covariant等一系列独角兽主创团队,都已跳出自己的创业项目,分别加入微软、Google和亚马逊等美国大公司。

在国内,估值排名前列的大模型公司零一万物的算法副总裁黄文灏据传已经离开公司,加入字节跳动。而该初创公司的产品团队据传也已离职再创业。

一连串的坏消息面前,我们该如何认知行业所处的阶段?如果这是一种大技术周期中的小型子周期,那什么样的公司才能跑得更远?9月5日举办的「2024 Inclusion·外滩大会」上,蚂蚁集团总裁兼首席财务官韩歆毅、MiniMax创始人兼CEO闫俊杰、百川智能创始人兼CEO王小川在与极客公园创始人兼总裁张鹏的对谈中触及了这些议题。

以下内容由「新皮层」根据现场对谈整理:

 

过去18个月实际上是一个小的技术周期

MiniMax创始人兼CEO闫俊杰认为,我们刚刚经历了大模型的一个小技术周期,这个周期从GPT 3.5开始,到GPT-4o的出现为止,大概18个月的时间。这个周期里,模型智能水平相较于GPT 3.5及之前的模型有了一个量级的变化,使得助手类应用成为可能;GPT-4到GPT-4o,推理成本下降不止10倍,推动了用户渗透率的变化,使得全球使用AI的用户至少3亿至4亿人,达到接近10%的渗透率。

他认为,当模型产出的内容好于人类写出的内容时,可能带来更大的变革,但这需要足够长的耐心,这个过程可能是分阶段实现的。每当有1个量级的技术变化,就可能带来1到2个数量级的产品变化和用户规模。接下来模型从GPT-4到下一代的GPT,就将带来新一轮的性能变化和随之而来的新型应用,以及渗透率的提升。

百川智能创始人兼CEO王小川认为,刚刚过去的18个月还不算是一个完整的周期,更完整的周期应该拉长到36个月,即让技术和场景发生更多融合。而且,OpenAI的最新模型「草莓」也即将发布,AI的强化学习还没有在真实物理环境中真正开展起来,如果把这些都走完,「我依然认为超级应用(在这个技术周期里)会出现。」王小川说。

 

下一代模型需要错误率低一个数量级,还需要有更清楚的数学原理

王小川认为,要获得超级模型还需要跟搜索和强化学习结合,不止是做scale up(指把模型参数、数据量、上下文窗口等做大)。在模型与搜索结合方面,他认为目前包括ChatGPT、Perplexity在内的模型与搜索结合的产品依然不够好。而搜索与强化学习的结合,王小川认为「大模型是数据越多越好,但AlphaGo走向AlphaZero是数据越少越好,因为AlphaZero通过self-play(自我博弈)不需要外部数据就能产生智能」。

闫俊杰则认为,下一代模型要能够解决3个本质的技术问题,包括错误率数量级地降低、无限长度的记忆和多模态。他提供的数据称,目前GPT-4o模型的错误率大约20%,下一代模型的一个核心标准是错误率能够降低到个位数的百分比。错误率过高,是目前智能体(agent)没有真的出现的本质原因,因为智能体需要多步规划,每步准确率都只有80%的话,乘起来准确率就低到不能应用。

闫俊杰称,MiniMax目前每天的API调用次数大概是30亿次。如果模型错误率下降一个数量级,有可能API的每日调用就会变成300亿次。

不过香港科技大学校董会主席、美国国家工程院外籍院士沈向洋认为,智能涌现背后的数学原理我们还没有搞清楚,要实现AGI,可能要先研究清楚智能是如何涌现的这一问题。去年,他在香港科技大学聚集了一批海内外计算机科学家,特别是一些数学好的科研人员,研究题目就是智能涌现背后的数学原理。

 

空谈AGI,不如找个够难的抓手倒推AGI的实现

对于如何实现AGI,王小川、闫俊杰和蚂蚁集团总裁兼首席财务官韩歆毅都认为需要找到一个抓手,不能空谈技术或者纯粹地投资技术。

王小川找到的抓手是AI医生。他称AGI的核心是在「造人」,即造出能像人一样思考的系统,有知识、有学习能力,还能提供服务。「人造医生」则是在「造人」过程中更高难度的部分,要错误率低、能够沟通、还能共情,这对AI的要求高到可将之视与AGI划等号。

「这样大的超级应用能够反推公司的技术要求,而不是团队盲目开发各种技术。」王小川说。

百川智能为实现AGI找到的抓手是AI医生,MiniMax找到的是内容社区。不久前的MiniMax伙伴日上,闫俊杰及其高管团队一再强调,公司旗下的主打应用星野和Talkie都是内容社区,不是ChatGPT那样的聊天机器人。9月5日的蚂蚁外滩大会上,闫俊杰再次谈到这一点,表示Chat产品本身有很好的容错性。这使得这类产品可以跟现有模型很好地结合,不会暴露后者的错误率过高问题,而内容社区则难以容忍这一点,因为用户需要用AI创造出足够好的内容,才能引来其他用户消费。

来自蚂蚁的韩歆毅没有理由不支持这种「产品驱动技术」的观点,因为蚂蚁本身就希望将其AI技术「赋能」到包括金融、医疗甚至本地生活等在内的多个领域。大会期间,蚂蚁总共发布了AI生活管家「支小宝」、AI金融管家「蚂小财」以及「AI健康管家」共3款AI产品。

「我不是做技术的,我的责任就是给技术『挖坑』,也就是制造需要技术解决的难题。」韩歆毅说,用户在使用AI应用的过程中创造更多的技术难题,才便于技术公司找到技术发展的方向。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 AGI 技术周期 错误率 抓手
相关文章