ARK Invest 2024-11-22 11:10 中国
“Agent能在解决有价值的应用任务方面走得更远”
图片来源:For Your Innovation Podcast
Z Highlights:
训练成本降低可能削弱基础模型企业的护城河:吴恩达提到 AI 模型训练成本的显著降低使更多企业和研究者能够进入AI领域,推动创新。这种成本下降对于保持技术的竞争力和促进技术普及具有重要意义。
AI Agent迭代促进企业变革:吴恩达强调了 AI Agent的潜力,Agent系统能够执行更复杂的任务,如自动化决策和优化工作流程。他提到,目前的 AI Agent在执行某些任务上已经超越人类的能力,通过开源合作和技术迭代,AI Agent的发展可能推动各行各业的根本变革。
加强 AI 评估发展至关重要:吴恩达指出,尽管 AI 技术的开发和实现速度很快,但评估过程却比较缓慢。他认为,有力的评估机制是推动AI技术健康发展的关键,可以帮助企业做出更理性的选择,对实现技术的商业化和可持续发展至关重要。
开源是促进创新的根本条件:吴恩达表明了对开源在促进创新和技术共享中所起的核心作用的坚定信念。他批评了反对开源的立场,认为这些立场往往由说客们狭隘的认知驱动,而非出于公共利益的考虑。
13万亿美元AI 软件市场,机会与竞争并存
Brett Winton:大家好,欢迎收听For Your Innovation播客。我是Brett Winton,ARK Invest 的创办人兼首席未来学家。我也是风险投资委员会的成员。今天和我一起的还有Charlie Roberts,他也是风险投资委员会的一员。
Charlie Roberts:你好,Brett。
Brett Winton:Charlie,我们上次和 Andrew 聊得很愉快,你能向我们介绍一下Andrew吗?比如,他为什么这么重要,他在AI领域每次都扮演什么角色?
Charlie Roberts:Andrew 是一位出色的教师,也是多个 AI 组织的创始人和联合创始人。他曾是斯坦福大学的教授,建立了许多机器学习领域真正的第一原理,并意识到这些理论会如何真正帮助学习者加速并创新。他联合创办了 Coursera,也在该平台发布了许多最受欢迎的课程,对许多新人进入 AI 和数据科学领域的职业生涯新起到了巨大的推动作用。同时,他是 Google Brain 的联合创始人和负责人,也曾是百度的首席科学家。此外,他还联合创立了 AI Fund,一个专注于人工智能的孵化器和加速器,特别是与大型企业合作。在此框架下,他联合创立了像Landing AI 这样的公司,与大型企业合作,排查问题并找到大量解决方案。他与企业间乃至可能公共领域都有联系,同时也是一位杰出的人工智能教育者。
Brett Winton:没错。与他交谈时,我真正欣赏的是他拥有将AI系统实际部署在公司中的切实经验。从我们的对话中,你学到了什么惊讶的东西?
Charlie Roberts:对我来说,有两个重要的收获。首先,Andrew 认为Agent系统正在取得巨大进步。我们可能没有逼问他具体期望的年份,或者他期望的 AGI 还有多远。可能 AGI 的定义和尚未存在的 AGI 一样多,以至于无法向我们解释它们,但他对于Agent系统似乎非常有信心,认为这些系统真的就在眼前,而且不会有很大的技术风险,更多的是执行问题。这与我最近与其他人的谈话有些吻合,是最近一年或更短时间内的一个转折。
另一个是他对于开源的看法,我认为我与他达成了共识,并且相信他也是这么认为的。他对反对开源观点的看法非常清晰和有力,认为基于安全考虑的反对实际上是由说客团体推动的,他们的反对可能倾向于不诚实,而不是更深入的实际问题,但我们没有太多时间深入讨论。其实,扩大这个话题会很有趣,那就是他是否真的认为有任何领域存在真正的安全风险,无论是生物安全还是其他方面。从他表达来看,似乎没有,但这是一个值得深入探讨的问题,看看是否有任何例外情况。不过,他提出了一个非常有趣的观点,开源的一个主要安全担忧是它为不良行为者提供了便利,让他们拥有了极其有价值且耗费时间的资源(比如1亿美元的训练),因此创造了与恐怖组织之间的不对称问题。
考虑到他所说的,实际上基于你、Frank Downing、Joseph 和团队内部其他人领导的一些研究,基于训练成本下降,他提出了一个非常好的观点,即如果这些成本继续下降并且下降是微弱的,那么实际上,也许这不是公平的竞争。也许对于 Gemini 来说,近2亿美元的总训练成本,在多年的复合训练成本降低后,开始变得微不足道。从根本上说,也许就连为什么制造这些大型开源模型会更危险的最后一个理论依据也不复存在了。
Brett Winton:他举例说,人们总是说那些系统很危险,几年后,那些“危险”系统变成了开源系统,然而并没有明显的危险产生,反而带来了很多好处,或者说带来的好处远远大于潜在的危险。我记得有一段时间,GPT-2 被认为太危险而不适合发布,而现在,我们已经拥有了超越 GPT-2 的 GPT-3 系统,甚至可以在手机运行。
他提出的一个有趣观点是,技术采用和创新速度的决定因素在一定程度上是模型输出能力的评估。这暗示了拥有渠道更为重要,因为你可以非常快速启动一个系统,但仍然需要弄清楚它是否能够在你将遇到的所有极端情况下工作。如果你有渠道访问,你就能在发布系统之前进行自动化评估,如果你没有渠道,你就没有启动系统的权限。
尽管他的立场是开源很可能会侵蚀 Anthropic 和 OpenAI 的竞争优势,但他们是否可以拥有足够大的商业化足迹,使得他们的系统可以比以非常分散方式分发的系统更快地得到评估。
Charlie Roberts:我认为你关于渠道的论点非常到位,这也与 Andrew 所说的有关需求相吻合。推动巨大计算能力需求的一个驱动因素是现在人们不断在 LLM 上运行推理,而 LLM 是更大的模型,仅在一个方向上运行推理就需要更多的计算。
这是渠道的附属品,然后渠道又成为收集更多数据的途径,尤其是在主动学习的情况下,你需要使用机器来设计实验、获取数据,然后再反馈到自身,数据生成和分布非常紧密地耦合。这就是我们在硅谷经常听到的网络效应和飞轮效应等概念,很多时候都是市场营销的说法,或者在幻灯片上看起来很不错的点。但这将是一个非常真实的例子,尤其与 Agent 系统结合起来时,这些概念会创造非常实际的影响,这个系统正在进行端到端的决策制定,可能正在运行这类主动学习实验,并通过某些特权分发渠道运行,就像我们的风险基金在 X 内部使用的一个例子,在那里可以测试文本生成,就像 Grok 实时对人进行测试。
本质上讲,这就是现实生活,LHF 的本质就是强化学习和人类反馈。因为你从系统的真实人类活动中获得了真实的人类反馈,而这些反馈又重新输入回系统中。这种方式开始带来巨大的力量,与 Andrew 所说的很多内容有共鸣。另一件让我感触深刻的是 Andrew 提到当他们与大型企业一起进行探索,真正试图了解哪些问题需要解决,问题有多大,可能的解决方案是什么,即什么是所谓的AI锤子对应的问题钉?他们对AI可能发挥作用的地方是否感到不知所措,是否真的超出了想象?从方向上来说,这也是我们在 ARK 内部和各种头脑风暴中经常讨论的东西,即什么样的公司最适合采用高度可定制的人工智能方法?在这种情况下,公司可以更多地将平台作为一种服务,而不仅仅是点对点解决方案的 SaaS。
高度的定制化将 AI 不同部分的潜力连接在一起,从而实现解决方案。一个众所周知的例子是 Palantir,利用 AI 极大地增强了其服务客户的能力,这种潜力已经开始显现成果 。此外,Andrew 在某个播客中提到,如果你查看任何大型机器学习、AI 数据科学项目的代码库,任何 GitHub repo,你会发现有趣的模型代码通常不到所有代码的5% 。因为其中大部分只是基本的连接工作,肯定是非常非常重要的,但是基础架构的建立是为了将数据从一个地方传输到另一个地方,并确保所有库都正确对齐。还有很多只是驱动其他所有事物,以及大量的MLOps(机器学习运维),诸如此类,但只有很少一部分是有效建模载荷代码。
现在正在发生的是,像 Palantir 这样的定制化解决方案,很多东西都被抽象掉了,许多基础设施和配置工作被抽象化或者移除,取而代之的是一些非常可靠的解决方案。从本质上讲,这些解决方案基于之前已经开发并优化过的路径,不需要从零开始构建或以高维护的方式持续维护。随着这些 AI 解决方案的规模化推广,这种模式与固定的 SaaS 解决方案或点对点解决方案相比,显得更具优势,甚至对于那些从 SaaS 转型而来并试图使其解决方案更具定制化的公司而言,也是如此。
Brett Winton:没错,就像你说的,这种方式加速了他们的业务。可以说投资于底层的基础设施是公司为了在 AI 领域成功部署可能的解决方案而需要做的事情。不仅允许公司更快、更无阻碍地引入解决方案,还能使这些解决方案持续运行和操作。这种投资实际上是在建立一个能够支持快速创新和灵活调整的平台,从而让公司能够迅速适应市场变化和技术进步。
Charlie Roberts:Andrew 提出的另一个观点也很有趣。如果我们真的已经如此接近,并且听到像他这样相当保守、非常以数据为导向的人如此自信地认为,我们将在当前或不久的将来看到有意义的Agent解决方案,而且这些解决方案完全可能无技术风险、无交付风险,无论是在B2C、B2B、SaaS 内部还是 PaaS 内部,都是如此。人类作为决策者,虽然可能在技术栈中攀升更高,并做出可能更有影响力的决策,但同时也被排除在很多目前可能具有经济意义的解决方案或决策之外。
我猜想,这可能会从根本上改变许多 SaaS 提供商的市场走向,因为许多目前要求人工做出选择的事项,甚至是会计部门的职责,从本质上讲,可能都会交给具有 Agent 性能的系统,而最能提供接力棒传递或最能与其他 Agent 系统交接的系统,将在市场上日益胜出。我认为这将是一场根本性的变革浪潮,而目前的长期预测可能还没有充分认识到这一点,也没有考虑到这一点。
Brett Winton:是的,你需要确保你的 API SDK 很好地嵌入模型,否则模型在需要服务时就不会调用你。因此,从B2B意义上,被训练进模型就像出现在谷歌自然搜索结果中一样,是新的提升方式。
Charlie Roberts:对,如果Agent模式是蜜蜂在授粉和做决定,那么那朵花,也就是API接口就必须看起来非常诱人。我们可能还不知道这会是什么样子,也不清楚这将对现有的世界秩序产生什么影响,但可以想象,它可能对某些领域产生很大的破坏性。
Brett Winton:希望大家喜欢这次访谈。从一个高纬度层面的市场机会测算来说,我们认为到2030年,AI 软件将成为一个收入高达 13 万亿美元的市场。相比之下,现在的 IT 总支出约为 4 到 5 万亿美元,于是我们对此极度感兴趣的原因就显而易见了,因为这些 AI 系统将创造巨大的商业价值。因此,我们很高兴能与一位正在与企业合作试图创造这种价值的人进行交流,他在构建人工智能系统方面有着丰富的经验,并且看到了这样做的前景和陷阱。
希望你们享受这次访谈。
AI 发展受制于硬件供应链,距离瓶颈期还很远
Charlie Roberts:欢迎来到 ARK For Your Innovation 播客。我是 ARK 的首席未来学家,我们对这次讨论感到非常兴奋。Andrew 是最具影响力的研究者和教育者之一,在人工智能领域内外都具有关键影响。他担任过多个重要 角色,如Google Brain 的联合创始人和领导者、百度的首席科学家、Coursera 的联合创始人,并在 Coursera 教授了许多最受欢迎的课程,同时也是 AI Fund 和 Landing AI 的联合创始人以及其他几家公司的董事会成员。Andrew,我最喜欢的统计数据是你告诉我世界上每千人中就有一人参加了你的 AI 课程,这对整个社区和生态系统来说是巨大的贡献,非常鼓舞人心。非常期待与你就众多 AI 话题及更多内容展开讨论。
Andrew:谢谢Charlie,很高兴在这里见到你。
Brett Winton:Andrew,也许你可以首先阐述一下,你认为我们在所谓的AI旅程中处于什么位置。目前有很多讨论,人们认为 AI 遇到了瓶颈,或者我们正在取得的性能进步并不会带来真正的生产力提升。你如何看待当前的 AI 能力和 AI 能力的未来轨迹?你又是如何评估的?
Andrew:在过去的 10 年,15 年里,一直都有少数人说 AI 正在碰壁,很多这样的说法都被反复证明是错误的,我们离达到瓶颈还很远,很惊讶现在还有人会这么认真地说。AI 作为一种通用技术,已经取得了巨大的进步,甚至在不久的将来也会有突破性的进展,我们能够利用 AI 完成的任务正在迅速增长。目前,很多关注点都集中在生成 AI 和大语言模型上,坦白说,我们能让它们完成的一系列任务大大超过了迄今为止实际部署的范围,而且非常明显,更多的推理能力、GPU 或其他类型的硬件是让更多 AI 走向世界的瓶颈。
这个问题一定会得到解决,通过 GPU 或其他类型的硬件来解决供应链问题的经济动机非常强烈。即使 AI 不再发明任何新技术,未来几年也会有更多的 AI 部署。当然,更好的消息是,新技术的出现预示着更多的 S 型曲线将在未来推动更多应用的发展。这些技术正叠加在现有技术之上,为 AI 的应用和发展带来更多可能性和机会。
Brett Winton:综上所述,你的意思是我们现在拥有的能力还没有真正部署到商业领域,所以只要做到这一点,就能提高很多生产力提升。此外,还有一些底层架构的改进会带来更多的能力提升,是这样么?
Andrew:实际上,我经常与有想法的人交谈,他们可能甚至已经有了原型,可以为 AI 带来显著的 ROI,但无论出于什么原因,他们可能还没有 GPU,或者 token 成本略高,或者只是缺少有能力去实施项目的软件工程师。这些项目还没有完成,所以已经有很多相当有效的想法来推动显著的 ROI,不管是什么类型的原因,这些问题在未来一两年内肯定会得到解决,只是目前还未部署。我对未来有更多有价值的 AI 项目有100%的信心,因为部署它们的瓶颈,如 GPU 供应链等问题将得到解决,更多的 GPU 将被制造出来,更多的处理流程将被部署,为 AI 项目的推广和实施打开新大门。
作为即将到来的技术的一个例子,我对 AI Agent或者 Agent 工作流,非常兴奋。我们今天许多人使用 LLMs 的方式是输入一个提示,然后它输出一个结果,这有点像是对一个AI,或者可以想象成对一个人,说:“嘿,我希望你为我写一篇关于给定主题的文章,需要你一次性从头到尾写完,不能撤回。“虽然人们可以这样写,但我们并不是以这种方式做出最好的创作。相反,我们在进行思考和写作时会采用更多的迭代流程,比如编辑大纲,写初稿,批改初稿,做一些网络搜索研究,这是一个更迭代的过程,让我们作为人能够交付更好的工作成果。AI Agent 工作流也正在实现这一点,通过 Agent 工作流,已经看到很多 AI 应用的准确性有了大幅提高。同样,Agent工作流的一个瓶颈是需要更快的推理能力来实现,因为需要不断地调用 LLM,使其在工作产品上反复迭代。
不过,还是那句话,很多人都在研究这个问题。我很有信心,随着供应链的改善和更好的 AI 专用芯片投入使用,不仅仅是 AI 训练,还包括 AI 推理,越来越多的工作流程将由 Agent 完成。顺便说一句,ARK 的报告对我影响很大,报告中估计训练成本每年下降75%,而推理成本可能每年下降86%。虽然不知道这些确切的数字是否正确,但我确实看到价格正在迅速下降,而训练和推理成本的下降将反过来促进进一步的创新,这是非常棒的。
图片来源:Unsplash
Brett Winton:确实,一般的想法是不仅有成本下降,还有投资资金的推动,将成本下降与投资资金结合起来,最终有望在两三年内实现 100 倍或 1000 倍的能力提升。你是否认同这样一种观点,就像 Jan Lekon 说的,一开始使用的系统有一个随时间累积的错误率,即使是Agent系统,错误率也会复合。因此,工作流程越长,生产力就会因为错误的复合作用而崩溃。在目前的架构下,这种情况是否可以克服?还是需要更多的架构来让 Agent 工作流真正稳定运行?
Andrew:复合论证适用于非常简单的情况,如果你在进行一个开放循环的工作流程,是的每一步都要做到完美。但一旦实施了 Agent 工作流,它们可以查看各个步骤然后修正自身的错误,那么我认为复合问题会得到很大的改善。
举个例子,当时对我来说是个惊喜。我曾调用一个非常简单的 Agent 来做在线研究并编写报告。我记得当时正在向斯坦福大学的一个小组做现场演示,不知为何,那次做网络搜索的调用失败了,应该是使用的 API 出现了速率限制错误。我心想糟了,要失败了。但出乎意料的是,Agent说:“哦,网络搜索失败了,让我改用维基百科搜索吧。”我完全忘记我给它配置了网络搜索工具和维基百科搜索工具,令我真正惊讶的是,这个在 Python 中调用的 Agent 非常聪明,当网络搜索失败时,它转而使用维基百科搜索,然后演示成功完成了。
快速推理比创造迭代基础模型更为迫切
Charlie Roberts:你是否认为要达到真正的 Agent 性,还需要另一个步骤变革或者架构改进么?比如 transformer 的架构,或者更有效的与 LLMs 结合,显然可能还需要加上强化学习,也许加上或减去 diffusion,或是其他已经存在的,具备足够规模的工具?你觉得这样就能达到目的了吗?
Andrew:确实Transformer 神经网络的工作流程运行得很好,人们对 MAMBR、SSRM 等其他替代 transformer 的模型进行了兴奋的研究,这些模型看起来很有前途,值得进一步研究和测试。但我认为,我们不一定非得拥有比 transformer 更好的模型,但如果有的话肯定是件好事。一个被极度低估的重要因素是快速推理,快速生成 token 的能力。许多大公司近期都在花巨额预算购买 GPU 进行训练,这的确很棒,为我们提供了大量的基础模型,包括专有模型和开源模型。但我发现,快速推理的能力正成为许多应用的瓶颈。当 Meta 发布70亿参数的 Llama3 模型时,是一个非常出色的开放模型。如果我们能将推理速度提高10倍,就能让这些 Agent 工作负载运行得更快。如果你使用的是ChatGPT、Chrome、Gemini 或其他任何工具,作为人类,我们大概每秒能读6个token,那么为什么需要每秒生成的 token 超过6个呢?如果每秒生成10个 token,就已经超过我的阅读速度了,不需要更快。但对于Agent工作负载来说,一个 AI 可能会写一篇草稿,批改并修正,因此会生成大量 token,AI 在人类查看之前就已经完成了大量的工作。一些团队正在进行可能需要25分钟工作量的Agent工作负载,你可以将同样的25分钟处理时间缩短到2分钟,这就改变了游戏规则。将结果在2分钟或1分钟内得到,而不是20或25分钟,这显著改变了客户体验。这就是为什么我认为到目前为止,快速地生成 token,生成便宜的 token 将真正帮助 AI 下一波浪潮的到来,此外,对训练的持续投资显然也非常重要。
Brett Winton:这两者是相互关联的,对吧?就像在 AI 和推理成本下降中一个非常有趣的动态,如果我向一个系统投入更多的训练资金,也是 Meta 正在做的,可以把更多信息压缩到一个更小的参数模型中,于是这个模型既更快速,又更便宜地运行,减少了延迟并降低了推理成本,我在同一时间获得了性能提升和成本下降的双重收益。这是一个有趣的动态变化,是投入到训练计算中的资金量的一个函数。
Andrew:所有动作都是有帮助的。而且,即使你采用一个大模型,对于很多商业网站类型的大型 Gen AI 提供商来说,也许他们每秒生成10个 token,大多数人可能每秒读取6个 token,所以每秒大概生成 6 到 10 个 token。现在有像Brock, GROQ 这样的公司,每秒能生成300个 token,因为模型不同所以不是完全相同的比较。SambaNova 也有一个每秒产生数百个 token 的演示,以及其他一些半导体制造商,不止一两家私下与我分享过,他们也在研究便宜的、超快速的 token 生成技术,这将释放出很多新的能力。至于超快速的 token 生成,比方说大模型每秒可生成一百多个 token,比如 700 亿参数的 Llama 3,让你可以做非常复杂的事情。我真的很高兴能看到更多的半导体制造商更加认真地对待推理这件事。
另一件有趣的事情是,有些大公司,实际上我现在已经从很多人那里听到这种说法,有些公司在 GPU 基础设施上的投资完全是恰如其分的,打造了一支出色的 GPU 团队并建立了优越的训练基础架构。这些团队很有可能会认为他们有最好的基础设施,所以也要建立推理基础设施。但对我来说,我在思考的问题是,这样做有多大意义?训练和推理基础设施采用相同的基础设施到底合不合理?或者说,二者之间的差异是否足够大,以至于真的需要新的架构,硬件以及软件,软件需求显然是较为清晰,但我们还应该考虑为推理基础架构提供哪些硬件?
图片来源:Unsplash
Brett Winton:在终端设备上配置肯定会有所不同,如果我在特斯拉上安装芯片,那它就有自己的技术栈。也许从消费者实用性角度来看,有很多令人信服的理由可以说明为什么部分或大部分芯片应该转移到终端设备上。
Andrew:没错。在设备上更清晰,甚至在云上,我认为在训练与推理工作负载上有足够的差异,可以从这些差异倒推到架构或软件类型的变化,但就设备终端而言,在这方面是行得通的。
AI 应用静待百花齐放
Charlie Roberts:你最大的贡献之一是在教学,而且你一直在强调开发人员和学习者需要在机器学习的背景下学习MLOps,以及研究方面的知识。我想知道,在MLOps中,你是否看到了一个未来的方向,即实际上协调对推理的调用,甚至可能在运行推理之后单独进行训练?听起来这几乎是你的发展方向。
Andrew:确实如此,因为基于 LLM 的应用程序还很新,所以 LLMOps 的领域也很新,如何在大型语言模型上构建、部署和维护等。有趣的是,AI 技术栈正在发生一些变化,我认为随着芯片、云服务提供商的发展,一个有趣的协调层正在出现。像 Harrison Chase 在 LandChain 上做得很好,或者 Jerry Liu 在 Lambda Indexes 上的协调层工作做得很好,这些工具都是协调层,之后还有在其上构建的应用程序。另一个有趣的新兴事物是Agent框架,它可能是另一种类型的协调层。TrueAI、Autogen、LandGraph 等公司在构建多Agent协调层方面做得很出色。因此,人工智能堆栈本身也在发生变化。
我大部分时间都花在应用层上。我发现在 AI Fund,应用层有很多机会,而基础模型层竞争非常激烈,看看每个人都在投入数百万、数十亿,甚至有时超过数十亿美元用于训练模型,这是一个梦幻般的行业。有些公司做得非常好,但它的竞争非常激烈。在过去很长一段时间,我更多地专注于应用层,在那里我发现有非常丰富的机会,并且竞争没有那么激烈。在 AI Fund,我们一直在与企业合作,他们为我们带来了引人注目的案例。环顾四周,在这方面的竞争对手几乎为零,或者只有一个,所以在应用层也有很多选择。
Brett Winton:对于那些应用层类型的公司,他们是如何考虑在下层栈中接入比如基础模型的?他们是否会认为 GPT-4 现在有效并且人们正在使用它,就可能设计得可以灵活切换到另一个基础模型?他们是在调整一个 Llama 模型吗?你认为在应用层的策略是什么,以及这将如何影响在较低层栈中的竞争力?
Andrew:环境一直在快速变化,对于许多项目来说,大多数项目仍然只是一个漏斗,从 POC 到生产制作。就像生活中的大多数事情一样,处于 POC 阶段的项目比处于生产阶段的项目要多,这并不是坏事,对于成熟技术也是如此。但我认为,处于概念验证阶段的项目,许多团队开始使用GPT-4,Cloud3 Opus 也变得非常有竞争力,就在过去几周甚至 Llama 3也变得有竞争力,许多团队倾向于使用谷歌的服务,有些人会使用 Gemini 1.5 Pro。目前为止,我听到最多的是团队在大量使用 GPT-4。事实证明,阻碍该领域更快发展的瓶颈之一就是评估。我认为 Gen AI 的一个美妙之处在于开发成本比以前低得多,可以在一天之内开发出引人注目的应用程序。但要收集数据并对其进行正确评估,可能需要 10 天,也就是说时间要长10倍。如果我用一天时间构建一个产品,然后得花 10 天的时间来评估它,又或者我花一周时间做出来的产品要花两个月来评估。所以在AI中,缺乏评估是一个问题。这也是人们不愿意更换模型的一个因素,如果你一开始就使用 GPT-4,如果不能评估其他模型,那么可能就会坚持使用你最初的选择。我看到很多人都在努力建立更好的评估机制,以便人们能够更有效地从这些不同的模型中取得成功,它们的性能是否几乎没有区别?在这种情况下,我会选择成本最低的提供商。而且确实有公司在 token 上花费了数百万美元,因此,token 的成本节约是显著的,但也有公司每月花 10 美元或其他费用购买 POC,它们不太愿意做大量工作来切换到成本更低的提供商。我认为规模增大就会有更好的评估,很多人都在研究这个问题。在我周末少量空闲时间里,评估是我思考的一个话题。更好的评估使人们更有效地评估多个模型,然后根据工作需要,在价格、性能和速度之间权衡,选择最合适的模型,这方面已经取得了很大的进展。
拥抱开源,训练成本飞速下降,模型公司护城河尽失?
Charlie Roberts:我们很高兴听说 Claude 表现良好,这是我们从 ARK Venture Fund 做出的最早期的投资之一,投资了 Anthropic,并且我们一直与该公司保持密切关系,对其前景以及更广泛的,包括 GPT 系列模型和许多开源项目都感到非常兴奋。如果能听听你对当前关于开源、利弊、风险和机遇的争论的看法会非常有趣,包括优势、劣势、风险和机会。显然,这已经成为一场几乎两极分化的讨论,某种程度上我几乎从未见过在数据科学和机器学习领域有如此多的知识渊博、充满激情的人对这个特定话题持有如此两极分化的观点。你在讨论和辩论中的立场是什么,随着时间的推移会发生怎样的变化?
Andrew:我认为开放源代码是伟大的,我们应该尽一切努力推广它,让更多的人从开源中受益。我去年对旨在关闭开源的游说努力的强度感到惊讶,这会严重抑制美国和全球的创新。有少数参与者认为,如果你投入了数十亿美元来训练大型基础模型,当别人开源这些模型并稀释了那些昂贵投资的价值时,这确实有点令人烦恼。但是,游说工作真的非常激烈。起初,游说的基础是 AI 可能会取代一切并关闭一切。我刚从华盛顿特区回来,与几位立法者交谈,AI 会关闭一切的说法已经失去了可信度。但说客们很聪明,他们并不放弃,从 '人工智能将接管一切 '演变到 '人工智能可能制造生化武器“。自那以后,已经有足够的报告显示,电子表格也可以用来制造生物武器,但我们并没有对电子表格感到恐慌,而且 AI 似乎对制造生物武器方面也并非那么有帮助。OpenAI 发布的一份报告显示,基本上没有多少相关案例,表明 AI 制造生物武器的恐惧并不是某些人试图描述的那样,生物武器的论点也已经大大失去了信誉。但说客们没有放弃,最新的论点是国家安全。如果我们将技术开源,近邻竞争者就会获得访问权。游说的强度令人着迷,他们愿意每隔几个月就改变论点,继续推动关闭开源的议程。也许我对某些游说者的思想诚实寄予了过高的期望,我只想告诉你们我是怎么想的。
我看到的一件有趣的事情是,开源显然是全球AI技术栈的一个供应链,且技术往往反映了一个国家或开发者的价值观。例如,许多国家都使用谷歌文档。仔细观察谷歌文档,你会发现分享谷歌文档真的很容易,而锁定内容则相对困难,尽管可以将内容锁定设计为企业级别的服务。但在我看来,谷歌文档反映了谷歌内部非常开放的文化。再看看iMessage,端到端的加密反映了一种价值观,即重视隐私。而肯定有其他国家不会希望开发出端到端的通信应用,也许反映了一套不同的价值观,也许认为政府应该出于某种维护和平或其他的名义来监控通信,这就和美国许多公司所追求的价值观不同。所以如果我们不参与,如果民主国家不参与 AI 供应链,那么其他国家就会参与。这意味着,当其他国家的人拥有 LLM 时,你对民主有何看法?它是好是坏?我很希望有一个 LLM 能反映民主价值观。但这也是我认为试图关闭开源非常危险的原因,不仅对创新不利,甚至不符合美国、英国或欧盟的利益。我对游说者在说服一大批欧洲立法者制定明显违背欧洲利益的法律方面的效果感到非常惊讶。
图片来源:Unsplash
Brett Winton:撇开对开源的监管压力不谈,你是否认为在未来,Meta 投入数百亿美元训练这些模型,然后将它们发布到市场上,这背后肯定有企业战略,但你是否认为这种努力会充分削弱那些封闭的 LLM 基础模型类型玩家的经济效益?比如价值链的这一部分根本不会随着时间推移累积大量利润,于是对 OpenAI 和 Anthropic 这样的公司在最终通过其特许经营权产生商业利润的能力构成威胁。
Andrew:目前在纯基础模型层确实存在挑战。从你们的报告中可以看到成本每年下降75%,这就很难建立护城河了。如果你花费一亿美元训练一个模型,一年后竞争对手可能只需花费两千五百万美元,再过一年,又只需其四分之一,那么护城河在哪里?但护城河不仅仅存在于纯粹的基础模型层,还有其他层,对于消费者来说,最终情况可能也会有些不同。今天的事实证明,LLM 的转换成本很低,可能需要做一点工作来重写问题,但不会太多。拭目以待吧,我认为存在其他技术成分可以增强护城河的强度。但如果仅仅是一个基础模型而没有其他东西,即使这个核心部分很重要,我也不知道那个护城河有多强。
Brett Winton:你是否认为 Meta 能够进入这个领域的部分原因是,类似于聊天式 GPT 的东西真正让大家意识到这里有很多商业化的机会。各团队都很乐意公开他们所做的工作,他们说”这是我们的配方。“”我们就是这么做的。“他们有一种风气,即模型封闭的也是出于安全考虑,他们只分享架构和将要向前推进 GPT 的方式。现在,每个人都不想亮底牌了,因为配方不再共同共享,于是各团队之间的性能差异不是有了更多机会吗?
Andrew:不同公司之间存在足够的人才流动和想法流动,要想长期保持配方的秘密非常有挑战性,也许能保持一小段时间。我也见证了人才争夺战,大科技公司在广告业务或云业务方面肯定会获得短期的专有技术优势,但长期优势我不确定这部分是否具备足够的防御性。同时,Meta 发布 Llama 3 时是很有趣的。你提到了人们以安全为名将一些技术封闭。回顾 AI 历史,甚至是过去十年,几乎每次有人说他们的技术非常危险需要保持封闭,通常一两年后,就会有人公开类似的东西,并且这种公开带来的好处远远大于坏处。我并不是说没有造成任何危害,因为确实有坏人在使用开源技术,但很明显,每当有人说他们的技术非常危险,可能一两年后,就会有一个公开版本,一旦公开,就能创造出更多的好处。就拿 Llama 3 来说,有很多人在其基础上构建东西。例如,Llama 3的原始版本上下文窗口长度有限制,因为它开源,现在有开发者修改 Llama 3 以支持非常长的输入上下文。如果是封闭模型,他们就无法做到这一点。因此,这种类型的开源创新真的很有力量。我们现在可以看到,供应商以非常低廉的 token 为 Llama 3服务,这种开源正在创造大量的创新。当 Meta 发布 Llama 时,我看到人们在社交媒体上留言说”扎克伯格在下什么棋?“从商业角度,开源发布 Llama 并不神秘, Meta 在 PyTorch 上也采取了非常类似的做法,因为它对依靠他人专有平台的搭建一直很敏感。
当 iOS 更改其隐私规则或其他相关政策时,Meta 的业务就会受到影响,因为 iOS 是一个专有平台。早在几年前,我的前团队,也就是 Google Brain 正在开发 TensorFlow 时,我雇佣了一个非常出色的工程师 Rajen Monger,后来他成为了 TensorFlow 的领导者,Rajen 和我还在联系。当你担心占主导地位的深度学习开发平台可能会被竞争对手或专有公司控制时,Meta 非常巧妙地打了一手好牌,它没有试图拥有它,而是创造了开源的 PyTorch,随后这一平台获得了大量的动力,并且化解了每个人都必须构建深度学习平台的风险。由于 Meta 并不经营大型云计算业务,只需要开放底层平台,就可以通过社交网络、通信和广告构建业务。我的朋友们和前团队创建了 TensorFlow,看着 Meta 在 PyTorch 上的举动真的很有趣,从商业角度看是非常理性的。
Meta 为什么要确保生态系统中有一个开源的基础模型?因为 Meta 可以在此基础上进行构建,而不用担心需要在像 iOS 这样可能在某个时刻改变规则的封闭平台上构建。由于 Meta 不经营大型云服务,因此也就没有那么多动机去保持其专有性,试图出售 API 调用。这是一个非常理性的商业举措,但同时也要明确我对 Meta 开源行为的感激之情,我认为在 AI 领域内的人都应该对 Meta 开放源代码,无偿提供如此有价值的东西表示感谢,尽管这也是一个非常理性的商业行为。
AI Agent 带领各行各业走得更远
Brett Winton:你认为对于 AI 应用公司来说,Sam Altman 曾说过,如果开发者在设计时考虑的是GPT-4当前的能力水平,那么就犯了一个巨大的错误,因为他们在今年及明年将会有更强大的能力。你预计战略格局会如何展开?比如像 OpenAI 提供了一个非常有意义的进步,然后其他人可能会花六个月跟进?同时,在 AI 应用方面,底层技术的迅速发展是否改变了你对 AI 应用的潜在意义和商业价值的思考或应对方法?
Andrew:Sam 是一位伟大的领袖,我从他还是本科生时就认识他了,早些年他在斯坦福时就在我的实验室工作过。关于OpenAI,我真正尊敬的一点是它的积极进取。不知道 OpenAI 是否会用 '战时行动 '这个词,但我真的很尊重 Sam 和 Tim 敢于下注的精神。毕竟不是每一个赌注都会得到回报,只需要几个赌注获得丰厚回报,就可以交出非常棒的成绩了。OpenAI 似乎在做很多不同的事情,我就不猜测了,但训练基础模型很重要。我很期待 GPT-5 或其他什么版本的发布,相信会是拥有比 GPT-4 更强的能力,也相信还有很多事情是 GPT-5 做不到的,会有很多在其基础之上的其他应用。
我的团队做过一项小型研究,结果表明在编程问题上,如编写代码和校准编程,配合 Agent 工作流的 GPT-3.5 实际上比 GPT-4 表现得更好。从 GPT-3.5 过渡到 GPT-4 非常令人兴奋,但这种改进与使用 Agent 工作流所带来的改进相比相形见绌。我很期待 GPT-5,Cloud 4 或 Gemini 2 的问世,虽然没有内部消息,但也很有信心。同时,我也看好如 Agent 工作流和在当前代模型之上构建的其他产品,它们能让我们在解决非常有价值的应用任务方面走得更远。
Charlie Roberts:我想你多年来一直说过,你对医疗保健领域非常感兴趣,家里也有医生。在 Mustafa Suleyman 的书《The Coming Wave》中有一个关于现代图灵测试的例子,如果你可以给一个 Agent 系统比如10万美元,并要求它在亚马逊上创造一个每年赚100万美元的生意,就需要它去成立一家公司,写一份营销计划并开始落地。在你的脑海中,无论是在健康领域还是其他领域,是否希望看到Agent系统在短期内通过现代图灵测试?
Andrew:我觉得 AI 与人类智能或生物智能非常不同,两者都非常有价值。我们不断尝试将 AI 与人类的能力进行基准测试,这没问题,也无害。但我认为,由于人类的智能如此不同,让AI做到一个人能做的所有事情实际上相当困难。当然,我们可以尝试让AI做到这一点,希望能在有生之年实现这一目标。但即使在试图与人类匹敌之前,AI 已经能够在很多更狭窄的任务上做得比人都好,创造了很多价值。我更关注这种循序渐进的发展,这种进展在各种行业中的AI 应用上发展非常迅速。尽管,研究人员也可以尝试以人类为基准,或许是一个现代化版本的图灵测试。
Brett Winton:看起来像是终极基准测试一样,基准测试在某种程度上是有用的,因为它指示了某种可以扩展并变得真实具体的商业应用。你非常专注于将 AI 推向市场的真正实际应用,你怎么看待其他方面的世界?在某些方面,我们可能过度依赖语言生成,因为语言是与这些模型交互的接口。就像你谈到 token 的生成速度,在阅读中可以大大超过我接受信息的速度极限。但在视觉领域,如果我在做 diffusion 模型,相对于我的需要来说,它们还是非常非常慢的。你怎么看待语言之外的应用,比如在机器人技术、自动驾驶出租车以及可能的医疗领域,你对那里的发展速度感到兴奋,你认为这些领域值得关注吗?
Andrew:我们正在接近这些目标。文本革命可能首先到来,伴随着大语言模型,图像处理革命会稍后出现,不仅仅是生成,还包括分析。Landing AI 正在大视觉模型上做很多工作,在接下来的几年里,我们将看到 AI 在分析文本和图像方面取得很大进展,AI 在多个领域都在迅速进步。至于应用领域,AI Fund 一直在努力保持行业中立,因此,我们的策略也被称为AI。我们试图成为 AI 领域的专家,确保 AI 技术构建良好,知道 AI 能做什么,不能做什么。因为 AI是一种通用技术,适用于医疗保健、金融服务、物流、教育等等,我们不可能成为所有领域的专家,或甚至任何一个我们希望将 AI 应用到的行业的专家。
在 AI Fund,我们非常喜欢与拥有专业知识的企业合作,通常是 LP,但也可以是非 LP。我们经常与在特定行业拥有深入专业知识的大公司合作,凭借我们在AI方面的专长和他们在特定行业的专长,共同打造一些非常独特的东西,例如在医疗保健领域。在最近的医疗保健项目中,我们与海外某地区拥有深入市场和市场进入知识的深度专家合作,他们的知识与我们的技术知识相结合,使我们尝试在美国以外的医疗保健领域构建一些相当独特的东西,因为我们认为在海外首先解决特定的市场问题和市场进入可能会更容易,所以机会很多。还有一个有趣的事,每次我们在一家大公司一起头脑风暴时,我们提出的想法总是比他们、我们自己或任何人实际拥有的资源要多得多。有前景的想法数量似乎总是令人愉快地且烦人地,超过我们任何人能够用来建设的资源数量。
Charlie Roberts:你作为拥有深厚技术的专业人士,对于商业案例也有独到罕见的见解,你是否认为在五年时间内,市场认为 AI 已经解决的大问题我们仍然会有?反过来说,是否会有一个大问题因为市场上的 AI 或者人们没有意识到而完全消失?
Andrew:这需要时间,我知道这样说很有诱惑力,但在很多行业实现变革都需要时间。随着深度学习 AI 的浪潮,我们正在做大量的工业自动化、重复性工作,原子的移动速度很慢,所以当我们做的事情涉及到改变原子在世界上的配置方式时,我们会成功的,但往往需要一段时间。事实证明,当涉及文化变革、内部变革管理时,进展速度也会出奇地慢。尽请期待吧,看看我们能以多快的速度帮助许多企业重新思考他们的工作流程,也许乐观主义者认为比特比原子变化更快,但改变比特时,如果需要变革管理过程,有时仍然需要几年时间。我们绝对可以肯定,通用 AI 正在改变很多知识工作,今天的每个知识工作者都可以通过使用通用 AI 提高效率,我们已经拥有了提供更多选择的工具。
Charlie Roberts:听起来很棒!感谢你的时间 Andrew。
Andrew:谢谢,和你们聊天总是很有趣。你们的见解很深刻,研究工作也具有很强的对比性。我真的很欣赏,也非常喜欢阅读ARK的研究成果。
原视频:An Artificial Intelligence Conversation With Andrew Ng - From ARK Invest
https://www.youtube.com/watch?v=8lH1mUcxODw&t=2951s
编译:KK
-----------END-----------
? 我们正在招募新一期的实习生
? 我们正在寻找有创造力的00后创业者
关于Z Potentials