深度｜Scaling Law遭遇瓶颈，全球易于获取的数据耗尽，英伟达提出新的Scaling Law

路透社 2024-11-13 11:30 北京

“使用大量未标记的数据来理解语言模式和结构——已经达到了瓶颈。”

图片来源：Unsplash

Z Highlights:

人工智能公司在训练新的大型语言模型时面临延迟和挑战

一些研究人员正在关注新模型中推理所需的更多时间

转变可能会影响人工智能资源竞争，例如芯片和能源

据路透社报道，像 OpenAI 这样的人工智能公司正在寻求克服在追求更大规模语言模型过程中出现的意外延迟和挑战，通过开发更人性化的训练技术，使算法以更“人类化”的方式进行“思考”。

一打人工智能科学家、研究人员和投资者告诉路透社，他们相信这些技术——即 OpenAI 最近发布的 o1 模型背后的技术——可能会重塑人工智能军备竞赛，并对人工智能公司对资源的无尽需求类型产生影响，从能源到各种芯片。

OpenAI 拒绝对此发表评论。在两年前发布了病毒式传播的 ChatGPT 聊天机器人后，受益于人工智能热潮的科技公司公开表示，通过增加更多数据和计算能力“扩大”当前模型将持续导致改进的人工智能模型。

但现在，一些最杰出的人工智能科学家正在对这种“更大更好”的理念的局限性发声。

Ilya Sutskever，AI 实验室 Safe Superintelligence（SSI）和 OpenAI 的联合创始人，最近告诉路透社，扩大预训练规模的结果——预训练是训练 AI 模型的一个阶段，使用大量未标记的数据来理解语言模式和结构——已经达到了瓶颈。

Sutskever 被广泛认为是通过在预训练中使用更多数据和计算能力来实现生成性人工智能进步的早期倡导者，这最终创造了 ChatGPT。Sutskever 在今年早些时候离开 OpenAI 创办了 SSI。

“2010 年代是 Scaling 的时代，现在我们再次回到了奇迹和发现的时代。每个人都在寻找下一个东西，”Sutskever 说。“Scaling 正确的事物现在比以往任何时候都更重要。”

Sutskever 拒绝透露更多关于他的团队如何解决这个问题的细节，只表示 SSI 正在研究一种替代的方法来扩大预训练。

根据三位熟悉内部事务的消息人士透露，主要人工智能实验室的研究人员在发布一种能够超越 OpenAI 的 GPT-4 模型（该模型已近两岁）的大型语言模型的竞赛中，遇到了延迟和令人失望的结果。

所谓的大型模型的“训练运行”可能会花费数千万美元，因为它们同时运行数百个芯片。考虑到系统的复杂性，它们更容易出现硬件故障；研究人员可能要等到运行结束才能知道模型的最终性能，而这可能需要几个月的时间。

另一个问题是大型语言模型消耗大量数据，而人工智能模型已经耗尽了世界上所有的易于获取的数据。电力短缺也阻碍了训练过程，因为该过程需要大量的能源。

为了克服这些挑战，研究人员正在探索“测试时间计算”，这是一种在所谓的“推理”阶段或模型被使用时增强现有 AI 模型的技术。例如，模型可以实时生成和评估多个可能性，而不是立即选择单一答案，最终选择最佳前进路径。

这种方法允许模型将更多的处理能力专用于具有挑战性的任务，如数学或编码问题，或需要类人推理和决策的复杂操作。

“结果发现，在一局扑克中让一个机器人思考 20 秒的效果与将模型扩大 100,000 倍并训练 100,000 倍的时间相同，” OpenAI 的研究员 Noam Brown 在上个月的旧金山 TED AI 大会上说道。

OpenAI 在其新发布的模型“o1”中采用了这一技术，该模型以前被称为 Q*和Strawberry，路透社在七月首次报道。O1 模型可以以多步骤的方式“思考”问题，类似于人类推理。它还涉及使用从博士和行业专家那里收集的数据和反馈。o1 系列的秘密在于在“基础”模型（如 GPT-4）之上进行的另一组训练，公司表示计划将这一技术应用于更多更大的基础模型。

与此同时，来自 Anthropic、xAI 和 Google DeepMind 等其他顶级人工智能实验室的研究人员也在努力开发他们自己版本的技术，五位熟悉这一工作的知情人士表示。

“我们看到很多可以快速改善这些模型的简单机会，” OpenAI 的首席产品官凯文·韦尔在十月的技术会议上说。“到人们赶上时，我们会努力再领先三步。”

谷歌和 xAI 没有回应评论请求，Anthropic 也没有立即发表评论。

这些影响可能会改变人工智能硬件的竞争格局，目前这一领域主要由对英伟达 AI 芯片的巨大需求主导。来自红杉资本到a16z的知名风险投资者，已经投入数十亿美元资助多个人工智能实验室（包括 OpenAI 和 xAI）中昂贵的人工智能模型开发，他们正在关注这一转变，并评估其对他们昂贵投资的影响。

“这一转变将使我们从一个庞大的预训练集群的世界转向推理云，这是一种分布式的基于云的推理服务器，”红杉资本的合伙人索尼娅·黄对路透社表示。

对英伟达最先进的人工智能芯片的需求推动其成为全球最有价值的公司，并在十月超越了苹果。与英伟达主导的训练芯片不同，这家芯片巨头在推理市场可能面临更多竞争。

当被问及其产品需求可能受到的影响时，英伟达指出了最近公司关于 o1 模型背后技术重要性的演示。其首席执行官黄仁勋谈到了对其芯片用于推理的需求增加。

“我们现在发现了第二个 scaling law，这个法则是在推理时的 scaling law……所有这些因素导致了对 Blackwell 的需求非常高，”黄上个月在印度的一次会议上说，指的是该公司的最新 AI 芯片。

本文翻译自：路透社，https://www.reuters.com/technology/artificial-intelligence/openai-rivals-seek-new-path-smarter-ai-current-methods-hit-limitations-2024-11-11/

编译：ChatGPT

-----------END-----------

? 我们正在招募新一期的实习生

? 我们正在寻找有创造力的00后创业者

关于Z Potentials

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签