深度｜Pytorch华人负责人押注复合AI：行业已经从依赖Scaling Law逐渐转向强调模型的推理能力

Latent Space 2025-01-21 11:20 北京

“未来的趋势是开源模型和闭源模型之间的性能差距会逐渐缩小，甚至趋于消失。”

图片来源：Latent Space

Z Highlights

我亲眼见证了数据量的爆炸式增长以及行业的巨额投入。当时就很明显，AI是推动这些数据增长背后的关键动力。那是一个非常有趣的时刻——Meta正在完成“移动优先”的过渡，开始迈向“AI 优先”。这个转变的根本原因是移动优先策略提供了前所未有的全方位用户交互，随之产生了大量数据，而这些数据也为AI提供了动力。

单一模型的知识是有限的，因为它的训练数据是有限的，不具备实时信息，也无法获取企业的专有信息。因此，要真正构建一个能够解决实际问题的应用，我们需要一个复合AI系统。复合AI系统的核心，是通过多个跨模态的模型、API（无论是公共还是专有）、存储系统、数据库系统以及知识库等协同工作，共同提供最优答案。

未来的趋势是开源模型和闭源模型之间的性能差距会逐渐缩小，甚至趋于消失。一旦两者在同一水平线上，我们的早期推理优化投资将展现出巨大的优势。通过围绕质量、延迟和成本平衡的长期探索，我们积累了丰富的经验。这些积累让我们有能力发布一个接近高质量闭源模型水准的新产品。

Fireworks从起源到聚焦GenAI

Alessio：大家好，欢迎收听Latent Space。我是Danceable Partners的首席技术官兼合伙人Alessio，这位是我的联合主持人Swyx。

Swyx：今天我们非常荣幸地来到Fireworks的办公室，与Fireworks的CEO，Lin Qiao一起录制节目。

Lin Qiao：您应该欢迎我们才对。

Swyx：是的，欢迎！能在一家初创公司的办公室里录节目确实很特别，不过我想我们的关系也有点特别。

Lin Qiao：没错，我非常高兴能与你们两位一起聊聊这个领域非常有趣的话题。

Swyx：昨天你们刚刚庆祝了公司成立两周年，是吗？

Lin Qiao：是的，这两年真是充满了各种疯狂的经历。我们昨天聚在一起回顾了从硅谷银行挤兑事件，到一次错误操作导致数据意外丢失，再到大规模扩展产能的种种故事。我们一路学习如何作为一个团队，和来自各地的优秀人才协作，推动公司发展。这是一段充满挑战又非常有趣的旅程。

Alessio：在创业初期，你觉得技术上的挑战更大，还是像银行挤兑和团队管理这些非技术性问题更让人头疼？很多优秀的研究人员想创业，但产品构建之外的那些复杂事务才是难点。你觉得在这些经历中，最让你感到意外的是什么？

Lin Qiao：老实说，我一直专注于产品本身。产品发布后，我并没有意识到运营公司会这么复杂。不过可能因为我没有过多思考这些，所以只是一件一件地解决问题，结果还算顺利。我没有纠结于困难，而是专注于解决每一个遇到的挑战，最终问题也都迎刃而解了。

Swyx：我们从Fireworks创立前的故事聊起吧。你在Meta领导PyTorch团队多年，我们之前也和Soumith Chintala聊过，我们都对GenAI的历史非常感兴趣。很多人可能还不知道，在这场GenAI革命爆发之前，Meta就已经深度参与其中了。

Lin Qiao：是的，我之前在Meta是做分布式系统和数据库管理系统的。刚加入的时候，我亲眼见证了数据量的爆炸式增长以及行业的巨额投入。当时就很明显，AI是推动这些数据增长背后的关键动力。那是一个非常有趣的时刻——Meta正在完成“移动优先”的过渡，开始迈向“AI 优先”。这个转变的根本原因是移动优先策略提供了前所未有的全方位用户交互，随之产生了大量数据，而这些数据也为AI提供了动力。

这不仅是Meta的变化，而是整个行业都在经历的转型。当时我就在思考，我们的AI技术栈发展到底处于什么进程？我希望能够深入参与这个领域，为AI发展贡献力量。当时，AI框架虽然很多，但大多数都偏向生产化，例如通过特定的方式定义神经网络结构，以推动模型的部署。而PyTorch则完全不同。它是从研究者的角度出发，解决他们使用其他框架时遇到的各种痛点，这就是PyTorch的起源。

PyTorch起初并没有考虑生产需求，但随着采用率越来越高，我们意识到研究和生产之间的距离其实并不远。在学术界和工业界，研究创新会迅速通过开源传播，这些成果推动了下游的生产化。Meta将PyTorch作为推动大规模开源采用的战略是明智的，因为Meta内部广泛使用PyTorch，这形成了一个飞轮效应，也是PyTorch背后的策略。

当我接手PyTorch时，Meta已经将其定位为兼顾研究和生产的框架。此前没有人这样做过，所以我们必须重新思考如何架构PyTorch来支持生产工作负载，确保稳定性、可靠性和低延迟。这些在以前从未被考虑过，而现在它们成为了关注点。我们必须调整其设计，使其同时适用于研究和生产，这花费了我们五年时间。

Meta内部有非常多的AI应用场景，从推荐系统到内容审核，从翻译到目标检测，这些都依赖PyTorch。通过开源，我们和很多公司合作，也看到了行业正在向AI优先的方向转型。这种转型虽然与Meta的需求不同，但我们希望通过我们拥有的技术的力量推动整个行业前进。

Swyx：当你和我聊起Fireworks的起源时，它最初被设想为一个PyTorch平台，后来变得更加专注于生成式AI。这样说对吗？

Lin Qiao：没错。最初的想法是构建一个专门支持PyTorch的云平台，因为当时虽然有PyTorch框架，但缺少相应的SaaS平台。

Swyx：即使在2022年，这也很有趣。

Lin Qiao：2022年的时候，这样的产品几乎没有，即使有一些，也不是主流。当时TensorFlow在生产环境中还占据主导地位，而PyTorch的增长才刚刚开始，但当时还没有专门为PyTorch设计的SaaS平台。同时，我们也是一群非常务实的人。我们希望从一开始就与客户紧密合作，了解他们的用例、痛点以及我们为他们带来的价值。

因此，我们决定采取不同的方法，首先选择构建一个垂直化的平台而不是构建一个横向的PyTorch云平台。然后我们与许多客户进行了交流。有趣的是，2022年底OpenAI发布了ChatGPT，这让我们意识到GenAI将成为未来的重点方向所有GenAI的模型都是基于PyTorch构建的，这让我们更加坚定了这个方向。同时，GenAI天生适合内容生成，能够推动面向消费者和开发者的应用创新。这是一个必然的趋势，而我们正好赶上了起点。

我们的预测是，对于这些应用场景，推理的需求远大于训练，因为推理的规模和用户数量相关，而训练更多和研究人员数量挂钩。所以，我们选择专注于推理。去年8月，我们推出了第一个产品，一个兼容OpenAI API 的分布式推理引擎，支持多种模型，从LM开始，然后添加了许多其他模型。

现在，我们已经发展成为一个拥有多条产品线的完整平台。我们很乐意深入探讨我们所提供的产品。但这是过去两年中非常有趣的一段旅程。

Alessio：所以，从PyTorch到GenAI，再到现在更复杂的产品矩阵，你们的战略是如何一步步调整的？也许大多数使用的人甚至根本不真正了解PyTorch，也许他们只是去使用模型。

Lin Qiao：我们的产品决策都是基于理想客户群体的需求。我想在这里坦率地说，通用技术是颠覆性的，与以往的AI完全不同，这确实是一次质的飞跃。在GenAI出现之前，想要投资AI的公司只能从头开始训练模型，因为没有其他选择，也没有可用的基础模型。这就意味着，他们需要组建一个能够处理海量数据的团队，因为从零开始训练需要准备大量的数据。同时，他们还需要大量的GPU进行训练，并负责GPU的管理。

因此，这变成了一个非常复杂的项目，需要耗费大量时间和资金。实际上，能够负担得起这种成本的公司少之又少。然而，GenAI完全改变了这一切。它基于基础模型，开发者不再需要从头训练模型。这样一来，AI技术的门槛被大幅降低。现在，应用开发者甚至是普通的产品经理，只需直接与GenAI模型交互，就可以快速实现他们的需求。

我们的目标是让所有应用开发者和产品工程师都能轻松接触并使用AI技术。在这种新技术背景下，再让他们参与到模型训练中已经没有意义了。此时，构建一个简单易用的API才是最重要的。我们在一开始就决定与OpenAI的API保持兼容，这样开发者可以快速采用这项新技术，而我们则负责处理模型背后的所有复杂问题。

Swyx：是的，OpenAI确实已经成为行业的标准。在今天，我们录制节目时，Gemini也刚刚宣布他们推出了与OpenAI兼容的API。这种标准化确实很有意思，因为它能让所有人更容易参与进来并整合资源。

Lin Qiao：这很有趣，我们与Meta有着紧密的合作关系。Meta是我们的合作伙伴之一，他们非常慷慨地开源了许多功能强大的模型，并表示未来还会有更多模型加入。同时，他们还推出了LlamaStack，这是一个基于Llama模型的标准化上层堆栈。他们不仅仅是提供模型，还希望围绕这个堆栈构建一个社区，并推动新的行业标准形成。

现在整个行业有趣的动态是，OpenAI在推动自己的标准化进程，因为他们已经创造了行业的“顶部漏斗”，而Llama因为是最常用的开源模型，正在推动另一个方向的标准化。因此，这段时间的行业发展是非常值得关注的。

Swyx：我对LlamaStack持观望态度，而你似乎更乐观。本质上，它有点像Meta版本的HuggingFace、TensorRT，或者其他任何开源框架。但对我来说，Meta开源了Llama模型并不意味着LlamaStack的其他部分也会被广泛采用。我也不太明白为什么需要采用这个堆栈。所以不确定你是否同意我的看法。

Lin Qiao：我认为目前还处于非常早期的阶段。这也是为什么我会和Meta团队紧密合作，并不断向他们提供反馈。给Meta团队提供真实的用户反馈非常重要，这样他们才能基于这些反馈不断改进模型和更高层次的内容。我相信LlamaStack是否成功，很大程度上取决于社区的接受程度。Meta团队也明确表示，他们希望与更广泛的社区合作。我想，这将是LlamaStack发展的关键所在。

复合AI与Fireworks的产品创新

Swyx：在你完成B轮融资后，迅速获得了Benchmark和Sequoia的投资。我记得至少在B轮融资公告时，你们已经开始大力押注“复合AI”。虽然这不是我们节目中经常讨论的术语，但我发现它在Databricks和Berkeley等圈子中得到了广泛认同。你对复合AI怎么看？为什么它会引起大家的共鸣？

Lin Qiao：好的。我先解释一下为什么我们会进入这个领域。

Swyx：因为在B轮融资之前，这个概念并不存在，而现在它却已经成了你们官网首页的核心内容。

Lin Qiao：确实如此。从我们首次推出公共平台时，我们的产品线非常单一，只有一个分布式推理引擎。为了实现高效推理，我们做了很多创新，比如定制CUDA内核和底层内核，让它能够在不同类型的硬件上运行。我们还开发了分布式解耦执行、推理执行以及各种缓存机制。可以说，这是一个专注于速度和成本效益的推理平台。而且因为我们自己编写了PyTorch代码，所以为这一平台量身定制了专门的PyTorch版本和自定义内核。

但随着我们与更多客户合作，我们意识到分布式推理引擎作为“一刀切”的解决方案，并不能完美满足所有客户需求。尽管一个统一的推理端点看起来很理想，但现实是，客户的用例形态和规模各不相同。更重要的是，我们发现客户推理工作负载中的数据分布往往与模型训练数据的分布并不一致。

这种不一致很正常，因为研究人员在准备训练数据时需要假设哪些数据是重要的，而哪些可以忽略。但正因为如此，推理工作中其实还有很大的优化空间，比如提升质量、降低延迟、节约成本等等。于是，我们决定大力投资于一个定制化优化引擎。最终，这个引擎以FireOptimizer的形式推出。它的核心功能是帮助用户在“质量、延迟和成本”这三个维度上找到最佳平衡点。

这个优化引擎的使用非常简单：客户将推理工作负载输入到引擎中，附上目标函数，我们就会输出定制化的推理部署配置和模型设置。通过这种方式，我们实现了一个自动化的定制化流程。这条产品线与原本“一刀切”的理念完全不同，在此基础上，我们提供了数百种，从文本到大型的最先进的模型。

随着我们与客户的合作深入，我们注意到另一个趋势：音频和文本之间的界限正在模糊。许多客户从文本助手起步，接着就希望添加语音输入和输出。因此，我们新增了支持音频的功能，包括转录、翻译、语音合成、文本与音频对齐等。与此同时，视觉和文本的结合也变得越来越重要。很多信息并非以纯文本形式存在，而是嵌套在多媒体文件中，比如图像、PDF、截图等。为了提取这些信息，我们需要先通过视觉模型解析数据，再用语言模型进行处理并输出结果。

基于这些需求，我们支持了多种视觉模型，用于处理不同类型的输入源和信息提取任务。我们还开发了新的API端点，支持客户上传多种格式的多媒体内容，并将其转化为结构化信息，最终通过语言模型进行处理。除此之外，我们还扩展了嵌入支持，优化语义搜索、RAG等任务。同时，我们不断丰富模型种类，比如支持从文本到图像的生成、图像到图像的转换，以及文本到视频的生成。我们的产品已经涵盖了从语言到视觉、从推理到生成的全方位模型目录，而这些都建立在FireOptimizer和分布式推理引擎的基础上。

但随着更多客户在实际业务中应用GenAI，我们发现仅仅依赖单一模型是不够的。原因很简单，模型本身会“产生幻觉”。很多客户刚开始接触GenAI时，都以为它可以解决所有问题，但事实并非如此。模型本质上是概率性的，而非确定性的。它的设计初衷是始终提供一个答案，但这些答案有时可能是错误的。在某些场景下，比如创意写作，这种特性是有价值的，但在其他场景中，错误信息是完全不可接受的。

此外，不同模型擅长的领域各不相同。为了更好地解决复杂问题，我们需要将任务拆解为多个小任务，并交给擅长这些任务的专家模型处理。同时，单一模型的知识是有限的，因为它的训练数据是有限的，不具备实时信息，也无法获取企业的专有信息。因此，要真正构建一个能够解决实际问题的应用，我们需要一个复合AI系统。复合AI系统的核心，是通过多个跨模态的模型、API（无论是公共还是专有）、存储系统、数据库系统以及知识库等协同工作，共同提供最优答案。

Swyx：您打算提供矢量数据库吗？

Lin Qiao：实际上，我们与几家大型矢量数据库提供商建立了密切的合作伙伴关系，他们都各有优势。比如MongoDB，这是公开信息，它是我们的投资者之一。我们已经与他们深入合作了一段时间。

Alessio：当你提到分布式推理引擎时，具体指的是什么？因为从你的描述来看，感觉Fireworks平台集成了很多与质量优化相关的决策。那么，“分布式”具体是指你们在多个集群上使用GPU进行推理，还是说模型被分散到多个地方？

Lin Qiao：首先，我们确实是在多个GPU上运行的，但我们的分布方式比较独特。我们并不是简单地将整个模型均匀分布在多个GPU上，而是根据不同部分的瓶颈，将模型切割成小块，并进行差异化扩展。我们还支持跨地域分布，目前已经覆盖北美、EMEA和亚洲区域。这种布局是为了满足应用的地域亲和性需求，因为延迟对很多应用来说至关重要。

此外，我们在进行全球负载均衡时，充分考虑了不同硬件的特点和负载差异。比如，不同供应商的硬件适合处理不同类型的工作负载，有些适合长上下文，有些适合短上下文或长生成任务。我们会根据这些特点，将工作负载分布到合适的硬件上，从而实现全栈优化。

Swyx：Ray的多模态图像生成能力将在YouTube上展示，我认为它基本上是OpenAI技术的一个开源版本。如果Ray能够实现文本到视频的功能，它甚至可能成为OpenAI的超集，因为目前OpenAI还没有类似于Sora的产品。

Lin Qiao：开源社区的创新能力确实非常惊人，涌现了许多优秀的视频和音频生成项目。比如跨领域的合作和创新，让我们得以基于这些开源成果进行构建，这也是我们相较于闭源公司的一大优势。

Swyx：我想重新强调一下Fireworks的价值主张，这样人们在将你们与RunPod、Lambda或其他类似的原始GPU服务商进行比较时，能够更好地理解。你们不仅提供了开发者友好的体验层，还让这些服务可以轻松扩展，甚至作为无服务器端点使用。而且，对于某些模型，Fireworks还有自定义内核的支持。

Lin Qiao：实际上，几乎所有的模型我们都配备了自定义内核。

Swyx：比如你们的FireAttention技术。虽然我不记得具体的性能数据，但显然它在并发性能上比vLLM要好得多。

Lin Qiao：FireAttention主要针对语言模型，但对于其他模态，我们同样提供了定制化内核支持。

Swyx：目前一个挑战是让用户理解Fireworks和其他开源模型提供商的核心价值。Fireworks的定位是为所有客户提供极佳的使用体验，但有些人可能会认为，你们依赖开源模型构建产品，其他人也可以做类似的事情。

Lin Qiao：我们确实基于开源模型构建产品，但我们的核心优势在于从应用开发者和产品工程师的视角重新定义价值。开发者希望创造全新的用户体验，而整个行业也在重新思考如何设计产品。例如，传统的PowerPoint已经形成了一种固定的思维框架：人们总是需要在一页接一页的格式中讲述故事，还要同时兼顾设计和内容表达。但实际上，最重要的是故事本身。那么，为什么不创造一个完全不受固定格式限制的空间？这正是许多创新型创始人正在尝试的方向，他们面临的挑战是什么？我们可以从这些痛点出发。

首先，大多数基于GenAI的产品面向消费者和个人开发者，因此需要非常流畅的交互体验。这已经是用户习惯的产品体验模式，人们希望获得快速响应，否则他们根本不会愿意等待。因此，低延迟是必须的。其次，面向消费者和开发者的产品通常需要快速扩展到大规模用户群体。但如果在小规模测试阶段无法控制成本，当规模扩展时，企业很可能会陷入亏损甚至破产的境地。

因此，低延迟和低成本对于这些新型应用和产品的生存至关重要。这也是我们设计分布式推理引擎和FireOptimizer的核心理念之一。你可以把FireOptimizer看作一个反馈循环。客户提供的推理工作负载越多，我们就能通过引擎帮助他们进一步优化质量、降低延迟和成本，这个过程是自动化的，且会不断改进。

我们自动化了这个过程，我们希望让应用开发者和产品工程师专注于产品创新，而不是耗费精力去解决底层的复杂问题。至于复合AI系统，我们也在帮助开发者应对模型生态的复杂性。毕竟，现在几乎每周都会有一个新模型出现，开发者需要处理的复杂度越来越高。

Swyx：腾讯本周推出一个巨大的模型。

Lin Qiao：我看到了。

Swyx：是的，大概5000亿美元。

Lin Qiao：开发者面临的核心问题是应该继续追逐新模型，还是直接放弃？该选择哪个模型解决具体的子问题？如何拆解问题并匹配适合的模型？这些问题让他们感到无从下手。这里涉及两种完全不同的设计思路：命令式系统和声明式系统。命令式系统要求开发者明确如何操作，提供具体的工具和流程指导，比如设计复杂的ETL管道、构建DAG系统，甚至需要设计详细的故障恢复策略。而声明式系统则关注目标本身，开发者只需告诉系统“想要什么”，而不需要知道“如何实现”。

在数据世界中，数据库管理系统就是一个典型的声明式系统。开发者使用SQL语句，可以清晰表达从数据库中提取什么样的数据结果，而无需考虑底层细节，比如哪个节点运行、如何分配计算资源、如何选择索引等。数据库系统会自动生成最佳执行计划并完成任务。这种方式极大降低了使用门槛，开发者只需理解SQL的语义即可。

相比之下，命令式系统则涉及很多底层细节，比如设计数据流的ETL管道、编写恢复逻辑等。我们在生态系统中看到了各种系统走不同的道路，我认为两者都有价值，他们无法相互取代。但我们更倾向于声明式系统的哲学，因为从应用开发者和产品工程师的视角来看，声明式系统更易于集成和使用。

Swyx：这也是PyTorch能成功的原因之一，它的易用性非常高。

Lin Qiao：没错，我们专注于提升系统的易用性，让系统承担更多复杂性和挑战。基于这一理念，我们正在将声明式系统的设计思路扩展到现有架构中。此外，我们即将发布一个全新的声明式系统，其中包含一个高质量模型。这个模型受到了OpenAI的公告启发，相信大家很快会看到它的发布。

Alessio：这个模型是由您训练的吗？

Lin Qiao：是的。

Alessio：这是你们训练的第一个模型吗？

Lin Qiao：这不是第一个。我们实际上已经训练了一个名为FireFunction的模型，这是一个函数调用模型，是我们进入复合AI系统的第一步。函数调用模型能够将请求分派到多个API。我们为模型预训练了一套API集合，它已经学会如何调用这些API。同时，用户还可以通过配置添加额外的API，模型会根据需要进行分派。

我们目前已经发布了三个版本的FireFunction模型，最新版本的性能非常出色。但我们并未止步于此。即将发布的新模型将进一步简化流程，用户甚至不需要直接使用函数调用模型。它将解决许多问题，接近非常高的OpenAI水准。

Swyx：你们有没有基准测试数据？

Lin Qiao：当然有，我们计划在下周正式发布相关基准测试数据。目前，我们已经将模型放到了LMSYS平台上，社区内正在猜测这是否是下一个Gemini模型。这引发了不少讨论，我们也在关注Reddit上的相关话题。

Swyx：我还想进一步了解。比如，当OpenAI发布o1模型时，许多人好奇它是单一模型还是一个模型链的组合。OpenAI的Noam团队认为，他们在强化学习和思维链方面的工作无法被简单调用一堆开源模型来复制。你们怎么看？你们在强化学习方面是否也有类似的投入，还是采取了不同的方法？

Lin Qiao：OpenAI采取了一种非常具体的研发方法，他们团队的水平非常高，是领域内的专家。不过，我并不认为只有一种方法可以实现类似的目标。我们和他们的研究方向一致，比如从Scaling Law转向Inference Scaling Law，但解决问题的路径完全不同。我们有幸能够站在巨人的肩膀上工作，而不需要完全从零开始训练模型。这也得益于当前可用的开源模型不断进步。

竞争、定价与社区参与

Alessio：您认为开源模型追赶闭源模型的时间会有多长？大家普遍同意，开源模型最终会赶上闭源模型。以Llama系列为例，3.1、3.2，再到刚推出的Llama 3.1-405B，差距已经逐渐缩小。但OpenAI发布o1后，似乎又拉开了距离。显然，你说的你的模型将会有...

Lin Qiao：我们正在努力缩小这个差距。

Alessio：那么，您认为未来会是几个月内完成追赶吗？

Lin Qiao：虽然有公开的基准测试，但现实中开源模型在某些特定领域已经与闭源模型持平，甚至超越。例如，在编程相关任务中，开源模型的表现非常优秀。而在函数调用领域，我们的FireFunction模型也表现得非常好。

所以这取决于你的目标是构建一个通用型的“一刀切”模型，还是专注于某些领域。专门化模型在特定领域可能达到非常高的水平，甚至优于通用型的闭源模型。随着领域专家模型的不断涌现，我们预测未来会有越来越多这样的专家模型表现优异。

Swyx：这让我想到复合AI和通用AI的核心争论。我还没有完全形成立场，因为这基本上是在与苦涩的教训做斗争。

Lin Qiao：人类社会本质上就是专门化的。有人专精某一领域并做到极致，这是我们自古以来的发展模式。我认为AI模型的演变也会类似，专门化会成为主流趋势。

Swyx：短期内，领域专家模型确实可能有优势。但从长期来看，如果有人能在更多的推理任务上投入十倍的计算力、训练十倍的数据，广义智能将最终胜出。这种Scaling Law正是GPT系列模型背后的核心理念。

Lin Qiao：Scaling Law确实表明，通过增加训练数据量和计算能力，模型性能会显著提升。但在数据量方面，我们可能已经接近极限了，因为新增数据多数是合成数据。如果有一个非常优秀的大模型，它可以生成高质量的合成数据，这或许能进一步提升性能。然而，我认为行业已经从依赖Scaling Law12，逐渐转向强调模型的推理能力。

Swyx：即Inference Scaling Law。

Lin Qiao：我相信这就是未来的方向，而且进行推理也是我们真正擅长的地方。

Swyx：你会分享模型的推理机制吗？

Lin Qiao：这是个很好的问题，目前我们还在讨论中。

Swyx：以SWE-Bench为例，如果希望参与排名，必须提交模型的推理细节。然而，许多团队出于知识产权保护的考虑，选择不公开相关信息。像Cosign在SWE-Bench表现优秀，但没有提交推理细节，因此未被列入排名。同样，我们也看不到o1的推理细节。那么，您的模型会开源吗，还是作为一个端点供用户访问？你们的模型会作为端点提供，使用类似于OpenAI的定价方式吗？

Lin Qiao：一切进展得非常快，目前我们还在规划中。

Swyx：关于您提到的新模型，您还有什么可以分享的吗？例如内部测试结果或社区反馈？

Lin Qiao：我很兴奋地看到社区对模型使用方式的讨论。Reddit上已经有关于它的深度讨论，尤其是模型能够正确回答复杂数学问题的能力让人印象深刻。内部测试中，我们还让模型尝试生成关于AGI的思考过程，结果是一个非常复杂的DAG，非常有趣。但我更好奇的是社区的使用场景。他们会尝试哪些应用？哪些效果好？哪些让人惊喜？还有哪些我们需要改进的地方？这些反馈对我们非常重要。

Swyx：作为o1-preview和o1-mini的生产用户，我感受到它们的质量提升非常明显。这种改进幅度让之前的技术显得过时。不过，目前的用户反馈中有一个普遍需求：预算控制。在o1版本中，系统会自主决定思考的预算，但有时用户希望指定一个预算，比如可能是两分钟解决问题，或者限定在某个成本范围内。

Lin Qiao：这个需求确实合理。虽然不会在模型的初始版本中实现，但未来我们一定会支持这一功能。

Swyx：非常感谢您分享的这些内容。我必须坦白，当我第一次见到您时，我有些怀疑，因为这是一个竞争非常激烈的领域，还有像Replicate这样的玩家。我当时不确定你们为何能够胜出。但我的观点改变了，因为我看到你们以不大的团队交付了非常有影响力的产品。

Lin Qiao：是的，我们团队目前有40人。

Swxy：你们正在与OpenAI等巨头竞争，成功的秘密是什么？

Lin Qiao：团队是关键。我们的团队文化非常统一，因为大部分成员都来自Meta，还有一些来自创业公司。我们非常注重结果，同时高度关注客户反馈。我们不是为了采用新技术而采用，而是专注于为客户创造真正的商业价值。为了满足客户需求，我们会在深夜甚至周末进行模型部署和容量调整。这样的高效执行力源于我们团队的高素质。顺便提一下，我们正在招聘。如果你对推动通用人工智能技术感兴趣，欢迎加入我们。

Swyx：让我们聊聊客户旅程，你们的一个知名客户是Cursor，我们也是第一个邀请Cursor上节目的播客。显然，从那以后，他们取得了巨大的成功。虽然这不一定与你们的工作直接相关，但你们在快速供应模型方面做了很多工作，是最早一批在生产环境中进行推测性解码的团队之一。能否分享与Cursor合作的幕后故事？

Lin Qiao：我想说，Cursor是一个非常特别的团队。他们的独特之处在于，团队的技术水平非常高，这是毋庸置疑的。他们的选择也很大胆。尽管有许多公司在构建编码助手，他们却选择说：“我要构建整个技术栈，因为我有能力做到”。他们对于合作伙伴的选择也很特别，不是因为他们自己做不了，而是因为他们清楚应该专注在哪些地方。这种专注让我觉得非常了不起。

当然，他们也希望找到能帮助他们绕过技术难题的合作伙伴，因此我们花了一些时间共同合作。他们对我们的要求非常高——他们要提供高质量的产品体验，同时还需要低延迟、高交互性以及出色的稳定性。为了满足Cursor的需求，我们扩展了许多产品功能。他们的成长速度非常快，我们也在多个地区迅速扩展了服务能力，开发了一个高强度的推理堆栈，这几乎可以与我们为Meta打造的系统相媲美。

我认为，这是一段非常有趣的合作关系。在合作的过程中，我们与Cursor建立了深厚的信任。他们意识到，我们是一个真正可以一起合作、共同成长的团队。这也回归到我们的核心理念——以客户为中心。所有与他们合作的工程师都投入了大量时间与他们同步、讨论需求。我们不太喜欢开会，但我们建立了一个畅通的沟通渠道，让团队之间的合作感觉就像在同一团队工作，这一点非常难得。

Swyx：是的。对于那些不了解的人来说，Cursor基本上就是一个VS Code的分支。但很多时候，用户会使用闭源模型，比如我个人经常用Claude-3.5-Sonnet。你们没有托管Sonnet，也没有直接的合作关系，对吧？你们只是参与了Cursor的小型模型或者自有品牌模型的优化？

Lin Qiao：有些事情他们还没公布，所以我不确定可以说什么。

Swyx：我注意到Cursor的下拉菜单显示的是4.0版本，所以我猜他们使用的是Fireworks提供的模型，同时也可能在与其他模型或技术合作。我想知道的是，你们在每秒处理1000个token的性能上有了突破，这主要得益于推测性解码技术。那么在这方面还有进一步提升的空间吗？

Lin Qiao：我们做了很多推进。实际上，最开始FireOptimizer是一个独特的自动化优化堆栈，可以根据不同需求进行调整。我们很早就为Cursor部署了这个优化堆栈，专门针对他们的特定工作负载进行了优化，这为我们带来了很大的收益。我们看到这一优化方案取得了成功，发现它具有广泛应用的潜力，因此我们启动了一个名为FireOptimizer的独立产品线。

推测性解码只是一种方法，但这里的推测性解码不是静态的。实际上，我们写过一篇关于它的博客文章。推测性解码有很多种不同的方法，比如用一个小模型配对一个大模型，或者在同一个模型家族中选择不同的模型组合，每种方法都有不同的权衡。根据具体工作负载的需求，我们可以更好地调整EAGLE heads或Medusa heads，或者采用小模型和大模型的搭配方式，以达到最佳的延迟优化效果。这些功能都是FireOptimizer产品的一部分。

Alessio：人们总是很关注模型在基准测试中的表现。在不同平台上，模型的性能表现可能会有所不同，比如Llama3.2在MMLU上的得分是X。但如果使用推测性解码，结果可能会不一样。有些服务商可能运行的是量化后的模型。人们是否需要关注模型实际运行时的优化方式，以及优化后模型与原始模型之间的性能差距？

Lin Qiao：关于这个问题，有两个大的开发周期。第一个阶段是实验阶段，在这个阶段中，团队需要快速迭代，不会过多考虑质量，只想测试产品体验等相关功能。然后，当产品已经看起来很有潜力，准备进入市场推广和扩展阶段时，质量就变得非常重要了，延迟和其他因素也开始起关键作用。在实验阶段，只需要选一个不错的模型，不必过多担心其他问题，核心是确保你能根据产品需求生成合适的解决方案。

到了市场推广阶段，质量、延迟和成本之间的三维优化就变得关键，你需要在这三者之间找到一个平衡点。我认为这是一个纯粹的产品决策问题。对于许多产品来说，如果选用一个质量稍低但速度更快、成本更低的模型，而这不会影响产品体验，那么就应该这么做。因此，推理其实是验证的一部分。验证不仅仅局限于离线评估阶段，还包括通过A/B测试和推理结果来进行进一步验证。

这也是我们为什么提供各种不同配置供测试的原因，帮助用户找到最佳的设置。这是传统的产品评估方法的一部分，同时产品评估还应该包含新模型版本和不同模型配置的对比测试。

Swyx：我想特别谈谈几个月前你们的一些主要竞争对手的情况，所有这些都已经公开了。你对发生的事情怎么看？也许你想澄清一下Fireworks的量化方式，因为我觉得很多人可能还是有一些过时的看法，或者他们没有看过你们关于量化方法的澄清文章。

Lin Qiao：首先，我们总是对被直接在公开帖子中点名，解读我们的质量问题感到惊讶，这样的竞争方式并不好，我们更希望公平竞争。通常情况下，当一个供应商发布结果时，另一个供应商的解读总是带有偏见，所以我们其实避免做这种事。我们更愿意和第三方合作，进行公正的评估。

我们实际上写过一篇很详细的博客文章，专门讲解我们的量化方法。再强调一次，我们有多种不同的量化方案，可以根据不同的方式对模型的不同部分进行量化。从激活到跨TPU通信，可以使用不同的量化方式，或者在整个模型中保持一致。再次强调，这一切都是在质量、延迟和成本三个维度之间做权衡。我们有非常严格的评估流程，帮助选择出最适合客户需求的优化方案。

不过对于自助服务来说，只有一个选项可供选择，没有定制的选项，所以这一切取决于我们和客户的讨论。最终的结果，比如后来发布的质量衡量标准中，我们的表现非常好。所以我觉得，质量或性能的评估应该交给第三方，和他们合作，找到最公正的基准。这是一种更好的方式，而不是直接进行批评。

Swyx：数据库方面也发生了类似的事情。我觉得你们可能是更偏向政治正确的那一方，而Dimaag则采用了另一种方式。我在竞争方面的最后一个问题是，有一种观点认为，在托管开源模型时存在价格战。你们的目标是从开源模型中盈利吗？

Lin Qiao：绝对是的。但我认为，在定价方面，我们需要确保与我们所提供的价值相匹配。如果价值有限，或者市场上有很多提供相同价值的服务没有差异化，那么降价就成了唯一的选择。如果从更高的角度看，我们更多的是在与闭源模型提供商、API提供商竞争。而闭源模型提供商的成本结构更有趣，因为他们需要承担很多训练成本，而我们不承担这些成本。我们专注于推理优化，这是我们能继续增加产品价值的地方。

对于闭源API提供商和模型提供商来说，他们需要把训练成本分摊到推理中，这就创造了非常有趣的市场动态。如果我们在定价上与他们保持一致，那么他们的盈利模式也会显得非常有趣。

Swyx：OpenAI2024年的收入是40亿美元，其中30亿美元用于计算训练，20亿美元用于计算推理，10亿美元用于研究计算的分摊，7亿美元用于员工薪资。所以他们确实投入了大量资金到R&D中。

Lin Qiao：是的，OpenAI基本上是在将其归零，我们在这个非常有趣的市场动态中运作。但回到推理这个话题，正如我提到的，我们的产品是一个平台。我们不仅仅是一个单一模型服务提供商，我们有优化器，可以高度定制你的推理工作负载。我们有一个复合型AI系统，可以显著简化你的高质量、低延迟、低成本的交互体验。所有这些都与其他提供商有很大的不同。

Alessio：人们对你们工作的一些方面可能不了解吧？我觉得大家可能知道Fireworks运行模型很快，你们有函数模型等等。但有没有什么被低估的功能，应该有更多人尝试的？

Lin Qiao：有一个用户在x.com上发帖提到，Fireworks让他以和基础模型相同的成本，将LoRA适配器上传到服务模型并使用，其他公司没有提供这种功能。就像我们去年推出的多LoRA一样。我们实际上已经有这个功能很长时间了，很多人都在使用它，但很多人并不知道，如果你找到了你的模型，你就不需要按需使用了。

如果你的模型是LoRA，你可以上传LoRA适配器，我们会将它部署为新模型，然后你就可以使用它，端点的成本和基础模型相同。所以看到用户为我们宣传这点我很高兴。他发现了这个功能，但其实我们去年就有了。所以我觉得从反馈来看，我们有很多很棒的功能。

Swyx：我之前不知道你们已经发布了推测性解码。

Lin Qiao：我们去年也推出了Prompt Caching功能。我们有很多这样的功能，所以我认为这是一个被低估的功能。如果你是使用我们自助服务平台的开发者，试试看吧。

Swyx：LoRA功能很有意思，我觉得人们之所以增加额外成本，通常不是为了收费。一般在正常的LoRA服务设置中，加载这些权重并专门为推理分配机器是有成本的。你们是怎么避免这个成本的？

Lin Qiao：这就是我们的多LoRA技术。我们基本上是让多个LoRA适配器共享同一个基础模型，这样就显著减少了服务的内存占用。一个基础模型可以支持一百到一千个LoRA适配器。然后这些不同的LoRA适配器可以共享相同的流量，直接指向同一个基础模型，而基础模型主导了成本。所以我们就这样管理的。这也是我们怎么做到每百万token的价格和基础模型相同的原因。

Swyx：你觉得自己有什么想从社区请求的，或者你在模型或工具方面寻找的东西，什么事情是值得开发者去关注的？

Lin Qiao：我们真的希望能从那些正在构建GenAI应用的开发者那里获得更多反馈，或者那些已经开始采用或思考新用例的开发者。首先，去试试Fireworks，告诉我们什么对你来说有效，什么在你的愿望清单里，哪些功能让你不满意或者对你没有帮助，我们希望不断改进。对于我们的新产品发布，我们通常会先给一小部分人使用，通常会先在我们的Discord上发布，让一小群人先体验。

所以，欢迎加入我们的Discord频道，很多沟通都在那进行。再次强调，你也可以给我们反馈。我们会提供办公时间，让你可以直接与我们的开发者关系团队（DevRel）和工程师交流，进行更深入的讨论。

Alessio：你们现在在全面招聘吗？

Lin Qiao：是的。我们现在在全面招聘，包括前端工程师、基础设施云工程师、后端系统优化工程师、应用研究人员，比如做过后期培训的研究人员，做过大量微调的人员等等。

Swyx：好的，那就这样吧。感谢邀请我们。

原视频：Why Compound AI+Open Source will beat Closed AI

https://www.latent.space/p/fireworks

编译：Yuxin Chen

-----------END-----------

? 我们正在招募新一期的实习生