2600 tokens / s：Meta 发布 Llama API，携手 Cerebras 打造最快 AI 推理解决方案

IT之家 04月30日 14:43

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Meta在LlamaCon大会上推出了Llama API，并以免费预览形式向开发者开放。该API支持开发者测试包括Llama 4 Scout和Llama 4 Maverick在内的最新模型，提供一键API密钥创建以及轻量级的TypeScript和Python SDK。为了提升性能，Meta还与Cerebras和Groq合作。Cerebras的Llama 4模型在tokens生成速度上远超ChatGPT和DeepSeek。Groq也提供了快速的Llama 4 Scout模型。Llama API旨在加速AI应用开发，并提供与OpenAI SDK的兼容性。

🔑 Llama API的推出：Meta在LlamaCon大会上发布了Llama API，并以免费预览形式向开发者开放，开发者可以使用一键API密钥快速上手使用，并提供轻量级的TypeScript和Python SDK。

🚀 性能优化：Meta联手Cerebras和Groq，进一步优化Llama API的性能。Cerebras的Llama 4模型tokens生成速度高达2600 tokens / s，远超ChatGPT和DeepSeek。

💰 价格策略：Groq提供的Llama 4 Scout模型，每百万tokens输入费用为0.11美元，每百万tokens输出费用为0.34美元；Llama 4 Maverick模型每百万tokens输入费用为0.50美元，每百万tokens输出费用为0.77美元。

🤝 兼容性：为了方便开发者从OpenAI平台迁移应用，Llama API完全兼容OpenAI SDK。

IT之家 4 月 30 日消息，在首届 LlamaCon 大会上，Meta 公司在推出独立 AI 应用之外，还发布了 Llama API，目前以免费预览形式向开发者开放。

IT之家援引博文，Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型，提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

开发者可通过一键创建 API 密钥，快速上手使用，同时 API 还提供轻量级的 TypeScript 和 Python SDK。为了方便开发者从 OpenAI 平台迁移应用，Llama API 完全兼容 OpenAI SDK。

Meta 还联手 Cerebras 和 Groq，进一步优化 Llama API 的性能。Cerebras 宣称，其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens / s，比 NVIDIA 等传统 GPU 解决方案快 18 倍。

根据 Artificial Analysis 基准测试数据，这一速度远超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼联合创始人 Andrew Feldman 表示：“我们很自豪能让 Llama API 成为全球最快的推理 API。开发者在构建实时应用时需要极致速度，Cerebras 的加入让 AI 系统性能达到 GPU 云无法企及的高度。”

此外，Groq 提供的 Llama 4 Scout 模型速度为 460 tokens / s，虽不及 Cerebras，但仍比其他 GPU 方案快 4 倍。在 Groq 上，Llama 4 Scout 每百万 tokens 输入费用为 0.11 美元，每百万 tokens 输出费用为 0.34 美元；Llama 4 Maverick 每百万 tokens 输入费用为 0.50 美元，每百万 tokens 输出费用为 0.77 美元。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签