Cohere 发布多语言 Command A 模型：仅需两张 GPU 即可服务全球企业

2025-03-22 13:30 辽宁

根据官方介绍，新版本在商业、STEM及编码任务中等同或超越了OpenAI的GPT-4o与DeepSeek-V3。

整理｜华卫、核子可乐

日前，加拿大 AI 初创公司 Cohere 发布了其最新生成式 AI 模型 Command A，据称专为企业应用场景设计而成。据了解，Cohere 由 2017 年开启大语言模型革命的 transformer 论文作者之一 Aidan Gomez 与他的两位多伦多大学校友 Ivan Zhang 和 Nick Frosst 联合创立。除此之外，该公司旗下非营利子公司 Cohere for AI 还于本月初发布了名为 Aya Vision 的开源多语言视觉模型（仅供研究）。

据介绍，作为 2024 年 3 月首次亮相的 Command-R 及后续 Command R+ 大模型的继任者，Command A 以 Cohere 在检索增强生成（RAG）、外部工具以及企业 AI 效率领域的研发成果为基础，主要强调以更快速度完成计算并交付答案。

比 Command-R 更进一步

当初 Command-R 于 2024 年首次亮相时，就曾引入一系列关键创新，如优级 RAG 性能、更好的知识检索效果与更低的 AI 部署成本。该模型很快获得企业青睐，并被整合至甲骨文、Nation、Scale AI、埃森哲及麦肯锡等公司的商业解决方案当中。不过 Menlo Ventures 在 2024 年 11 月发布的企业采用调查报告中指出，Cohere 在企业领域的市场份额仅为 3%，远低于 OpenAI 的 34%、Anthropic 的 24% 乃至 Mistral 等小型初创厂商的 5%。

如今，为了吸引更多企业的加入，Command A 进一步拓展了这些功能。根据官方介绍，新版本：

在商业、STEM 及编码任务中等同或超越了 OpenAI 的 GPT-4o 与 DeepSeek-V3。

可仅依托两张 GPU（A100 或 H100）运行，相较于其他需要多达 32 张 GPU 模型在效率上实现了显著提升。

可实现更快的 token 生成速度，每秒可生成 156 个 token——相当于 GPT-4o 的 1.75 倍，DeepSeek-V3 的 2.4 倍。

降低延迟，首 token 生成时间为 6500 毫秒，优于 GPT-4o 的 7460 毫秒与 DeepSeek-V3 的 14740 毫秒。

增强多语言 AI 能力，改进了对阿拉伯语方言的支持并扩展支持 23 种全球语言。

Cohere 通过 Command A 延续了其企业优先战略，确保此模型能够无缝集成至业务环境当中。Command A 的核心特性包括：

高级检索增强生成（RAG）：为企业应用程序提供可验证的高精度响应结果。

使用代理式工具：与企业工具相集成以支持复杂的工作流程。

North AI 平台集成：与 Cohere 的 North AI 平台配合使用，允许企业使用安全的企业级 AI 智能体自动执行任务。

可扩展性与成本效率：私有部署的成本比 API 访问低 50%。

支持多种语言，在阿语支持方面表现出色。Command A 的一大突出特点，是它能够对全球 23 种最常用语言生成准确响应，包括经过改进的阿拉伯方言处理能力。

此外，速度是企业 AI 部署中的关键因素，Command A 的设计目标正是以超越竞争对手的速度交付生成结果。100K 上下文请求的 token 流速度为：每秒 73 个 token（相比之下，GPT-4o 为每秒 38 个 token，DeepSeek-V3 则为每秒 32 个 token）。首次 token 生成速度更快：与其他大模型相比，Command A 的响应速度明显更快。

基准测试结果中，Command A 在使用阿拉伯语响应英语提示词的准确率为 98.2%——高于 DeepSeek-V3 的 94.9% 与 GPT-4o 的 92.2%。它在方言一致性方面的表现似乎也明显优于竞争对手，ADI2 得分为 24.7，远高于 GPT-4o 的 15.9 与 DeepSeek-V3 的 15.7。

凭借更快的速度、更低的硬件要求加上扩展后的多语言功能，Command A 将自身定位成 GPT-4o 及 DeepSeek-V3 等模型的有力替代选项——请注意，这里列出的均是经典的大语言模型，而非最近掀起行业热潮的新兴推理模型。与能够支持 12.8 万个 token 上下文长度（即大模型在一次输入 / 输出交换中可以处理的信息量，12.8 万 token 相当于一本 300 页的小说）的前身不同，Command A 将上下文长度增加了一倍，达到 25.6 万个 token（相当于 600 页文本），同时提高了整体效率与生产应用就绪水平。

行业反响

现在，Command A 已在 Cohere 平台上正式上线，并在 Hugging Face 上基于 Creative Commons Attribution Non Commercial 4.0 International (CC-by-NC 4.0) 许可证提供开放权重，但仅供研究使用。后续还将面向广泛云服务商提供支持方案。输入 token：每百万个 2.5 美元；输出 token：每百万个 10.00 美元。可根据要求提供私有与本地部署。

多位 AI 研究人员及 Cohere 团队成员表达了自己对于 Command A 的赞赏之情。Cohere 公司预训练专家 Dwaraknath Ganesan 在 X 上发帖表示：“很高兴能够展示我们过去几个月间倾力研究的成果！Command A 非常出色，只需两张 H100 GPU 即可部署！256K 上下文长度、经过扩展的多语言支持、代理式工具使用……我们对此深感自豪。”

Cohere 公司 AI 研究员 Pierre Richemond 补充道，“Command A 是我们全新打造的 GPT-4o/DeepSeek V3 级别、开放权重 111B 模型，可支持 256K 上下文长度，且针对企业用例的运行效率进行了优化。”凭借更快的运行速度、更大的上下文窗口、更好的多语言处理能力以及更低的部署成本，它将针对企业需求为现有 AI 模型提供强大的替代选项。

Cohere 在其开发者文档中指出，“Command A 非常健谈。在默认情况下，该模型为交互式设计，并针对对话进行了优化。就是说它的输出内容很长，而且会使用 markdown 来高亮显示代码。要覆盖此机制，开发人员可在前置词中要求模型仅提供答案，且不使用 markdown 或代码块标记。”

由此看来，Command A 有望成为那些预算有限、但又亟需建立 AI 优势的企业，以及快速响应类应用场景（例如金融、医疗、医学、科学和法律）下的理想模型选项。

参考链接：

https://venturebeat.com/ai/cohere-targets-global-enterprises-with-new-highly-multilingual-command-a-model-requiring-only-2-gpus/

直播预告

AI 大模型的崛起带来了前所未有的算力需求，但数据存储与加载的瓶颈问题却成为制约发展的关键。如何优化数据预处理？如何实现分布式存储与计算资源的高效协同？如何提升大模型训练的效率？3 月 24 日晚 20:00 ，4 位资深专家将在直播上深入剖析这些痛点！