IT之家 2024年08月28日
Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cerebras Systems推出全球最快的AI推理解决方案Cerebras Inference,性能超英伟达GPU的AI推理方案20倍,性价比高100倍,为AI应用开发提供支持。

🎯Cerebras Inference为Llama 3.1 8B提供每秒1800个token,为Llama 3.1 70B提供每秒450个token,速度优势明显,且内存带宽是Nvidia H100的7000倍,解决了生成式AI的内存带宽技术挑战。

💡该方案定价低,起价每百万个token 10美分,有免费层、开发者层和企业层三个层级。免费层提供免费API访问和使用限制;开发者层成本低,专为灵活部署设计;企业层提供微调模型等服务,适合持续工作负载。

🌟Cerebras Inference为开放的LLM开发和部署设定了新标准,作为能同时提供高速训练和推理的解决方案,为AI开辟了全新可能性,有望改变AI市场格局。

IT之家 8 月 28 日消息,Cerebras Systems 今日宣布推出 Cerebras Inference,官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token,为 Llama 3.1 70B 提供每秒 450 个 token,速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。

除了令人难以置信的性能之外,这款新型推理解决方案的定价也比流行的 GPU 云低得多,起价仅为每百万个 token 10 美分,从而为 AI 工作负载提供 100 倍更高的性价比。

该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序,而不会影响速度或成本。该方案使用了 Cerebras CS-3 系统及其 Wafer Scale Engine 3(WSE-3)AI 处理器,其中 CS-3 的内存带宽是 Nvidia H100 的 7000 倍,解决了生成式 AI 的内存带宽技术挑战。

据IT之家了解,Cerebras Inference 提供以下三个层级:

Cerebras 团队称:“凭借创纪录的性能、业界领先的定价和开放的 API 访问,Cerebras Inference 为开放的 LLM 开发和部署设定了新标准。作为唯一能够同时提供高速训练和推理的解决方案,Cerebras 为 AI 开辟了全新的可能性。”

AI 领域正在迅速发展,虽然英伟达目前在 AI 市场占据主导地位,但 Cerebras 和 Groq 等公司的出现预示着行业动态可能发生变化。随着对更快、更具成本效益的 AI 推理解决方案需求的不断增加,这些挑战者在颠覆英伟达的霸主地位,尤其是在推理领域方面。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cerebras Inference AI推理 性能优势 成本效益 行业变革
相关文章