云上玩转DeepSeek系列之六：DeepSeek云端加速版发布，具备超高推理性能

作为国内首个千亿级开源 MoE 模型，DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力，已成为开发者构建智能应用的首选。然而，原始模型在产业落地中面临严峻挑战，部署 671B 满血版模型不仅硬件门槛要求很高，同时吞吐效率和响应延迟也受到了制约。

PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized，将大模型推理效率推向了 Next Level。核心亮点有：

技术领先

单机部署

性能跃升

开箱即用：

性能跃升：极致吞吐与超低时延

DeepSeek-R1 优化版模型 DeepSeek-R1-PAI-optimized，相较原模型，在吞吐和延迟方面实现了双优，全面提升推理流程的效率。

实验配置：

优化版部署在单机 GU120，原模型部署在双机 GU120，推理引擎为 vLLM；

数据集为 longalpaca-12k，输入token长度限定为3K，输出 token 长度限定为1K。

实验结果：

3865tokens/s

965tokens/s

50%提升

输出吞吐能达到829tokens/s

吞吐提升了492%

TTFT为405ms

降低了86%

TPOT为38ms

降低了69%。

以下是在各类评测数据集的测试结果，对比 DeepSeek-R1 优化版的实测数据，和 DeepSeek-R1 原模型的实测数据，发现表现几近持平，证明了优化版模型的效果基本无损。

部署优化版 DeepSeek-R1 模型

在 Model Gallery 页面的模型列表中，搜索“DeepSeek-R1-PAI-optimized”，找到并点击进入模型详情页面。单击右上角部署。选择部署方式和部署资源后，即可一键部署服务，生成一个 PAI-EAS 服务。

进行模型推理。

部署成功后，在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token。点击模型介绍页，查看调用方式说明。

除 DeepSeek-R1 满血版模型、 DeepSeek-R1 推理性能优化版模型外，PAI-Model Gallery 还提供以下衍生版本的模型，供不同需求场景下使用。

大幅节省显存：

小模型推理能力提升：

mp.weixin.qq.com/s/4xMt0fz1s…

小模型推理速度提升：

mp.weixin.qq.com/s/QHI2-YBvX…