掘金 人工智能 06月20日 18:08
PAI推理重磅发布模型权重服务,大幅降低冷启动与扩容时长
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云PAI平台推出模型权重服务,旨在解决大语言模型(LLM)部署和推理过程中因模型加载耗时过长而导致的效率瓶颈。该服务通过创新的分布式缓存架构、高速传输机制和智能分片策略等核心技术,显著降低了冷启动和扩容时长,提升了服务扩展的敏捷性和模型部署的效率。在Qwen3-8B和Qwen3-32B模型的评测中,冷启动和扩容时长均有大幅下降。PAI模型权重服务不仅提升了性能,还提供了简便的使用方法,并结合其他推理优化技术,致力于为用户提供高性能、高稳定的大模型工程化能力。

🚀 随着大语言模型参数量的增长,模型加载耗时成为关键瓶颈。例如,DeepSeekV3-671B等大型模型因加载时间过长,影响了弹性扩容和多实例部署的效率。

💡 阿里云PAI模型权重服务通过核心技术解决上述问题。它采用了分布式缓存架构,利用节点内存构建权重缓存池;基于RDMA实现低延迟数据传输;以及动态感知网络拓扑的智能分片算法,从而加速模型加载。

⏱️ 实际测试表明,PAI模型权重服务效果显著。在Qwen3-8B模型上,推理冷启动时间降低89.8%,扩容时间降低97.6%。在Qwen3-32B模型上,冷启动时间降低91.4%,扩容时间降低98.2%。

⚙️ PAI模型权重服务还支持权重跨实例共享,提升了带宽利用率,并缩短了服务冷启动时间至秒级。用户可以通过PAI-EAS模型在线服务页面快速部署和使用该服务。

✨ 除了模型权重服务,PAI还提供KV Cache等推理计算优化技术,以提升Token生成速度,从而全方位提升大模型服务效率。

随着大语言模型(LLM)参数量呈现指数级增长,如开源模型 DeepSeekV3-671B 已达 700GB+ 规模,模型加载耗时已成为影响推理服务效率的关键瓶颈,在弹性扩容、多实例部署等场景因模型加载耗时过长,影响了服务扩展的敏捷性和模型部署的效率。

针对上述挑战,阿里云人工智能平台 PAI 创新性地发布了模型权重服务功能,大幅降低冷启动与扩容时长,解决模型加载耗时过长的业界难题,破解 LLM 超大规模部署效能瓶颈。

在 Qwen3-8B 的模型评测中,推理服务的冷启动时长TP99从235秒降低至24秒,冷启动时长降幅89.8%;实例扩容时长降低至5.7秒,扩容时长降幅97.6%

在 Qwen3-32B 的模型评测中,推理服务的冷启动时长953秒降低至82秒,冷启动时长降幅91.4%;实例扩容时长降低至17秒,扩容时长降幅98.2%

PAI 模型权重服务的核心技术特征包括:

实际部署表明,该方案在超大规模实例集群中有显著效率提升。对于传统拉取模式,扩容速度 10 倍提升;带宽利用率提高60%+;服务冷启动时间缩短至秒级。

通过充分利用多实例之间的带宽资源,实现模型权重的高效快速传输。模型权重服务不仅支持模型权重的本地缓存,还能够实现权重的跨实例共享。在处理大规模参数模型以及在大规模实例部署的场景中,MoWS能够显著提升服务的扩缩容效率和启动速度。

快速使用 PAI 模型权重服务

    进入 PAI-EAS 模型在线服务页面。

a. 登录阿里云人工智能平台PAI控制台。

b. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

c. 在工作空间页面的左侧导航栏选择模型部署>模型在线服务(EAS),进入模型在线服务(EAS)页面。

    单击部署服务,然后在自定义模型部署区域,单击自定义部署。

a. 在环境信息的镜像配置中,选择官方镜像,选择镜像仓库vllm中带有mows标识的镜像版本。

b. 在资源信息的资源类型处选择资源配额,使用PAI灵骏资源部署。

c. 在服务功能中打开模型权重服务的功能项,并进行内容如下配置。

更多推理优化技术

阿里云人工智能平台 PAI 是 AI Native 的大模型与 AIGC 工程平台,提供包含模型开发、模型训练、模型部署在内的全链路功能模块,为用户提供高性能、高稳定、企业级的大模型工程化能力。在模型推理阶段,PAI不仅提供模型权重服务,还提供 KV Cache 等推理计算优化技术,有效减少重复计算并提升 Token 生成速度,多维度提升大模型时代的模型服务效率。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PAI 模型权重服务 大语言模型 推理加速
相关文章