PAI推理重磅发布模型权重服务，大幅降低冷启动与扩容时长

随着大语言模型（LLM）参数量呈现指数级增长，如开源模型 DeepSeekV3-671B 已达 700GB+ 规模，模型加载耗时已成为影响推理服务效率的关键瓶颈，在弹性扩容、多实例部署等场景因模型加载耗时过长，影响了服务扩展的敏捷性和模型部署的效率。

针对上述挑战，阿里云人工智能平台 PAI 创新性地发布了模型权重服务功能，大幅降低冷启动与扩容时长，解决模型加载耗时过长的业界难题，破解 LLM 超大规模部署效能瓶颈。

在 Qwen3-8B 的模型评测中，推理服务的冷启动时长TP99从235秒降低至24秒，冷启动时长降幅89.8%；实例扩容时长降低至5.7秒，扩容时长降幅97.6%。

在 Qwen3-32B 的模型评测中，推理服务的冷启动时长953秒降低至82秒，冷启动时长降幅91.4%；实例扩容时长降低至17秒，扩容时长降幅98.2%。

PAI 模型权重服务的核心技术特征包括：

分布式缓存架构：利用节点内存资源构建权重缓存池。

高速传输机制：基于 RDMA 的机间互联实现低延迟数据传输。

智能分片策略：动态感知网络拓扑的智能分片算法。

内存共享优化：实现单机多进程间零拷贝权重共享。

权重智能预取：利用闲置时间提前预读模型权重。

高效缓存策略：保证模型分片在实例间负载均衡。

实际部署表明，该方案在超大规模实例集群中有显著效率提升。对于传统拉取模式，扩容速度 10 倍提升；带宽利用率提高60%+；服务冷启动时间缩短至秒级。

通过充分利用多实例之间的带宽资源，实现模型权重的高效快速传输。模型权重服务不仅支持模型权重的本地缓存，还能够实现权重的跨实例共享。在处理大规模参数模型以及在大规模实例部署的场景中，MoWS能够显著提升服务的扩缩容效率和启动速度。

快速使用 PAI 模型权重服务

进入 PAI-EAS 模型在线服务页面。

a. 登录阿里云人工智能平台PAI控制台。

b. 在左侧导航栏单击工作空间列表，在工作空间列表页面中单击待操作的工作空间名称，进入对应工作空间内。

c. 在工作空间页面的左侧导航栏选择模型部署>模型在线服务（EAS），进入模型在线服务（EAS）页面。

单击部署服务，然后在自定义模型部署区域，单击自定义部署。

a. 在环境信息的镜像配置中，选择官方镜像，选择镜像仓库vllm中带有mows标识的镜像版本。

b. 在资源信息的资源类型处选择资源配额，使用PAI灵骏资源部署。

c. 在服务功能中打开模型权重服务的功能项，并进行内容如下配置。