掘金 人工智能 21小时前
云上AI推理平台全掌握 (5):大模型异步推理服务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云人工智能平台PAI推出创新的异步推理框架,旨在解决大模型推理中的高计算量、长时延以及异构硬件适配等核心挑战。该框架通过独立的队列服务,有效管理请求分发,避免传统同步推理模式下的客户端阻塞和连接问题。它集成了输入输出队列,利用推理子服务订阅请求,实现负载均衡和异常实例的请求重分配,确保服务的高可用性和稳定性。此外,PAI平台还支持根据队列状态进行自动扩缩容,甚至在队列为空时缩容至零实例,显著降低成本,为企业和开发者在AI时代抢占先机提供强有力的技术支持。

💡 **异步推理解决长时延与同步阻塞问题**:在大模型实际应用中,如AIGC、视频理解等场景,推理耗时久是普遍现象。传统的同步推理模式会导致客户端长时间等待,造成连接资源浪费及请求失败率增加。阿里云PAI平台通过引入异步推理,允许客户端发送请求后不再等待,而是通过轮询或订阅方式获取结果,有效解决了因长时间等待导致的HTTP长连接断开和客户端超时等问题,显著提升了AI服务在高延迟场景下的可用性。

🚀 **基于队列服务的请求分发与负载均衡**:PAI平台构建了一套基于独立队列服务的异步推理框架,解决了异步推理中负载均衡的难点。该框架在服务内部集成推理子服务和队列子服务,其中队列子服务包含输入(input)和输出(sink)队列。服务请求首先进入输入队列,推理子服务根据自身并发能力订阅请求,队列服务确保每个实例处理的请求量不超过设定的窗口大小,以此实现智能负载均衡,避免实例过载。

🛡️ **保障高可用性与异常处理**:队列子服务能够对推理子服务实例进行健康检查,当实例因异常导致连接断开时,会将该实例已接收但未完成的请求重新分配给其他正常运行的实例。这一机制确保了在服务实例出现故障时,请求数据不会丢失,服务整体的高可用性得到保障,即使在复杂或不确定的计算环境中也能保证任务的顺利进行。

📈 **自动扩缩容优化成本与效率**:PAI平台支持根据异步队列的状态动态调整推理服务的实例数量,实现自动扩缩容。当队列为空时,系统可以将推理服务实例缩容至零,从而最大限度地降低闲置成本。用户可以根据异步队列长度自定义服务的弹性配置,确保在流量高峰期有足够的计算资源,在低谷期则能有效控制成本,实现资源的最优利用。

🛠️ **便捷的部署与监控**:用户可以通过登录PAI控制台,在EAS(Elastic Algorithm Service)环境中,通过勾选“异步队列”的开关配置即可轻松部署异步推理服务。部署完成后,用户可以在服务的详情页查看输入输出队列的实时数据量、总量以及每个请求的处理状态,便于进行精细化的管理和监控。

前言

在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。

阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在AI时代抢占先机,让我们一起探索云上AI推理的无限可能,释放大模型的真正价值!


在大模型推理的实际应用中,“高计算量、长时延”的推理场景(如AIGC、视频理解、长文档摘要等)往往需要数十秒甚至分钟级的计算时间。传统同步推理模式导致客户端长时间阻塞,不仅造成连接资源浪费,更可能因网络抖动造成请求失败。行业数据表明,当推理耗时超过15秒时,同步请求的超时率会陡增至62%,严重制约了AI服务在高延迟场景下的可用性。

对于上述提到的推理耗时比较长或者推理时间无法确定的场景,同步等待结果会带来HTTP长连接断开、客户端超时等诸多问题。在AI推理领域通常使用异步推理来解决上述问题,即请求发送至服务端,客户端不再同步等待结果,而是选择定期去查询结果,或通过订阅的方式在请求计算完成后等待服务端的结果推送。业界在异步推理的使用过程中,也会出现如下常见的问题:

基于对如上问题的思考,阿里云人工智能平台PAI推出了一套基于独立的队列服务异步推理框架,用来解决上述的请求分发的问题。

实现原理

使用方式

    登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

    推理服务页签,单击部署服务,选择自定义模型部署>自定义部署

    环境信息的区域,勾选异步队列的开关配置即可。

异步推理服务部署完成后,您可在服务的详情页中查看异步队列里面的相关信息,包括输入与输出队列的当前数据量及总量,并可以查看访问服务的每一个请求数据的处理情况。

自动扩缩容

在异步推理场景中,系统可以根据队列的状态动态地对推理服务的实例数量进行伸缩,并且支持在队列为空时将推理服务的实例数缩容到0以进一步降低成本。

异步推理服务部署完成后,您可在服务的详情页来配置异步服务的自动扩缩容策略,通过异步队列长度来自定义服务的弹性配置。

系列简介:云上AI推理平台全掌握

本系列 《云上AI推理平台全掌握》 将深度解析阿里云AI推理平台的技术架构、最佳实践与行业应用,涵盖以下核心内容:

    技术全景:从分布式推理、动态资源调度到Serverless,揭秘支撑千亿参数模型的底层能力。

    实战指南:通过压测调优、成本优化、全球调度等场景化案例,手把手教你构建企业级推理服务。

    行业赋能:分享金融、互联网、制造等领域的落地经验,展示如何通过云上推理平台加速AI业务创新。

无论客户是AI开发者、架构师,还是企业决策者,本系列都将为客户提供从理论到实践的全方位指导,助力客户在AI时代抢占先机。让我们一起探索云上AI推理的无限可能,释放大模型的真正价值!

立即开启云上 AI 推理之旅,就在阿里云人工智能平台PAI。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里云PAI 大模型推理 异步推理 AI服务 队列服务
相关文章