掘金 人工智能 19小时前
AI Gateway 介绍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了AI网关,作为API网关的演进,在AI时代的关键作用。它不仅是AI API的流量调度中心,还具备AI流量调度、服务治理、安全防护和可观测性等核心能力。通过对AI网关架构和功能的详细解析,阐述了其如何提升AI应用体验,并提供了关于AI网关在实际应用中的技术细节和实践案例。

💡 **AI流量调度:** AI网关通过LLM感知的流量调度,利用Prefix Cache、Lora Adapter、KVCache等策略,显著降低TTFT(响应时间)。同时,采用VTC(虚拟时间控制)策略,确保流量的公平分配,优化AI服务性能。

🛡️ **AI服务治理:** AI网关提供多租户限流,基于输入/输出Token实现限流,保障不同用户的请求得到合理处理。它还具备自动故障转移机制,根据服务优先级进行推理服务的自动切换,提升系统稳定性。此外,超时重试机制确保请求的可靠性。

🔒 **AI安全防护:** AI网关通过证书管理确保LLM供应商的安全性,并对请求的prompt进行安全校验,防止恶意内容。它还集成内容过滤功能,过滤不当内容,保障使用安全。

👁️‍🗨️ **AI可观测性与扩展插件:** AI网关提供细粒度指标,便于监控和分析LLM服务访问。支持用户面向LLM场景的插件,如语义缓存和Prompt改写,增强功能灵活性。此外,通过协议转换和统一API管理,简化API管理流程。

AI 网关和传统的 API 网关

API 网关发展

在最开始的时候,互联网通过电话线连接上网,通过“调制解调器(Modem)”将计算机信号和电话线信号“调制”与“调解”以实现上网功能。当今时代大多使用宽带上网,拨号上网已被逐渐淘汰。

流量网关得雏形来自于路由器,交换机和中转站等技术,在网络流量传输中,帮助优化流量,提高安全性和流量管理能力。

传统流量代理

随着互联网越来越普及和规模化,需要解决得问题越来越多,例如:

正向代理(Forward Proxy)

正向代理是客户端(用户)和目标服务器之间的中继代理,客户端通过正向代理发送请求,代理服务器将请求转发给目标服务器,并将响应返回给客户端。如下图所示:

正向代理服务器一般部署在客户端内网环境中,内部用户通过其来访问外部资源。

如图所示,正向代理解决了以下问题:

    安全:保护用户 IP 地址安全,防止 IP 追踪;突破封锁:在一些情况下,客户端无法直接访问某些服务器,此时可以使用代理服务突破地理/IP 封锁限制;流量过滤:过滤流量内包含的不良信息,例如学校内网或者图书馆网络等。

反向代理(Reverse Proxy)

反向代理是目标服务器的中继节点,客户端的请求首先到达反向代理,由它转发到实际的目标服务器。目标服务器的响应同样通过反向代理返回给客户端,如下图所示:

反向代理服务器一般部署在服务端内网环境中,用来接受客户端流量并转发给服务器。

如图所示,反向代理解决了以下问题:

    安全:保护服务器的真实 IP 地址,抵御 DDos 攻击;性能优化:采用 LB 策略,静态资源缓存等加速访问;统一服务入口。

应用场景如 WAF(Web Application Firewall,Web应用防火墙)、CDN 等。

API 网关代理

微服务架构的核心枢纽,统一管理 API 生命周期,实现流量管理,服务治理,安全防护等特性。

在没有 Web API Gateway 组件时,client 流量直接打在服务器上,对后端服务器压力较大,且流量处理逻辑集中在后端上,使得后端服务不能专注于处理业务,同时还要处理和网络日志等相关代码逻辑。

加入 API gw 之后,统一将 API 流量管理分离到 API gw 来完成,其核心能力主要为:

    服务治理:熔断,限流,重试,healthCheck,金丝雀发布,可观测支持等;安全防护:高级认证,API 鉴权,黑白名单等;流量管理:流量染色,多种路由策略,协议转换等。

AI 网关

大模型时代的 AI API 流量调度中心,连接 AI 服务和应用客户端。这里借用 Higress 的 AI 网关架构图来展示。

AI 网关核心能力:

    AI 流量调度,提高 TTFT(Time To First Token)并提高系统吞吐量;MCP 生态集成,通过 AI 网关,集成 MCP Server;保障大模型的内容安全,对输入和输出进行过滤;屏蔽底层协议,对外暴露统一 endpoint。例如 OpenAI API 和 Dashscope API ;实现 Token 限流功能;实现 AI 可观测集成等。

从 OpenAI GPT 爆火之后,企业级 AI 应用需求大幅增长,AI API 调用量激增, 通过 AI Gateway 可以大幅度提升 AI 接入体验。以上几点在 Higress AI 中都有体现,细节参考 Higress AI

AI 网关的理解

在上文中,介绍了 AI 网关的核心能力主要有以下几点,其作为 API Gateway 的一个变种实现,主要为 AI 调用提供便利:

AI 流量调度

AI 服务治理

AI 安全防护

AI 可观测性

AI 扩展插件

AI 生态交互

AI 网关架构

下面以 Envoy AI Gatwway 为例,来分析下 AI 网关架构。其分为数据面(CP control plane)和控制面(DP data plane)。

从架构图可以看到,请求流量经过 External processor,通常在这里会给流量染色,加入后端服务特征,后续 DP 基于此特征转发流量。

上图为 Envoy AI Gateway DP 面和流量示意图。可以看出 Envoy AI Gateway 提供的 AI Gateway 发生在请求流量的那一步。

AI 网关功能详解

LLM 感知的流量调度

基于 Prefix Cache 的调度

LLM 推理计算主要分为两个过程:Prefill 阶段(Prompt 计算)和 Decode 阶段。在 Prefill 阶段计算所有 Token 的 KV Cache,通常 KVCache 只是为单次推理的,当推理结束,对应的 KV-Cache 就会清除。此时,AI Gateway 就可以保存并复用对应的 KV Cache。

在某些 LLM 业务场景下,多次请求的 Prompt 可能会共享同一个前缀(Prefix),比如少量样本学习,多轮对话等。在这些情况下,很多请求 Prompt 的前缀的 KV Cache 计算的结果是相同的,可以被缓存起来,给之后的请求复用。

这里既然要复用对应的 KV Cache,KV Cache 又是在同一个 AI 后端 pod 中产生的,那么自然要求 Prefix Cache 的优化要调度到同一个 Pod 上去。

基于 VTC 公平推理调度

参考地址 Arxiv:arxiv.org/pdf/2501.14…

虚拟令牌计数器(VTC)是基于 “大型语言模型服务的公平性” 的 LLM 服务公平调度算法。

VTC 的目的是通过跟踪每个客户获得的服务(加权令牌计数),优先处理获得服务较少的客户,从而实现客户之间的公平性。它集成了连续批处理功能,并能处理 LLM 服务所面临的独特挑战,如可变的令牌成本和未知的输出长度。

其他的调度策略不一一描述。

MCP 转换

Higress 支持将存量的 API 服务转为 MCP Server,并基于 Higress 进行服务调用。

Token 限流

AI Gateway 能够对大模型使用的 Token 数量进行追踪,在消费者使用超额时进行限制,从而更好管理调用 AI 应用的用户额度,为 Token 使用分析提供数据支持

自动故障转移

相关概念可以参考:help.aliyun.com/zh/api-gate…

结合服务发现机制,为 AI 后端服务根据 Region 和 Zone 设立优先级,当某个 AI 后端服务不可用时,短暂从可用列表中摘除,使用小流量探测的手段,直至 AI 后端服务恢复时继续提供服务。

AI 内容安全

基于此机制,API Gateway 可以通过进入阿里云的内容安全审核服务对用户的 Prompt 进行检测,以组织不安全的输入:

自定义扩展

可扩展是 API Gateway 的一个重要特性,支持用户根据自己的流量场景,使用不同的语言定制化 API Gateway 插件,例如 Kong 和 APISIX 支持 Lua 插件集成。

在此处同样参考 Higress 的架构图,其基于 WASM 机制,提供了一系列的 AI 插件:

参考资料

    Envoy AI Gateway:aigateway.envoyproxy.io/docs/concep…Higress AI:higress.ai/阿里云内容审核服务:www.aliyun.com/product/lvw…K8s Gateway API 推理扩展:kubernetes.io/zh-cn/blog/…VTC 公平推理调度:arxiv.org/pdf/2501.14…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI网关 API网关 LLM 流量调度 服务治理
相关文章