阿里巴巴中间件 04月05日 23:21
首发,Higress AI 网关率先支持 QwQ-32B,推理成本可再降 90%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文详细介绍了如何使用 Higress AI 网关,实现 DeepSeek-R1 和 QwQ-32B 这两个大模型之间的无缝切换。通过配置网关、创建路由和客户端调用示例,用户可以灵活地在不同模型间切换,并利用网关的进阶功能,如消费者鉴权、模型自动切换、限流等,优化大模型应用,提升效率和降低成本。文章还对比了自建和云原生 API 网关的优劣,为用户提供了全面的技术参考。

🚀 Higress AI 网关提供多模型服务,支持在 DeepSeek-R1 和 QwQ-32B 之间切换,满足企业多元化需求,提升生成效果。

⚙️ 接入配置简单,通过 Higress 控制台配置 DeepSeek-R1 和 QwQ-32b 的接入方式,并创建路由规则,实现模型间的灵活转发。

💡 进阶功能丰富,包括消费者鉴权、模型自动切换、Token 级限流、内容安全和合规、语义缓存、联网搜索+全文检索和大模型可观测,全面解决用户痛点。

💰 成本效益显著,QwQ-32B 在性能上可与 DeepSeek-R1 媲美,同时调用成本更低,云上自建成本也大幅降低。

🛡️ 消费者鉴权、模型自动切换、限流等机制,有效解决模型异常、资源限制等问题,保障服务稳定性和用户体验。

澄潭&计缘&望宸 2025-03-06 18:51 浙江

本文将提供 Higress AI 网关提供 DeepSeek-R1 和 QwQ-32B 大模型间无缝切换的保姆级教程。

今天凌晨,通义千文发布最新推理模型 QwQ-32B。
在各类基准测试中,拥有 320 亿参数的 QwQ 模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。这意味着:
📊 价格对比:
如果是通过调用官方 API 的方式:
🔹 DeepSeek R1:$0.14/M 输入, $2.19/M 输出
🔹 QwQ-32B:$0.20/M 输入, $0.20/M 输出

如果是通过云上自建的方式,例如阿里云 PAI:

🔹 DeepSeek R1:至少 2 台 8 卡 H20,100w+ / 年

🔹 QwQ-32B:1 台单卡 H20,5w+ / 年

QwQ-32B 已在 Hugging Face[1]和 ModelScope[2]开源,采用了 Apache 2.0 开源协议。
技术管理者们开始紧锣密鼓的重新梳理大模型业务的 ROI,工程师们开始在后端大模型添加 QwQ-32B 的版本,并切换为主力模型进行测试验证,考虑到开源版本在性能上的相互追赶,对接多个大模型已经成为 AI 应用标配。本文将提供 Higress AI 网关提供 DeepSeek-R1 和 QwQ-32B 大模型间无缝切换的保姆级教程。

01

完整实现步骤

Cloud Native


1. 环境准备
    # 一键安装Higress(需Docker环境)curl -sS https://higress.cn/ai-gateway/install.sh | bash
    安装完成后访问控制台 http://localhost:8001,完成初始化配置。

    2. 模型接入配置
    1)在 Higress 控制台分别配置 DeepSeek-R1 和 QwQ-32b 的接入方式:
    如果是对接厂商的模型,可以通过选择厂商名进行配置,例如:
    如果是对接自建的模型,可以使用 OpenAI 兼容模式,填入 baseURL 即可:

    2)在 Higress 控制台创建路由,按照匹配模型名称的路由规则转发给两个不同的模型。

    例如 my-qwq-32b 这条路由,匹配模型名称精确匹配 qwq-32b,转发给自建的 QwQ-32b 模型服务:


    my-deepseek-r1 这条路由,匹配模型名称精确匹配 deepseek-r1,转发给自建的 DeepSeek-R1 模型服务:

    因为 DeepSeek-R1 需要更多资源,可以使用 AI Token 限流插件对其进行限流:
    并在触发限流后,通过模型 fallback 机制兜底到 QwQ-32b 模型:


    3. 客户端调用示例(Python)
      from openai import OpenAI
      # 统一访问Higress网关client = OpenAI( api_key="higress-api-key", # Higress控制台生成的二次鉴权密钥 base_url="http://localhost:8080/v1" # Higress网关地址)
      # 去往 deepseek 模型response_deepseek = client.chat.completions.create( model="deepseek-r1", messages=[{"role": "user", "content": "解释量子计算"}])
      # 去往 qwq 模型response_qwq = client.chat.completions.create( model="qwq-32b", messages=[{"role": "user", "content": "写一首七言诗"}],)

      4. 对接 QwQ-32b 的效果:

      QwQ 的 token 输出速度飞快,这是在单卡的 h20 上的效果:

      02

      Higress AI 网关的进阶功能

      Cloud Native

      多模型服务只是 Higress AI 网关的基本能力之一,其他进阶能力还包括消费者鉴权、模型自动切换等,可以集中解决用户遇到的以下三类问题:

      我们将 AI 网关的其他能力,汇总如下。

      功能
      应用场景
      实现效果
      消费者鉴权
      满足多租户模型服务分租、企业内部权限分级管控等需求。
      IT 团队可对用户设置使用角色,控制功能权限和资源权限,满足业务和安全需求。
      模型自动切换
      解决模型自身特性、用户使用不规范、用户使用不规范、依赖服务故障等导致的模型不可用等问题。
      模型A出现故障,自动切换到模型B,不需要承担宕机损失。
      Token 级别限流
        满足系统出现过载情况下保证用户依旧能获得稳定的体验;
        使用量超出限定值,应用主动设置限流。
        避免突发流量导致系统宕机。
        满足业务需求,例如基于用户分层设定的产品能力差异。
      内容安全和合规
      过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求。
      用户请求不安全或者不合规的内容时,大模型进行校验,保证内容输出安全、合规。
      语义缓存
      在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。
      大模型 API 调用,缓存命中和未命中,计费价格不同,充分利用该机制降低调用费用。
      联网搜索+全文检索
      解决开源大模型默认不提供联网搜索+全文检索能力的问题。
      获得更好的内容生成效果。
      大模型可观测
      避免大模型应用的资源消耗比 Web 应用更加敏感和脆弱所导致的模型调用费用方面的资损。
      提供 QPS、RT、错误率,基于 consumer/模型 的 token 消耗统计,限流消费者统计,缓存命中统计等数据。

      1. 多模型服务
      大模型不存在一家独大,企业往往会实施多模型策略。企业员工在前端选择大模型,可以随意切换后端的大模型服务,例如企业内部可以部署 DeepSeek、Qwen、自建等多个大模型,由员工自行选择,以获得更加丰富、可选的生成效果。企业越是多元化,对多模型服务的需求越强烈。

      需求场景:

      应对方案:AI 网关支持基于模型名称做不同后端模型的切换,实现同一个接口对接多种大模型服务,这些大模型服务可以分别部署在不同的平台,例如百炼、PAI、IDC 自建等,即便不同模型隶属于不同的开发和运维团队,也不存在协作成本。


      2. 消费者鉴权
      需求场景:多租户模型服务分租场景:企业为不同部门或团队提供共享的大模型服务时,会通过 API Key 区分租户,确保数据隔离和权限管控。具体要求包括:

      企业内部权限分级管控:企业内部不同角色需差异化访问模型能力。具体要求包括:

      实现方案:AI 网关支持路由配置认证和消费者鉴权,实现对 API 访问的控制、安全性和策略管理,通过 API Key 的生成、分发、授权、开启授权、验证 API Key 的流程,确保只有授权的请求才能访问服务。

      3. 模型自动切换

      需求场景:

      实现方案:AI 网关支持当某个大模型服务请求失败后,Fallback 到指定的其他大模型服务,以保证服务的健壮性和连续性。


      4. Token 级限流
      需求场景:虽然企业内部使用,不会频繁存在并发的需求,但通过设置限流能力,可以更经济的配置硬件资源。例如一家 10000 人的企业,不需要配置同时支持 10000 人上线的硬件资源,只需要配置 7000 人的硬件资源,超出部分进行限流,避免资源闲置。其他需求包括:

      应对方案:AI 网关提供了 ai-token-ratelimit 插件,实现了基于特定键值的 token 限流,键值来源可以是 URL 参数、HTTP 请求头、客户端 IP 地址、consumer 名称、cookie 中 key 名称。


      5. 内容安全和合规
      需求场景:企业内是严肃的工作场景,自建大模型需要对生成内容进行安全和合规保证,包括过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求,并对 AI 生成内容进行质量和合规性审核。

      应对方案:AI 网关接入了阿里云内容安全,对面向大语言模型的输入指令和生成文字分别提供审核服务。包括:

      6. 语义缓存
      需求场景:大模型 API 服务定价分为每百万输入 tokens X 元(缓存命中)/ Y 元(缓存未命中),X 远低于 Y,以通义系列为例,X 仅为 Y 的 40%,通过在内存数据库中缓存大模型响应,并以网关插件的形式来改善推理的延迟和成本。在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。例如:

      应对方案:AI 网关提供了扩展点,可以将请求和响应的内容缓存到 Redis 中,并支持配置 Redis 服务信息、设置缓存时间。


      7. 联网搜索+获取检索网页的全文
      需求场景:联网搜索已经成为大模型的标配。如果不支持联网搜索,或者支持联网搜索,仅能获取网页标题、摘要、关键词而非全文,内容生成效果都会大打折扣。
      应对方案:AI 网关通过以下增强,实现了联网搜索+获取检索网页的全文:

      8. 大模型可观测
      需求场景:可观测常见于成本控制和稳定性场景。由于大模型应用的资源消耗比 Web 应用更加敏感和脆弱,因此成本控制对可观测的需求更为强烈,如果缺少完备的可观测能力,异常掉用可能会耗费几万甚至几十万的资损。
      除了 QPS、RT、错误率等传统观测指标,大模型的可观测还应具备:

      应对方案:AI 网关支持查看网关监控数据,在商业版上开启日志投递、链路追踪、以及如何通过云原生 API 网关查看 REST API 和接口的监控数据。这些功能将帮助您更高效地管理和优化接口性能,同时提升整体服务质量。此外,通过 SLS 还可以汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据汇总,从而建设完整统一的可观测方案。
      03

      Higress AI 网关的商业版服务

      Cloud Native

      如果您已经在阿里云上自建大模型应用,希望快速获取开箱即用的 AI 网关能力,并在性能、稳定性、和阿里云其他云产品有更高的交付标准,可以直接使用阿里云云原生 API 网关,相比开源,云原生 API 网关的优势包括:

      对比项
      云原生API网关
      自建Higress
      成本
      资源成本
      资源全托管免运维,无需自建CPU和内存资源,降低资源成本。
      需自行运维资源,且需自建CPU和内存资源,成本较高。
      系统搭建成本
        将API网关、流量网关和微服务网关三合一,在容器和微服务场景下可节省50%的成本。
        内置免费的流量监控能力。
      需自行购买各种资源搭建系统,运维升级需投入精力,人工成本高。
      稳定性
      高可用
      多可用区部署,故障自动检测及恢复,SLA保障率高达99.99%。
      需自行探索和开发高可用保障体系,SLA保障率低。
      性能
        CPU水位在30~40%时,TPS性能高出开源Nginx Ingress约90%,高出开源Spring Cloud Gateway约100%。
        软硬一体完成TLS卸载,提升服务器性能的同时,降低响应时间。
      需自行调优。
      监控告警
      与云监控、SLS、链路追踪深度集成,提供丰富的仪表盘及Service级别的监控数据,支持自定义告警规则及钉钉、电话、短信等告警渠道,便于排查异常集群。
      不支持,需自行搭建监控告警体系。
      安全性
      WAF防护
      内置WAF,请求链路和响应时间更短,实例级防护升级至路由级防护。
      多一层WAF网关,链路长。
      认证鉴权
      提供JWT、OAuth等多种认证鉴权手段、路由级黑白名单,并支持安全插件。
      需自行进行复杂的安全及授权配置。
      易用性
      API全生命周期管理
      提供API设计、开发、测试、发布及下线的全生命周期管理能力。
      不支持,需自行构建。
      路由能力
        支持HTTP标头改写、重定向、重写和限速等。
        负载均衡除支持标准的轮询、随机、最小请求数和一致性Hash外,还支持预热,即在指定时间窗口转发到后端某机器的流量逐步平滑递增路由配置变更热更新,对流量无损。
        支持HTTP标头改写、重定向、重写和限速等。
        负载均衡除支持标准的轮询、随机、最小请求数和一致性Hash外,还支持预热,即在指定时间窗口转发到后端某机器的流量逐步平滑递增路由配置变更热更新,对流量无损。
      协议转化能力
      支持从HTTP到Dubbo的协议转换功能。
      不支持,需自行构建。
      限流降级能力
      默认集成Sentinel,提供路由级细粒度限流降级策略,不修改任何业务代码,即可实现限流降级能力。
      支持
      多种服务发现能力
      支持K8s、Nacos、Zookeeper、DNS、固定IP以及阿里云SAE等多种服务发现方式。
      支持K8s、Nacos、Zookeeper、DNS、固定IP。
      扩展性
      插件市场
      支持Wasm插件,可使用多语言编写Lua脚本插件热更新,毫秒级生效。
      支持Wasm插件,可使用多语言编写Lua脚本插件热更新,毫秒级生效。
      相关链接:
      [1] Hugging Face

      https://huggingface.co/Qwen/QwQ-32B

      [2] ModelScope
      https://modelscope.cn/models/Qwen/QwQ-32B

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      Higress AI 网关 DeepSeek-R1 QwQ-32B 大模型 AI网关
      相关文章