流量高峰“不加价”，第四范式SageOne IA一体机全新升级，支持模型弹性伸缩

04月09日 18:25

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

第四范式发布一体机解决方案SageOne IA的全新升级，核心在于引入“模型弹性伸缩”技术。该技术旨在应对流量波动，通过自动切换不同参数大小的模型，实现算力成本的节省和运维效率的提升。例如，在大模型推理场景下，系统能根据负载情况在满血版模型和蒸馏版/量化版模型之间自动切换，确保服务质量和用户体验。这项升级还支持预设基于负载的触发条件，使弹性方案更贴合实际业务需求。

💡SageOne IA的核心升级是“模型弹性伸缩”技术，该技术旨在解决企业在应对流量波动时的算力成本和运维问题。

⚙️“模型弹性伸缩”的工作原理是根据负载情况，自动灵活切换同一系列下不同参数大小的模型，无需额外扩展计算节点，从而节省算力成本并提升资源使用效率。

📈在大模型推理场景中，当负载较小时，系统提供高精度的满血版模型服务；在高峰时段，系统会自动切换到蒸馏版/量化版模型实例，以处理大量并发请求，实现用户无感知的平滑切换。

🚦系统可预设多种基于负载的触发条件，如GPU使用率、请求队列长度、响应延迟等，形成动态切换策略和任务路由机制，使弹性方案更贴近业务需求。

原创第四范式 2025-04-07 10:45 北京

产品上新

Product Release

近期，第四范式一体机解决方案 SageOne IA 全新升级，推出“模型弹性伸缩”技术来应对流量波动。当前企业一般采用传统扩缩容方案，即当应用负载增加时，通过人工干预或系统按既定规则扩展计算节点，保证服务可用；当负载减少时释放多余的计算节点，这一定程度上增加了算力成本和 IT 运维复杂度。“模型弹性伸缩”是系统根据负载状况，自动灵活切换同一系列下不同参数大小的模型提供模型服务，无需额外扩展计算节点，节省算力成本，提升资源使用效率的同时还大大降低运维工作量。

例如在大模型推理场景下，负载较小时，满血版模型提供高精度的推理服务；进入高峰时段时，系统会自动将满血版降级为一个或多个蒸馏版/量化版模型实例，来处理大量并发请求。结合模型预加载等技术，可避免模型服务切换时，导致服务中断或输出质量波动问题，做到用户无感知的平滑切换；当流量回归常态后，系统再自动升级到满血版模型服务，并释放多余的较小参数模型实例。

同时，系统可预设多种基于负载的触发条件，如结合 GPU 使用率、请求队列长度、响应延迟等资源健康度指标，形成动态切换策略和任务路由机制，使弹性方案在实际应用中更贴近业务需求。

了解产品详情，可致电 400-898-7788，也可扫描下方二维码或点击【阅读原文】。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签