掘金 人工智能 47秒前
快手DHPS:国内首个实现基于RDMA 通信的可负载均衡高性能服务架构!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

快手发布了DHPS架构,这是国内首个在线系统中实现的可负载均衡的基于RDMA通信的高性能服务架构。该架构通过端网协同设计,构建了覆盖计算、存储与网络的全链路高性能体系,显著提升了在线推理服务的效率。DHPS通过RDMA技术克服了传统TCP网络通信的瓶颈,大幅降低了通信延迟和CPU占用,提高了GPU算力密度。其核心创新包括支持AZ级部署的四层网络、自主研发的高性能存储引擎和RDMA通信库,以及智能化的流量调度。该架构在实际应用中带来了查询吞吐量提升270%+、内存碎片率下降40%等显著性能收益,并有望广泛应用于HPC、分布式存储等领域,为AI大模型落地提供强大支撑。

🚀 **构建全链路高性能RDMA架构:** DHPS架构通过端网协同设计,实现了RDMA技术在在线服务场景下的规模化落地。通过构建支持AZ级部署的四层网络,以及自主研发的高性能存储引擎和RDMA通信库(opt-rdma),DHPS有效解决了传统分布式架构中计算节点访问存储节点带宽散出激增和TCP通信效率低下的问题,将通信延迟从毫秒级降低至百微秒级,显著提升了服务响应速度。

💡 **创新高性能存储引擎与通信库:** 为满足在线推理服务对特征向量存储的需求,DHPS研发了新一代存储引擎,采用12路Cuckoo Hash索引和SIMD匹配算法,优化了批量读取和过期回收机制,有效降低了内存碎片率。同时,其自主研发的opt-rdma通信库简化了RDMA编程模型,提供类似RPC的接口,实现Zero Copy和无锁全异步设计,单机QPS可达数千万,为高性能通信提供了坚实基础。

⚖️ **智能流量调度与容错机制:** DHPS架构实现了基于硬件和网络配置感知的智能流量调度,优先在同POD或同AZ内利用RDMA进行通信,最大化发挥其低延迟高吞吐优势。同时,它支持RDMA/TCP协议的自动选择和切换,通过实时数据采集动态调整策略,并在检测到RDMA异常时自动回退到TCP,保障了服务的稳定性和高可用性,实现了AZ内RDMA与TCP的常态化混合调度。

🌐 **AZ级RDMA网络打破传输限制:** DHPS通过自研的51.2T网络交换机和主机网络协议栈,构建了支持AZ级部署的RDMA网络。利用自研拥塞控制算法和PFC-Free设计,克服了DCN Lossy网络的限制,实现了RDMA传输域的拓展,使得RDMA通信不再局限于POD内,大幅降低了成本,同时保证了数据中心内RDMA与TCP流量的常态化混跑,提升了稳定性和效率。

📈 **显著的性能收益与广泛应用前景:** DHPS架构的实施带来了查询吞吐量提升270%+、更新性能翻倍、内存碎片率下降40%、网络延迟降低35%等显著性能提升。在资源利用方面,CPU节省使得GPU机器密度翻倍,为大模型迭代提供了更大空间。该架构已集成至快手统一的服务治理平台,具备高度可复用性,可广泛应用于HPC、分布式存储、大规模模型推理等领域,引领AI基础设施向高密度计算分布式架构演进。

一、项目背景

当前在线推理服务架构中,计算节点(推理服务)与存储节点(在线 PS 服务)之间存在海量的实时数据传输需求。随着模型参数量剧增,传统分布式架构需扩展到成千上万个服务节点,导致计算节点访问存储节点的带宽散出激增,进而推高访问延迟。加之当前主流的 TCP 网络通信存在 CPU 占用高、延迟高、吞吐低等劣势,严重制约了服务响应时间,限制了模型预估机器的横向扩展(Scale-Out)规模。

结合快手的业务需求,我们的目标是将传统分布式架构升级为高密计算存储分布式架构。通过 RDMA 通信构建计算节点与存储节点之间的高效互联体系,节省 CPU 算力,提高 GPU 算力密度,同时显著提升网络传输效率,为未来更大规模的 AI 基础设施建设奠定基础。为此,我们构建了国内第一个在在线系统中实现的可负载均衡的基于 RDMA 通信的高性能服务架构 DHPS。

二、技术实现

2.1 整体架构

DHPS 架构通过端网协同设计,构建了覆盖计算、存储与网络的全链路高性能体系,实现了在线服务场景下 RDMA 技术的规模化落地与智能化调度,其架构创新可归纳为三大核心模块:

2.2 高性能存储引擎研发

为满足在线推理服务对支持高性能读取且需实时更新的特征向量(Embedding)存储需求,我们针对传统链式哈希方案存在的读路径冗长、过期管理效率低及内存碎片严重等问题,设计了新一代存储引擎。该引擎在保持原有接口兼容性的前提下,显著提升了读写性能,并有效降低了运维成本,其核心优化点包括:

2.3 基于 RDMA 的高性能网络通信库

过去十几年间,网卡带宽已实现从千兆到 800Gb 的跃迁。然而,在网络 I/O 密集型业务场景中,随着网卡性能的提升,操作系统处理网络 I/O 的开销也同步增大,这不仅推高了通信延迟,更严重制约了服务整体吞吐量的提升。其根本原因在于 CPU 算力的发展速度远滞后于网卡性能的提升。为突破这一瓶颈,亟需借助专用芯片来提升网络传输效率,减少 CPU 参与度。RDMA 技术应运而生。

RDMA 是一种高性能网络数据传输技术,它允许计算机绕过操作系统内核和 CPU,直接通过网络适配器访问远程主机内存。其核心原理是由网卡硬件实现内存到内存的直接传输,彻底消除了传统网络通信中的性能瓶颈,具备高吞吐、低延迟、内核旁路以及近乎零 CPU 消耗等显著优势。

然而,RDMA 的应用也面临两大挑战:

为此,我们研发了一套基于 RDMA 的高性能网络通信组件。该组件旨在:

接下来,我们将从易用性、高性能和鲁棒性三个方面来介绍该通信组件。

    高易用性
    高性能
    鲁棒性

2.4 流量调度与负载均衡

我们的业务服务(计算服务和存储服务)采用多 AZ 部署,其中计算服务是无状态的,而存储服务则是有状态的多副本多 Shard 部署,我们能够保证在每个 AZ 内部都会至少有一个完整的存储服务副本。

在流量调度方面,我们在遵循以下优先级规则,智能动态调整计算节点到存储节点的流量比例来实现负载均衡:

    **最高优先级:**优先网络 POD 内调度,优先 RDMA 通信

    次优先级:其次 AZ 内跨 POD 调度,优先 RDMA 通信

    最低优先级:跨 AZ 调度,通过 TCP 通信

我们实现了故障检测机制,在 RDMA 通信过程中如果遇到硬件故障、连接异常、网络拥塞或其它原因导致 RDMA 通信失败的情况,可以做到快速切换 TCP,保障服务性能。

为保障服务高可用与性能稳定:

2.5 AZ 级 RDMA 高性能网络

基础设施打造了端网一体的高性能网络解决方案,网络侧通过 DCN5.0 全异构网络架构搭载自研 51.2T 网络交换机支持高密服务器 800G 双上联接入,在提供超大带宽的同时保证了网络接入的高可靠。主机侧自研拥塞控制算法和网络协议落地行业首个基于商业非定制化网卡的 AZ 级 RDMA 多协议混跑方案,克服了 DCN Lossy 网络的限制,实现了 PFC-Free,打破了过去 RDMA 传输局限于 POD 内的传输距离限制,拓展传输域实现 AZ 内 RDMA 网络的互联互通。对比行业基于大 buffer 交换机和自研定制网卡的昂贵方案,在大幅降低成本的同时提供了 RDMA 网络传输的大连通域、低延迟、高吞吐。结合流量亲和性调度,实现在数据中心内 RDMA 流量与 TCP 流量常态化混跑,并提升了其稳定性和效率。

    全异构高性能物理网络
    自研主机网络协议栈
    联合业务高效高性能网络运营

三、性能收益

DHPS 架构通过端到端的技术革新,在多个维度实现了性能突破,为在线服务场景提供了量化可衡量的价值提升:查询吞吐提升 270%+,更新性能翻倍,内存碎片率下降 40%,网络延迟降低 35%,在超大规模集群中实现 99.999% 服务可用性,为企业级应用提供业界领先的高性能在线服务解决方案;在线 GPU 机器上面因为 CPU 节省可以带更多卡,能进一步从 4 卡机器升级到 8 卡机器甚至更多,提升大模型和搜推广模型结合的迭代上限。

以快手推荐大模型的精排服务为例,架构升级显著收益:

不同存储引擎与通信协议下的极限吞吐对比:

Infer 收益(以推全的 million interest 服务为例,同等 qps 压力下)

此外,DHPS 架构优势在 TCP 和 RDMA 流量常态混合状态下稳定运行。在 TCP 与 RDMA 混跑下,CPU 机器单机极限吞吐优于单 TCP 极限吞吐。

四、未来展望

DHPS 作为国内首个在在线系统中实现的、基于 RDMA 通信的可负载均衡高性能服务架构,在满足快手在线系统严苛的高稳定性要求下,不仅实现了卓越性能(查询吞吐提升 270%),更显著提升了业务迭代能力上限,为大模型在搜索、广告、推荐等核心场景的落地奠定了坚实基础。

该架构的价值远超在线推荐场景。其 RDMA 自研通信库已作为核心组件集成至 KESS(快手统一的服务治理平台)。整套高性能基建设施(涵盖网络、存储、通信库)具备高度可复用性,可广泛应用于高性能计算 (HPC)、分布式存储系统、大规模模型推理服务等关键领域。这标志着搜索、广告、推荐(搜推广)领域的传统分布式架构,正在向面向 AI 大模型的高密度计算分布式架构演进。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DHPS RDMA 高性能计算 AI基础设施 快手
相关文章