字节跳动技术团队 前天 15:00
字节跳动开源 Godel-Rescheduler:适用于云原生系统的全局最优重调度框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动开源了Godel-Rescheduler,这是一个基于全局最优调度策略的重调度框架,旨在解决云原生调度中资源分配和任务摆放的问题。该框架由Policy Manager和Movement Manager两个核心模块组成,通过智能推荐任务位置和生成迁移步骤,实现集群的整体稳定性。Godel-Rescheduler支持多种重调度策略协同工作,并在字节跳动内部项目中取得显著效果,例如降低GPU碎片率和热点节点比例。未来,Godel-Rescheduler将持续扩展和优化,以提供更丰富的调度策略和更强的可解释性。

💡 Godel-Rescheduler的核心在于其全局最优调度策略,而非传统的局部问题解决方式。该框架通过Policy Manager和Movement Manager两个核心模块协同工作,实现对集群资源的优化调度。

⚙️ Policy Manager作为算法与策略控制中心,负责配置重调度策略、迁移条件检测和执行相应的算法。它包含Policy Controller、Policy Configurator、Detector、Algorithm Provider、Movement Checker和Validator等子模块,共同输出最优的调度决策。

🚀 Movement Manager负责决策的执行和排序,确保调度结果的有效性。它包含Movement Generator、Task Killer和Movement Recycler等子模块,通过有向图算法生成优化的迁移批次,并按顺序执行每个移动决策。

✅ 字节跳动已将Godel-Rescheduler应用于多个内部项目,支持合并部署、负载均衡和碎片整理等重调度策略。在实际应用中,该框架显著降低了GPU碎片率和热点节点比例,提升了集群的资源利用率。

字节跳动开源 2025-04-18 14:37 重庆



在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。传统的重调度框架主要集中在识别异常节点或任务,并通过迁移或删除来解决。然而,这些框架往往只能解决局部问题,无法提供全局最优的调度方案,且容易出现多重调度策略冲突,影响整体稳定性。

为了解决这些问题,字节跳动研发了 Godel-Rescheduler,一个基于全局最优调度策略重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。


项目简介


Godel-Rescheduler 由两个核心模块组成:Policy Manager 和 Movement Manager。其中,Policy Manager 负责输出重调度决策,而 Movement Manager 则负责拆解并执行这些决策。整个框架的目标是通过重调度,使集群朝向全局最优状态发展。

> 架构概览
组件介绍

Policy Manager 作为算法与策略控制中心,Policy Manager 负责配置重调度策略、迁移条件检测和执行相应的算法。它输出全局或局部最优的调度结果,并将决策传递给 Movement Manager。

Movement Manager 负责决策的执行和排序,并将新的调度结果上报,同时清除过期的推荐结果。

> 字节跳动的实际落地

目前,字节跳动已经成功将 Godel-Rescheduler 应用到多个内部项目中,支持多种重调度策略的协同工作。例如:

在实际应用中,Godel-Rescheduler 已帮助字节跳动的数万卡 GPU 集群将碎片率控制在 5% 以下,同时在大规模混合部署集群中,热点节点比例控制在 0.1% 以下,取得了显著的效果。


未来发展


未来,Godel-Rescheduler 将持续扩展和优化:

相关链接



Godel ReScheduler 项目地址: 

https://github.com/kubewharf/godel-rescheduler


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Godel-Rescheduler 云原生 调度优化 字节跳动
相关文章