IT之家 04月18日 15:48
字节跳动开源 Godel-Rescheduler,号称适用于云原生系统的全局最优重调度框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动开源了Godel-Rescheduler,一个专为云原生系统设计的全局最优重调度框架。该框架通过全局最优调度策略,识别并解决集群中的异常节点和任务问题,智能推荐任务到合适位置,并生成详细迁移步骤,从而提升集群整体稳定性。Godel-Rescheduler包含Policy Manager和Movement Manager两个核心模块,支持多种重调度策略协同工作,如合并部署、负载均衡和碎片整理。在字节跳动内部应用中,该框架已有效降低了GPU碎片率,并控制了热点节点比例,实现了资源的优化配置。

💡Godel-Rescheduler是一个基于全局最优调度策略的重调度框架,旨在优化云原生系统的资源分配和任务摆放。

⚙️该框架由Policy Manager和Movement Manager两个核心模块构成,前者负责输出重调度决策,后者负责执行这些决策。

✅Godel-Rescheduler支持多种重调度策略,包括合并部署、负载均衡和碎片整理,以满足不同的优化需求。

📊在字节跳动的实际应用中,Godel-Rescheduler已成功降低了GPU碎片率至5%以下,并控制了热点节点比例至0.1%以下。

🔗该框架已应用于字节跳动多个内部项目,证明了其在提升集群稳定性和资源利用率方面的有效性。

IT之家 4 月 18 日消息,在云原生调度中,一次调度往往无法解决所有问题,需要配合重调度来优化资源分配和任务摆放。今日,字节跳动技术团队宣布开源 Godel-Rescheduler,号称是“适用于云原生系统的全局最优重调度框架”。

据字节官方介绍,这是一个基于全局最优调度策略的重调度框架。它不仅能识别集群中的异常节点和任务,还能智能推荐任务到最合适的位置,并通过图算法生成详细的迁移步骤,确保集群的整体稳定性,真正实现全局最优调度。

Godel-Rescheduler 由两个核心模块组成:Policy Manager 和 Movement Manager。其中,Policy Manager 负责输出重调度决策,而 Movement Manager 则负责拆解并执行这些决策。整个框架的目标是通过重调度,使集群朝向全局最优状态发展。

目前字节跳动已经成功将 Godel-Rescheduler 应用到多个内部项目中,支持多种重调度策略的协同工作。例如:

在实际应用中,Godel-Rescheduler 已帮助字节跳动的数万卡 GPU 集群将碎片率控制在 5% 以下,同时在大规模混合部署集群中,热点节点比例控制在 0.1% 以下。

IT之家附 Godel ReScheduler 项目地址: 
https://github.com/kubewharf/godel-rescheduler

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Godel-Rescheduler 云原生 重调度 字节跳动 资源优化
相关文章