哔哩哔哩技术 2024年10月25日
B站大规模数据中心搬迁的挑战与实践
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

B站数据中心历经18个月完成搬迁,新机房拥有先进设施和技术支持,优化业务布局,提升资源利用率和运营稳定性。文章从多方面阐述搬迁情况,包括背景、挑战、方案及执行等。

📋B站数据中心搬迁背景:业务发展使早期机房老旧分散,机柜饱和、可扩展性差且成本高,为支持业务多活等需求,采用高频率滚动搬迁方式。

💪机房搬迁面临的挑战:项目管理难,涉及多参与方协调;搬迁效率要求高,需规划完备技术方案;业务迁移复杂,涉及全业务场景且存在严格依赖关系。

📋整体搬迁方案:包括项目评估,涵盖梳理现状、成本分析、风险评估;整体计划,明确搬迁范围、时间等;前置准备,如梳理设备清单、选择搬迁供应商等;搬迁班车方案,采用滚动搬迁模式;业务迁移方案,分在线和离线业务;项目管理,强调跨部门协作;应急预案,应对各种风险。

📦搬迁执行:包括设备上架规划,按规则自动化计算;自动化搬迁流程,减少人为操作降低出错概率;物理搬迁的安全保障,考虑多因素降低风险;交付一致性保障,检查各项配置保证系统稳定;执行清单,确保搬迁各环节顺利进行。

🎉总结与展望:B站新机房以绿色节能为目标,降低PUE值和运营成本,提升业务承载能力,加强基础设施建设,为用户提供更好服务。

原创 通用工程 2024-10-25 12:01 上海

近日, B站数据中心圆满完成搬迁项目,为广大B站用户带来更好的访问服务体验。

01背景概述


历时18个月,跨越长三角多个地区,搬迁数万台服务器和交换机设备……B站数据中心圆满完成搬迁项目,新机房拥有更先进的基础设施和更全面的技术支持,将进一步优化上层业务布局,支撑业务整体的异地多活,有效提升资源利用率和运营稳定性,为广大B站用户带来更好的访问服务体验。




为什么要搬迁机房呢?随着近些年来B站业务迅速发展,对于基础设施的稳定性和可持续性要求也不断提高,而早期启用的机房相对老旧且分散,数据中心机柜已经饱和、可扩展性差且成本较高。同时为了支持业务多活建设、在离线业务混部和降低成本,对机房搬迁的需求更是与日俱增。我们经过综合考虑并权衡B站的各种因素,包括但不限于技术要求、服务质量以及成本效益等方面。最终,我们选择高频率、滚动搬迁的方式来进行机房搬迁项目,一方面能够满足我们对搬迁过程的要求,另一方面也同时保证了 B 站业务稳定运行。

数据中心搬迁是技术能力和组织管理能力的有机整合,本文主要从基础设施的角度出发,尽可能深入浅出地向大家阐明数据中心搬迁的整体背景,介绍搬迁的前期规划和准备,分析搬迁中面临的问题和挑战,盘点搬迁后的整体收益,最后还分享了我们对于机房搬迁的思考和总结。希望能通过我们的技术方案和实践经验,带给大家一些帮助和启发。


02 机房搬迁“牵一发而动全身”


此次涉及搬迁的四个机房支撑B站几乎全部在线和离线业务应用,是B站建站以来最复杂、最大规模的数据中心及业务迁移。在长达18个月的高频率滚动搬迁中,需要应对搬迁规模大、项目周期长、调度场景复杂、协调方面多、执行难度大等各种挑战。


1.项目管理难:项目涉及团队涵盖系统部、资源运营、基础架构、采购、各业务部门、机房代维、搬迁供应商等诸多参与方,整体协调难度大,做好统筹管理是高效顺利完成机房搬迁的关键。举例来说,从外部协调的视角来看,设备进出会涉及报关等流程事项,那就需要提前协调机房授权、报关、搬迁物流车辆及人员,时刻关注机房下架和物流情况,从而确保设备准确、快速到达目的地。而从内部协调的视角来看,搬迁涉及B站所有业务部门,需要协调好业务下线停机和上线窗口,编排业务设备搬迁批次,搬迁后及时有效交付业务,保障搬迁期间业务的连续性和稳定性。

2.搬迁效率要求高:为了控制成本,减少为搬迁准备的冗余资源开销,最终采用了每周滚动的搬迁模式,平均每周搬迁设备超过500台,单批次最多1700余台。这就需要提前规划好完备的技术方案,从而确保每周搬迁设备能够稳定、高效地交付给业务,才能保障每周搬迁班车正常运转。 

3.业务迁移复杂:本次搬迁涉及业务几乎覆盖B站的全业务场景,且业务之间往往存在严格的依赖关系,因此在开启搬迁项目之前,要深入调研各类业务的迁移需求,从而提前准备好搬迁方案以及各类问题应急预案,诸如数据中心间专线带宽、延迟和高可用的标准等要求。


03 整体搬迁方案


机房搬迁是一项复杂的系统性工程,需要提前指定详细的规划和执行方案,从而确保业务连续性和数据安全。因此,在搬迁实施之前,完整的项目执行方案必须就位,方案包括项目评估、整体计划、前置准备、机房搬迁批次规划、业务迁移规划、应急预案等。


1.项目评估


项目启动前需要对项目的可行性、效率和影响进行综合性分析,确保搬迁项目能够按照预定目标和标准顺利推进,并对项目的潜在风险和收益进行评价。项目评估主要包含以下内容:

1.梳理现状:对B站现有的所有机房,结合业务分布、技术架构、多活规划等进行梳理。

2.成本分析:综合考虑机房的IDC成本、商务条件以及B站未来3年的服务器增长后,成本分析给出了相当乐观的结论:搬迁机房可以带来显著的成本收益,而且在搬迁完成后的次月即可对收益开始回收。

3.风险评估:搬迁虽然能够带来显著收益,但是在搬迁过程中可能遭遇的各类风险更值得警惕。提前做好风险评估是搬迁项目里至关重要的一环。


 2.整体计划


明确搬迁设备范围、搬迁时间范围、搬迁顺序、新机房的资源供给、组织协调,形成整体计划。


总体计划
商务采购
准备搬迁机房相关技术、服务材料
冗余设备、备件采购
搬迁服务商招标
新机房环境准备
新机房网络需求准备
新机房综合布线需求
新机房整体环境准备
新机房机柜摆放、设备摆放规划
搬迁方案设计
原机房现状调研、设备梳理
业务系统与设备关联性分析
业务系统搬迁方案设计
物理设备搬迁方案设计
搬迁自动化流程设计
实施准备
新老机房数据备份迁移专线准备
业务数据备份
设备健康检查
备机、备件准备
应急预案准备
搬迁实施
第一周期批次设备搬迁
第二周期批次设备搬迁
......
搬迁收尾搬迁验收、文档整理、项目总结


 3.前置准备


1.梳理出所有需要搬迁设备的清单,包括服务器、存储设备、网络设备等。

2.搬迁供应商选择,选择一家专业机房搬家公司至关重要,可以降低服务器、网络核心等贵重设备在搬迁过程中产生损失。搬迁公司的专业经验、技术实力、团队素质、设备与工具、服务保障、口碑与信誉等都需要慎重考察和考虑。

3.新机房布局设计

4.新老机房之间专线建设

5.准备冗余资源


 4.搬迁班车方案


    滚动搬迁模式:旨在降低搬迁成本,通过减少对冗余资源的依赖并复用原机房资源来实现。在冗余资源有限的情况下,需要精确控制每次搬迁的数量,既要满足业务迁移需求,又要及时释放原机房交换机和服务器资源来满足下一批次搬迁班车的资源供给。

    按照包间划分搬迁周期,更好的释放出原网络设备资源,用于下一个新包间的启动轮转。梳理服务器、机柜分布情况,方便整体退租。引导业务按照整机柜搬迁,避免少量机器分散占用机柜的情况,以尽量降低成本。

    搬迁班车规划:根据冗余资源和整体时间要求确定搬迁批次数量和单批次搬迁规模,压缩每个搬迁周期(包含搬迁准备、业务下线、设备物流运输、设备上架交付、业务上线)到2周。如下图所示:每周都有搬迁班车,2个搬迁班车之间部分环节可并行执行,有效提升业务迁移效率。



 5.业务迁移方案


业务跨机房迁移方案包含制定迁移计划、评估业务系统、新环境准备、迁移应用和数据、测试验证和上线投产等步骤,以确保业务连续性和稳定性。新机房原来的定位是离线机房,搬迁项目确定后,新机房定位改为在离线混部机房。

1.在线业务

2.离线业务



 6.项目管理


跨部门多团队的协作是搬迁项目成功的关键。有效的组织和协调机制能够确保各方信息一致,确保每一次搬迁批次的搬迁实施能够按照计划落实。


 7.应急预案


搬迁期间要做好风险评估及相对应的应急预案,可以增强应急搬迁的整体效率,最大程度地减少突发事件导致搬迁无法进行、搬迁资源延迟交付等风险发生。

1.回滚方案:制定每个搬迁批次的回滚方案,及时响应协调和控制风险。如业务下线不符合预期导致设备无法下架,设备顺延到下批次搬迁班车,不影响整体搬迁班车执行。

2.搬迁时间周期:每个搬迁周期适度预留冗余批次,业务无法下线、疫情等因素会导致搬迁周期内部分批次无法正常搬迁,使用冗余批次完成该周期搬迁,从而不影响整体搬迁计划执行。

3.搬迁项目执行:关键节点跟踪,提前评估风险、识别风险及时做好应对措施。



04 搬迁执行


在机房搬迁执行中,首先需要制定合理的设备上架规划,通过自动化搬迁流程确保搬迁过程高效顺畅,同时进行物理搬迁时强化安全保障,藉由全面的检查确保交付的一致性,最后依靠详尽的执行清单确保各项任务落实到位。


 1.设备上架规划


1.按照每个搬迁班车批次的设备清单及业务需求,确认清单内设备的属性信息(尺寸、功耗、网卡规格及数量、电源规格及数量)和每个业务设备的上架分布需求。

2.规划规则:设备尺寸和机柜机位规格适配、机柜内PDU各规格插排不超可用数量、特殊设备做专项安排(商业存储等),合理规划搬迁设备在新机房的上架位置。

3.自动化上架规划:根据设备的类型、功耗、尺寸、网络端口以及业务分布需求,结合机柜功率、网络端口等分配规则进行排序和组合,按最大化机房综合利用率的原则程序自动化计算和规划。

4.产出设备在新机房的上架表格(包间、机柜、U位、设备信息、系统IP、管理IP等)。



 2.自动化搬迁流程


搬迁过程涉及业务迁移与设备关机,这本身就会带来稳定性风险,例如数据丢失和依赖应用故障等。同时,业务又有着极高的交付效率要求,那就需要尽可能实现全流程自动化以提升整体效率,减少人为操作环节,从而降低出错的概率。

    业务下线环节增加业务关机静默时间环节,支持因业务变化、业务下线异常等情况下的快速回滚。

    预设置,设备在原机房自动配置新机房的系统IP、管理IP,在新机房上架上电后无需配置。

    流程自动修改主机状态,防止误告警干扰正常生产环境

    流程中默认系统重装,也为特殊情况提供系统保留选择。

    按照新环境和业务需求自动系统初始化。

    交付基线校验环节保证交付质量。



 3.物理搬迁,安全保障


在服务器物理搬迁过程中,需要特别重点考虑以下因素:搬迁计划与时间规划、人员安排与协调、设备搬迁的准确性、控制设备故障率。


1.物流准备工作

2.按照设备清单搬迁设备,下架、打包、搬运、上架

3.安全保障




 4.交付一致性保障


按业务需求统一初始化,并对服务器BIOS与BMC配置、操作系统内各类服务与配置以及业务定制化项进行检查,保证交付设备的一致性满足业务需求,从而确保系统的稳定性。



 5.执行清单


由于本次搬迁设备类型杂、设备总数量多、搬迁频率高、交付要求严,根据搬迁技术方案,制定了一个详细的执行清单可以帮助确保每个环节都能顺利进行。在搬迁过程中,不断完善并严格按照以下清单逐项检查,将有效提高搬迁的效率和安全性。

搬迁执行checklist
搬迁步骤工作事项
搬迁需求确认业务提单
服务器需求确认
网络设备需求确认
搬迁服务流程发起
搬迁准备搬迁公司确认
搬迁计划确认
制作下架表
规划上架表
源机房人员和设备授权
目标机房人员和设备授权
目标机房人员和设备授权
搬迁执行现场勘察
搬迁标签粘贴
设备备件、打包材料准备
设备下架、打包、搬运、上架、接线
设备上电、检测、排障
搬迁验收
确认搬迁完成
完成验收清单
交付业务
系统初始化
交付基线校验
交付业务


05 总结与展望


在国家“双碳”战略目标指引下,B站新一代定制化数据中心以绿色节能为目标,将低碳经济、节能减排等理念引入新机房的建设,通过合理的布局设计、先进的节能设备和高效的运维管理,进一步降低机房的整体PUE值,减少能源消耗和碳排放,全面提升机房SLA。同时,随着数据中心搬迁,减少IDC机房和机房间互联专线数量,有效降低运营成本,实现每年近一亿的机房成本收益。

新机房加大了在离线混部力度,全B站IDC服务器CPU日均使用率从搬迁前的25%左右提升至搬迁后的35%以上。新机房采用了更优的网络架构和更新的网络设备,有力提升网络传输效率和响应速度,通过优化网络拓扑结构和安全措施,大大降低网络故障风险。通过批量替换故障硬件、更新问题固件、优化主机BMC/BIOS配置以及收敛操作系统内核版本和整治系统环境,降低硬件运维管理的复杂度,有效提升了新机房的运行效率和稳定性。业务则在机房迁移过程完成老旧业务梳理,下线无人认领应用,清理无用数据表和文件,完成了对线上环境的一次完整的梳理。

新机房正式投入使用后,B站数据中心的业务承载能力迈上全新的台阶,将为B站的快速发展奠定坚实的基础,提供更好的基础设施保障和支持。面向未来,B站将继续加强基础设施的建设和投入,不断提升平台的性能和稳定性,为广大用户提供更加优质的服务。



-End-

作者丨系统部团队、资源运营团队


开发者问答

关于服务器搬迁,大家还有什么优秀的建议和经验教训分享?欢迎在留言区告诉我们。转发并留言,小编将选取1则最有价值的评论,送出2024拜年纪 2233小电视 亚克力转运挂件1个(见下图)。10月29日中午12点开奖。如果喜欢本期内容的话,欢迎点个“在看”吧!



往期精彩指路


通用工程大前端业务线

大数据AI多媒体



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

B站数据中心 机房搬迁 业务迁移 绿色节能 基础设施建设
相关文章