dbaplus社群 2024年09月08日
追求5个9(99.999%) 的可用性,代价实在太大了……
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨追求五个九(99.999%)可用性的意义及成本,包括基础设施建设、运营管理、人力成本等方面,分析其收益是否值得投资

🎯追求五个九的可用性要求每年仅5分钟停机时间,是分布式系统卓越基准,但实现此目标需巨大成本。如建设内部部署基础设施,包括场地租赁或购买、硬件设备复制、高速网络连接等,成本高昂

💼运营成本也是重要因素,管理复杂多层冗余等会带来诸多挑战,如监控需求增加、事件管理需求增加、对质量保证和测试的需求增加等

👥人力成本同样不可忽视,高可用性要求使运营团队处于高压环境,可能导致压力和倦怠、人为错误增加、员工流动率高等问题

📉收益递减规律表明,在追求高可用性过程中,超过一定峰值后,额外投资带来的稳定性效果微乎其微,企业需权衡成本和收益

原创 Ajinkya 2024-09-07 08:01 广东

追求“5个9”是有意义的,但所付出的成本是否能带来对等收益呢?




实现五个九 (99.999%) 的可用性,要求正常运行时间保证每年仅 5 分钟的停机时间,确保近乎恒定的可用性和可靠性,是分布式系统卓越的基准。尽管它提供了更高的弹性和正常运行时间,但问题是:代价(成本)是什么?


追求持续正常运行时间需要付出巨大的财务、运营和人力成本。在追求 5 个 9 的过程中,经常会忽略一些方面,即通过分析来质疑收益是否值得投资(考虑收益递减规律)。


支出成本:基础设施建设


尽管现在大多数中型公司都在利用云,但必须考虑内部部署基础设施的冗余资本支出,以实现高可用性。


很多公司需要在不同的地理位置部署多个数据中心,以确保持续可用性。多个数据中心可以防止局部故障,但维护这些数据中心包含以下成本支出:





运营成本


管理复杂多层冗余、精密的故障转移机制以及众多相互连接的服务所产生的成本,可能会由于以下原因带来运营挑战:








假设的条形图比较了中型企业不同可用性级别的灾难恢复、渗透测试和性能测试的成本


人力成本


支出和运营成本是追求高可用性的首要考虑因素,但同时,维护这些系统的人力成本也至关重要。对 IT 运营和团队来说,高可用性的具体要求的程度会影响他们的整体感受和工作满意度。其中不限于以下因素:





收益递减规律


从经济原则来看,对某一领域的投资达到一定程度的时候,产出或性能的收益最终会减少。在追求分布式系统的高可用性上也是一样,超过某一个峰值之后,额外的投资所带来的稳定性效果微乎其微。


从 99% 升级到 99.9% 通常会显著提高客户满意度和可靠性,这也是最具成本效益的,可以直接通过实施基础设施冗余、事件管理和监控方面的标准做法来实现。然而,从 99.9% 升级到 99.99% 或 99.999% 时,前面所提到的所有因素(例如增强冗余、监控和全面测试),成本会急剧上升。


随着投资的增加,停机时间减少所带来的回报也会减少。例如:



正如我们老生常谈的,平衡关键系统和非关键系统的成本非常重要。企业必须区分任务关键型系统和非关键系统,并只在停机时间可能对其声誉或成本产生重大影响时,才要考虑花费更多成本在可用性建设上。


结论


实现“五个九”需要花费大量的组织、运营、财务和人力成本。


虽然对于特定行业的特定组织来说追求“5个9”是有意义的,但大多数组织必须权衡成本和收益。


在大多数情况下,降低可用性目标可能有助于实现更好的平衡,从而实现可持续运营和更健康的工作文化。随着系统的发展,考虑开发可用性需求、优先考虑弹性、灵活性以及这些系统背后人员的感受也变得同样重要。



作者丨Ajinkya Mahadeo Ghadge     编译丨Rio

来源丨网址:https://thenewstack.io/the-hidden-costs-of-chasing-five-nines-in-availability/

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

五个九可用性 成本收益 运营管理 人力成本 收益递减规律
相关文章