Thoughtworks洞见-微信公众号 07月08日 12:50
AI如何重塑IT运营:从救火式响应到智能进化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了人工智能(AI)如何变革IT运维,从传统的“救火式响应”模式转向更智能、高效的AIOps(智能运维)模式。文章指出,AIOps通过AI技术在故障预警、根因分析、自动化响应等方面发挥关键作用,从而打破IT运维的恶性循环。通过指标与告警管理、工单自动化、系统演进辅助等场景,AIOps帮助企业降低运维成本,提高系统稳定性,最终推动IT系统向更智能、更具韧性的方向发展。

🚨 传统IT运维面临挑战:传统IT运营模式在处理复杂IT系统时,往往依赖人工排查,导致问题发现滞后、解决成本高昂,甚至陷入“负循环”。

💡 AIOps的核心价值:AIOps通过AI技术在问题萌芽阶段介入,实现早期预警、自动化解决方案推荐和执行,以及知识沉淀,从而打破传统IT运维的恶性循环,实现“越早处理,成本越低”的良性闭环。

⚙️ AIOps三大核心场景落地:包括指标与告警管理(从“告警疲劳”到“精准洞察”)、工单自动化与响应(从“人力密集型”到“智能流水线”)以及系统演进辅助(从“推倒重建”到“慢演进”)。

🚀 AI驱动的IT运营新范式:AIOps推动IT运营从被动响应到主动预防、从人工决策到人机协同,并与架构团队共同负责长期的系统演进,最终实现IT系统变得越来越智能,迭代越来越稳定,从而支撑业务的数字化创新。

原创 熊子川 2025-03-25 11:33 陕西

AI不仅解锁了问题处理的效率边界,更通过持续学习推动IT运营从“被动修补”走向“主动进化”。展望未来,AIOps或将实现“自治运维”。

企业的数字化转型始终在不断推进,伴随而来的是IT系统的复杂性呈指数级增长。服务器、微服务、容器、数据平台等多层技术堆栈交织在一起,遗留系统与云原生架构相互耦合,快速迭代的业务需求与全球化部署的弹性要求,使得传统IT运营模式逐渐力不从心。

面对海量指标和告警、突发的故障、不断更新的运营知识以及持续的系统迭代需求,运维团队往往陷入“救火式响应”的恶性循环。然而,人工智能(AI)的引入为这一困局提供了突破之道——AI不仅解锁了问题处理的效率边界,更通过持续学习推动IT运营从“被动修补”走向“主动进化”。

IT运维的恶性循环与破局点   

传统IT运营遵循“发现-诊断-排查-解决-学习”的线性逻辑,但其核心矛盾在于:问题发现的滞后性与解决成本的指数级增长

当系统出现异常时,运维团队需要从成千上万的日志、指标和告警中定位根源。这一过程往往依赖支持工程师的经验与人工排查,耗时且容易误判。在我们为客户提供运维服务之前,企业平均需要数小时定位复杂系统的故障根因,而在此期间,业务损失可能已经产生。

更严峻的是,高昂的解决成本会倒逼团队选择“短视方案”——例如直接重启服务、打补丁、甚至屏蔽告警。这些临时措施虽能快速恢复业务,却为系统埋下更多隐患:无论是从可观测性还是系统代码质量来看,临时措施都会导致未来故障的连锁反应与更高的修复成本,从而使运营团队陷入『负循环』。最终的结果是更高的运维成本、逐步降低的可观测性、甚至渐渐腐化的系统。

AIOps(智能运维)的核心价值,正是通过AI在问题萌芽阶段介入,打破这一恶性循环。它从海量数据中提取模式,在故障影响扩散前预警、分析并推荐解决方案、根据问题的种类和优先级提供自动化解决方案并执行,同时将处理经验沉淀为可复用的知识,最终实现“越早处理,成本越低”的良性闭环。

AIOps的三大核心场景落地  

场景一:指标与告警管理——从“告警疲劳”到“精准洞察”   

传统监控工具常陷入“告警疲劳(Alert Fatigue)”:单一服务器CPU使用率飙升可能触发数十条关联告警,而其中仅1条指向真实故障。在客户与Thoughtworks合作中,我们构建了一整套端到端的可观测性解决方案,包括指标收集、告警梳理、异常处理、根因分析、协作软件集成、直到运营报告的生成,在这个过程中,我们的解决方案设计整合了多个平台、大语言模型、以及开源技术,最终,我们能够在工单生成前,从指标数据中精准识别问题并提前处理,以下是这个解决方案的若干构件:                                                                                   

这个实施方案里:我们通过ChronosphereOdigos进行多个信息源的可观测性指标的收集、筛选、合并最终生成优先处理的告警;告警通过Rootly告警管理平台进行管理,结合Slack平台与运营人员进行即时互动;同时利用Google Vertex AI提供的大语言模型进行AI辅助——例如事故总结、根因分析、基础知识辅助等;相关运营知识采用Glean的AI知识搜索功能进行抽取和总结;最终,在Slack上的处理结果将按类型分流:可以执行的自动化任务(由GitHub Actions完成)、更新的知识(自动生成Conflunce页面)、或自动生成的工单(通过JiraZendesk)。

通过这个解决方案的实施,我们预计AI可以通过自动化的方式处理超过20%系统告警、超过60%的告警可以得到在工单生成之前得到有效处理、最终降低整体的工单量。

场景二:工单自动化与响应——从“人力密集型”到“智能流水线”  

工单处理涉及大量重复性工作:用户提交故障描述、运维人员检索知识库、分派任务并手动验证结果。AI在此环节实现三重突破:    

1.自然语言处理(NLP)自动解析工单:用户描述的系统问题自动关联至性能指标、近期变更记录等上下文,生成结构化工单。

2.知识图谱驱动的自动化响应:例如,当识别到『登录失败』工单时,AI自动检查身份验证服务状态、防火墙规则及最近代码发布记录,并执行预置的检查脚本,60%的简单问题可自动解决。

3.智能分派与协同:根据故障类型、工程师专长和当前负载,动态分配任务,并推送关联案例和修复方案,减少跨团队沟通成本。

在与东南亚某国政府的合作中,我们利用该方案实现了工单预处理团队(Pre-L1)的全面自动化,成功替代8人的人工操作,每年为客户节省近百万美元的人工运营成本。

场景三:系统演进辅助——从“推倒重建”到“慢演进”

在与客户的合作我们越来越发现,一个健康、且持续健康的系统对于运营团队至关重要,优秀的系统架构、自动化程度、可观测性等等都可以大幅降低运营团队的成本、提升运营效率。所以Thoughtworks DAMO提出了『慢演进』的概念——相比高风险的“推倒重建”,更倾向于通过迭代优化,逐步提升系统健康指标。通过AIOps的实施,我们帮助客户节省了大量运营成本、同时我们将这些被节省的成本重新投入到系统的『慢演进』中去,这里我们同样使用AI进行系统演进。

例如以下这个例子:                                                                                                             

为了使得每次提交的代码,不引入架构问题、安全风险、或代码质量问题,我们采用AI和人协同进行代码审查的方式,秉承“持续改进”的敏捷思想,保证在每一次代码提交时不破坏系统健康。

在另一个案例中,我们结合大语言模型与知识图谱,从遗留代码中提取业务和系统知识,并将其转化为可复用的领域知识,助力研发、架构演进、及运维管理:                     

AI驱动的IT运营新范式  

AIOps不仅仅是将算法嵌入既有流程,而是推动IT运营向三个维度演进:

1.从被动响应到主动预防通过早期预警和根因分析,AIOps能够在问题影响业务之前就将其拦截,从而实现主动防控。

2.从人工决策到人机协同AI负责处理规则明确且高并发的简单任务,而人类专注于复杂决策和创新,通过这种方式,整理工单量得以减少,用户问题的响应能力也得到提升。    

3.与架构团队共同负责长期的系统演进:借助AI的力量,能够有效保护代码健康,并为系统架构的持续演进引驾护航。大语言模型的推理能力还能够用于领域知识的抽取与转化。

这种范式迁移的长期价值在于,随着AI技术的应用,企业IT系统将变得越来越智能,系统的迭代将越来越稳定,从而支撑业务的数字化创新,同时降低长期维护成本。

结语  

AI正在重新定义IT运营的“效率”与“价值”。它不仅是工具的升级,更是对角色定位的重新演绎:运维团队的角色从“系统修理工”转向“架构保护者”、甚至“业务护航者”,而IT系统本身也从“成本中心”演变为“创新引擎”。展望未来,随着大模型与AI技术的进一步成熟,AIOps或将实现“自治运维”。然而,这并不意味着取代人类,而是通过人机协作的智慧,成为企业数字韧性的真正基石。

更多关于AIOps的内容,敬请关注3月27日本周四的直播:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AIOps IT运维 人工智能 自动化
相关文章