原创 凌沧、江陵、菁铃 2025-07-23 08:30 浙江
这是2025年的第81篇文章
( 本文阅读时间:15分钟 )
01
从测试效能到资金安全的智能进化
在上一篇《基于智能体的自适应测试系统 - 淘工厂实践(一)》中,我们分享了如何通过多智能体协作提升测试效能。然而,当智能体技术在研发测试领域展现出惊人潜力时,一个更为关键的问题浮出水面:在电商平台每天数以亿计的交易流水中,如何确保每一分钱的流转都精准无误?
如果说测试环节的疏漏可能导致功能缺陷,那么资金链路的漏洞则直接关乎平台的生存根基。一个看似微小的计算偏差,在海量交易的放大效应下,可能演变为百万级的资金损失;一个配置异常,可能让羊毛党在几分钟内薅光整个营销预算。正如我们在测试场景中将智能体比作"虚拟应届生",在资损防控领域,我们更需要的是一群"7x24小时不眠不休的资金守护者"。
从研发效能到资损防控,看似是两个不同的技术领域,实则共享着相同的底层逻辑:如何让AI从被动响应走向主动预防,从单点优化走向全链路守护。当我们已经证明了多智能体可以像经验丰富的测试工程师一样思考和执行时,下一个挑战便是——让它们像资深的风控专家一样,在错综复杂的资金流转中嗅出每一丝异常的味道。
1.1 传统资损防控的困境
在电商业务快速迭代的背景下,尽管已经建立了事前防控机制,但传统模式在应对日益复杂的资损场景时仍显力不从心。当前的防控流程通常包含需求评审、测试验证、线上回归等多个环节,但这种依赖人工经验的防控体系正面临严峻挑战。
当前的防控体系存在三大核心痛点:
体系孤岛:虽然在需求评审、代码审查、测试等环节都有防控措施,但各环节相对独立,缺乏体系化的协同机制。
效率低下:从风险识别到监控部署,整个流程仍然高度依赖人工操作。在业务快速迭代的背景下,防控措施的部署速度往往跟不上业务变化的节奏。
经验断层:资损案例散落各处,新人难以快速掌握历史教训,导致相似问题反复发生。每一次事故复盘的宝贵经验,往往随着人员流动而流失,无法形成组织记忆。
1.2 当资损防控遇见智能体
基于Agentic AI的新型资损防控范式,实现从"散点防控"到"智能体联合防控"的跃迁,通过多智能体协同构建起覆盖需求分析到实时监控的全链路自适应主动防护体系。
新范式的核心突破在于:
前置防控:在需求阶段就开始介入,通过AI分析识别潜在风险,将防控关口前移;
全链路覆盖:从需求到上线运行的每个环节都有智能体参与,形成立体防护网;
知识沉淀:通过构建"资损知识图谱",将历史案例结构化存储,形成可复用的组织智慧这种转变就像从"人工巡逻"升级到"智能安防系统"——基于历史数据预测风险,真正实现了从"事后救火"到"事前防火"的跨越。
02
多智能体资损防控框架
2.1 系统架构设计
为了解决传统资损防控下的覆盖度低、易疏漏缺失、过程繁琐、人工成本高等痛点,智能体新范式下的防控系统,通过多个专业化智能体,丰富的历史资金安全文档、问题复盘文档、各域沉淀历史参考核对等,实现全自动防控生成、搭建与部署,更高效更全面地保障被测系统的资金安全。
新范式下系统设计如下图中所示,系统的运作流程:
首先,当一个需求来临时,知识抽取Agent负责从用户输入的复杂需求文档中提取关键信息。随后,由资损分析Agent团队展开深入分析,其中资损明细分析Agent基于专业知识库进行风险识别,而资损明细对抗Agent则负责审核和优化分析结果,确保分析的准确性和全面性。在风险识别完成后,核对布防Agent介入设计多重验证机制,构建起严密的数据核对防线。最后,产出监控Agent和指标监控Agent分别从数据完整性和业务指标两个维度进行实时监控,形成了从需求分析到防控闭环的风险防控体系。
其中,新Agent系统五大核心智能体模块的主要任务如下:
具体实际场景中的编排流程如下图所示,包含“知识抽取”、“资损分析”、“核对生成”、“离线分析”、“指标监控”、“产出分析”等链路模块及子Agent。为了保障整个新范式框架方案在实际情况中能有更优异全面的表现,我们也在各个模块中做了优化设计。接下来,我们将结合一个“小程序-下单得积分玩法”的具体案例展开介绍。
03
多智能体资损防控系统案例实践
在日常项目测试中,我们发现,当一个需求来临时,传统的资损防控体系中的相关同学知识获取主要依赖人工经验总结和文档梳理,这种方式存在几个显著痛点:
大量存量核对代码和安全文档分散,缺少关联性。随着时间的推移,查阅对比耗时费力;
项目节奏紧,部分资损风险初期未暴露。随着参与人逐步深入了解,文档总结接触更充足,后期才逐渐暴露,导致防控后置;
在面对需求时,经验沉淀往往依赖个别同学,新接手的同学遗漏风险极高,领域知识经验传承断层风险同样大;
人工总还是容易挂一漏万,尤其面对资金安全的风险,难以建立全面高质量系统化的防范体系,没法很好查漏补缺。
针对以上痛点,我们透过下面一个实际案例执行,展开我们在知识提取、知识库构建、需求分析及核对监控生成各个模块上的解法与思考。
3.1 智能化知识提取机制 & 知识库构建—全面获取沉淀知识
为了解决传统范式下“大量存量核对代码和安全文档分散,缺少关联性以及遗漏 ”的问题,新范式下,我们引入了智能化的历史知识提取机制。更全面获取沉淀知识,辅助分析决策,来减少遗漏情况发生。首先,在Agent开始分析需求前,会基于大量历史核对、资金安全理论文档及历史复盘文档等,通过大模型进行离线分析预处理,自动生成规则和资损点。此外,为AI Agent做风险分析更好地匹配涉及点,我们构建四维度专业知识源,确保知识内容的全面性和专业性,其中包含:
历史资损事件:完整记录事件详情、影响范围和处置过程,防止重复踩坑;
防控分析手段:涵盖防控策略、技术手段和效果评估,输出最佳实践;
各域资损特性:掌握不同业务域的高风险场景和关键指标,实现精准防控;
业务知识库:涉及业务流程、技术架构等基础知识,支撑分析判断。
当然,在提取到所有相关可用的历史信息后,我们还需要通过接下来的步骤筛选哪些才是真正“正确”、“符合”、“可用”的知识。
如下图,用户输入“小程序-下单积分玩法”的需求文档后,匹配到的资损风险点。
3.2 需求文档分析——前置风险发现
当我们拥有了强大的背景沉淀知识后,首先要做的就是将这份知识更早地使用,更早地在防控成本最低的时候识别到问题并避免发生。针对传统范式下 “背景知识需求大,问题初期未暴露的情况”的问题,新范式中,我们的Agent结合上文智能化提取到的知识,对用户输入的“小程序-下单积分玩法”需求文档,展开分析。当接收到PRD文档后,Agent会从五个关键维度进行系统性分析:金额计算错误、重复/遗漏计费、资金流转错误、资金状态不一致、账务处理不当。此外,基于识别出的风险点,Agent自动生成如下多层次的防控建议:
产品层面:优化业务流程设计,如在权益发放链路增加逆向追回机制;
技术层面:增强校验和保护措施,如考虑限流场景下的消息时序问题;
核对方案:生成具体的数据核对SQL和规则定义;
监控方案:设计关键数据和业务指标的监控策略。
实际通过Agent分析执行过程中,我们发现如果直接将找到的“海量”相关知识投喂给Agent,生成的分析内容质量很低。具体case中通常表现为Agent产出“内容宽泛”、“风险点与实际问题相关性低”、“无关信息过多”等。这些问题,也都是传统知识库召回机制存在的典型问题:
召回过于粗暴:缺乏精细化的匹配策略,导致返回结果质量参差不齐;
信息过度碎片化:返回的内容缺乏逻辑关联,难以形成完整的知识体系;
无效内容占比高:大量噪声信息干扰,降低了知识库的实用价值;
资损分析针对性不足:通用性知识库难以满足资损防控场景的专业需求。
所以:怎么从海量相关知识里,获得更适用的参考知识?
问题的核心在于,我们需要调整原本的召回方式,找到相关性更高更细节的信息。针对这个问题,我们在实践中借鉴了DeepResearch的思想,设计了多轮渐进式内容匹配机制。通过“全文粗排”、“段落精准匹配”到“关键词匹配”多轮匹配过滤,获取到精度更高的相关性更高的内容。如表格中所示,三轮采用了渐进式筛选策略。
如下图所示例子,就是我们刚才提到的“小程序-下单积分玩法”中,基于三轮渐进式分别匹配到的内容:
在拿到多轮匹配内容后,我们通过“知识库重建Agent”,接收三轮提取结果,结合原始产品文档进行综合分析,进行匹配信息的融合。主要目的是在多轮匹配结果中,采用独立“审查”角色的Agent实现信息的内容去重与质量审核,与我们在首篇测试架构文章中所提及的对抗助手增强模式类似。核心的策略,基于内容相似度的智能去重,并结合相关性、完整性、专业性重新给出综合的“适用性”评分。最终,内容被分类整理并格式化输出。
例:按照资损防控知识来源进行智能分类
如下图所示,在这个例子中,资损分析基于这些知识产出的全量风险点。除了有对应模块、风险等级、影响范围、触发条件、也分析给出了成因与建议方案等。
而针对所识别出产品方案中的漏洞,也给予修改建议。在需求文档产出时,快速通过新范式的系统检查分析,前置掉很多方案上的漏洞与问题,实现防控左移。
3.3 智能防控——全自动核对、监控生成&部署
传统模式下,从发现风险到部署监控往往需要经历漫长的人工流程:分析问题、编写核对SQL、设计监控规则、配置告警策略等。这不仅耗时耗力,更关键的是错过了最佳防控时机。当我们通过智能化手段在需求文档阶段就识别出潜在风险后,下一步的关键是如何快速将防控措施落地。新范式下,我们通过多个Agent协作实现、核对编写&部署、产出及业务指标监控生成及部署的全自动防控生成与部署。
智能核对布防
智能体在根据具体风险点生成核对的实践中,我们同样遇到了大模型“幻觉”及“遗漏历史信息”的挑战,具体表现在:
大模型幻觉导致的"空中楼阁" :生成的SQL中引用了数据库中根本不存在的表名或字段名;
重复建设造成的资源浪费: 对已经存在完善监控的场景重复生成相似规则,创建功能重叠的新核对任务。
针对这些问题,我们借鉴业界常用的Soft Thinking思路,设计了新的解决方案。新方案通过:前置元数据校验-> 多SQL生成并行竞优->相似布防去重 的三步走策略,从前期数据筛查到生成去重,确保高质量SQL的生成。
前置元数据校验
这是整个流程的基础环节,主要工作是在实际构建SQL之前进行数据结构的预检查。具体包括:
对目标数据库中的表结构进行全面扫描和验证
检查所涉及表的字段是否存在、字段类型是否匹配
验证表之间的关联关系是否合理
确保元数据信息的完整性和准确性
前置校验能够确保大模型基于真实的数据环境生成SQL,避免产生无效的查询语句。
多SQL生成器并行竞优
这个步骤采用了并行计算的思路,通过多种方式同时生成SQL方案:
同时启动多个SQL生成器进行并行运算
每个生成器基于不同的优化策略产出候选方案
建立评分机制,从多个维度对生成的SQL进行评估
通过智能评审系统,筛选出最优的SQL方案
我们发现这种竞选机制能够显著提高最终SQL的质量。
相似布防去重
这是优化阶段的关键步骤,主要进行SQL查询模式的比对分析:
分析不同SQL之间的查询模式相似度
检查表的关联关系是否存在重复
评估过滤条件的异同
识别并合并相似的查询逻辑
最后,我们通过这种方式对结果筛选,避免重复的查询操作,提高核对产出效率。
智能产出监控
智能产出监控Agent会针对数据表的产出时效配置必要的监控。Agent会通过关键数据自动识别,做到智能监控配置。
其中,在关键数据自动识别方面,监控Agent能够从多个维度自动识别需要监控的对象。首先,它会分析产品需求文档(PRD),从中提取业务实体并将其智能地映射到相应的数据表。同时,Agent会分析离线表的历史分区产出时间,以此识别数据的更新规律。此外,通过解析任务的调度配置信息,Agent能够确定数据的预期产出时间窗口。
在智能监控配置方面,系统会综合分析现有的监控配置和历史报警数据,自动生成最优的监控方案。具体来说,系统会根据历史产出情况和调度配置,智能判断是否需要建立新的监控规则或修改现有规则。在设定监控时间阈值时,系统会考虑历史产出的波动情况,确保阈值设置合理可行。最后,系统能够自动完成监控配置的生成和部署,大大减少了人工操作的需求。实际执行案例中,如下图中,通过Agent分析并部署产出监控。
业务指标智能监控
此外,在业务指标智能监控领域,新范式中我们通过Agent实现了一套全面的监控体系,主要包含智能指标体系构建和智能阈值设定两大核心功能。
在智能指标体系构建方面,指标监控Agent通过融合多源数据,构建了一个精准的监控体系。这个体系覆盖了多个业务维度,包括交易类指标(如订单金额分布、退款率趋势),资金类指标(如补贴使用率、账户余额变化),以及运营类指标(如客单价变化、优惠券核销率)。系统整合了多种数据源,包括离线表的历史分区产出时间、字段访问热度信息、现有监控配置,以及来自资损分析文档的防控建议。基于这些数据,Agent能够自动生成具体的监控建议,明确指出需要监控的具体对象、最佳监控时机、适用的监控类型,以及具体的监控值指标。
在智能阈值设定方面,系统采用了数据驱动的方法自动计算监控阈值。首先,系统会收集目标字段在多个历史分区中的统计数据,包括最大值、平均值、空置率等指标。然后,结合具体的业务特性和历史数据的波动情况,通过大模型技术计算出合适的置信区间。基于这些分析,系统能够生成既能保证监控效果又能平衡误报率和漏报率的监控阈值。最后,系统会自动完成监控规则的部署和生效,实现全流程的自动化操作。实际案例中,如下图,Agent分析并部署指标监控。
3.4 知识沉淀回流
在资损防控场景中,智能体系统面临的核心挑战是如何让系统"越用越聪明"。传统的静态知识库模式如同一本永不更新的教科书——无论使用多少次,它都无法从实践中学习成长。这种"知识僵化"现象在资损场景尤为致命:新型欺诈手段层出不穷,而防控系统却还在用昨天的经验对抗今天的风险,如同用固定剧本应对即兴表演,必然漏洞百出。
为解决这一困境,我们构建了离线与在线并行的双轨知识回流体系,如同为智能体打造了"长期记忆"和"工作记忆"两套互补系统:
离线回流
离线回流链路承担着知识深度加工的重任,通过三大数据源持续丰富智能体的认知边界:
在线回流
在线回流链路则追求"即学即用"的敏捷性。当用户标注某个判断结果后,系统立即提取关键特征并更新在线参数表,使下一次遇到类似场景时能够快速调整策略。这就像经验丰富的客服,在处理完一个特殊案例后,立即将解决方案分享给团队,确保相同问题不会重复困扰。
如下图在执行案例中,我们通过局部标注回流信息下图:
04
实践成效与展望
4.1 应用效果
在淘工厂的实际应用中,多智能体资损防控系统展现出显著成效:
风险识别提升:在需求阶段即可识别潜在风险,相比人工评审,提升了完整性和准确性
效率显著改善:防控部署时间从数天缩短至小时级别
预防效果明显:通过前置识别和全方位监控,有效预防了多起潜在资损事件
截至目前,智能体资损防控平台已分析25个需求,累计发现263个资损点,准确率达到42.9%,召回率63%。虽然准确率仍有提升空间,但在复杂的业务场景下,这样的表现已经为业务带来了实实在在的价值。
4.2 未来演进方向
在风险防控体系的建设中,我们从技术和应用两个维度规划了系统的发展方向。
在技术层面,主要聚焦三个关键方向:
通过执行过程badcase收集,持续优化智能体精准识别问题能力来提升准确率。这包括引入更多badcase案例作为知识库补充,同时针对不同特定类型的风险场景,尝试应用专项知识库及专用的Sub-agent模型以提升特定领域的识别效果。这些逐步提高系统针对各类风险的识别准确度。
我们将尝试多维数据的方式完善资损知识图谱的覆盖范围。通过收集和整合更多维度的多模态数据,构建更完整的风险特征网络。这个网络不仅包含基础的风险特征,还涵盖了各种风险因素之间的关联关系,使系统能够从多个角度评估潜在风险,构建起更加立体的风险防控体系。
重点推进实时监控与发现能力的建设。通过优化系统架构、持续提升Agent效率,将风险识别和响应时间压缩到最短。系统能够在风险事件发生的第一时间做出反应,大大提高防控的及时性和有效性。
此外,在应用层面,我们同样规划了两个重要方向:
致力于实现跨业务域的协同防控。通过打破各业务域、系统之间的信息壁垒,建立统一的风险信息(知识库)共享机制,使不同业务领域能够及时共享风险信息,协同应对各类风险挑战。
推动预警机制向智能决策升级。Agent系统不再局限于发现风险并预警,而是能够基于风险评估结果,自动制定和执行相应的处置方案,实现风险处置的自动化和智能化。让全自动再往前走一步。
通过这些技术创新和应用升级,我们希望构建一个更加智能、高效、全面的风险防控体系,为业务安全提供更强有力更高效的保障。
4.3 结语
从"救火队"到"防火墙",从被动响应到主动预防,基于智能体的资损防控实践代表了一种全新的安全生产范式。这不仅是技术的革新,更是思维方式的转变。正如我们在测试领域所践行的理念——"With great power comes great responsibility",当我们拥有了AI这样强大的工具,更应该思考如何用它来创造更大的价值,守护每一分应得的收益,为业务的健康发展保驾护航。
未来,随着技术的不断进步和应用的深入,我们相信这套智能化的资损防控体系将在更多场景发挥作用,真正实现"让天下没有难防的资损"的愿景。
05
因AI生长
加入我们!如果你对AI技术怀抱热忱,是深耕业务的实战派,无论你来自产品、技术、工程还是数据领域,这里为你提供实现价值的舞台、并肩作战的伙伴与施展才华的认可!快来加入,共创AI应用新未来!
欢迎留言一起参与讨论~