互联网安全内参 前天 18:25
大模型+Agent+新架构,重塑安全可观测性
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了大型语言模型(LLM)在可观测性领域中的应用,尤其是在处理海量日志数据和安全数据工程中的潜力。文章指出,LLM能够通过分析和解析文本密集型日志,提取关键信息、检测异常以及进行总结和分类。同时,文章也分析了可观测性市场面临的挑战,如数据量激增、工具多样化和缺乏统一数据模型等。文章强调了LLM在解决这些问题中的作用,并提出了AI优先的安全数据工程和基于AI的追踪分析等创业机会。

🔍 LLM在可观测性中的核心作用体现在对日志数据的处理上。它们擅长提取关键信息、检测异常、总结趋势和进行分类,从而简化搜索和分析。

💡 可观测性领域面临诸多挑战,包括数据量巨大、工具多样化和数据模型不统一。LLM的引入有望通过统一数据分析方法来应对这些挑战。

🚀 安全数据工程是LLM应用的重要领域,例如Cribl,通过预处理、过滤和丰富数据来优化存储和降低成本。LLM在这一领域能够提供更高效的数据处理和分析能力。

🌱 开放可观测性框架(如OpenTelemetry)和开源模型正在重塑市场格局,降低供应商锁定风险,促进工具间的互操作性,为创新提供了更多可能性。


介绍:

ChatGPT 发布和 OpenAI 的 API 成为企业用例的 18 个月后,我们现在已经对LLM的最佳用途有了一个很好的认识:利用特定领域的知识搜索、检索和解析庞大的数据集,从而自动执行重复性任务。要找到LLM的企业用例,请查找最大的数据集("数据引力"):客户支持、领域知识、日志和事件、客户和运营数据、销售和营销数据以及 IT 基础架构数据是其中最大的数据集。

为了应对基础模型的兴起以及为其提供支持的庞大训练数据集,企业和技术供应商正越来越多地投资于自身的可观测性和遥测数据,以建立防御能力。通过收集独特、深度整合的产品使用数据,它们创建了基础模型难以复制的专有数据资产。随着数据日益商品化,这些真正自有的数据正成为至关重要的竞争优势。随着数据源和云应用的兴起,安全作为一个领域已变得更像数据工程

日志和事件通常是现代企业中容量最大的数据集(通常每天达 PB 级),其来源包括系统和应用程序日志、安全事件和网络流量。这些日志对于监控、诊断和合规至关重要。随着时间的推移,这些数据集会变得越来越庞大,并带来重大的数据工程问题。日志和事件还具有实时敏感性,超额成本也可能成为高管们的噩梦,因为他们对数据量和成本的预测有限。财富500强企业在可观测性数据上花费数千万到数亿美元并不罕见:OpenAI 向 Datadog 支付了超过 1 亿美元的费用,Coinbase 在 2023 年支付了 6500 万美元/年的费用,Capital One 支付了超过 5000 万美元的费用。因此,日志和事件是引入LLM的主要使用场景,因为系统和应用产生数据的数量和频率都很大。

可观测性市场是分散的,Datadog、Splunk 和 Dynatrace 等领先厂商各自占据不到 20% 的市场份额,合计收入超过 100 亿美元。此外,向多个 SIEM 产品发送数据的 Cribl 客户数量同比增长了 45%,因为不同的数据源需要不同的目的地,而且新的存储格式减少了锁定。Microsoft Sentinel 自推出以来,3 年内的总收入已超过 10 亿美元。可观测性总支出超过 300 亿美元,而且相当分散。Gartner 的一项调查发现,财富2000强企业平均拥有 7-10 种可观测性工具,每种工具都有自己的查询语言和数据模型。数据源的数量同比增长了 32%,超过三分之一的 Cribl 客户正在使用来自 10 个或更多数据源的数据。现代分布式系统每天都会产生 PB 级的遥测数据,数据格式多种多样,如日志、指标和追踪数据等,所有这些数据都来自不同的工具。

虽然这种方法适用于存储数据,但智能层却分散在各个数据孤岛中。真正的挑战不仅在于如何收集或存储这些数据,还在于如何快速理解这些数据,从而推动实现真正的业务价值。数据维度、开放式遥测技术的兴起以及存储中的开放表格式是重塑市场的关键趋势。有了可以读取异构数据格式的AI和LLM加持,复杂的数据挑战变得更容易应对。


安全可观测性数据模式基础:

可观测性是收集和分析数据以了解系统性能的全过程,由三大支柱组成。这三大支柱各有自己的数据类型和格式,历来需要特有的查询引擎和存储。

1.日志


2.指标


3.追踪



数据维度:

在数据处理和存储领域,尤其是日志数据,数据的维度和复杂性对其管理方式有很大影响。例如,Hydrolix 擅长处理大型多维事务日志,如 CDN 日志,这些日志记录了整个用户会话,包括在 Disney+ 等平台上的详细活动。这些日志不仅规模庞大,而且内容丰富,因此对于在不丢失任何数据的情况下进行长期存储和分析至关重要。Hydrolix 的方法旨在适应这些日志的高维性质,确保每项数据都能保留并可访问数年,这对于合规性和深入分析至关重要。

另一方面,微服务和容器化环境通常会生成规模较小、复杂程度较低的传统应用程序日志。这些日志通常频率较高,但单个价值较低,因此导致了诸如 Cribl 此类解决方案的发展。它能智能地过滤和删除价值较低的日志、指标和追踪。Cribl 的方法包括识别和丢弃低价值日志,同时将更相关的数据转发到 Splunk 等平台进行进一步分析。这种方法与 Hydrolix 的方法不同,后者的目标是保持所有数据的完整性,因为事务日志的维度和价值更高。这些策略共同强调了根据所管理数据的特定性质和维度定制数据处理和存储技术的重要性。


LLM在可观测性中的作用

因此,鉴于日志具有最大的数据量和最多的非结构化文本密集数据属性,LLM在这个场景下是最自然的选择。LLM在使用 NLP 解析和分析文本密集的日志方面应该非常有效,它可以对日志进行以下处理:

LLM在“指标”中的作用有限,因为它们通常是结构化和数值化的。期待厂商能够集成LLM中的一些先进技术,比如用自然语言总结指标的趋势或异常,或者基于数据趋势做预测分析。

追踪数据的有用性中等,在中等数据量下,考虑到结构化标识符与半结构化注释的混合,有一些优秀且可防御的用例。对于追踪数据,LLM可以更好地执行:

令人惊讶的是,深入研究后发现,安全领域数据工程的许多先进技术都是高度基于规则的,并且是从客户事件数据的数据模式中解释出来的,而不是基于训练有素的AI模型。规则层最初是从节约成本的规则开始的,例如哪些数据要路由到冷存储和比 Splunk 更便宜的系统,但也存在着以升级为重点的处理机会。通过将这些数据工程原则(传统上用于仓库的 ETL)应用于安全数据系统,Cribl 年收入已达到 2 亿美元,增长率达 70%,估值达 35 亿美元。这是他们的秘诀,也是定制配置 Kafka 规则的替代方案。


当今安全数据工程:

该图概述了从初始源(如网络数据、身份数据、云 APM 数据、CDN 数据和基础架构安全数据等)到数据处理、流式传输,最后到 SIEM 系统或数据湖存储的数据流。数据从这些源点开始,在这些源点产生大量数据;如前所述,这些数据是大多数企业中最大的数据集,这带来了许多挑战。Cribl 的报告分享了它所看到的最流行数据源的见解,其大多数企业客户都使用超过 10 种不同的数据源。Splunk 在所有数据源中最受欢迎,而 S3 等其他工具在快速增长的公司中很受欢迎,O365/Windows 事件日志在企业中最受欢迎。你可能注意到,该流程看起来很像围绕 Snowflake/DB 的传统数据工程。

由于成本过高,数据转换一直受到限制。因此,"预处理、过滤和丰富 "类工具(如 Cribl、Splunk DSP、Observo、Tarsal 和 Databahn 等新创公司)相对较新,采用新技术来清理、过滤和准备这些数据,确保优化数据以便进一步使用。对于初创公司来说,这些预处理公司最有机会,因为它们可以在不同供应商之间保持中立,有明显的成本节约投资回报率,也有明显的质量投资回报率。令人惊讶的是,人工智能在数据转换中的应用非常有限。

处理后的数据通常会进入 "数据流" 平台(如 Kafka、Pulsar、Flink),这些平台可处理实时数据流,对于需要即时洞察的应用来说至关重要。最后,数据被存储到 "传统 SIEM "系统(如 Splunk 和 Elastic)或 "数据湖"(如 Snowflake 和 Databricks)中,在那里可以对数据进行分析并长期保留。该图还重点介绍了 "下一代数据湖/SIEM "领域的新兴企业,如 Hydrolix 和 Runreveal,它们旨在利用先进的分析和存储功能来管理现代数据需求。这种结构化流程确保了数据从生成到存储的高效管理。这些下一代 SIEM 中,许多在节约成本方面都有类似的产品营销,只是通过不同的解决方案(如存储格式)来实现。

与数据源一样,我们发现 Splunk(Cribl 的大多数客户)和 S3 也是最常见的目的地。然而,我们发现在目的地方面,Splunk 的历史主导地位正日益分散,CrowdStrike 的 Falcon SIEM、Azure Logs(通过 Sentinel)和 Google SecOps 在 Cribl 用户群中的数据量增长均超过 250%。 今年,使用多种 SIEM 产品的公司增加了 73%。目标系统的碎片化程度不断提高,90% 以上的 Cribl 客户向 2 个以上的目标系统发送数据,12% 的客户向 4 个以上的目标系统发送数据,总体目标系统的年增长率为 15%。


Splunk 架构:转发器、索引器和搜索头

Splunk 的架构是围绕三个核心组件设计的:转发器、索引器和搜索头(the forwarder, the indexer, and the search head),每个组件都在数据收集、处理和查询中发挥着关键作用。转发器负责从传感器、API 和防火墙设备等各种来源收集数据,并将其实时发送到索引器;这正是 Cribl 的强项。但是,转发器对它接收到的数据是不可知的,这意味着发送到索引器的所有数据都会计入用户的数据容差,无论其相关性或价值如何。

索引器摄取数据并建立索引,以便进行高效查询。然而,这一过程会带来巨大的成本和性能挑战,尤其是在云环境中。Cribl 等工具提供了一种解决方案,在数据到达索引器之前对其进行预处理,删除不必要的字段并降低存储成本。Cribl 将事件数据发送到冷存储的功能可为公司节省高达 97% 的存储成本,大大减轻了管理大量日志数据的经济负担。此外,Snowflake 和 Databricks 还为数据存储和查询提供了令人信服的替代方案。其云原生架构可自动扩展,查询速度比 Splunk 等传统 SIEM 系统快 200 倍,是需要快速分析大型数据集的企业的有力工具。这些优势使企业能够简化数据管理流程,降低成本,提高安全操作的速度和准确性。因此,这种围绕 SIEM 的数据工程流正在被拆分。


当前的挑战:

在安全数据工程方面,买方主要关注两个问题。其中一个主要挑战是,存储当今分布式系统产生的大量且不断增长的安全数据所带来的成本膨胀,这些数据包括非结构化日志、事件和遥测数据以及复杂的追踪数据,通常达到 PB 级规模,导致存储费用飙升且难以预测。由于缺乏统一的数据模型,企业不得不依赖专门的存储解决方案和工具,从而加剧了这些成本。这种情况导致系统分散和数据孤岛,使数据管理进一步复杂化,并推高了运营成本。在管理数据维度以及如何影响不断增长的安全数据量方面,Cribl 和 Hydrolix 采用了不同的方法——Cribl 专注于清除低价值、高频率的应用日志,智能过滤掉不太重要的数据,以优化存储并降低成本。相比之下,Hydrolix 可处理高维事务日志,确保所有数据不丢失,这对长期分析和合规性至关重要。

第二个挑战是很难从大量的数据噪音中分辨出关键的安全信号。尽管数据搜索能力不断进步,但相关信息的检索和排序仍然是可观测性的主要挑战。在海量数据中有效识别查找内容和查找位置的能力仍然是一个瓶颈。根据 Gartner 的研究,关键事件的平均解决时间(MTTR)仍然为 4-5 小时。传统系统往往不能有效地进行优先排序和过滤,因此很难发现重大威胁。核心问题不仅仅是收集或存储这些数据,而是要快速理解这些数据,以提供真正的业务价值——这个问题通常被视为大数据问题,而不是信息分析问题。

此外,现代可观测性工具还面临着各种技术挑战,包括处理异构数据格式和应对缺乏统一数据模型的问题。Iceberg和开放表格式使存储问题变得不那么严重。有了这些工具,就不需要在不同系统中重复存储数据,因为查询引擎可以从多个来源读取数据。例如,由于开放表格式的兴起,Cribl 的搜索产品可以跨 Splunk、冷存储、时序数据库和其他安全工具进行搜索。对于像 Lakeway 这样的公司来说,可能有机会支持可观测数据的这些搜索用例。此外,不同工具的查询语言多种多样,如 Elasticsearch 的 Lucene、Prometheus 的 PromQL 以及用于追踪的各种类似 SQL 的语言,这又增加了一层复杂性。这种多样性使团队难以有效地诊断和解决问题,因为他们必须浏览多个系统,才能全面了解系统的健康状况。

这些挑战为 Cribl、Tarsal、Databahn 和 Observo 等公司带来了巨大的机遇,它们正在开发用于预处理、过滤和丰富数据的解决方案,从而更轻松地剪除无用数据并识别最关键的安全信号——这直击 Splunk 转发器技术的核心。LLM在这一领域特别有前景,因为它们提供了一种统一的数据分析方法。LLM 非常适合解析和解释日志中的非结构化、文本量大的数据,而且它们还可以纳入系统文档、代码库和历史事件报告中的上下文。这种快速适应新数据模式的能力使 LLM 成为解决动态系统中持续存在的概念漂移问题的强大工具。此外,除了语义理解层之外,LLMs 还可用作策略/成本管理层。根据不同的需求,企业在应对这些挑战时将拥有更大的灵活性。

过去人们觉得使用AI来完成这些任务的成本过高,但最近开源模型的进步正在改变这一现状。使用基于 Llama 的日志和事件转换模型的新方法托管在一个私有环境中,通过识别模式、对数据进行分类和对关键事件进行优先排序,提供了一种可扩展且具有成本效益的方法来增强日志。

这种方法不仅增强了威胁检测能力,还优化了安全环境中的资源分配,有助于解决目前困扰可观测性市场的许多分散问题。不过,我们必须认识到,虽然 LLM 功能强大,但它们也有自己的一系列挑战,尤其是在实时处理方面,目前的延迟和成本限制可能会阻碍实时处理。一个未来很有前景的发展方向是将 LLM 与图形数据库相结合,从而实现更好的自动化根本原因分析,并有可能显著缩短平均解决时间 (MTTR)。


新兴技术:开放可观测性的崛起

1.OpenTelemetry:随着可观测性数据的开放程度越来越高,OpenTelemetry 等框架正在通过规范不同平台间遥测数据的收集和传输,改变着整个行业。OpenTelemetry 是一个开源的可观测性框架,可实现不同可观测性工具的无缝集成,从而以一致的格式收集追踪、度量和日志等数据。这种开放性大大降低了供应商锁定的风险,并增加了目的地的分散性,因为企业现在可以在后端系统之间轻松切换,而无需更换现有的数据收集基础设施。

2.开放表格式:传统上,可观测性供应商往往通过专有数据格式和收集代理将客户锁定在自己的生态系统中,使客户很难更换供应商,而且成本高昂。然而,有了 OpenTelemetry,企业就能灵活地选择最适合其特定需求的工具,从而促进更具竞争力和互通的市场。Cribl Search 的采用进一步加强了这一转变,它通过提供跨 S3 和其他安全数据湖等各种目的地的搜索功能对 OpenTelemetry 进行了补充,从而使在一个更加开放和供应商无关的环境中管理和分析可观测性数据变得更加容易。了解更多信息可阅读文章 "What is Apache Iceberg"。

3.开源模型:基于领域的小型模型在事件预处理和路由选择方面的应用尚不多见,但如上所述,我们对此充满期待。


创业机会:

1) AI优先的安全数据工程或 "安全 ETL"



2) 基于AI的追踪和根本原因分析,以及事件相关性


3) 经济实惠 和/或 开源遥测技术

4) 下一代编排:


5) 下一代存储格式



原文链接:

https://www.datagravity.dev/p/security-data-engineering-and-etl





文章来源:安全喵喵站


点击下方卡片关注我们,

带你一起读懂网络安全 ↓



📍发表于:中国 北京

🔗️ 阅读原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM 可观测性 数据分析 安全
相关文章