dbaplus社群 01月05日
可观测性架构新思路:海量数据下的存算分离设计与实践
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

得物可观测性平台通过引入存算分离架构,有效解决了传统架构在扩展性、资源利用率和运维复杂性方面的问题。该平台利用AutoMQ替换Kafka,实现了存储成本的显著降低和弹性扩缩容能力的提升。同时,通过采用ClickHouse企业版,实现了计算与存储资源的独立扩展,优化了写入和查询性能,提高了容灾能力,并大幅降低了成本。这些技术升级不仅提升了系统性能,还降低了运维负担,为得物应对日益增长的数据挑战提供了有力支持。

🚀 AutoMQ替换Kafka: 得物使用AutoMQ替换了原有的Apache Kafka,利用其存算分离架构和共享流存储库S3Stream,显著降低了存储成本,并实现了计算与存储的独立扩展。AutoMQ还优化了冷读场景下的性能,保证了写入吞吐和延迟不受影响,冷读效率提升约5倍。

⚡️ ClickHouse企业版应用: 得物采用ClickHouse企业版,通过SharedMergeTree表引擎实现了存算分离,数据存储在共享存储中,计算节点无状态,支持分钟级水平扩展。这不仅简化了集群管理,还提高了系统在流量高峰时的稳定性和弹性能力,并通过Serverless架构实现按需付费,降低了资源浪费。

💰 成本与效率提升: 通过AutoMQ和ClickHouse企业版的应用,得物可观测性平台的云账单成本同比下降50%以上,并完成了近千核计算资源的替换。ClickHouse企业版还实现了写入性能的提升,支持每秒高达2000万行的写入操作,查询效率也得到了显著优化,同时存储成本降低了70%以上。

南风 2025-01-05 08:01 广东

结合多种存储技术,实现高效的资源管理和性能优化。


一、引言


得物作为全球领先的潮流网购社区,日益增长的用户和数据带来了巨大的技术挑战。当前,得物的可观测性平台每天生成数PB级Trace数据和数万亿条Span记录,要求平台具备高效的实时处理能力和低成本的数据存储解决方案。


传统的存算一体架构将计算与存储资源绑定,随着数据规模的扩大,暴露出了以下问题:



为了有效解决这些问题,得物可观测性平台采用了存算分离架构,结合AutoMQ和Kafka以及ClickHouse存储技术,实现了高效的资源管理和性能优化。


二、Kafka的演进:AutoMQ存算分离的创新与实现


1、Apache Kafka在大规模数据下的挑战


Apache Kafka处于得物观测业务的核心数据链路中


在得物的可观测性平台中,Apache Kafka被广泛用于数据收集、加工和分发。然而,随着业务数据量的不断增长,Kafka的架构暴露出以下问题:



得物 Kafka 磁盘高危报警



这些问题源于Kafka原生架构的局限性,特别是其面向IDC环境的Shared-Nothing架构,难以充分发挥云计算时代对弹性和扩展性的要求。


2、为什么选择AutoMQ


AutoMQ云原生架构


为了解决Kafka在大规模数据处理中的问题,得物可观测性平台选择了AutoMQ作为替代方案。AutoMQ的优势包括:



1)AutoMQ面向冷读场景的性能优化


在冷读场景下,Apache Kafka的性能问题十分明显。KAFKA-7504[2]问题导致冷读操作影响实时写入,严重时会降低整个集群的吞吐量。AutoMQ通过以下方式优化了这一问题:



Apache Kafka的读写 IO链路


Apache Kafka的读写链路引入了两个关键的技术:Page Cache[3]和零拷贝SendFile[4]系统调用。



在相同负载和机型下相比Kafka,AutoMQ冷读时可以保证不影响写入吞吐和延迟的情况下,拥有和Kafka相同水准的冷读性能[5]。



在冷读场景下,AutoMQ显著提升了性能,与Kafka相比,冷读效率提升了约5倍,且对实时写入没有任何影响。


2)AutoMQ基于共享存储架构的快速弹性能力


得物可观测性平台的业务流量呈现明显的峰谷波动,AutoMQ通过存算分离架构实现了卓越的弹性扩缩容能力:



AutoMQ的扩缩容依赖秒级分区迁移技术[6]。在扩容时,借助弹性伸缩组(ASG)[7]或Kubernetes HPA,分区可以批量迁移到新节点,确保流量快速平衡,通常在十秒内完成。缩容时,待下线节点的分区会迅速迁移至其他节点,完成秒级下线。与Apache Kafka需要通过复制数据进行扩缩容不同,AutoMQ利用共享存储架构避免了数据复制,显著提高了扩缩容效率,避免了数据重平衡[9],跟Apache Kafka的实现有巨大的区别。


AutoMQ自动流量重平衡 vs. Apache Kafka手动迁移


案例


AutoMQ通过监控集群流量和CPU等指标,自动进行扩缩容。当流量达到扩容阈值时,系统会自动增加Broker节点;当流量下降至缩容阈值时,系统会优雅地将即将下线的Broker上的分区以Round-Robin方式秒级迁移至其他Broker,完成流量平衡。


集群节点数跟随流量上涨


集群节点数跟随流量下跌


3、AutoMQ落地效果:千核资源替换,成本下降50%


AutoMQ在得物可观测性平台上线半年以来,逐步替换了整个可观测性架构对Apache Kafka的依赖,基于AutoMQ的整体可观测架构如下图所示,AutoMQ集群承担了所有微服务业务的产生的观测数据,并基于ClickHouse进一步提供点查和观测数据分析的能力。


得物基于AutoMQ的可观测架构


AutoMQ也为得物可观测性平台带来了以下显著的成效:



1)AutoMQ落地效果:平稳支撑得物双十一期间100%流量


除了成本大幅度降低之外,今年通过AutoMQ的架构支撑得物双十一,避免了过往双十一前繁重的容量评估工作,以及提前扩容的运维成本。AutoMQ集群上线以来,以及双十一期间全程保持高可用,零宕机,支撑了双十一期间100%的流量,且高峰期负载平稳,无性能抖动。如下图是得物可观测性平台AutoMQ集群中其中一个GiB级吞吐的集群。


得物其中的一个AutoMQ GiB级集群


三、ClickHouse的进化:存算分离架构的实践与应用


1、背景


得物可观测性平台在分布式链路追踪中,采用ClickHouse作为Trace索引数据的存储引擎,每天管理着数十万亿行追踪数据。随着数据量的持续增长,平台不仅需要保障实时查询的高效性能,还面临着存储成本优化和集群维护复杂度提升的双重挑战。



1)面临的挑战


ClickHouse凭借卓越的性能,在面对大规模数据时依然能够提供极快的查询响应,为可观测性平台的实时分析和监控提供了坚实保障。然而,随着业务扩展和数据量激增,原有的基于云盘自建的开源分布式架构逐渐暴露出了一些问题:



因此,如何在保持ClickHouse性能优势的同时,优化扩容过程中的运维流程,解决集群写入负载平衡问题,进一步提升系统的稳定性,是得物平台在持续扩展中亟需解决的核心问题。


2、ClickHouse企业版介绍


ClickHouse企业版是专为云环境下的存算分离架构设计,支持更高效的计算与存储资源管理。企业版与社区版的最大区别在于,它引入了更先进的存算分离架构和更多功能,能够在大规模数据处理、实时查询和存储管理方面提供更优的性能。



存算分离架构是ClickHouse企业版的核心创新,它通过将计算资源和存储资源分开,极大地提高了系统的弹性和扩展性。在这种架构下,计算节点和存储节点独立扩展,存储资源可以通过共享存储(如OSS、S3等)进行集中管理,而计算节点则能够根据负载情况进行自动伸缩,从而更好地应对流量高峰期的挑战。


企业版还引入了Serverless计算模型,允许平台根据实际负载自动调整计算资源的大小。相比于传统的基于固定资源分配的计算模式,Serverless架构能帮助平台实现弹性伸缩,只在需要时自动分配计算资源,极大地节省了资源开销,同时也能更好的应对业务流量的非预期增长,提高了系统的稳定性。


1)SharedMergeTree表引擎


在ClickHouse企业版中,SharedMergeTree表引擎是实现存算分离架构的关键组件。SharedMergeTree优化了对共享存储(如Amazon S3、Google Cloud Storage、MinIO、阿里云OSS等)的支持,100%兼容社区版的MergeTree引擎的同时,内核还可以自动将社区版的建表语句转化为企业版专属引擎的建表语句(如下图所示),业务迁移无需DDL改造。



与传统的ClickHouse集群架构相比,SharedMergeTree引擎通过以下方式提升了数据存储和查询性能:



2)水平扩展


在大规模电商平台的场景下,面对节假日等流量高峰时,系统需要具备快速扩展高可用性的能力。ClickHouse企业版通过SharedMergeTree引擎,实现了分钟级水平扩展,并且在扩展过程中集群可正常执行读写任务,稳定性不受影响。



扩容流程:



通过这种方式,ClickHouse企业版能够在高负载下实现弹性扩展,确保集群的稳定性和业务的连续性。


3、落地实践与优化


最终,得物可观测性平台基于ClickHouse企业版的功能,在写入、查询、容灾能力及弹性能力方面进行了全面优化,实现了高性能和高效率的分布式链路追踪系统。



从自建ClickHouse社区版升级为企业版,因为企业版的存算分离架构不再有分片的概念,不再需要通过直连本地表进行写入的方式对不同分片间的数据和写入流量进行均衡,所以和原先直连节点做写入的方式不同,切换为企业版后业务写入操作的对象变为了集群本身,写入逻辑得到了简化,原有的写入流量和分片间数据不均衡带来的运维和管理的问题也从架构上得到了解决。


1)写入优化



以下是具体的实践总结:



2)查询优化




select trace_id,span_id, duration  from span_index  where service = 'order-xxx'  and startTime between '2024-11-23 16:00:00' and '2024-11-23 17:00:00'  order by duration desc  limit 0,30  settings max_threads = 16,   allow_experimental_parallel_reading_from_replicas = 1;


3)容灾能力



4)弹性能力




计算按需付费:每个节点的弹升和弹降都是独立进行,只和当前节点的实际业务负载有关的,因此无需再担心各节点间流量压力差异带来的成本冗余;同时节点的弹性扩容和缩容的最小单位均为1CCU(约1C4G),扩容事件同步至计费模块后,平台按秒计费,仅需为实际资源使用量付费。这一机制帮助得物大幅降低了资源浪费,同时确保了成本优化。


存储按实际使用量付费:相比存算一体架构下需要预留至少20%的存储空间来保障集群的稳定性的资源预购模式,ClickHouse企业版的共享存储解决了自建社区版各分片数据不均衡、运维麻烦、成本冗余多的问题,同时仅按照实际使用量计费的模式结合对象存储本身价格低廉的特征,降低了得物大数据量场景下的存储成本70%+。


四、总结


通过ClickHouse企业版,得物可观测性平台实现了从写入到查询、从容灾到弹性的全面优化。企业版的存算分离架构提升了系统可靠性,而秒级弹性能力结合秒级按需付费显著降低了计算资源的使用成本约20%和存储资源的采购成本70%+(总成本下降60%)。这种实践模式不仅满足了高并发、高性能的业务需求,同时也为系统的扩展性和运维效率提供了有力支持,成功应对了链路追踪数据管理中的各种挑战。


五、引用


[1]AutoMQ基于S3的共享流存储库:https://docs.automq.com/zh/automq/architecture/s3stream-shared-streaming-storage/overview


[2]Kafka冷读性能问题来源:https://issues.apache.org/jira/browse/KAFKA-7504


[3]Linux Page Cache: https://en.wikipedia.org/wiki/Page_cache


[4]Linux SendFile: https://man7.org/linux/man-pages/man2/sendfile.2.html


[5]AutoMQ性能白皮书:https://docs.automq.com/zh/automq/benchmarks/benchmark-automq-vs-apache-kafka


[6]AutoMQ秒级分区迁移:https://docs.automq.com/zh/automq/architecture/technical-advantage/partition-reassignment-in-seconds


[7]AWS Auto Scaling Groups: https://docs.aws.amazon.com/autoscaling/ec2/userguide/auto-scaling-groups.html


[8]Kubernetes用于扩容的 HPA 组件:https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/


[9]AutoMQ持续数据自平衡:https://docs.automq.com/zh/automq/architecture/technical-advantage/continuous-self-balancing


[10]阿里云云数据库ClickHouse:https://help.aliyun.com/zh/clickhouse/?spm=a2c4g.11174283.0.0.61f5735a0zfJIS



作者丨南风

来源丨公众号:得物技术(ID:gh_13ba5621e65c )

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

存算分离 AutoMQ ClickHouse 可观测性 性能优化
相关文章