掘金 人工智能 18小时前
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了聚水潭电商SaaS ERP服务商,如何通过阿里云MaxCompute近实时数仓解决方案,优化其数据处理流程,提升效率并降低成本。聚水潭面临着数据量大、ETL链路复杂等问题。通过引入MaxCompute的PKDelta Table,实现了增全量数据一体化存储,并利用Deletion Vector功能提升性能。最终,订单明细链路的数据更新周期从3小时缩短至30分钟,提效超过200%。此外,计算资源消耗也显著降低,为未来实时数据洞察奠定了基础。

聚水潭作为电商SaaS ERP服务商,其原有架构在处理PB级数据时面临ETL链路复杂、计算成本高等问题,需要进行优化。

MaxCompute近实时数仓解决方案,特别是PKDelta Table,为聚水潭提供了增全量数据一体化存储和管理的能力,解决了数据一致性维护的难题。

通过Delta Table改造,聚水潭核心履约链路的数据更新周期从近3小时缩短至30分钟,提效超过200%,计算资源消耗降低56%。

Deletion Vector功能提升了PK Delta Table文件读写性能,针对生产任务进行优化后,整体性能提升42%,计算资源消耗进一步降低21%。

聚水潭计划进一步提升核心业务数据的新鲜度,结合MaxQA的秒级查询响应,为商家提供更敏捷的实时数据洞察与交互式分析体验。

客户介绍

聚水潭是中国领先的电商SaaS ERP服务商,通过全链路数字化解决方案(覆盖订单/仓储/供应链/财务)助力企业降本增效。其核心ERP产品为不同类型及规模的客户提供一套统一且直观的业务监控、运营及管理工具,赋能客户做出数据驱动的智能决策,使其能在快速发展的电商行业中脱颖而出。

为什么选择MaxCompute 近实时数仓解决方案

原有架构痛点

用户很多现有业务数据符合PK主键的场景,在相关表格的日常数据的增全量合并操作时,必须进行复杂的PK去重操作以维护数据一致性。随着用户业务的不断扩展,用户仓内核心业务数据量迅速增大,给客户带来如下明显痛点:

    日常维护复杂的增全量合并ETL链路

    每日对全量数据进行扫描,计算成本随数据量提升不断增加

    最新全量数据按天保存,冗余数据不断积累大大提升存储成本

    增全量合并计算性能随数据量上升而下降,数据新鲜度变低,下游业务消费数据的压力不断增大

MaxCompute 近实时数仓 Delta Table 解决方案优势

MaxCompute在原有的离线批处理引擎基础上升级了系统架构,推出了近实时数仓解决方案。MaxCompute的近实时数仓,基于全新的表格式实现了增全量数据一体化存储和管理,并且推出了丰富的增量计算能力,同时升级了MaxCompute短查询加速(MaxQA)以支持查询秒级返回。

MaxCompute近实时数仓设计了多种新的表数据组织格式,既可支持MaxCompute普通表的所有功能,同时也能很好的支持增量处理链路的新场景。其中,PKDelta Table作为增量表格式中支持数据包含主键场景的重要格式,完全契合聚水潭包含PK主键的业务场景,并能很好的解决用户原有业务的诸多痛点。

PK Delta Table支持多种数据文件组织格式,来高效支持全量读写和近实时增量读写等多种场景,主要包含 Checkpoint File,Delta File 和 CDC Log。

其中,每次上游事务commit的数据会写入Delta File,来保存每行数据的中间历史状态,从而为用户提供增量数据的读取功能。Delta File经过Compact合并操作后会生成Checkpoint File,PK值相同的记录只会保留一行,并按照列式压缩存储,用来支撑高效的全量数据查询需求。

MaxCompute针对PK Delta Table的表格式最新推出了Deletion Vector功能,通过一种轻量化的紧凑的二级制格式,形成一个类似向量的结构(Bitmap),在增量数据不断更新过程中,高效管理已经被删除的数据,从而避免每次读写时候的全量数据进行replay扫描的耗时,来提升查询性能。当用户读写的PK Delta Table数据量较大(平均文件大小>10M)且SQL对表格多列进行读写时加速效果更为明显。

客户生产系统落地效果:提效比例超过200%

在深度参与商家业务优化的分析后,客户发现在聚水潭电商最核心的销售履约链路上,围绕订单、出库、售后的全流程数据,均存在如下符合Delta Table使用场景的明显特征:

    明确的业务PK主键

    基于业务主键的数据更新

    主表和明细表关联查询

    数据量大(PB级数据规模)

基于以上评估分析,最终用户选择对订单明细链路(表数据量最大,逻辑最复杂,依赖最多,计算存储成本消耗最大,且成上升趋势)作为Delta Table改造项目的首选目标进行尝试。图1 - 销售履约订单明细链路增全量合并ETL链路

图2 - T时增量具体业务流程

伴随订单明细链路的改造完成,Delta Table也完成了元数据更新,写入攒批,多表查询等诸多特性的优化,最终聚水潭履约链路的数据更新周期从近3个小时提升至30分钟左右,提效比例超过200%,配合业务上对于更长周期数据更新的诉求(如预售订单超180,售后维保超1年),聚水潭数据中台团队基于Delta Table架构快速验证了更长更新周期、全链路H时效的技术方案,整体方案从设计到落地优化不到2个月时间,大大简化了增量数据写入和消费的成本,计算资源消耗降低56%。同时,利用MaxCompute近实时数仓最新推出的Deletion Vector的性能优化功能,针对生产的23条相关核心SQL任务进行优化后,整体性能提升42%,且计算资源消耗在之前基础上进一步降低21%。

未来展望

聚水潭将部分核心业务从传统批式引擎迁移到近实时数仓链路的过程中,构建了统一的增全量一体化数据链路,大幅降低了日常处理新增数据的核心业务的复杂度和资源成本,同时利用最新的Deletion Vector能力使得增量数据写入和查询任务的性能得到明显提升。未来,用户将重点致力于进一步提升核心业务数据的新鲜度,确保下游能更及时获取最新业务状态。同时,结合MaxQA对秒级查询响应的支持,将为商家提供更敏捷的实时数据洞察与交互式分析体验,进一步赋能其快速决策。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

聚水潭 MaxCompute 电商ERP 数据仓库 Delta Table
相关文章