掘金 人工智能 05月30日 16:33
Fusion引擎赋能:流利说如何用阿里云Serverless Spark实现数仓计算加速
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

流利说为了应对新的业务挑战,选择了阿里云EMR Serverless Spark,构建了符合业务场景的工程解决方案。通过该方案,流利说实现了数据平台的全面升级,涵盖数据采集、存储、计算到管理等环节。新方案在弹性资源管理、费用控制、性能优化、运维效率和扩容速度上都取得了显著提升,离线任务耗时减少40%,任务失败率降低80%,成本降低30%。这套方案的核心在于EMR Serverless Spark提供的托管弹性伸缩、Fusion引擎加速和按需计费等特性,极大地提升了数据团队的生产力。

💡**弹性资源管理优化**: 解决了原有架构中资源配置不灵活的问题。EMR Serverless Spark 的弹性伸缩功能可以根据业务需求自动调整计算资源,避免了资源浪费,提高了资源利用率。

💰**成本效益提升**: 通过按需计费模式,流利说实现了真正的按量付费,降低了计算成本。闲置资源不再产生费用,整体成本降低了30%。

🚀**性能与稳定性增强**: 离线任务耗时减少40%,任务失败率降低80%。EMR Serverless Spark 提供的Fusion引擎加速技术显著提升了任务执行效率,提升了平台整体的稳定性和可靠性。

🛠️**运维效率提高**: 简化了系统架构,减少了不必要的大数据组件,降低了平台运维成本。EMR Serverless Spark 的托管特性也减少了运维工作量。

⚙️**典型应用场景**: 涵盖CI & CD与离线ETL计算、数据集成和数据查询。在这些场景中,EMR Serverless Spark 都发挥了关键作用,提升了效率和性能。

作者:流利说 Ibson(大数据负责人)/ Bruce(数据工程师)

背景介绍

为了应对新的业务挑战,流利说选择与阿里云合作,利用其 EMR Serverless Spark ,构建了符合业务场景和分析师习惯的工程解决方案。

为什么选择阿里云 Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

技术方案设计

流利说数据平台涵盖从数据采集、接入、存储、计算到管理、查询与可视化的完整能力。支持多种源数据接入,提供毫秒级实时处理、分钟级近实时流处理及 T+1 离线批处理能力,能满足多样化业务需求。离线 ETL 脚本存储于 GitLab,依赖于 GitLab 的分支管理、版本管理和 review 机制,实现可追溯、可协作的脚本管理;平台以 Airflow 作为调度系统,实现高效、可靠且可视化的工作流调度;以 EMR Serverless Spark 做为核心计算引擎,结合 Fusion 引擎加速,实现高效、弹性、可靠且低成本的数据处理。以 Hive Metastore 作为元数据管理,提供统一的数据目录服务,实现元数据的集中存储与管理,支持多引擎数据共享和跨平台数据访问,简化数据治理流程。数据存储阿里云 OSS ,提供高可靠、低成本的对象存储。平台配合 AirEye 监控及 GoAlert 告警,构建完整的可观测性系统,实现对关键指标的实时监控与异常检测,提高系统可靠性和运维效率。

典型应用场景

    CI & CD 与离线 ETL 计算

流利说数据团队自研了 DAG 自动生成服务,数据分析师和数仓工程师提交数据转换脚本到代码仓库后会,自动集成 CI 进行脚本校验,完成 review 并 Merged 后会触发自研 DAG Service 生成 Airflow 可以直接调度的 Dag 文件。Airflow 基于阿里云提供的 Operator 完成与 EMR Serverless Spark 的插件式集成,可直接提交任务到 EMR Serverless Spark,并监控任务状态。相比于之前 Airflow + EMR Gateway 的方式去提交任务,结合 EMR Serverless Spark 的高效弹性及 Fusion 引擎优化,显著提升了任务的执行效率、并发度、稳定性和可靠性。另外 EMR Serverless Spark 提供完善的监控,可显著降低运维成本。

    数据集成

流利说数据平台支持多种数据源数据接入,对业务数据库接入支持每天全量接入和增量接入。对业务数据库的增量接入引人数据湖 Hudi,用于支持数据更新、删除操作及 Schema 演进管理。增量接入通过 CDC 技术实时监控业务库日志,将变更事件推送到 Kafka,通过周期调度 EMR Serverless Spark 任务完成增量数据入湖。该场景同样是在 Airflow 中调度提交任务到 EMR Serverless Spark,由于增量数据可能会有周期性变化,借助于 Serverless 的弹性伸缩能力,可显著提高资源利用率,避免资源浪费,相比于之前半托管集群的定时弹性伸缩更加稳定和流畅。

    数据查询

流利说查询平台提供的 Trino 、Doris 和 Spark 三种查询引擎,用户可以根据使用场景来选择合适的引擎来进行数据查询、分析及ETL 脚本验证等。 查询平台 Spark 引擎切换到 EMR Serverless Spark 之前是基于 Spark 的 Thrift Server 构建的,服务稳定性差且无法进行细粒度的资源隔离,运维成本高;切换到 EMR Serverless Spark 后,可通过 Web 管理界面可以管理和运维 Thrift Server 会话,可显著降低运维成本。另外,查询平台实现用户级别的路由,可实现不同用户提交到不同 ThriftServer,避免了资源抢占。 另外,基于 EMR Serverless Spark 的弹性伸缩能力,减少了计算资源闲置,显著降低成本。

迁移后的收益

    性能:离线任务开启 耗时减少 40%,核心报表更早产出。稳定性:任务稳定性显著提高,失败率降低 80%。资源灵活:根据业务需求自动调整扩充计算资源。运维成本:减少不必要的大数据组件,精简系统架构,降低平台运维成本。性价比:真正的按量付费,不使用时没有资源消耗,成本降低 30%。

后续期待

基于阿里云 EMR Serverless Spark 技术栈快速构建了离线数据计算平台,EMR Serverless Spark 全托管免运维、自研 Fusion 引擎,内置高性能向量化计算和 RSS 能力,相比开源版本3倍以上的性能优势以及计算/存储分离的架构,为我们节省了总体成本。同时,EMR Serverless Spark 自身提供的丰富特性,也极大提升了我们数据团队的生产力,为数据分析业务的快速开展交付奠定了基础。未来,流利说希望与阿里云 EMR 团队针对湖仓场景输出更多行业先进解决方案。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

流利说 EMR Serverless Spark 数据平台 云计算 大数据
相关文章