十多年来,随着大数据技术的演进与成熟,其在经济领域中的应用也在拓展并持续深化。目前,在包括医疗保健、零售、金融服务、制造业、电信、能源与公共服务的各主要行业中,大数据技术在精细管理、趋势预测、风险识别、决策支持等场景中发挥着越来越重要的作用。数字时代背景下,数据已成为企业核心资产,而大数据技术则是对这项资产开发,利用,赋能企业的重要手段,越来越多的企业认识到用对、用好大数据技术将决定自身的行业竞争力。 狭义上的开源大数据工具是指在开源大生态下,专注于解决海量、多类型数据的连接、存储、管理等功能的工具集合。但从搭建大数据平台角度出发,通常还需要加入AI类组件以帮助数据分析,云原生工具以实现容器编排,另外关系型及各类非关系型数据库被视为大数据的基础,由此得到广义上的大数据工具套件。本报告将以广义大数据工具为研究对象,对其进行分析。 大数据工具组件是大数据技术输出的载体,数字化与智能化时代下,一套完整的大数据工具可以分为基础层、数据连接层、编排与分析层、人工智能层、监控及可视化层共5层,包括储存格式、数据框架,数据库、数据管理、数据查询与连接、流处理与消息管理、数据编排、在线分析、机器学习运维、记录及监控、数据可视化11个模块。 大数据工具层级图是对大数据工具的总览,开源工具林林总总,企业应先解各个工具的定位与功能,根据自身需求牟定工具类型,再进行具体工具的选型。