引 言
在信息化时代,数据的海量增长已成为企业运营中不可忽视的重要特征。随着业务范围的扩大和业务类型的增多,数据归档存储的需求愈发迫切。传统的集中式存储方式在面对PB级甚至EB级的数据量时,显得力不从心,不仅在存储效率上大打折扣,还面临着数据安全性与访问性能的双重挑战。因此,一种高效、安全、可扩展的海量数据归档分布式存储解决方案应运而生,旨在为企业提供一个稳定、可靠的数据存储环境,确保数据资产的安全与高效利用。
背景概述
图1 全球数据增长预测
在数字化转型的时代背景下,企业日常运营中产生和积累的数据量正在以前所未有的速度增长,呈现出爆炸式增长的趋势,IDC《数据时代2025》预测“2025年全球数据总量将会达到163ZB”,华为全球产业展望GIV(Global Industry Vision)相关研究报告“到2030年全球每年产生的数据总量将达到1YB,较2022年增长超过20倍”。这种数据量的激增给企业的数据存储和管理带来了前所未有的挑战,如何高效地存储海量数据、如何确保数据的安全性和完整性、如何实现数据的快速检索和高效利用等。
为了应对这些挑战,威努特提出了数据归档分布式存储解决方案。该方案以先进的分布式存储技术为核心,将大量的数据分散存储于多个节点或服务器中,利用分布式存储的并行处理能力,有效提升了数据存储和管理的效率,同时利用冗余技术和数据备份机制保证数据的可靠性和安全性。
数据归档场景面临的挑战
数据量快速增长,存储容量需求激增
随着企业业务规模的不断扩大和数字化转型的持续深入,数据量呈现出爆发式增长的趋势。这种增长不仅体现在数据总量的持续攀升上,而且体现在数据产生速度的日益加快上。企业日常运营中产生的数据类型极其丰富多样,尤其是海量的非结构化数据(如视频、图片、文档、电子邮件等),这些数据不仅体积庞大,而且还在不断地动态变化和增长,对企业的数据存储容量和管理能力提出了严峻挑战。
传统存储设备扩展性不足、成本过高
用户早期使用传统存储设备(如专用磁带库、VTL、磁盘阵列)对数据进行归档,这些设备由于其固定的容量限制和复杂的扩展流程,难以灵活应对数据量的快速增长,往往需要停机维护且需高昂的硬件升级成本,导致扩展性不足;同时,传统存储设备初始投资较高、持续运营费用以及低资源利用率,使得总体成本居高不下,无法满足现代企业对高效、经济的数据存储需求。
数据孤立、用户体验差
在许多企业中,数据孤立现象严重,各部门和系统之间的数据分散存储,不同系统和存储设备采用异构的应用程序与接入协议,导致数据孤岛问题,缺乏统一的整合与共享机制。这种孤立导致信息壁垒,阻碍了跨部门协作和全面数据分析。用户需在多个不同的系统间切换操作,流程复杂且耗时,极大降低了工作效率和用户体验。数据孤立不仅增加了运营成本,还限制了管理层对业务全局的洞察力,影响科学决策的及时性和准确性,最终制约了企业的数字化转型和发展潜力。
海量数据稳定、高效写入压力
在处理大量数据存储时,传统存储系统面临巨大压力,尤其是在存储空间接近写满的情况下,性能、稳定性下降明显。
随着存储数据量不断增加,传统存储设备的写入速度逐渐减慢,导致延迟增加、系统响应变慢。当存储容量接近极限时,磁盘I/O成为瓶颈,进一步加剧了写入性能的恶化,同时,存储设备的稳定性也会进一步下降。此外,频繁的碎片整理和垃圾回收操作消耗大量资源,影响整体稳定性,企业需定期进行容量规划和优化,会持续增加存储运维复杂度和成本。
设计原则
在构建数据归档分布式存储解决方案的过程中,我们始终坚守并严格执行以下核心设计原则,以确保所设计的技术方案能够满足数据归档存储的需求:
高性能原则
分布式存储系统应该从实际应用出发,保证系统响应时间、输出带宽、读写速度不会因为数据量和客户端数量的增加而明显下降。
开放性原则
分布式存储系统符合开放性设计原则,具备优良的可扩展性、可升级性,可以支持开放系统平台,运行于现有的技术标准之上。
安全性原则
分布式存储系统须提供7x24小时安全运行,满足业务系统对存储系统安全性、高可用性、稳定性的较高要求,使业务系统运行风险降至最低。
兼容性原则
软硬件选型及系统架构提供多样化、标准化、通用化的对外接口,能够和用户现有环境良好兼容,对未来升级扩容等建设提供开放的系统平台。对主流厂商的软硬件环境具有稳定、广泛的兼容能力,从而保障用户的建设投资具备延续性。
技术前瞻性原则
除了系统硬件要符合技术潮流外,与之相配的软件也应符合未来一段时间的技术发展潮流,保证整套系统具备一定的技术前瞻性,所采用的技术具备长生命周期,避免短期内过时或淘汰,以利于整个系统后续的升级、维护。
建设方案
需求分析
存储高性能读写能力
存储能够在长期运行以及数据不断增长的情况下,提供稳定可靠的性能表现,主要表现在多人访问、大量文件、大量数据、足够长时间的运行条件下,在文件访问的时延、TPS以及数据带宽等性能指标具有稳定的表现。
统一存储可扩展
存储系统要具备以业务需求为中心的按需扩展和服务的能力,支持按业务增长趋势提供盘级别、服务器级别等多维度扩容能力,覆盖TB级到PB级全范围容量需求。
安全可靠的系统环境
所提供的分布式存储方案应经过全面的兼容性测试、稳定性测试以及可用性测试,保证系统上线运行能够提供良好的业务支撑环境。
符合IT技术发展趋势
软硬件方面都应符合IT发展趋势,具备未来一段时间的技术延续性和扩展能力,包括硬件层面的性能表现、备品备件支持等,软件层面的架构设计、更新能力等,都能够满足未来一段时期内,业务变化的增长需求。
协议支持
支持标准常用协议接口,可完整支持各类数据访问模式。对于特定应用,可通过2次开发提供API级的接口调用。
方案概述
图2 威努特数据归档解决方案
威努特分布式存储系统支持各类标准x86硬件以及飞腾、鲲鹏、申威、龙芯、海光等国产CPU平台。同时,分布式存储具有高性能,能够轻松应对各类高负载业务的要求,其中包括业务关键型应用与核心业务系统;多副本及强一致性技术的应用提供高可用性和系统稳定性;极强的横向扩展能力则为业务扩张带来的管理维护提供了极大的灵活性和便利。
威努特分布式存储系统采用去中心化的无元数据服务设计,使用弹性Hash算法来定位文件,从根本上解决元数据管理这一难题,从而获得近乎无限规模的线性高扩展性,同时也大幅提高了系统性能和可靠性。无元数据交互过程,不存在元数据性能瓶颈和单点故障问题,可以弹性扩展至上千集群节点,容量和性能可随着节点增加实现线性增长,构建超大的存储规模。
分布式存储系统逻辑上由存储节点、存储网关以及访问客户端组成。数据分布于存储服务器的磁盘上,最终的文件数据通过统一的调度策略分布在不同的存储服务器上。可以将文件系统管理、节点管理以及RAID管理集合在一起,横跨集群内的所有节点,向前端应用呈现单一文件系统,提供全局单一命名空间的文件系统服务。系统内所有数据节点的存储资源被整合为单个超大容量的文件存储空间,以实现统一的管理和大规模存储服务。
本方案将从分布式系统存储资源设计、存储网络设计、存储安全设计、关键技术应用等几个方面进行阐述。
存储资源设计
在分布式存储系统中,各类业务数据的稳定可靠保存以及快速高效读写,是系统安全稳定运行的关键所在。为达成这一目标,必须构建一个具备高可靠性、卓越性能和海量容量的存储系统,作为整个架构的坚实基础。如此,不仅能确保数据在存储与读写过程中的完整性与高效性,更能全方位满足系统稳定运行的严苛要求。
威努特分布式存储采用全对称分布式存储架构,以此构建存储资源池,整个存储系统没有单点故障,并且,通过系统的纠删码及多副本技术,把数据同时保存在多个存储节点中,最大限度提高数据容灾能力。
威努特分布式存储由多台独立的服务器实现,所有节点是完全对等架构,无主次之分,可以在不停机的情况下动态增加存储节点,实现存储容量和性能的动态扩展,能极大地降低系统维护成本,且无单点故障。理论上支持无限水平扩展,支持EB级别的大规模存储。
图3 分布式存储系统扩展能力
存储网络设计
图4 分布式存储网络拓扑图
如图4分布式存储网络拓扑图所示,分布式存储网络建议划分为业务网、存储网和管理网三部分。
业务网
业务网负责与前端业务服务集群通信交互,包括业务端各种数据的传输、数据查询等操作,具有较高的性能压力,建议采用10GbE网络,以匹配业务节点对数据的快速处理及访问。
前端业务应用通过网络与存储系统的25GbE业务网络进行连接,确保存储系统对前端业务系统的有效支撑。
存储网
存储网用于承载威努特分布式存储节点集群之间的数据访问,以及集群内部的数据均衡链路,是带宽、延时、IO响应等性能压力最大的网络链路,建议采用25GbE网络,以保证最佳的性能支撑。
管理网
管理网用来登录分布式存储系统的WEB管理界面,完成配置、管理、状态查询等操作,网络性能压力较小,使用千兆交换机即可满足管理需求。
存储安全设计
威努特分布式存储支持多副本和N+M纠删码(EC),提供硬盘级、节点级、机柜级等多级故障域保护能力。
威努特分布式存储方案推荐采用副本或纠删码数据保护机制,满足所有存储节点同时损坏一块硬盘,以及任意一个节点故障的情况下,保证数据不丢失,充分保证存储系统的可靠性。
图5 分布式双副本卷
多副本设置下,数据访问流程如下:
根据副本数,以就近原则对集群节点进行分组(子卷);
计算hash值,输入参数为文件路径和文件名;
根据hash值在集群中选择目标组,读写目标组节点数据;
写入时,数据写入组内的所有节点,读取时,从组内选择最佳节点读取。
图6 纠删码冗余配置
高可用冗余策略可根据公式N+M:K进行灵活配置,其中N代表数据硬盘数量,M代表校验数据硬盘数量,K代表故障节点数量,根据每台存储节点上硬盘分布数量的不同,允许的硬盘和存储节点损坏的数量也不同。
如上图所示,列出了常用的EC纠删码冗余模式的高可用配置方式及相关允许的故障情况。
关键技术应用
01
全面数据保护
图7 数据保护特性
卷快照
快照功能基于COW机制,可以在所有节点的数据卷上同时创建快照信息,并可实现全局统一创建和单一命名空间挂载恢复。快照所占空间根据存储卷的数据量变化与快照频率而定,一般应用占用10%-20%存储空间。目前支持快照创建、快照激活、快照回滚等操作,快照激活可将指定快照数据以具备可读取权限的目录的形式挂载至集群内部,由运维技术人员按需进行操作。
远程复制
威努特分布式存储提供GEO-Replication功能,可实现持续、异步、增量的数据异地复制。复制支持通过LAN局域网,WAN广域网和Internet实现从一个站点到另一个站点的数据连续、异步的复制。
GEO-Replication支持自定义时间策略,以设置不同的同步频率与复制粒度。远程复制通过判断文件的修改操作为触发条件,当文件系统内的文件或目录发生修改操作时,会获取文件或目录的属性信息,并且调用复制进程,生产端复制进程与Slave端通信,校验同名的文件和目录的属性信息,获取需要同步的文件列表,并对列表文件进行同步。
使用异步复制机制实现容灾,在RPO要求较严苛的业务中,须保证复制链路的高带宽及5ms以内的延迟要求。
WORM
支持卷级别的WORM功能,开启该功能后,数据一经写入存储系统就无法再修改或删除。WORM是长久安全存储大量数据信息的理想解决方案,可以满足法规合规要求,契合用户对于数据完整性和真实性的追溯需求。
回收站
为降低用户误操作导致数据丢失的风险,存储系统提供了回收站功能,开启后每个文件系统都会维护一个隐藏的.trashcan目录,该目录将用于存储用户删除的文件,并允许用户访问已删除文件。为避免名称冲突,在发生删除动作时,会将时间戳附加到原始文件名,然后再将其移至垃圾目录。
02
多重数据冗余
图8 多重数据冗余特性
在副本或纠删码冗余保护下,节点发生故障时,业务IP会自动漂移至其他正常节点,数据依然保持完整可用,且不影响应用的正常读写。节点故障后数据自动修复会及时启动,保障数据的完整性。由于后台集成本地RAID保护,在单块硬盘故障时,对前端几乎没有任何影响,也不会触发集群的副本或纠删码修复动作。
03
多协议支持
支持标准POSIX、NFS、CIFS、FTP、S3、iSCSI等众多协议接口,可完整支持各类数据访问模式。对于特定应用,可通过2次开发提供API级的接口调用。可通过不同接口(POSIX、NFS、CIFS、FTP、S3等)访问一致的数据内容,实现跨接口协议的文件数据透明共享。
图9 多协议支持
方案亮点
1.系统架构简单,数据读写的访问效率更高,对硬件资源的消耗更少,配置要求更低,在不需要SSD缓存的情况下,可以输出非常高的带宽性能;
2.威努特分布式存储直接向存储节点发送数据读写请求并得到响应,对比CEPH首先访问元数据列表、得到回复后再向存储节点发送数据读写请求的方式,威努特分布式存储路径少,效率更高;
3.均衡数据分布方式,每个文件保存在多个存储节点,而非所有存储节点,当出现节点级故障时,只影响部分数据安全,其他数据不受影响,系统整体性能抖动小,数据可靠性更高;
4.支持文件、对象、块统一存储。特别是文件和对象的透明共享,只要在管理界面将文件、对象功能点选就可以无缝升级,降低了用户在存储升级过程中的很多风险。比如:数据丢失风险、数据迁移过程的停机时间、升级窗口的规划、文件/对象存储池分区造成的资源浪费和重复投资等等。体现了我们简单高效的产品研发理念;
5.前后端网络支持丰富,从10GE-200GE,56Gb-200Gb的IB网络都支持,且不限制前后端网络分配,简单融入用户现有环境;
6.按节点授权,在针对大容量存储需求时,极具性价比;
7.支持纯软交付模式。
结 语
数据归档分布式存储解决方案在现代企业中扮演着核心角色,它旨在解决随着业务快速发展和数据量激增所带来的存储难题。威努特分布式存储解决方案是围绕企业数字化转型需求量身定制的一体化数据管理方案,它不仅提供了高效、安全的数据存储服务,还为企业构建了可扩展、智能化、安全合规的数据基础设施,有力支撑了企业在数字经济时代下的持续发展和创新。未来随着新技术如区块链、5G、物联网等的融入,该方案将持续优化升级,为企业提供更加全面、高效和智能的数据处理能力。
渠道合作咨询 田先生 15611262709
稿件合作 微信:shushu12121
📍发表于:中国 北京