01
前 言
随着遥感技术的迅猛进步和广泛应用,对地球表面及空间目标进行观测所获取的图像、地形、气象等多维度、多尺度数据量呈现出了爆炸式增长。这些数据在资源管理、城市规划、交通运输、农业估产、军事侦察等诸多领域具有极其重要的价值。然而,如此庞大的遥感测绘数据规模给传统集中式存储系统带来了严峻考验。传统的单一服务器存储架构在面对海量遥感数据时,不仅面临存储空间不足的问题,还可能由于数据传输瓶颈和并发访问限制,无法实现高效的数据管理和快速检索需求。
在此背景下,分布式存储方案应运而生,并迅速崭露头角。分布式存储网络通过将数据分散存储在多个节点上,有效解决了单一节点存储能力受限的问题。其具备的高扩展性允许根据实际需求动态增加存储资源,高可用性则通过数据冗余备份和负载均衡策略确保了数据的安全性和访问效率。分布式存储系统采用并行处理机制,能够支持海量数据的并行读写操作,显著提升了数据传输和处理速度,特别适合处理大规模遥感图像的拼接、分析以及长时间序列数据的动态变化监测等复杂任务。
02
概 述
图2-1 地形测绘图
遥感测绘数据具有数据量大、数据类型多样、数据更新频繁等特点,这对存储系统的容量、性能、可靠性和可扩展性提出了严格要求。分布式存储系统通过将数据分散存储在多个物理节点上,实现了数据的并行处理和负载均衡,从而显著提高了存储效率和数据访问速度。同时,通过数据冗余和容错机制,分布式存储系统还提供了更高的数据可靠性。然而,分布式存储系统的设计和实施也面临着一些挑战,如数据一致性、系统复杂性和安全性等问题。因此,在构建遥感测绘数据的分布式存储系统时,需要在容量、性能、可靠性、可扩展性和复杂性等方面进行权衡和折中,以满足不断增长的数据处理需求。
03
需求分析
在遥感测绘这一现代化且数据密集型的应用领域中,数据存储的需求呈现出多元化和高度专业化的特点,具体体现在以下几个方面:
海量数据的存储需求尤为突出。遥感测绘依托先进的遥感卫星、无人机以及其他观测设备,持续不断地收集和生成大量影像数据、地理信息数据以及其他相关多源异构数据,单次任务获取的数据量就可能达到TB甚至PB级别。因此,存储设备必须具备超大容量和按需扩展的能力,以确保能够容纳所有采集到的原始数据以及经过处理的各类信息。
高效的数据访问需求对存储系统提出了挑战。遥感测绘数据处理和分析往往需要实时、快速的数据读取和写入能力,尤其是在执行复杂查询、多版本并发编辑、数据更新等操作时,要求存储系统具备极低的访问延迟和出色的吞吐性能。这需要存储设备支持高效的索引机制、并行处理能力和灵活的I/O调度策略,以满足科研人员和生产单位对数据处理时效性和响应速度的高要求。
数据可靠性需求是遥感测绘领域不可或缺的一部分。遥感测绘数据对于科学研究、资源勘探、环境监测等诸多领域具有无可替代的价值,一旦丢失或损坏将造成巨大损失。因此,存储系统必须具备高可用性和容错性设计,包括但不限于数据备份策略、冗余校验技术、多副本同步机制以及可靠的灾备恢复方案,确保在任何情况下都能最大程度地保护数据安全,避免信息丢失或损坏。
随着遥感技术的持续进步和服务需求的不断升级,遥感测绘数据量必将随时间推移而持续增长,呈现出爆炸式增长的趋势。这就要求存储系统不仅在初期建设时具备大容量和高性能的特点,还应在后期易于升级和扩展,以适应未来可能的数据增长需求。
04
设计原则
在设计遥感测绘场景的分布式存储方案时,应遵循以下原则,以确保存储系统能够高效、安全、稳定地运行。
高可用性原则
在遥感测绘场景中,分布式存储系统应具备高可用性。由于遥感数据的重要性及实时性要求,存储系统应设计为容错性强、冗余度高,能够在面对网络、存储节点故障等单点故障时,仍能保证服务的连续性和稳定性。具体实现上,可以通过采用冗余存储、副本机制以及负载均衡等技术手段,确保数据的安全可靠访问。
高性能原则
为了提高遥感测绘业务的工作效率,分布式存储系统应当具备出色的读写性能。这要求在架构设计上优化数据分布策略,合理规划数据访问路径,降低数据热点效应带来的压力,并尽量减少数据传输和调度的延迟。同时,还应关注磁盘I/O性能、网络带宽利用效率等因素,力求实现快速的数据存取速度,满足海量遥感影像数据的处理需求。
可扩展性原则
考虑到未来遥感数据量将持续增长,分布式存储系统必须具备良好的可扩展性。这意味着在不需要改变现有系统架构的前提下,能够轻松地增加新的存储节点以扩大总存储容量,并且能动态调整资源分配以满足不同类型数据和业务需求的变化。通过设计良好的扩容策略和标准化接口,确保在整个系统生命周期内都能灵活应对数据增长带来的挑战。
数据一致性原则
在分布式环境中,数据一致性是衡量存储系统可靠性和有效性的关键指标。为了保障遥感测绘数据的准确性和完整性,系统应采用严格的分布式事务管理机制,确保无论是在正常操作还是故障恢复过程中,所有副本之间的数据都能保持一致状态。
05
建设方案
5.1
方案概述
图5-1 威努特遥感测绘场景解决方案
本方案以分布式存储架构为核心,通过部署多个存储节点并构建存储资源池,实现数据的分布式存储和并行处理。整个存储系统均采用国产处理器以及国产操作系统,存储系统采用威努特分布式存储软件,组成全信创配置的分布式统一存储平台,将集群中的存储资源整合为存储池,为用户信创建设提供底层存储支撑,为前端应用提供块、文件和对象存储服务。
威努特分布式存储系统采用去中心化的无元数据服务设计,使用Hash算法来定位文件,从根本上解决元数据管理这一难题,从而获得近乎无限规模的线性高扩展性,同时也大幅提高了系统性能和可靠性。集群中任何节点只需要相对路径和文件名就可以对数据进行快速定位和读写。无元数据交互过程,不存在元数据性能瓶颈和单点故障问题,可以弹性扩展至上千集群节点,容量和性能可随着节点增加实现线性增长,构建超大的存储规模。
分布式存储系统逻辑上由存储节点、存储网关以及访问客户端组成。数据分布于存储服务器的磁盘上,最终的文件数据通过统一的调度策略分布在不同的存储服务器上。可以将文件系统管理、节点管理以及RAID管理集合在一起,横跨集群内的所有节点,向前端应用呈现单一文件系统,提供全局单一命名空间的文件系统服务。系统内所有数据节点的存储资源被整合为单个超大容量的文件存储空间,以实现统一的管理和大规模存储服务。
5.2
存储资源设计
在存储设计上,采用块存储、文件存储等相结合的方式,满足不同类型遥感测绘数据的存储需求。块存储主要适用于需要高性能读写操作的场景,如实时遥感图像处理等。文件存储则适用于需要大规模文件共享和访问的场景,如遥感测绘数据存储等。
威努特分布式存储采用全对称分布式存储架构,以此构建存储资源池,整个存储系统没有单点故障,并且,通过系统的纠删码及多副本技术,把数据同时保存在多个存储节点中,最大限度提高数据容灾能力。
威努特分布式存储由多台独立的服务器实现,所有节点是完全对称架构,无主次之分,可以在不停机的情况下动态增加存储节点,实现存储容量和性能的动态扩展,“对称”意味着各节点可以完全对等,能极大地降低系统维护成本,且无单点故障。支持理论上无限水平扩展,支持EB级别的大规模存储。
图5-2 分布式存储系统扩展能力
5.3
存储网络设计
在存储网络设计上,采用高速网络互联技术如以太网或光纤通道(FC),能够实现存储节点之间的低延迟、高带宽通信。这些技术确保了数据传输的高效性和稳定性,特别适用于大规模数据处理和实时应用。通过优化网络拓扑结构和路由策略,进一步提高了存储网络的可靠性和容错能力。例如,采用冗余链路和智能负载均衡,可以在单点故障发生时自动切换到备用链路,确保业务连续性。
此外,实施流量控制技术,如QoS(服务质量)和拥塞管理,可以有效避免网络拥堵和传输延迟。QoS机制优先处理关键任务的数据包,保证重要应用的响应速度;而拥塞管理则通过动态调整带宽分配,防止网络过载。这些措施共同确保了存储网络的高性能和稳定性,提升了整体系统的读写效率和用户体验。同时,定期监控和优化网络性能,可以及时发现并解决潜在问题,保障存储网络的长期稳定运行。
5.4
安全设计
节点冗余
威努特分布式存储支持多副本和N+M纠删码(EC),提供硬盘级、节点级、机柜级等多级故障域保护能力。
威努特分布式存储方案推荐采用副本或纠删码数据保护机制,满足所有存储节点同时损坏一块硬盘,以及任意一个节点故障的情况下,保证数据不丢失,充分保证存储系统的可靠性。
链路安全
分布式存储网络采用全冗余方式,即交换机和网络连接均实现双份冗余,交换机采用堆叠方式,所有设备节点网络连接均采用双上联方式连入不同交换机,实现任意一条链路或交换机出现故障时不会造成业务中断,充分保证网络链路安全,从而使系统可靠性得到保证。
数据保护
威努特分布式存储系统可通过快照对数据进行保护,保证当数据不慎被误删除等情况发生时可以进行数据恢复,充分保证数据安全。
06
分布式存储产品特性
6.1
高效的数据分布机制
威努特分布式存储提供智能的数据管理策略,可提供高效的数据定位与分布。对于分布式存储系统而言,元数据处理是决定系统扩展性、性能以及稳定性的关键因素。传统分布式存储系统使用集中式或分布式元数据服务来维护元数据,在高并发等应用环境下,对于集中式元数据处理,MDC无疑会成为整套系统中的单点故障和性能瓶颈。威努特分布式存储采用无元数据服务设计,取而代之使用Hash算法来定位文件,从根本上解决元数据管理这一难题,从而获得近乎无限规模的线性高扩展性,同时也大幅提高了系统性能和可靠性。
6.2
基于文件整体可靠性的数据分布策略
以冗余组为单位,将文件通过哈希算法分配到存储池中的不同冗余组,节点故障只影响一部分数据的安全性和访问性能,即便某一个冗余组全部故障,其他冗余组的文件也不受影响,从而实现用户数据存储整体的可靠性提升。具体流程如下:
根据文件名由Hash算法计算出对应Hash值;
根据Hash值确定文件所在的冗余组以及冗余组下的存储节点;
对所选节点下的数据进行读写访问。
6.3
基于高并发读写的数据分布策略
集群中任何节点只需要相对路径和文件名就可以对数据进行快速定位和读写,无元数据交互过程,文件定位可以独立并行化进行,具体流程如下:
根据文件名由Hash算法计算出对应Hash值;
根据Hash值在集群中确定数据所在节点;
对所选节点路径下的数据进行数据访问。
基于哈希分区的算法机制,威努特分布式存储集群可实现自动或手动负载均衡,保证各个节点容量与随机读写性能保持一致。威努特分布式存储可实现不停机的在线扩展与缩减,包括添加硬盘实现容量扩展,也可增加节点同步提升系统的容量与性能,大大缩减或消除计划内的停机时间。
6.4
数据可靠性的优化机制
支持多种冗余机制以满足不同容量、不同应用的性能需求。无论是纠删码还是多副本,都可以保证为数据提供至少一个节点故障不影响使用的冗余保护,从而保证数据的安全和存储平台的可靠性。建议采用双副本机制,可提供最高一半节点故障数据不丢失保护。
威努特分布式存储提供副本和纠删码两种数据/集群保护模式,用户可根据应用类型、数据重要性、性能、成本平衡选择配置模式,实现数据高可靠和存储服务持续化。副本保护可直接以正常数据为源数据,复制并恢复丢失或损失的数据副本;纠删码保护可以通过存储的冗余数据信息,来重建丢失或损坏的数据,从而进一步加强对数据的保护。
6.5
数据一致性
威努特分布式存储针对存储于硬盘上的数据和元数据,都采用强一致性数据完整性保护机制,采用主--从节点的驱动机制,该机制基于Write-All-Read-One的强一致性数据访问实现,其中主控节点负责接收客户端请求,首先执行本地数据操作,进而驱动从控节点,并等待从控节点数据操作完成后,再向客户端返回读写操作完成响应消息和数据读写操作。
威努特分布式存储采用selfheal、recovery、bitrot等机制多方位进行数据一致性检查,一旦发现数据损坏,系统将根据文件/数据块版本,时间戳以及脑裂等信息,判断出非正常数据并自动对其进行静默数据修复。如果在数据在线访问时发现多份副本不一致,则会立即启动修复机制,调用正常数据立即修复故障数据。存储节点故障后,系统会自动将访问链路切换到正常工作的节点上,进而对故障节点的数据进行手动或自动修改,确保数据有足够的冗余。
威努特分布式存储故障修复时,修复影响控制在有限的节点范围内,对集群整体性能影响极小。威努特分布式存储强一致性的数据保护机制,为数据的存储提供强大的抗风险能力,可以确保在存储节点宕机、系统意外掉电等意外故障下,无数据丢失风险。
为保证数据安全,威努特分布式存储可以设置定期数据完整性验证机制,该机制以底层最小的数据组织为单位遍历所有的数据和元数据,通过比较每一个数据组织及其副本或纠删码来保证没有数据丢失或不匹配。威努特分布式存储支持对业务应用关键数据采用非明文存储或其他安全存储机制,保证数据即使被窃取也无法被利用:
在非信任网络(有标准协议规定除外)之间进行敏感数据的传输采用安全传输通道或者加密后传输;
口令、密钥等敏感信息进行加密保护,而非明文存储在本地;对敏感数据的访问拥有认证、授权或加密机制,对于认证凭据的安全存储,在不需要还原明文的场景下,使用不可逆算法加密;
在URL、日志、错误消息、调试信息中隐藏口令、密钥、银行账号、会话标识符等敏感信息。
WORM(Write Once Read Many)是一次写入多次读取技术,即文件被写入完成后通过设置使其进入只读状态。在该状态下保护期内文件只能被读取,无法删除、修改或重命名。通过采用WORM技术对存储数据进行保护后,可以防止其因意外而修改,这就保证了企业或组织对一些重要的业务数据安全存储的要求。保护期内的文件,普通用户和有WORM操作权限的系统管理员都不可修改、删除或重命名。超过保护期的文件,用户和系统管理员不可修改或重命名,但可以删除。
威努特分布式存储系统支持WORM一写多读功能。开启该功能后,数据一经写入威努特分布式存储系统就无法再修改删除。同时威努特分布式存储系统可指定开启WORM功能时间段,对特定时间段数据做特殊保护。企业重要数据如:照片、合约、订单、财报、发票、电子邮件和各式其他公司重要文件,一经写入就不容许再有任何的更改。WORM是长久安全存储大量数据信息的理想解决方案,可以广泛应用于电子凭证、视频监控、数据加密、企业备份等,实现追溯真实的原始数据。
6.6
数据云归档
针对企业海量数据存储与归档需求,x-Archive是实现海量数据归档的有效方案,结合蓝光、云存储构建二级存储架构,实现海量低频数据的归档迁移管理,将低频数据始终保存在经济、大容量的存储空间,为高频数据释放出更高性能的存储资源,并实现数据在两级存储设备之间的自动迁移与快速访问。
蓝光归档
首先通过S3或NAS接口与蓝光存储对接,将蓝光存储资源作为其低频数据存储资源池。内置的x-Archive归档迁移功能可智能检测数据的冷热属性,将访问次数少、存储空间占比最大的低频数据迁移归档到蓝光存储设备进行长久保存。被迁移的数据会在磁盘存储池保留“存根”,一旦归档数据的“存根”被访问触发,后台会自动将相应数据从蓝光介质中回调,实现归档数据的快速访问。在统一元数据管理下,蓝光资源作为存储资源池的一部分,以统一的命名空间的方式对外提供存储服务。目前x-Archive方案已支持紫晶、华录等厂商主流蓝光库,提供多种蓝光归档选择。
云归档
支持将云存储资源通过S3接入本地,并将其空间作为云端归档池,与本地存储池构建冷热分层存储,对外提供统一命名空间。用户的非敏感数据都可以存储到该分层存储池,在x-Archive的策略管理下,高频数据保存在本地实现高效访问,低频数据自动流动到云端,如数据需要被访问,可以自动从云端在线回调,实现云存储的无缝对接,构建经济立体的数据存储体系。
07
方案亮点
高可扩展性
本方案在设计架构上充分考虑了未来容量增长的需求,采用了分布式存储架构,每个存储节点独立于计算节点之外,且节点间的数据流动通过标准接口实现,这意味着在不中断服务的情况下,可以轻松地添加更多的存储节点来满足不断增长的数据存储需求。
多协议支持
威努特分布式存储支持标准POSIX、NFS、CIFS、HTTP、FTP、S3、iSCSI接口,可完整支持各类数据访问模式;对于特定应用,威努特可通过二次开发提供API级的接口调用。威努特分布式存储通过不同接口(POSIX、NFS、CIFS、FTP、S3等)均可访问一致的数据内容,实现跨协议和接口的文件数据透明共享。
威努特分布式存储支持Windows、Linux、UNIX、MAC等主流操作系统,并支持LDAP/AD域控管理,支持文件存储、虚机镜像文件存储、大规模目录服务、高性价比备份存储等应用场景。
功能性完备
威努特分布式存储系统构建了一套全数据适配、全场景支持、全业务支撑的统一存储架构,对于当前和未来的各类数据中心业务,都可以高效、可靠地支持。
存储系统遵循SDS软件定义存储的设计理念,充分整合各类IT硬件能力(CPU、内存、总线、磁盘、网络等),以存储软件的高度优化和硬件资源最大化利用为目标,构建高效、智能、可持续升级的开放型软件定义存储系统。
威努特分布式存储融入了最新的软件定义技术、超融合技术、SSD优化加速技术,并在存储对象管理、系统级存储服务、存储高性能、超融合及智能化、安全加固方面进行了精心设计和深度优化,可实现统一化的存储接口,并行化存储调度、弹性化存储扩展和智能化存储应用。
高可靠性、高可用性
威努特分布式存储系统采用RAID5+EC的方式构建冗余存储系统,在任意两块硬盘损坏的情况下都不会造成数据丢失和系统宕机,充分保证业务系统的可靠性。
业务主机与存储节点之间可采用多条物理链路,逻辑绑定的方式实现多路径,任何一条路径的损坏都不影响数据的访问。
威努特分布式存储系统支持在线动态扩容,包括磁盘、节点扩容,用户无需规划计划内的停机时间,可随时按需扩容。扩容期间,数据的可靠性、系统的可用性不受影响。
威努特分布式存储系统支持在线系统升级,升级期间保证业务不中断。
08
结 语
遥感测绘场景下的分布式存储方案,是当前大数据时代下针对海量遥感图像及相关测绘数据存储难题提出的一项创新解决方案。本方案通过采用分布式存储架构,能够将海量遥感测绘数据分散存储于多个节点中,有效解决单一服务器存储容量受限的问题,同时通过数据分片和副本机制保证了数据的安全性和可靠性。
在未来,随着遥感测绘技术的快速发展和应用领域的不断拓展,分布式存储方案将发挥更加重要的作用。它将持续为遥感测绘领域提供更加高效、安全、可靠的数据存储服务,助力遥感技术在环境保护、城市规划、交通管理、地质勘察、海洋测绘、水文监测等诸多领域实现更广泛的应用和更深层次的发展。
渠道合作咨询 田先生 15611262709
稿件合作 微信:shushu12121
📍发表于:中国 北京