联想LeoStor分布式存储系统解决方案介绍

联想企业级解决方案中心Lenovo Enterprise Solution Center

目录

第一章海量存储需求分析 (1)

1.1引言 (1)

1.2功能需求 (1)

1.3性能需求 (3)

1.4可靠性需求 (3)

1.5可维护性需求 (4)

1.6扩展性需求 (4)

1.7分级存储需求 (5)

第二章传统存储技术架构 (6)

2.1传统存储解决方案 (6)

2.2FC-SAN (7)

2.3NAS (8)

第三章LeoStor分布式存储方案介绍 (10)

3.1LeoStor体系架构 (10)

3.2LeoStor方案设计原则 (11)

3.3LeoStor方案组成 (12)

3.4LeoStor系统功能介绍 (12)

3.5LeoStor方案与SAN对比 (14)

3.6LeoStor方案与集群NAS对比 (15)

第四章LeoStor方案技术特性 (17)

4.1方案特点 (17)

4.2系统功能特性 (18)

4.2.1海量数据存储 (18)

4.2.2海量文件高效检索 (19)

4.2.3高并发访问 (19)

4.2.4高数据读写性能 (20)

4.2.5动态在线扩展 (20)

4.2.6高可靠性 (20)

4.2.7数据动态迁移 (22)

4.2.8数据隔离与交互 (23)

4.2.9系统可维护性 (23)

4.2.10监控系统 (24)

4.2.11分级存储机制 (24)

4.2.12POSIX接口 (24)

第一章海量存储需求分析

1.1引言

随着系统信息化建设的不断发展,并向其它行业、领域的不断扩展,数据量的增长已达到前所未有的速度,以文件为单位的非结构化数据不管是单个文件大小或在文件总数据量的增长上都非常迅速。“大数据(Big Data)”时代已经到来,针对于大数据时代存储需求,除了如何存储管理大数据以及海量的文件数量之外,更为重要的是根据应用的访问特点在保证数据安全性的同时进行简易化合理的数据存储管理以及提高存储系统读写性能,提升数据处理效率,将存储系统的价值发挥到最大。

1.2功能需求

1

2

1.3性能需求

基于存储局域网技术,为满足数据存取需求和运行于其上的应用计算系统、查询检索系统、以及数据分析系统等的工作要求,必须强化数据存储核心,选择集群存储服务器与网络架构。其基本性能需求分析如下:

性能扩展:在存储系统中,处理器主要完成I/O处理、cache控制管理、数据传输控制以及一些智能化的软件功能,处理器的能力直接影响到整个存储系统的性能。为了满足数据处理程序对存储性能增长率的要求,采用的存储设备必须具有良好的性能扩展性能,可以将单个任务分布式的存储在多台存储服务器中,屏蔽掉由于单个硬盘或者服务器对外提供存储服务而造成的数据读写瓶颈。

数据缓存机制:对于大数据文件访问应用,存储系统需要拥有缓存机制,将所有经常被访问的数据存储在缓存池中方便用户调取经常被访问的数据时可以直接从缓存调取,且缓存池容量无需设置限制。

海量文件高效检索效率:当数据量不断增长(如图片类与数据处理数据),存储系统里面的文件数量也会快速增长。当存储系统内的文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。

1.4可靠性需求

存储系统可靠性是整体系统可靠性的重中之重,多台服务器共享存储资源,一旦存储产生严重故障,业务服务必然全面停滞,甚至导致致命的数据资源损坏。因此,存储系统必须具有强有力的可靠性保障。采用传统的RAID数据保护技术,只能从硬盘级别保护数据,随着数据的增长,磁盘数量多,容量大,硬盘故障的几率增加,

3

恢复时间长,且在进行数据恢复时,RAID机制的存储系统几乎处于不可用的状态,所以RAID技术已不能满足实际应用的需求。从数据的安全性和应用的连续性考虑,要求存储系统不管是在单机任意数量磁盘损坏、整机宕机、单网络损坏、单控制器损坏的情况下,都能够继续保证业务的连续和数据安全性,即这些故障发生时,用户可以无任何感觉的继续使用存储系统。

1.5可维护性需求

存储系统的基础建设设施,应采用通用服务器硬件设备搭建,无需专用硬件搭建,可通过通用的X86架构服务器搭建存储系统,降低硬件成本,提升硬件更换的灵活度。在于系统的可维护性上,存储系统对设备的控制粒度需要划分到硬盘级别,方便运维人员对系统进行系统化的维护,在探测到有不稳定硬盘出现时可以按需自动的迁移任意硬盘中的数据到其它正在服务的正常磁盘中,且可以通过挂载存储系统中任意级别目录的方式让各方应用形成数据隔离,并可在扩容后实现在线的迁移数据,直到各个存储服务器中的数据均衡为止,且可以根据现有服务器情况提出在线更换所有老旧设备方案,增强整套存储系统的可维护性。在于管理上要有独立的存储管理软件,管理软件需要嵌入所有存储系统的功能参数,方便运维人员管理,实现单点单人管理数PB的存储空间,缓解企业运维人员的压力。

1.6扩展性需求

针对数据存储特点,需要实时的不间断写入数据,对存储系统的扩展性要求非常高,在于容量方面,可以根据应用系统需求不断的进行按需扩容设置,且扩容时对服务器数量以及硬盘容量不存在任何限制,可以支撑起任意数量的存储服务器以及任意容量的存储硬盘性能方面可以实现随着存储服务器数量的增加整体存储系统

4

的聚合带宽以一个近线性增长的趋势增加,实现容量增加的同时,整体存储服务器的性能也不断的增长,且扩容方式简单便捷,可以实现一人10分钟内扩展数百TB 的存储空间。

1.7分级存储需求

存储系统需要具有分集存储功能,可以针对于目录进行设置,设置此目录下数据所使用的硬件设备,方便经常被访问的数据放置在性能高的存储硬件介质中,以此来提升存储系统地整体性能的同时,实现硬件设备按需分享,且在市场对硬件设备进行更新换代时,可按需的添加最新的存储硬件到应能要求最高的存储系统中,提升存储系统整体灵活性。

5

第二章传统存储技术架构

2.1传统存储解决方案

传统存储架构主要包括直连存储(DAS)、存储区域网络(SAN)、网络附加存储(NAS)以及在他们基础上衍生的一些新技术。存储架构最根本的区别在于:存储格式,如块数据或文件;存储与应用之间的控制流和数据流方式。存储格式定义了访问方式,以及访问共享数据时的锁机制、同步和安全。控制、数据流方式则定义了为带宽准备的并发机制。这两个存储特性如何实现最终决定了存储系统的性能和扩展性。

现有数据存储中心常用的存储方案有:FC SAN或者IP SAN磁盘阵列系统或者NAS方案,这些方案有以下特点和问题:

单套文件系统中,传统方案性能可能随着并发数的增多而有所局限;

容量扩展成本高,同时容易形成相互独立的不共享空间,增加投资成本;

单文件系统容量大小限制,需要分开管理多个互不共享的空间,增加了您管理的难度和投入;

多计算节点访问各自独立的数据内容,容易造成存储信息孤岛;

价格昂贵,提升性能的同时也提升了您的TCO。

6

7

2.2 FC-SAN

光纤盘阵万兆网络

高性能计算节点

I/O 服务器MDC

如上图所示,是一个典型的FC SAN 架构图。SAN 提供通过4Gb/s 或者8Gb/s 的光纤通道给应用的是块级访问接口。在应用端看到的是一块硬盘,实际使用时还需要对该硬盘进行格式化处理。

SAN 具有如下几个特点:

● 不能文件共享:该方案利用存储光纤网络连接应用服务器和光纤盘阵,相比DAS

更具灵活性和可扩展性。如果没有第三方软件,SAN 不能支持文件共享,所以SAN 更加适合作为数据库这类不需要文件共享而需要较低延时的结构化数据存储。

● 使用维护复杂:SAN 使用了大量专用、复杂的硬件,并且各厂家之间的兼容性

较差,这就需要较高的系统构建成本、运营维护成本,兼容性的问题也会对系统

8

将来的升级带来不便。

● SAN 系统的整体性能受控制器的制约,当前端应用的并发负载提升时,输出的

性能会急剧下降,因此该种架构不能实现容量和性能的匹配上升。

● SAN 环境通过RAID 技术达到有硬盘故障时进行故障恢复的效果,但是恢复的效

率非常低下,当前由TB 级硬盘构建的RAID ,一旦磁盘故障,恢复时间将达到几个甚至几十个小时,随着单盘容量的增加,恢复过程用时也线性增加,这种漫长的恢复过程中极易引发第二块硬盘故障,因此对用户数据的可靠性保护随着容量增加反而快速下降。而且恢复过程输出性能非常低下,对应用读写性能影响非常大。

2.3

NAS

千兆网络

应用服务器集群

NAS 存储

如上图所示,是一个典型的NAS 架构图,NAS 是一种较为简易的数据共享解决方案。NAS 通过NFS/CIFS 协议给前端应用提供全局的文件共享,来满足多应用服务器之间的业务协作。NAS 协议是一种面向单服务器的访问协议,其性能受限于该

服务器的配置。在业务访问量较大的情况下,NAS将很快成为业务的性能瓶颈。

NAS是一种提供数据全局共享的一种解决方案。NAS即便使用两台以上NAS 服务器同时提供服务,但是由于两台NAS实际上不能同时对相同的卷进行访问,导致其性能与传统的单台NAS相差无几。同时NAS也存在最大存储容量、单卷存储容量、文件数量等诸多限制。

在数据不断增长的情况下,单一NAS存储,如需扩容,通过增加阵列磁盘数量来增加存储空间,而由于NAS的扩展限制,导致单一NAS整体性能会随着容量的增加,而逐步下降,这些限制将会给数据的统一管理维护带来不少困难。

在于集群NAS而言存在两点问题,一是集群NAS走的是NFS协议,NFS协议注定一台计算节点只能与一台NAS头进行连接,也就是说当某一时刻,只有挂载在一个NAS头上的计算节点在运行计算的时候就会对当前的NAS头造成性能瓶颈,第二点是所有计算节点在进行数据写入的时候,需要把数据的元数据信息写入到一个NAS头上,然后在由这个NAS头和系统内所有的NAS头进行数据同步,和所有的NAS头同步完之后才会返回给客户端一个信息告诉客户端继续进行数据读写,这也就说明NAS头的数量不可能无限制的扩展,扩展过多会导致需要同步的数据过多,而集群NAS的整体性能又是由NAS头的数量决定的,这也就成为了NAS系统的一个矛盾点。

存储系统NAS结构很好的解决了信息孤岛的情况,但由于本身的架构理念,制约了性能的进一步提升,对于计算行业,NAS的这方面劣势被无限的放大,以至于会影响到整体工作的效率,虽然采用了聚合带宽的方式,但NAS的基本劣势依然存在。

9

10

第三章 LeoStor 分布式存储方案介绍

3.1 LeoStor 体系架构

联想LeoStor 分布式存储是联想针对云时代存储需求,自主开发设计的一种高性能、高可靠、高扩展能力的云存储系统,采用分布式存储技术,满足大数据高效可靠的存储需求!

LeoStor 分布式存储体系架构

LeoStor 方案拓扑图

如上图所示,LeoStor分布式存储采用Doubl-Cluster双集群架构,将元数据集群与数据集群分离并可实现独立扩展,用户既可以通过扩展元数据集群获得更多文件管理的能力,又可通过扩展数据存储集群获得更大的聚合带宽与存储容量,灵活、无缝、平滑的扩展方式让用户可以有效地控制成本。

3.2LeoStor方案设计原则

文件共享:数据的存取不再依赖于I/O节点,系统内的所有存储服务器都可以取代I/O节点的工作,且存储系统自带负载均衡机制,所有的计算节点在访问时都会获取到存储节点的负载状态,然后挑选一个负载较低的存储服务器进行数据读写,以此负载均衡与动态调配进程机制可以极大的提高计算节点和整个集群系统的使用效率。

成本控制:采用通用x86服务器架构设计,极大地降低了部署以及维护成本。

消除I/O瓶颈:通过集群存储把整个计算系统网络统一为以太网,由集群存储节点对计算节点提供一致的数据服务,扩容后不在采用I/O节点方式。

存储资源集中化:可以非常容易地进行容量的再分配和简化的系统管理,并可限制目录容量使用,方便存储容量的划分同样节省了宝贵的空间资源。

管理的简单化:通过简单图形界面进行管理,极大的简化了整个存储系统的管理,节省运维成本。

同步机制:系统自带数据同步机制,可实现小文件打包、大文件切分、差异化同步、定时同步等机制,提高数据同步效率。

11

3.3LeoStor方案组成

3.4LeoStor系统功能介绍

12

13

3.5LeoStor方案与SAN对比

14

3.6LeoStor方案与集群NAS对比

15

16

第四章LeoStor方案技术特性

4.1方案特点

统一存储池提高存储利用率

LeoStor集群存储提供全局统一存储架构,可支撑用户所有业务统一访问同一套集群存储系统,为应用系统提供数据存储与数据处理的计算平台,提高存储系统整体利用率,降低多套系统同时存放多个相同数据而造成的存储空间浪费。

高稳定性的结构体系:

智能集群存储架构,节点级的容错机制,可以在单机内所有硬盘随机损坏或者单个存储服务器宕机以及单网络损坏和单元数据损坏的情况下继续对外提供存储服务,且对线上应用不存在任何影响;

在任何故障情况下,存储系统包括智能存储服务器在内,都可以进行不停机的在线维护与更换,更换硬件的过程中完全不影响前端用户的使用于业务的正常运行;

系统自动化机制完善,极大的减少了运维人员操作,且由于是统一式存储系统,运维人员无需太高专业知识即可实现单人单点管理数PB存储空间,极大的降低了运维人员的运维压力;

文件系统性能和使用效率的最大化:

消除了I/O节点瓶颈,通过虚拟化技术将系统内的所有存储服务器的硬件设

17

备,如硬盘、网络、CPU、内存聚合在一起,使存储空间和对外共享成为一

个整体,构成了适合计算集群应用的高I/O集群存储,在存放海量镜像时可

保证海量镜像同时启动时所需性能需求;

存储系统的持续性能均满足所有计算节点同时访问的性能要求,读写性能多个计算节点的并发访问要求,多个计算节点同时访问同一个文件也不会产生

性能的瓶颈;

存储平台超强的扩展能力:

增加智能存储服务器可以把I/O性能来线性提高到几十个GB的聚合带宽,实现每秒数十万个的文件查询效率,大幅度减少计算任务的数据IO 时间,

提高系统的整体效率。

增加存储节点,可轻松实现EB 级的存储容量,良好的动态扩展能力使得用户能够快速的按需扩量。轻松满足数据量极其庞大的应用领域。

文件检索效率:

在于文件检索方面,LeoStor文件系统完全基于私有算法实现文件检索,可根据文件路径以及检索算法一步定位文件实际位置,实现文件查询,提高整个

系统的文件检索效率,提升由于安装海量虚拟机之后进行杀毒时的存储检索

效率,提升整体运行时间。

4.2系统功能特性

4.2.1海量数据存储

LeoStor分布式存储系统采用存储服务器集群的方式来满足海量数据的存储需求,

18

相关文档
最新文档