集团基础设施云平台IaaS详细规划设计

集团基础设施云平台IaaS详细规划设计
集团基础设施云平台IaaS详细规划设计

集团基础设施云平台IaaS 详细规划设计

目录

1前言 (2)

1.1背景 (2)

1.2文档目的 (2)

1.3适用范围 (2)

1.4参考文档 (2)

2设计综述 (3)

2.1设计原则 (3)

2.2设计思路 (5)

2.2.1物理资源模块化、标准化 (7)

2.2.2资源池化 (7)

2.2.3统一的资源管控平台 (8)

2.2.4业务连续性保证 (9)

2.2.5云安全服务 (9)

2.2.6运维场景化 (10)

2.3建设目标 (10)

2.3.1建设目标 (10)

2.3.2总体建设思路 (11)

3集团云计算规划 (13)

3.1整体架构规划 (13)

3.2I AA S规划 (13)

3.2.1基础网络 (14)

3.2.2云网络 (75)

3.2.3计算 (85)

3.2.4存储 (97)

3.2.5云平台 (112)

3.2.6安全 (127)

3.2.7运维 (155)

3.2.8容灾 (178)

1前言

1.1背景

集团信息中心中心引入日趋成熟的云计算技术,建设面向全院及国网相关单位提供云计算服务的电力科研云,支撑全院各个单位的资源供给、数据共享、技术创新等需求。实现云计算中心资源的统一管理及云计算服务统一提供;完成云计算中心的模块化设计,逐渐完善云运营、云管理、云运维及云安全等模块的标准化、流程化、可视化的建设;是本次咨询规划的主要考虑。

1.2文档目的

本文档为集团云计算咨询项目的咨询设计方案,将作为集团信息中心云计算建设的指导性文件和依据。

1.3适用范围

本文档资料主要面向负责集团信息中心云计算建设的负责人、项目经理、设计人员、维护人员、工程师等,以便通过参考本文档资料指导集团云计算数据中心的具体建设。

1.4参考文档

《集团云计算咨询项目访谈纪要》

《信息安全技术信息系统安全等级保护基本要求》(GB/T 22239-2008)

《信息系统灾难恢复规范》(GB/T20988-2007)

《OpenStack Administrator Guide》(https://www.360docs.net/doc/7e2868390.html,/)

《OpenStack High Availability Guide》(https://www.360docs.net/doc/7e2868390.html,/)

《OpenStack Operations Guide》(https://www.360docs.net/doc/7e2868390.html,/)

《OpenStack Architecture Design Guide》(https://www.360docs.net/doc/7e2868390.html,/)

2设计综述

2.1设计原则

结合集团当前的实际现状及未来三年业务发展需求,此次云计算规划的考虑原则如下:

1、关注IT能力的快速提升

IT能力包括业务服务能力和运维能力上。业务服务能力上,从技术层面来说,包括物理硬件资源、云计算资源抽象层、统一的应用平台以及应用软件。运维能力则包括了人员、流程、工具等各个方面。

图1IT能力组成示意

对于云计算技术的选择以及运维工具的选择上,在技术对比之外,更应关注于选择本身是否能给集团带来业务服务能力以及运维能力的快速提升上,并以此作为评判的基本原则。

2、采用开放的架构

开放本身有两个含义:源代码开放和标准开放。源代码开放,允许集团可以拥有完全的掌控,可以修改或则增加新的功能满足集团自身的需要;标准开放意味着集团可以通过各种符合标准的产品构成自己的云计算方案

图2开放架构的两方面含义

对于集团而言,标准开放比源代码开放更重要。源代码开放虽然能够让集团拥有完全的掌控,但由于人力的持续投入,以及业务重心的考虑,所谓的“完全的掌控”并不一定能够获得;而标准开放可以避免受单个实体控制(使单个实体受益),这是集团更应关注的。

3、关注资源的弹性

资源的弹性来自于集团的业务需求,也是重要的设计原则。

资源的弹性体现在各个层面。硬件层面更多的表现为资源可以线性扩展,可以快速部署;IAAS平台层面则需要能够支撑管控规模的线性扩展;云资源层面则真正实现资源的弹性,可以随着业务量的增多而弹性增加,也可以随着业务量的萎缩而弹性收缩;应用层面的弹性则更多的体现在灵活的部署上。

4、其他通用原则

除去上述集团应该特别关注的原则外,整个规划设计还需要考虑下述通用原则:

图3其他通用原则汇总

?高可用性:结构的高可用性,资源的冗余部署,逻辑关系的松耦合设计,

不会因为任何一个模块发生故障而影响业务的开展。具体来说,包括物

理网络、云计算资源、云计算平台、业务应用自身等各个层面的高可用。

?安全性:安全区域合理规划,安全策略精细化部署,安全策略进行统一

的管理,能够满足未来业务发展对安全的需求。

?灵活性:满足业务与应用系统灵活多变的资源分配及部署需求。

?可管理性:结构简单、健壮,易于管理和维护,满足监管要求及日常运

维的需求,并提供及时发现和排除故障的能力。

?性能:采用的技术应带来性能的提升,至少本身不会带来性能的大幅下

降。

2.2设计思路

集团云计算的服务对象包括业务及科研体系、运维体系、管理层,未来则可能面向集团,甚至其他企业提供服务。每个服务对象对云计算的关注和诉求均存在不同。

具体分析各个对象的需求,可以发现:

?自有业务体系:能够方便、快速的获得所需IT资源,不愿介入IT本身

的管理维护,业务系统不中断;

?其他业务体系:对云内隔离的疑虑,对云内安全的需求,对可靠性保证

的担忧;

?管理层:关注投资收益比,能方便的获得投资决策数据,包括业务的经

营数据,IT的运营数据;

?运维体系:平台可靠,易于管理,业务快速自愈能力,弹性扩展能力,

运维工作量低,完善的安全防护;

?建设者:建设者和运维体系可以是一个实体,但基于对象考虑它有其独

特的需求。初始能够快速建设,后续能够快速的扩容,建设周期短,人

员投入少,建设质量有保证;

针对各个对象需求分析总结,云计算的规划思路主要在于标准化模块化、资源池化、资源服务化、云容量的可视化、运维部署自动化、资源高可用、云安全服务、运维场景化这些方面,具体分析见下面的表格。

表1

对前面的规划思路进行归纳分类,云计算的规划主要需要考虑下面的六点:

?物理资源的模块化、标准化;

?资源池化;

?统一管理平台(统一平台的资源服务化、云容量的可视化、运维部署自

动化);

?业务连续性;

?云安全服务;

运维场景化;

后面针对每一点分别进行具体分析。

2.2.1 物理资源模块化、标准化

物理资源的模块化、标准化是云计算建设的基础。云计算的最重要的特点之一就是资源的弹性,弹性的主要表现则是资源的快速扩展和收缩。其中资源的快速扩展不仅仅是逻辑资源层面的,也是物理资源层面的。物理资源的模块化、标准化,利于机房的预先规划,利于资源的批量采购,也利于云计算资源运维的自动化。

集团未来业务规模的扩大,必然需要IT基础设施规模的扩展来支撑。在后续的设计中,通过物理POD设计、网络划分、分区设计、资源池单位、存储统一规划等实现基础网络、计算单元、存储单元的标准化规范、模块化的设计,实现云计算建设的快速扩展

图4物理资源模块化、标准化建设思路

2.2.2 资源池化

资源池是云计算的逻辑构成。具体而言,资源池化主要包含三个方面:

首先是逻辑资源标准化,为上层应用提供统一的资源交付,对底层硬件则通过软硬件解耦,屏蔽硬件差异;

其次通用化,不针对特定的应用,在云的支撑下可以构造出千变万化的应用,同一个云可以同时支撑不同的应用运行。无论这种应用是基于Windows,还是Linux,无论这种应用是计算密集型,还是网络密集型;无论这种应用是针对外部访问的,还是对内提供服务的,均可以通过这一通用的平台支撑。

最后是资源灵活调配,不受物理部署的限制,实现计算、存储以及网络资源

的任意位置流动。池化的一个重要特点就是资源的流动性。只有流动才能使资源调度整体上处于平衡。

经过多年的发展,云计算的资源池化已不仅仅限于计算的资源池化,还包括网络、存储甚至安全的资源池化。针对集团的此次资源池规划,将分为计算、存储、网络三大部分进行分析设计。

2.2.3 统一的资源管控平台

资源服务化、云容量的可视化、运维部署自动化,这些均需要统一的云资源管控平台来实现。将各种资源进行逻辑构建和标准化后,大量资源的运维管理成为一个急需解决的问题。统一的云平台是解决的这一问题的最好办法。

同时通过云平台的集成,将资源的申请使用变成平台上的自助式服务,云的容量变成平台上的可视图形,手动的运维变成平台上的自动处理流程,最终实现云的服务。

针对集团的云资源管控平台,将从平台的选择、平台的架构、服务的构成几个方面来进行分析。

2.2.4 业务连续性保证

无论采用何种建设方式,业务连续性保证都是无法回避的问题。通常的业务连续性保证可以分为数据中心内和数据中心间两个层面。

数据中心内的业务连续性则聚焦于高可用性。对于云计算数据中心内而言,继续细分则可以分为物理基础设施的高可用、云计算自身的高可用、云为业务提供的高可用、以及业务自身的高可用。其中云计算自身的高可用和云为业务提供的高可用,是云计算应具有的可用性保证。

数据中心间的业务连续性则聚焦于灾备。灾备级别可分为数据级容灾及应用级容灾,通常的手段则是通过多中心建设来实现。

针对集团的此次云数据中心规划,后面讲详细分析云数据中心内的业务连续性保证,并简单介绍多中心的灾备体系。

2.2.5 云安全服务

安全本身自成体系,包括物理、网络、主机、数据、应用等各个层面。在云计算的建设中,安全所有的这些部分均存在,只是在云环境下,部分的安全防护方式以及安全手段出现了新的变化。

云环境下由于IT资源变成逻辑的、与物理位置无关的资源,原有的基于物理边界的安全防护措施变得不再适用。新的基于云环境下的资源隔离手段、资源的防护措施,是本次规划重点需考虑的地方。同时云的服务化的理念也渗透到安全的领域,基于云内的安全服务成为未来安全的一个方向。

基于集团当前的业务现状以及未来的业务需求,传统安全结合云的安全规划,是本次项目的安全设计的主要规划方式。

2.2.6 运维场景化

通过资源集中管理,云计算为各种自助服务、自动化运维管理提供了基础。但具体的自动化运维需要明确的场景定义。针对特定的业务场景以及故障场景,通过自动化的技术手段,满足业务的资源需求,以及实现业务的自愈,是运维场景化的主要方向。

云环境下的自动化运维,通常包括下面三种常见的场景,此次的规划中也将具体分析这三种具体场景:

?业务故障的场景。当云环境下的物理服务器故障、VM故障、或者OS异

常等发生时,通过云平台的自动检测切换,保障业务的正常运行,减少

业务中断时间;

?业务对资源质量需求的场景。许多业务运行对CPU占用、内存分配有较

高的要求,而实际运行中这些情况瞬息万变。通过云平台对相关资源的

自动检测,主动将高资源质量要求的应用迁移到资源充裕的位置;

?业务对资源数量需求的场景。当业务运行资源不够导致服务能力不足,

且业务自身支持通过资源数量的增加来提供服务能力时,云平台通过检

测资源的瓶颈并自动增加相关资源来保证业务的服务能力提供。这种场

景很好的体现了云计算资源的弹性。

2.3建设目标

2.3.1 建设目标

结合集团IT架构现状和未来业务发展的需求,我们给出的解决建议有采用标准化硬件基础设施建设;建设云计算高可用架构的统一资源池;建设统一的云管理平台;构建统一的PaaS平台;构建运维体系、流程和工具;建设基于等保的安全体系,最终达到IT资源统一云化、科研环境平台化、业务应用服务化、运维管理自动化的云计算建设目标。

目前云计算已经是未来IT的基础架构,包括“中国大数据战略”,“物联网行动纲领”,“中国制造2025战略”,“中国电信CTnet2025战略”都是将云计算作为基础技术支撑;国家电网发布了信息通信新技术推动智能电网和“一强三优”现代公司创新发展行动计划,推进大数据、云计算、物联网和移动互联等新技术在智能电网和“一强三优”现代公司建设中的创新应用;集团作为国家电网最重要的核心科研机构,集团担负着促进科学进步、为行业提供技术支撑的重任。

结合宏观和微观的需求,本次集团云计算项目建设的终极目标是构建国际一流的科研云。

2.3.2 总体建设思路

集团本次云计算项目基于统一的云计算架构,构建集团科研信息化平台,建立面向行业的科研云,对外提供云增值服务,支撑集团成为“国际一流的科研和

技术服务机构”,总体建设思路如下:

1、IT资源统一云化:对全院IT资源整合,提供云化的IT资源统一管理和

自助服务,达到统一的资源池、统一的资源池管理和统一的资源交付;

2、科研环境平台化:通过构建PaaS科研平台,科研DevOps一体化环境,最

终实现业务应用微服务化,实现集团科研信息化平台,建立统一的PaaS 科研开发环境,支持集团创新提升。

3、业务应用服务化:通过建设科研云统一门户和应用商店,提供云增值服

务,对内对外外提供大数据分析、数据仿真等云增值服务,支撑集团成为“国际一流的科研和技术服务机构”,加快推进成果转化。

3集团云计算规划

3.1整体架构规划

日前,集团发布信息通信新技术推动智能电网和“一强三优”现代公司创新发展行动计划(以下简称行动计划),推进大数据、云计算、物联网和移动互联等新技术在智能电网和“一强三优”现代公司建设中的创新应用。

集团未来三年云计算整体蓝图,需要构建多中心的“科研云”,全面提升集团未来的业务创新能力,保障业务快速安全交付。

对于其中同城云数据中心内的建设,则可以划分为物理资源层、虚拟化平台层、云服务层,以及贯穿各个层面的运维管理层

整个科研云涵盖IaaS、PaaS、SaaS服务,提供完整的云计算服务;同时科院云是符合等保三级和集团合规要求的安全可靠的云;同时建设统一的运营、运维管理体系贯穿整个科研云各个层面;构建集团统一的云服务门户,通过云服务门户统一对内对外提供云服务,支持科研各应用领域:

3.2IaaS规划

针对集团此次云计算的建设,从基础网络、云网络、计算、存储、云平台、安全、运维和容灾八个领域对云计算进行规划设计,基于开源的高可用的商用云

计算架构,各组件松耦合、模块化、标准化,实现云计算的灵活性,最终实现统一的资源池化、统一资源管理和统一资源交付的目标。

3.2.1 基础网络

3.2.1.1网络总体设计

3.2.1.1.1设计原则

集团网络总体设计需重点关注网络架构的规范、安全体系的完善、网络管理的统一、业务部署的灵活、技术的成熟可靠等各方面的需求。为了能够满足集团业务系统对网络基础设施的要求及设计目标,在集团的网络总体设计中采用以下设计原则:

?高可用性:网络结构的高可用性,物理资源的冗余部署,逻辑关系的松

耦合设计,不会因为任何一个网络模块发生故障而影响全局网络的畅通。

?安全性:网络安全区域合理规划,安全策略精细化部署,符合信息系统

安全等级保护基本要求,全网的安全策略进行统一的管理,能够满足未

来业务发展对安全的需求。

?可扩展性:采用业务功能模块化和网络拓扑层次化的设计方法,使得网

络架构在功能、容量、覆盖能力等各方面具有易扩展能力,使其能够动

态响应业务发展变化,快速满足业务和应用不断变化对网络基础架构的

要求,配合业务的快速发展或变革。

?性能:网络的带宽、时延、抖动等性能指标满足业务系统的要求。

?灵活性:采用新技术和新特性时,网络架构不需要调整或调整较小,满

足业务与应用系统灵活多变的部署需求。

?可管理性:网络简单、健壮,易于管理和维护,满足行业监管要求及日

常运维的需求,并提供及时发现和排除网络故障的能力。

3.2.1.1.2设计思路

集团网络总体设计参考目前国内外一流企业和科研单位网络建设中流行的设计理念和规范,保持技术上具有总体先进性和开放性;同时又考虑成熟性、稳定性与先进性相结合,保证网络稳定有效的前提下具有一定的前瞻性。具体的网络整体设计思路如下:

?网络松耦合:信息内网、信息外网和科研网松耦合;数据中心网络、广

域网及各院区松耦合;数据中心内部各功能分区松耦合。

?核心网架构:信息内网、外网和科研网均基于核心网架构,数据中心和

各院区作为叶子节点,扁平化接入,实现较好的扩展性,并有效隔离故

障域。

?前后端网络分离:集团数据中心的前端业务网络与后端管理网物理隔离,

流量互不影响,保证高可用性。

?模块化分区:模块化的数据中心是一种用标准、可重复构建单元来构建

数据中心的基础设施方法,CELL和POD是数据中心模块化设计的关注

重点,也是模块化数据中心构建的最基本单元。信息内网数据中心网络

功能分区包括:核心交换区、二级系统区、三级系统区、VDI区、高性

能计算区、开发测试区、管理业务区、广域网区。信息外网数据中心网

络功能分区包括:核心交换区、二级系统区、互联网出口区、广域网区

和管理业务区。

?网络分层:集团数据中心网络分核心层、汇聚层、接入层三层网络架构

设计,不同的网络层次承担不同的功能。核心层主要负责流量的高速转

发,汇聚层主要负责流量的汇聚及网络安全、路由策略的部署,接入层

为各种IT系统和终端用户提供接入设施。

标准化部署:网络架构设计采用标准化设计思路,从物理上和逻辑上,对网络各节点以及节点之间的连接,进行标准化设计,简化部署,降低

运维管理复杂度。主要包括网络组件标准化设计、连接方式标准化设计、

协议部署标准化设计。

3.2.1.1.3网络总体设计

集团网络分为信息内网、信息外网和科研网,信息内网承载全院用户访问自建业务系统和集团统推业务系统的内网流量;信息外网承载全院用户访问Inerent及对公网用户提供服务的流量;科研网承载各院所实验室的科研流量。三张网络物理上相互独立,互访需要经过隔离装置进行数据摆渡。

3.2.1.2物理部署

3.2.1.2.1机房物理部署

清河数据中心(科研楼三楼)机房综合布线遵循TIA-942 Tier IV标准的星形连接架构。

清河数据中心(科研楼三楼)网络机房机柜布放如上图所示:网络机房最左侧四列机柜放置信息内网的网络设备和MDA区的线缆,最右侧两列机柜放置信息外网的网络设备和MDA区的线缆,最右侧的第三列机柜放置科研网的网络设备和MDA区的线缆,其余机柜作为服务器机柜。

清河数据中心(科研楼三楼)服务器机房机柜布放如上图所示:每列机柜部署一个配线柜和一个强电柜,配线柜布放网络机房的MDA区到本列机柜的光纤,经ODF配线架/MPO模块盒采用尾纤跳线到各机柜架顶的ODF配线架/MPO模块盒上。

3.2.1.2.2POD设计

云计算数据中心通常会采用结构化、模块化、标准化的设计方法,实现IT基础设施(计算、网络、存储)的灵活扩展,减少对在网运行业务的影响,简化部署,便于实现自动化运维。

服务提供点(POD,Point Of Delivery)是“服务模块”的具体实现形式,采用这种方式实现数据中心的物理资源的组件化、模块化设计,有利于提高扩展性,隔离故障域,通过组件的重用来提高IT基础设施的部署效率。具体而言,POD是一组包括处理器、存储、网络和应用的物理组件,可以最大限度地提高数据中心空间的模块化、可伸缩性和易治理性。POD的规模一般根据业务服务器规模而定,可以包括一组或多组机柜组合而成,颗粒度与数据中心规模相关。

POD通常可以分为服务器POD(如X86服务器、刀片服务器等)、存储POD 等类型。

?2U高度X86服务器POD

根据服务器机房(低密)每机柜电源功率和TOR交换机端口利用率,2U高度的X86服务器POD由三组机柜构成,后续按POD进行业务扩展。

?物理部署

?每三组机柜作为一个POD,按POD进行业务扩展;

?每组机柜部署12台2U服务器,每个POD最多部署36台2U服务器;

?每个POD至少部署5台交换机,2台业务网交换机,2台管理网交

相关主题
相关文档
最新文档