awstack云管理平台运维手册20170330

awstack云管理平台运维手册20170330
awstack云管理平台运维手册20170330

AWstack云管理平台

运维手册

一、云平台故障定位思路

1:介绍云平台定位思路

介绍云平台的故障原因、处理流程和详细的故障处理步骤。

2:常见原因

本类故障的常见原因主要包括:

云平台操作类故障

云平台服务类故障

云平台存储类故障

云平台其它类故障

3:故障诊断流程

针对各类故障的定位思路如下:

参考用户手册,对操作的步骤进行确认;

检查后台各种服务nova 、 neutron、cinder等的状态;

坚持后台存储命令行和前端存储监控界面,坚持存储的状态;

根据故障类库的文档和典型问题的思路过程进行排查。

4.详细处理流程

二、云平台部署类

1.正确刻录部署 U 盘

1.1 下载正确的正式发行版镜像

wget http://192.168.246.1/awstack2/awstack-installer/awstack-installer.img

1.2 将镜像放置一台linux 机器,执行以下操作

# 以下命令非常危险,会抹除sdb 的所有数据,请先用lsblk等命令确认sdb 是 U 盘dd if=awstack-installer.img of=/dev/sdb bs=4M conv=sparse oflag=direct,sync

验证U盘

mount /dev/sdb1 /mnt/

cd /mnt/var/lib/awstack

sha256sum -c awstack-init.tar.gz.sha256sum

awstack-init.tar.gz: OK

2.部署单节点 SAAS

2.1 准备一台物理机并安装虚拟化环境

2.2 下载发布的SAAS 虚拟机镜像

2.3 基于此镜像起一台虚拟机,并通过控制台登陆此虚拟机招待如下操作

第一步创建eth0 的配置文件

vi/etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

NAME=eth0

BOOTPROTO=dhcp

ONBOOT=yes

TYPE=Ethernet

2.3 保存后执行

systemctl resart network

2.4 然后执行bash /opt/awstack/files/modify_ip.sh 2.5 打开云管: http://SAAS_IP/register

3.单节点无法部署企业版

问题描述:

只有一个节点无法部署企业版,在部署前的CEPH 副本数输入 1 后提示“必须在2-1 之间”

处理过程:

vi /opt/awstack/awstack-web/built/js/register.js,,找关键字completefour然后如下图屏蔽掉红框部分代码即可。

友情提示:以防修改出问题,修改前记得备份

4.部署高可用失败

问题描述:

观察部署日志发现在部署computeha时失败

处理过程:

租户网不通在页面上不会有任何影响,页面仍然会提示部署成功,但是bob的日志会在部

署计算高可用的时候报错;这种情况下可以用租户网互ping一下,一般是vlan号写错,或者交换机trunk有问题导致

5.部署 SAAS 下沉时虚拟机被关机

问题描述:

在观察部署日志发现SAAS 在部署过程中无法连接

处理过程:

正常现象。这个过程中会将SAAS 从本地迁移至CEPH ,一般等等10 分钟左右就会自愈

6.注册码错误

问题描述:

在观察部署日志发现注册码错误

处理过程:

一般是由于人为失误,或者某些字母或数据长得类似;下面提供易发生误解的注册码

三、云平台操作类

1.上传模板

将镜像CP 任意一个节点的/var/lib/awstack/images/下,平台会自动上传;然后用管理员登陆将这个编辑这个镜像,填写相关属性,并将”公有“打勾,就可以了

2.意外设置白名单

问题描述:

意外设置了白名单将自己拒绝了

处理方法:

1 :登陆云管:例ssh 1.1.1.1 65522admin Awcloud123

[admin@saas ~]$ mysql -uroot -pAwcloud123

MariaDB [(none)]>use awstack-user-db;

MariaDB [awstack-user-db]>select * from tb_wblist_ip;

+----+----------------------------------+-----------+---------+---------+--------+----

+---------------------+-------------+---------+

---------+---------

| id | enterprise_uid| list_name | wb_type | bgn_ip| end_ip | description

| enabled | create_time| update_time | ip_type |

+----+----------------------------------+-----------+---------+---------+--------+----

+---------------------+-------------+---------+

---------+---------

| 1 |66666666666666666666666666666666| liufu|0 | 1.1.1.1 ||| 1 | 2016-12-29 08:26:42 | NULL| 1 |

+----+----------------------------------+-----------+---------+---------+--------+----

+---------------------+-------------+---------+

---------+---------

1 row in set (0.00 sec)

MariaDB [awstack-user-db]>delete from tb_wblist_ip where id=1;

Query OK, 1 row affected (0.03 sec)

2:这时候就可以正常登陆了

3.绑定浮动 IP 提示“无子网路由”

问题描述:

用户创建了一个部门以及其下的一个项目,项目内已创建虚拟路由器,一共只剩两个公网IP,

也已申请了这两个公网IP,其中一个公网IP 已绑定一台云主机,剩余另一个公网IP 在绑定部分云主机时报错,提示信息为“无子网路由”

处理方法:

DVR 模式下,每个虚拟路由器qrouter-xxx会占用一个公网IP,同时该路由器会在每个计

算节点创建, ID 、 IP 及其他信息完全一致,因此并不会重复占用公网IP ,主要处理东西向

流量。但是和集中式路由不同的是,每个计算节点还会有一个专门处理浮动IP 流量的虚拟

路由器 qfloat-yyy,用来处理带有浮动IP 的南北向流量,这个虚拟路由器是计算节点唯一

的,是所有租户和网络公用的。但是,这个qfloat-yyy虚拟路由器并不会马上创建,而是

当计算节点有浮动IP 流量时创建。因此当虚拟机所在计算节点有过浮动IP 流量时,此计算节点已经创建过qfloat-yyy,所以可以继续绑定公网IP 给新虚拟机。而如果虚拟机所在计

算节点之前并没有过浮动IP 流量时,便尚未创建过qfloat-yyy,这就导致当所有可用公网

IP 已被申请后,无可用公网IP 创建 qfloat-yyy ,出现错误提示“无子网路由”

1、除去每个虚拟路由器的公网IP,有多少个计算节点,就需要提前预留好多少个公网IP。

2、当出现类似错误或者公网IP 不足时,可手动增加公网IP ,命令参考如下“neutron subnet-update--allocation-poolstart=1.1.1.2,end=1.1.1.26--allocation-pool

start=1.1.1.50,end=1.1.1.70cd2659b2-18e1-4df8-a6a7-7b8bcb99e475”,注意输入该命令时必须带上原有公网IP 地址段,否则会被覆盖

4. 对接 IBM v5000

方法:

consul-cli kv keys / | grep cinder# 可以找到cinder配置文件相应的路径

consul-cli kv read templates/cinder/cinder.conf.ctmpl>/home/cinder.conf.ctmpl

# 把 cinder的配置文件弄到本地的home目录下

vim /home/cinder.conf.ctmpl# 修改本地的cinder配置文件

# 修改 cinder示例配置文件

[DEFAULT]

enabled_volume_backend = rbd_1, IBMv5000 #在原有的基础上添加一项新增section 的名称

[rbd_1]

volume_backend_name = rbd_1# 新增加,必须指

[IBMv5000]# 新建下面这些

volume_driver= cinder.volume.drivers.ibm.storwize_svc.storwize_svc_fc.StorwizeSVCFCDriver

san_ip = 10.131.198.48# 控制器 IP 1

storwize_san_secondary_ip = 10.131.198.49# 控制器 IP 2

san_login = superuser# 存储登陆用户名

san_password = passw0rd# 密码

storwize_svc_volpool_name = Pool0# 存储内池的名称,注意不用存储上划lun volume_backend_name = IBMv5000# 必加

volume_name_template=volume-%s

consul-cli kv write templates/cinder/cinder.conf.ctmpl"$(cat /home/cinder.conf.ctmpl)"# 将本地配置文件写到集群环境中

nomad stop cinder-service# 手动停掉cinder服务,然后nomad run /etc/kolla/nomad/cinder-service.hcl

创建对应的volume-type

cinder type-create 比如IBM-type

cinder type-key IBM-type set volume_backend_name=IBM_backend #绑定tpe和后端

指定 type创建卷

cinder create --name "IBM volume" --volume-type IBMv50001

5.常用命令

查看 bob-leader节点:awbob-leader

查看部署状态:consul-cli kv read cluster/state

删除状态: consul-cli kv delete cluster/state

重启部署: systemctl restart awbob

进入 kolla_toolbox容器

docker exec -it kolla_toolbox bash

进入 cinder-volume容器

docker exec -u root -it cinder-volume-529609c8-c950-6e80-542a-888df2cffe63

bash

云计算中心运维管理制度

云计算中心运维管理制度 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。 由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也需要我们加以重点分析和关注。 一、理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类: (1) 机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。 (2) 在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。 (3) 系统与数据,包括操作系统、数据库、中间件、应用程序等软件

资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。 (4) 管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。(5) 人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。 二、定义各运维对象的运维内容 云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪管理。 三、建立信息化的运维管理平台系统 云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、

安全监控运维管理平台系统

点击文章中飘蓝词可直接进入官网查看 安全监控运维管理平台系统 传统的运维管理系统已经不能满足企业对安全监控运维的需求,对于目前日益严重的网络安全问题,一套比较靠谱的安全监控运维管理平台系统非常重要。可以更好的实现对网络、应用服务器、业务系统、各类主机资源和安全设备等的全面监控,安全监控运维管理平台系统,哪家比较靠谱? 南京风城云码软件技术有限公司是获得国家工信部认定的“双软”企业,具有专业的软件开发与生产资质。多年来专业从事IT运维监控产品及大数据平台下网络安全审计产品研发。开发团队主要由留学归国软件开发人员及管理专家领衔组成,聚集了一批软件专家、技术专家和行业专家,依托海外技术优势,使开发的软件产品在技术创新及应用领域始终保持在领域上向前发展。 目前公司软件研发部门绝大部分为大学本科及以上学历;团队中拥有系统架构师、高级软件工程师、中级软件工程师、专业测试人员;服务项目覆盖用户需求分析、系统设计、代码开发、测试、系统实施、人员培训、运维整个信息化过程,并具有多个项目并行开发的能力。 安全监控运维管理平台系统功能主要表现以下方面: 服务器硬件状态监控:通过服务器主板IPMI协议,可以监控服务器风扇转速、机箱内部和CPU温度、电源电压、电源状态、CMOS电池容量、CPU、磁盘、内存、RAID卡等硬件状态。 监控操作系统运行状态:包括 linux、windows、Vmware等操作系统运行状态的监控,以及所运行的进程和服务等。 数据库和应用监控:包括MSSQL、ORACLE、MYSQL等数据库监控,WEB服务器,URL页面等状态监控。 线路监控:包括内部专网、互联网等线路的通断和质量、流量的监控。

数据中心运维管理框架

6.2数据中心运维管理框架 6.2.1.运维管理框架4Ps概述 所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。那么,应该用什么样的方法与手段来管理数据中心呢?在此,信息技术基础架构库(InformationTechnologyInfrastructureLibrary,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。数据中心运维管理框架如图6-3所示。 图6-3数据中心运维管理框架 1.人员 人员是数据中心运维管理的基础,也是数据中心运维管理的核心。一个好的数据中心运维管理框架,少不了合适的技术和管理人员。从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。因此,在考虑建设数据中心运维管理框架时,必须要考虑到:如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。 2.流程

流程是数据中心运维管理质量的保证。作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。 3.产品 产品是数据中心运维管理的加速器。数据中心运维管理涉及的对象庞杂,且重复性工作较多。若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。 4.服务商 服务商是数据中心运维管理的支持者。作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。 6.2.2.运维管理的人员要求 如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。一个数据中心组建团队时应注意什么呢?以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。 1.人员技能

it安全运维系统

点击文章中飘蓝词可直接进入官网查看 it安全运维系统 随着互联网大数据的发展,企业的IT系统会变得越来越庞大、复杂,it安全运维部门的职责也随之不断增加。但是与此同时,it安全运维还要降低IT成本,减少IT运维人员 的压力。这需要IT部门选择一个比较好的it安全运维系统来提供效率,提升系统性能, 并降低风险。 南京风城云码软件技术有限公司是获得国家工信部认定的“双软”企业,具有专业的 软件开发与生产资质。多年来专业从事IT运维监控产品及大数据平台下网络安全审计产品研发。开发团队主要由留学归国软件开发人员及管理专家领衔组成,聚集了一批软件专家、技术专家和行业专家,依托海外技术优势,使开发的软件产品在技术创新及应用领域始终 保持在领域上向前发展。 目前公司软件研发部门绝大部分为大学本科及以上学历;团队中拥有系统架构师、软 件工程师、中级软件工程师、专业测试人员;服务项目覆盖用户需求分析、系统设计、代码开发、测试、系统实施、人员培训、运维整个信息化过程,并具有多个项目并行开发的 能力。 自公司成立已来,本团队一直从事IT系统运维管理以及网络信息安全审计产品的开发,同时在电力、制造行业及政府部门的信息化、智能化系统的开发及信息安全系统的开发中 有所建树;在企事业协同办公管理、各类异构系统的数据交换与集成(企业总线ESB)、 电力行业软件系统架构设计、电网大数据量采集和数据分析、电能质量PQDF算法解析等应用方面拥有丰富开发的经验。特别在网络信息安全、IT应用系统的智能化安全监控领域具有独特的技术优势和深厚的技术储备。近年来随着企业的不断发展和技术的不断更新, 公司的开发团队正在拓展更多业务范围和更新的技术应用。

云计算数据中心的运维管理

云计算数据中心的运维管理 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT 基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用

云平台运维建设方案

xxx区国土资源 一张图工程和服务平台系统基础支撑平台与运维保障平台 建 设 方 案

目录 1项目概述 (2) 1.1项目背景 (2) 1.2项目目标 (2) 1.3建设内容 (2) 2现状及需求分析 (3) 2.1信息化现状 (3) 2.2存在的问题 (4) 2.2.1运维保障面临主要问题 (4) 2.2.2现有保障手段不能满足需求 (4) 2.2.3管理运维问题 (5) 3方案总体设计 (6) 3.1设计原则 (6) 3.2总体架构设计 (7) 3.3实施思路 (7) 4虚拟桌面技术方案设计 (10) 5服务器虚拟化方案设计 (11) 6业务系统运维保障设计 (13) 6.1架构设计 (13) 6.2业务系统应急 (14) 6.3数据保障 (15) 6.4运维迁移 (15) 7项目实施计划 (16) 8项目组织保障 (17) 8.1工作领导小组 (17) 8.2项目专家小组 (17) 8.3项目技术小组 (17)

1项目概述 1.1项目背景 国土资源“一张图”和综合监管平台建设(以下简称“一张图”工程)是国土资源信息化“十二五”规划中的一项核心内容。 根据《国土资源部关于进一步运用现代科技信息手段规范和创新管理的指导意见》(国土资发〔2010〕81号)、《山东省国土资源系统‘一个平台、两个市场’建设方案的通知》(鲁国土资发〔2011〕33号)和《青岛市国土资源和房屋管理局关于加强信息化建设工作的意见的通知》(青土资房发〔2012〕465号)等一系列文件的要求,青岛市国土房管局xxx 分局拟开展xxx区国土资源一张图工程和服务平台系统基础支撑平台及运维保障平台建设,为一张图工程和服务平台系统搭建安全、可靠的基础设施环境,为全局信息化发展奠定坚实的基础。 1.2项目目标 基础支撑平台及运维保障平台的建设实现以下主要目标: (1)通过加强对业务内网、办公网、互联网的安全管理,实现生产数据和涉密信息的集中存放和管理,保证信息安全; (2)通过为32个乡镇国土所提供云端虚拟桌面服务,保障数据不在国土所用户的终端设备上落地的基础上,实现各项数据及业务应用的便捷接入,有效促进业务协 同; (3)通过运维保障平台的建设,为全区国土资源用户提供一致、高度可用、高度可扩展的服务,最大程度地减少系统停机,全面支持国土全系统的业务连续性; (4)通过云平台建设,充分整合已有资源,实现IT基础设施的集约化建设。 1.3建设内容 基础支撑平台及运维保证体系主要包括以下建设内容:

银讯IT安全运维管理平台技术白皮书

银讯IT安全运维管理平台技术白皮书 目录

一、产品理念 (22) 二、市场定位 (22) 三、产品架构 (22) 四、产品特点 (44) 4.1 模块化 (44) 4.2 自动发现 (44) 4.3 标准化 (44) 4.4 无插件 (44) 4.5 全IT架构 (44) 4.6 跨平台 (44) 4.7 扩展性 (55) 五、主要功能介绍 (55) 5.1 拓扑发现 (55) 5.2 设备管理 (66) 5.3 网络设备配置文件 (77) 5.4 IP地址管理 (99) 5.5 SNMP Trap接收与翻译 (1010) 5.6 Syslog接收与日志审计 (1111) 5.7 机房管理 (1212) 5.8 数据库管理 (1313) 5.9 中间件管理 (1414) 5.10 丰富的报表 (1515) 5.11 功能强大的告警 (1616) 六、系统运行环境 (2121)

一、产品理念 随着我国信息化建设的不断深入,企业的运作越来越依赖于计算机网络。如何高效地管理好网络和网络资源,以便确保企业的正常运作,是当前所有IT部门面临的主要问题。政府机构、企业组织对信息技术和系统的依赖性日益加强,IT 系统和业务应用的相互促进和融合,IT 管理走向面向服务的治理,是未来信息部门发展的发展核心。借助IT 规范管理体系和最佳实践方法的指导,更好的融合业务、管理、技术三者并同步提高,才能让信息部门抓住这次机遇,提升自己的潜在价值,驱动业务的快速发展。 银讯IT安全运维管理平台是通过归纳总结各行业IT运维管理需求,经过三年研发而成的综合IT运维管理系统。系统以网络管理和运维流程为基点,为 IT部门提供全面的企业级解决方案。通过此系统,在技术上对网络设备集中地进行性能采集和故障预警,大大减少了企业IT人员的日常工作量;在管理上,对日常运维工作进行规范化,合理化,提高决策的科学性。 二、市场定位 银讯IT安全运维管理平台面对的客户群为信息化程度比较高、日常IT 运维管理相对比较规范的政府行业、大中型企业等。目前,这类用户已经部署了一些IT 基础设施监控类的产品。但随着IT 系统重要性日益突显,他们迫切需要提高日常运维的规范化、流程化,量化运行质量和服务水平,提高IT 系统地运行效率,保障业务。因此从整体上讲,产品主要定位于行业市场,立足于提升行业用户的IT 服务质量从运营角度有效提升信息部门的服务质量和业务支撑能力。 三、产品架构 银讯IT安全运维管理平台是一个通用的IT基础设施和服务应用的管理平台。它从网络和应用的不同层次,收集与业务/服务相关的各种信息:网络设备信息、服务器内存、I/O 的使用情况,数据库、中间件的运行情况等;同时,内置的告警分析引擎对收集到的信息进行综合关联分析;

云计算数据中心的运维管理-培训课件

望采纳 云计算数据中心的运维管理 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用户都不会忽略数据中心的供电和制冷。因为这类设备如果发生意外,对依托于该基础设施的应用来说是致命的。 ②数据中心所应用的各种设备

云平台下的运维体系建设工作内容

云平台下的运维体系建设工作容 一、系统运维 系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

网络建设 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试

和业务测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。 OS、核选型和OS相关维护工作 责整体平台的OS选型、定制和核优化,以及Patch的更新和部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。 资产管理 记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。 基础服务建设 业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。 二、应用运维 应用运维负责线上服务的变更、服务状态监控、服务容灾和数据

云计算中心运维管理制度

云计算中心运维管理制度 现代信息中心已成为人们日常生活中不可缺少的部分,因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨,以此不断提高IT运维质量,实现高效的运维管理。这就给运维是否到位提出了严格要求。 1 运维在机房中的地位 在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是,为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。 在信息中心机房配备有运维人员,但大都是“全才”的,即什么都管,尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时,此代管人员一问三不知,甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。 当然也有的地方有所分工,看似重视,实际上也没得到真正地重视。比如说机房设备长时间一直运行正常,这时如果运维人员提出要增添运维方面的测量设备,有的领导就认为多余,很难得到批准。但他不知道机房设备所以长时间一直运行正常,正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干,他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下,在某卫星地面站就极少出故障,而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据,一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务,使异常苗头不断积累,以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了,就要检查是不是电流过大到超过额定值,如果不是就要检查触点接触是否牢靠,是否需要再紧固一下。这样一来,故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作,都是在巡查中顺便做的事情。所以同是运维人员在巡查,但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。 运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后,起主要作用的就是保育员和老师,这时保育员和老师就是主体。机器就好比是幼儿园的孩子,孩子是否健康成长,机器是否正常运行,除去本身的健康(可靠性质量)状况外,那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性,除基于ITIL(IT基础设施库)的常规数据中心运维管理理念之外,以下运维管理方面的内容,需要我们加以重点关注。 2 云计算数据中心运维管理的要点 (1)理清云计算数据中心的运维对象 数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类: ①机房环境基础设施 这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的,比如大多数用户都不会忽略数据中心的供电和制冷。因为这类设备如果发生意外,对依托于该基础设施的应用来说是致命的。 ②数据中心所应用的各种设备 这些设备包括存储、服务器、网络设备和安全设备等硬件资源。这类设备在向用户提供IT 服务过程中提供了计算、存传输和通信等功能,是IT服务最核心的部分。 ③系统与数据 这部分包括操作系统、数据库、中间环节和应用程序等软件资源,还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。 ④管理工具 这部分包括基础设施监控软件、IT监控软件、工作流管理平台、报表平台和短信平台等。 这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象的工作情况,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证数据中心如何管理好与其直接相关的资源,从而间接地提升了可用性与可靠性。 ⑤人员管理 人员管理包括数据中心在内的技术人员、运维人员、管理人员以及提供服务的厂商人员的管理。 人员一方面作为管理的主体负责管理数据中心的运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。 (2)定义各运维对象的运维内容 云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。这就需要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统全生命周期地追踪管理。 (3)建立信息化的运维管理平台系统和IT服务管理系统 云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。 数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行

2020年(安全生产)银讯IT安全运维管理平台技术白皮书

(安全生产)银讯IT安全运维管理平台技术白 皮书

银讯IT安全运维管理平台技术白皮书 目录 一、产品理念2 二、市场定位2 三、产品架构2 四、产品特点4 4.1 模块化4 4.2 自动发现4 4.3 标准化4 4.4 无插件4 4.5 全IT架构4 4.6 跨平台4 4.7 扩展性5 五、主要功能介绍5 5.1 拓扑发现5 5.2 设备管理6 5.3 网络设备配置文件7 5.4 IP地址管理9 5.5 SNMP Trap接收与翻译10 5.6 Syslog接收与日志审计11

5.7 机房管理12 5.8 数据库管理13 5.9 中间件管理14 5.10 丰富的报表16 5.11 功能强大的告警17 六、系统运行环境22 一、产品理念 随着我国信息化建设的不断深入,企业的运作越来越依赖于计算机网络。如何高效地管理好网络和网络资源,以便确保企业的正常运作,是当前所有IT部门面临的主要问题。政府机构、企业组织对信息技术和系统的依赖性日益加强,IT系统和业务应用的相互促进和融合,IT管理走向面向服务的治理,是未来信息部门发展的发展核心。借助IT规范管理体系和最佳实践方法的指导,更好的融合业务、管理、技术三者并同步提高,才能让信息部门抓住这次机遇,提升自己的潜在价值,驱动业务的快速发展。 银讯IT安全运维管理平台是通过归纳总结各行业IT运维管理需求,经过三年研发而成的综合IT运维管理系统。系统以网络管理和运维流程为基点,为IT部门提供全面的企业级解决方案。通过此系统,在技术上对网络设备集中地进行性能采集和故障预警,大大减少了企业IT人员的日常工作量;在管理上,对日常运维工作进行规范化,合理化,提高决策的科学性。 二、市场定位 银讯IT安全运维管理平台面对的客户群为信息化程度比较高、日常IT运维

云平台下的运维体系建设工作内容87904

云平台下的运维体系建设工作内容 一、系统运维 系统运维负责IDC、网络、CDN和基础服务的建设(LVS、NTP、DNS);负责资产管理,服务器选型、交付和维修。详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心的发展规模,从骨干网的分布,数据中心建筑,以及Internet接入、网络攻击防御能力、扩容能力、空间预留、外接专线能力、现场服务支撑能力等方面评估选型数据中心。负责数据中心的建设、现场维护工作。

网络建设 设计及规划生产网络架构,这里面包括:数据中心网络架构、传输网架构、CDN网络架构等,以及网络调优等日常运维工作。 LVS负载均衡和SNAT建设 LVS是整个站点架构中的流量入口,根据网络规模和业务需求,构建负载均衡集群;完成网络与业务服务器的衔接,提供高性能、高可用的负载调度能力,以及统一的网络层防攻击 能力;SNAT集中提供数据中心的公网访问服务,通过集群化部署,保证出网服务的高性能与高可用。 CDN规划和建设 CDN工作划分为第三方和自建两部分。建立第三方CDN的选型和调度控制;根据业务发展趋势,规划CDN新节点建设布局;完善CDN业务及监控,保障CDN系统稳定、高效运行;分析业务加速频道的文件特性和数量,制定最优的加速策略和资源匹配;负责用户劫持等CDN日常故障排查工作。 服务器选型、交付和维护 负责服务器的测试选型,包含服务器整机、部件的基础性测试

和业务测试,降低整机功率,提升机架部署密度等。结合对公司业务的了解,推广新硬件、新方案减少业务的服务器投入规模。负责服务器硬件故障的诊断定位,服务器硬件监控、健康检查工具的开发和维护。 OS、内核选型和OS相关维护工作 责整体平台的OS选型、定制和内核优化,以及Patch的更新和内部版本发布;建立基础的YUM包管理和分发中心,提供常用包版本库;跟进日常各类OS相关故障;针对不同的业务类型,提供定向的优化支持。 资产管理 记录和管理运维相关的基础物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等各种资源信息,制定有效的流程,确保信息的准确性;开放API接口,为自动化运维提供数据支持。 基础服务建设 业务对DNS、NTP、SYSLOG等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务。

浅析构建信息安全运维体系

浅析构建信息安全运维体系 周晓梅-201071037 2018年11月20日 摘要:交通运输行业经过大规模信息化建设,信息系统数量成倍增加,业务依赖性增强,系统复杂度提高,系统安全问题变得更加突出、严重。建设系统信息安全运维管理体系,对保证交通运输行业信息系统的有效运行具有重要意义。 关键词:信息系统安全运维体系构建 安全不仅仅是一个技术问题,更是一个管理问题。实际上,在整个IT产品的生命周期中,运营阶段占了整个时间和成本的70% - 80% 左右,剩下的时间和成本才是花费在产品开发(或采购)上面。以往我们听说"三分技术、七分管理"是突出管理的重要性,而这个"管理"则是大部分的精力花费在"运营"方面。随着信息安全管理体系和技术体系在政府或企业领域的信息安全建设中不断推进,占信息系统生命周期70% - 80%的信息安全运维体系的建设已经越来越被广大用户重视。尤其是随着信息系统建设工作从大规模建设阶段逐步转型到“建设和运维”并举的发展阶段,政府或企业运维人员需要管理越来越庞大的IT系统这样的情况下,信息安全运维体系建设已经被提到了一个空前的高度上。 任何为了信息安全所采取的任何安全措施,不管是技术方面的还是管理方面的,都是为了保障整个信息资产的安全,安全运维体系就是以全面保障信息资产安全为目的,以信息资产的风险管理为核心,建立起全网统一的安全事件监视和响应体系,以及保障这一体系正确运作的管理体系。 一、面临的问题 “十一五”以来,我国交通运输行业和部级信息化建设工作发展迅猛,取得了长足的进步,而部级信息化建设和管理工作中存在的一些问题和矛盾也日益凸显。当前部级信息化项目来源较多、资金筹措渠道复杂、建设和运行维护单位众多,而信息化标准规范体系不完善,由于缺乏有效的技术管理规范,非基本建设项目的建设实施还存在管控盲区,现有标准规范贯彻执行不足,系统建设实施过程中存在安全和质量风险,并对系统运行维护形成障碍,整体运行安全存在隐

数据中心运维操作标准及流程

数据中心运维操作标准及流程 郑州向心力通信技术股份有限公司 二零一八年

1 机房运维管理前期准备 1.1 管理目标 机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。 1.2 参与数据中心建设过程 机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。 1.2.1 应参与规划设计 机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。 1.2.2 应参与相关供应商遴选 机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提

出建议,还需要对后续的设备保修等服务提出要求。 1.2.3 应参与建造管理 机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。 机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。 1.3 测试验证 机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。 1.3.1 时间和预算 机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。 1.3.2 测试验证参与方 项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设

Openstack云平台运维手册

Openstack运维手册 2017年7月18日 目录 ***执行任何openstack命令之前都必须运行openstack的环境变量source/root/(每次新开控制台窗口必须执行一次) 一、健康检查 1、认证模块检查 openstacktokenissue 有输出即可,如输出异常 重启服务即可 serviceapache2restart servicememcachedrestart 2、计算模块检查 novaservice-list 所有计算服务的status必须是enabled State必须是up 如有服务存在异常,直接重启异常的服务。

servicenova-certrestart servicenova-consoleauthrestart servicenova-schedulerrestart servicenova-conductorrestart servicenova-computerestart 3、网络模块检查 neutronagent-list 所有网络服务的alive必须是:-) 如有服务存在异常,直接重启异常的服务。serviceneutron-plugin-openvswitch-agentrestart serviceneutron-l3-agentrestart serviceneutron-dhcp-agentrestart serviceneutron-metadata-agentrestart 4、存储模块检查 cinderservice-list 所有存储服务的status必须是enabled State必须是up 如有服务存在异常,直接重启异常的服务。servicecinder-schedulerrestart servicecinder-apirestart servicecinder-volumerestart 5、镜像模块检查 glanceimage-list 有输出即可,如输出异常 重启服务即可 serviceglance-registryrestart serviceglance-apirestart 6、检查Horizon服务 ps-ef|grepapache2 如有输出horizon用户执行apache2命令即可如异常重启memcached servicememcachedrestart 7、分布式存储检查 ceph–s Health必须是HEALTH_OK 如遇到mon或者osddown 重启对应节点服务即可,查询节点命令cephosdtree 重启服务命令 /etc/ 二、运维命令 1、虚拟机开通 ?查询现有的虚拟机模拟 novaflavor-list ?查询当前的虚拟机镜像

平台安全运维保障方案

平台运维保障方案 1.目的 为了保障平台各项业务的正常开展,确保信息系统的正常运行,规范信息系统日常操作及维护阶段安全要求,特制订此方案。 2.系统日常操作及维护管理 2.1.建立双向联动责任人机制 所有涉及到业务平台的资源,包括主机操作系统、应用系统、网络设备和安全设备,指定电信接口人和支撑单位接口人双向联动,由电信公司指定维护接口人专门负责对接支撑单位的技术负责人和维护人员,电信公司的接口人对支撑单位的日常工作进行监督,支撑单位对业务系统的日常操作和维护按照本方案进行记录,做到责任到人,保证各个业务平台的正常运行。 2.2.操作系统日常操作及维护 (1)必须严格管理操作系统账号,定期对操作系统账号和用户权限分配进行检查,系 统维护人员至少每月检查一次,并报信息技术管理员审核,删除长期不用和废弃 的系统账号和测试账号。 (2)必须加强操作系统口令的选择、保管和更换,系统口令做到: ●长度要求:8位字符以上; ●复杂度要求:使用数字、大小写字母及特殊符号混合; ●定期更换要求:每90天至少修改一次。 (3)支撑单位维护人员需定期进行安全漏洞扫描和病毒查杀工作,平均频率应不低于 每月一次,重大安全漏洞发布后,应在3个工作日内进行上述工作。为了防止网 络安全扫描以及病毒查杀对网络性能造成影响,应根据业务的实际情况对扫描时 间做出规定,需安排在非业务繁忙时段。技术负责人应为每个系统指定专门的系 统维护人员,由系统维护人员对所负责的服务器进行检查,至少每天一次,确保 各系统都能正常工作;监控系统的CPU利用率、进程、内存和启动脚本等使用情况。

(4)当支撑单位维护人员监测到以下几种已知的或可疑的信息安全问题、违规行为或 紧急安全事件系统时,应立即报告技术负责人,同时采取控制措施,并进行记录: a)系统出现异常进程; b)CPU利用率,内存占用量异常; c)系统突然不明原因的性能下降; d)系统不明原因的重新启动; e)系统崩溃,不能正常启动; f)系统中出现异常的系统账户; g)系统账户口令突然失控; h)系统账户权限发生不明变化; i)系统出现来源不明的文件; j)系统中文件出现不明原因的改动; k)系统时钟出现不明原因的改变; (5)系统日志中出现非正常时间登录,或有不明IP地址的登录; (6)系统维护人员对操作系统的任何修改,都需要进行备案,对操作系统的重大修改 和配置(如补丁安装、系统升级等操作)必须向技术负责人提交系统调整方案,由信息技术管理员审核通过后方可实施。操作系统的配置和修改必须在非业务时间进行,重大调整必须提前准备应急预案和回退方案。 (7)保证操作系统日志处于运行状态,系统维护人员应定期对日志进行审计分析,至 少每月审计一次,重点对登录的用户、登录时间、所做的配置和操作做检查,在发现有异常的现象时及时向信息技术管理员报告。 (8)系统维护人员应设置操作系统日志归档保存功能,历史记录保持时间不得低于一 年。 2.3.业务系统安全日常操作及维护 (1)新的应用系统在正式上线运行前应由技术负责人进行安全检查,检查通过方能正 式运行使用。严禁在不检查或检查未通过的情况下将应用部署到正式环境中。检查的内容包括: a)检查应用系统的软件版本;

相关文档
最新文档