阿里巴巴神龙(X-Dragon)架构演进之路

神龙架构的背景Background of X-Dragon Architecture

01

197419972005

2017

虚拟化理论诞生

*

VMware

成立VT-x/VT-d

发布X-Dragon 问世

虚拟化技术回顾Retrospection of Virtualization Technology *:[Robert P.

Goldberg]Formal Requirements for Virtualizable Third Generation Architectures 2009

2014

Hypervisor

数据中心传统虚拟化架构

Traditional Virtualization Architecture of IDC

架构缺陷带来的产品挑战Challenges Caused by Virtualization Defects

IO引擎纯软件实现

阿里云构建千万级别架构演变之路

免费注册 登录 中国站 登录社区 ?云头条 ?博客 ?问答 ?聚能聊 ?直播 ?论坛 ?云栖大会 ?公众号 ?订阅NEW ?云大学 ?更多 1.云栖社区>

2.博客列表> 3.正文 【技术干货】阿里云构建千万级别架构演变之路 驻云科技2016-06-16 17:01:21 浏览11342 评论2 摘要:随着云计算的到来,当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架构的过程。 本文作者:乔锐杰,现担任上海驻云信息科技有限公司运维总监/架构师。曾任职过黑客讲师、java软件工程师/网站架构师、高级运维、阿里云架构师等职位。维护过上千台服务器,主导过众安保险、新华社等千万级上云架构。在云端运维、分布式集群架构等方面有着丰富的经验。

前言 一个好的架构是靠演变而来,而不是单纯的靠设计。刚开始做架构设计,我们不可能全方位的考虑到架构的高性能、高扩展性、高安全等各方面的因素。随着业务需求越来越多、业务访问压力越来越大,架构不断的演变及进化,因而造就了一个成熟稳定的大型架构。如淘宝网、Facebook等大型网站的架构,无不从一个小型规模架构,不断进化及演变成为一个大型网站架构。 随着云计算的到来,当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架构的过程。 架构原始阶段:万能的单机 架构的最原始阶段,即一台ECS服务器搞定一切。传统官网、论坛等应用,只需要一台ECS。对应的web服务器、数据库、静态文件资源等,部署到一台ECS上即可。一般5万pv到30万pv访问量,结

阿里云大数据计算平台的自动化、精细化运维之路

阿里云大数据计算平台的自动化、精细化运维之路 本文章来自于阿里云云栖社区 摘要:作者简介:范伦挺阿里巴巴基础架构事业群-技术专家花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、Analytic DB、StreamComput 免费开通大数据服务:https://https://www.360docs.net/doc/505792033.html,/product/odps 作者简介: 范伦挺 阿里巴巴基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute等)的运维、架构优化及容量管理等

1、前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战; 阿里自动化平台建设; 数据精细化运维; 我对运维转型的思考和理解; 2、在阿里我们面对的挑战 在讲挑战之前,我们可以简单看一下阿里大数据平台演进历史,我们的MaxCompute(原ODPS)平台是2011年4月上线的,2013年8月份单集群超过5K,2015年6月单集群超10K,目前在进行异地多活和离在线混布方面的事情。

首先是规模大、小概率事件常态化 对于小概率事件大家不能赌运气,基本每次都会踩中狗屎的。譬如各类硬件故障,规模小的时候觉得硬件故障概率比较低,即使坏了也比较彻底,但是规模大了后会有很多情况是将坏不坏,类似这种奇葩事件会越来越多。 还有网络链路不稳定,网络链路会有很多原因导致它不稳定。一方面是网络设备多了,网络设备出现故障的概率也大了,另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。 还有一部分是工具,机器的环境变得复杂以后,我们对工具稳定性就有更高要求,比如你要考虑到有些机器的SSH 会hang 住,还有某些机器yumdb是坏的,不能想当然的以为一条命令下去一定会执行成功。 其次是多机房多地域 几千公里距离会有几十毫秒的延时增加,大家在布置异地多机房应用的时候,要考虑到应用之间的超时设置是不是合理,需要重新review 尤其针对多次往返的请求,累加效应是非常明显的。

阿里云产品容灾-高可用介绍及架构方案

袋鼠云出品——阿里云高可用-容灾解决方案 这两天,一篇名为《IT之家因无法忍受阿里云而迁移至XX云》的文章引起了整个云计算行业的热议。(袋鼠云CTO江枫还专门写了一篇热评) 从目前得到的信息看,其应该是在青岛区域购买了一台云服务器ECS,基于.net和自建SQL Server,并且应用和数据库跑在同一台云服务器上。 IT之家,所有应用都部署在单台ECS上,不具备高可用的特性。 即便阿里云产品本身就有容灾、高可用的特征,但是因为一些用户对阿里云产品的不了解和自身应用架构不够合理,也根本无法使其发挥该优势。 其实,IT之家的事情不是个例,有很多其他企业在这方面很头疼。 所以,袋鼠云技术专家结合以往实践经验,总结出了一套切实可行的《阿里云高可用-容灾解决方案》,希望能和各位阿里云上用户一起探讨。 一、阿里云产品容灾-高可用介绍 1、SLB 容灾-高可用介绍 阿里云SLB产品使用开源软件LVS+keeplived实现4层的负载均衡。 采用淘宝的Tengine实现7层的负载均衡。所有负载均衡均采用集群部署,集群之间实时会话同步,以消除服务器单点,提升冗余,保证服务稳定。在各个地域采用多物理机房部署,实现同城容灾。 SLB在整体设计上让其可用性高达99.99%。且能够根据应用负载进行弹性扩容,在任意一台SLB故障或流量波动等情况下都能做到不中断对外服务。

图一 2、ECS 容灾-高可用介绍 云服务器ECS实例是一个虚拟的计算环境,包含了CPU、内存、操作系统、磁盘、带宽等最基础的服务器组件,是ECS提供给每个用户的操作实体,就如同我们平时使用的虚机。 但需要确认的是,ECS自身是没有容灾和高可用方面的功能。 所以当我们在单台ECS服务器上部署各种应用时,特别是对于那些将应用服务,数据库服务等都打包安装在单台ECS服务器时就更要注意这点了。 那ECS自身没有容灾-高可用这样的功能,对于在单台ECS上部署各种服务,一旦ECS 故障就只能眼睁睁的看着它down机对外停止服务么? 此时,如果产品自身没有容灾和高可用功能,我们可以从架构上来弥补这个短板。 比如:在应用前端购买SLB产品,后端相同应用部署至少两台ECS服务器,或者是使用阿里云的弹性伸缩技术,根据自定义ECS自身资源的使用规则来进行弹性扩容。这样即便其中一台ECS服务器down机或者资源利用超负荷,也不会使我们的服务对外终止。 ECS具备的一些优势: 稳定性:服务可用性高达99.95%,数据可靠性高达99.9999999%。

相关文档
最新文档