阿里巴巴神龙(X-Dragon)架构演进之路

神龙架构的背景Background of X-Dragon Architecture

197419972005

2017

虚拟化理论诞生

VMware

成立VT-x/VT-d

发布X-Dragon 问世

虚拟化技术回顾Retrospection of Virtualization Technology *:[Robert P.

Goldberg]Formal Requirements for Virtualizable Third Generation Architectures 2009

2014

…

Hypervisor

数据中心传统虚拟化架构

Traditional Virtualization Architecture of IDC

架构缺陷带来的产品挑战Challenges Caused by Virtualization Defects

IO引擎纯软件实现

阿里云构建千万级别架构演变之路

免费注册登录中国站登录社区 ?云头条 ?博客 ?问答 ?聚能聊 ?直播 ?论坛 ?云栖大会 ?公众号 ?订阅NEW ?云大学 ?更多 1.云栖社区>

2.博客列表> 3.正文【技术干货】阿里云构建千万级别架构演变之路驻云科技2016-06-16 17:01:21 浏览11342 评论2 摘要：随着云计算的到来，当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构，本文主要结合阿里云最佳实践经验，向大家分享如何从一个小型网站逐步演变到千万级架构的过程。本文作者：乔锐杰，现担任上海驻云信息科技有限公司运维总监/架构师。曾任职过黑客讲师、java软件工程师/网站架构师、高级运维、阿里云架构师等职位。维护过上千台服务器，主导过众安保险、新华社等千万级上云架构。在云端运维、分布式集群架构等方面有着丰富的经验。

前言一个好的架构是靠演变而来，而不是单纯的靠设计。刚开始做架构设计，我们不可能全方位的考虑到架构的高性能、高扩展性、高安全等各方面的因素。随着业务需求越来越多、业务访问压力越来越大，架构不断的演变及进化，因而造就了一个成熟稳定的大型架构。如淘宝网、Facebook等大型网站的架构，无不从一个小型规模架构，不断进化及演变成为一个大型网站架构。随着云计算的到来，当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构，本文主要结合阿里云最佳实践经验，向大家分享如何从一个小型网站逐步演变到千万级架构的过程。架构原始阶段：万能的单机架构的最原始阶段，即一台ECS服务器搞定一切。传统官网、论坛等应用，只需要一台ECS。对应的web服务器、数据库、静态文件资源等，部署到一台ECS上即可。一般5万pv到30万pv访问量，结

阿里云大数据计算平台的自动化、精细化运维之路

阿里云大数据计算平台的自动化、精细化运维之路本文章来自于阿里云云栖社区摘要：作者简介：范伦挺阿里巴巴基础架构事业群-技术专家花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、Analytic DB、StreamComput 免费开通大数据服务：https://https://www.360docs.net/doc/505792033.html,/product/odps 作者简介：范伦挺阿里巴巴基础架构事业群-技术专家花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台（如MaxCompute、AnalyticDB、StreamCompute等）的运维、架构优化及容量管理等

1、前言本文主要会从以下四个方面来写，分别是：阿里大规模计算平台运维面临的一些挑战；阿里自动化平台建设；数据精细化运维；我对运维转型的思考和理解； 2、在阿里我们面对的挑战在讲挑战之前，我们可以简单看一下阿里大数据平台演进历史，我们的MaxCompute（原ODPS）平台是2011年4月上线的，2013年8月份单集群超过5K，2015年6月单集群超10K，目前在进行异地多活和离在线混布方面的事情。

首先是规模大、小概率事件常态化对于小概率事件大家不能赌运气，基本每次都会踩中狗屎的。譬如各类硬件故障，规模小的时候觉得硬件故障概率比较低，即使坏了也比较彻底，但是规模大了后会有很多情况是将坏不坏，类似这种奇葩事件会越来越多。还有网络链路不稳定，网络链路会有很多原因导致它不稳定。一方面是网络设备多了，网络设备出现故障的概率也大了，另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。还有一部分是工具，机器的环境变得复杂以后，我们对工具稳定性就有更高要求，比如你要考虑到有些机器的SSH 会hang 住，还有某些机器yumdb是坏的，不能想当然的以为一条命令下去一定会执行成功。其次是多机房多地域几千公里距离会有几十毫秒的延时增加，大家在布置异地多机房应用的时候，要考虑到应用之间的超时设置是不是合理，需要重新review 尤其针对多次往返的请求，累加效应是非常明显的。

阿里云产品容灾-高可用介绍及架构方案

袋鼠云出品——阿里云高可用-容灾解决方案这两天，一篇名为《IT之家因无法忍受阿里云而迁移至XX云》的文章引起了整个云计算行业的热议。（袋鼠云CTO江枫还专门写了一篇热评）从目前得到的信息看，其应该是在青岛区域购买了一台云服务器ECS，基于.net和自建SQL Server，并且应用和数据库跑在同一台云服务器上。 IT之家，所有应用都部署在单台ECS上，不具备高可用的特性。即便阿里云产品本身就有容灾、高可用的特征，但是因为一些用户对阿里云产品的不了解和自身应用架构不够合理，也根本无法使其发挥该优势。其实，IT之家的事情不是个例，有很多其他企业在这方面很头疼。所以，袋鼠云技术专家结合以往实践经验，总结出了一套切实可行的《阿里云高可用-容灾解决方案》，希望能和各位阿里云上用户一起探讨。一、阿里云产品容灾-高可用介绍 1、SLB 容灾-高可用介绍阿里云SLB产品使用开源软件LVS＋keeplived实现4层的负载均衡。采用淘宝的Tengine实现7层的负载均衡。所有负载均衡均采用集群部署，集群之间实时会话同步，以消除服务器单点，提升冗余，保证服务稳定。在各个地域采用多物理机房部署，实现同城容灾。 SLB在整体设计上让其可用性高达99.99%。且能够根据应用负载进行弹性扩容，在任意一台SLB故障或流量波动等情况下都能做到不中断对外服务。

图一 2、ECS 容灾-高可用介绍云服务器ECS实例是一个虚拟的计算环境，包含了CPU、内存、操作系统、磁盘、带宽等最基础的服务器组件，是ECS提供给每个用户的操作实体，就如同我们平时使用的虚机。但需要确认的是，ECS自身是没有容灾和高可用方面的功能。所以当我们在单台ECS服务器上部署各种应用时，特别是对于那些将应用服务，数据库服务等都打包安装在单台ECS服务器时就更要注意这点了。那ECS自身没有容灾-高可用这样的功能，对于在单台ECS上部署各种服务，一旦ECS 故障就只能眼睁睁的看着它down机对外停止服务么？此时，如果产品自身没有容灾和高可用功能，我们可以从架构上来弥补这个短板。比如：在应用前端购买SLB产品，后端相同应用部署至少两台ECS服务器，或者是使用阿里云的弹性伸缩技术，根据自定义ECS自身资源的使用规则来进行弹性扩容。这样即便其中一台ECS服务器down机或者资源利用超负荷，也不会使我们的服务对外终止。 ECS具备的一些优势：稳定性：服务可用性高达99.95%，数据可靠性高达99.9999999%。