阿里巴巴神龙(X-Dragon)架构演进之路
神龙架构的背景Background of X-Dragon Architecture
01
197419972005
2017
虚拟化理论诞生
*
VMware
成立VT-x/VT-d
发布X-Dragon 问世
虚拟化技术回顾Retrospection of Virtualization Technology *:[Robert P.
Goldberg]Formal Requirements for Virtualizable Third Generation Architectures 2009
2014
…
Hypervisor
数据中心传统虚拟化架构
Traditional Virtualization Architecture of IDC
架构缺陷带来的产品挑战Challenges Caused by Virtualization Defects
IO引擎纯软件实现
阿里云构建千万级别架构演变之路
免费注册 登录 中国站 登录社区 ?云头条 ?博客 ?问答 ?聚能聊 ?直播 ?论坛 ?云栖大会 ?公众号 ?订阅NEW ?云大学 ?更多 1.云栖社区>
2.博客列表> 3.正文 【技术干货】阿里云构建千万级别架构演变之路 驻云科技2016-06-16 17:01:21 浏览11342 评论2 摘要:随着云计算的到来,当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架构的过程。 本文作者:乔锐杰,现担任上海驻云信息科技有限公司运维总监/架构师。曾任职过黑客讲师、java软件工程师/网站架构师、高级运维、阿里云架构师等职位。维护过上千台服务器,主导过众安保险、新华社等千万级上云架构。在云端运维、分布式集群架构等方面有着丰富的经验。
前言 一个好的架构是靠演变而来,而不是单纯的靠设计。刚开始做架构设计,我们不可能全方位的考虑到架构的高性能、高扩展性、高安全等各方面的因素。随着业务需求越来越多、业务访问压力越来越大,架构不断的演变及进化,因而造就了一个成熟稳定的大型架构。如淘宝网、Facebook等大型网站的架构,无不从一个小型规模架构,不断进化及演变成为一个大型网站架构。 随着云计算的到来,当前已经从IT时代向DT时代开始转型。在云端如何构建千万级架构,本文主要结合阿里云最佳实践经验,向大家分享如何从一个小型网站逐步演变到千万级架构的过程。 架构原始阶段:万能的单机 架构的最原始阶段,即一台ECS服务器搞定一切。传统官网、论坛等应用,只需要一台ECS。对应的web服务器、数据库、静态文件资源等,部署到一台ECS上即可。一般5万pv到30万pv访问量,结
阿里云大数据计算平台的自动化、精细化运维之路
阿里云大数据计算平台的自动化、精细化运维之路 本文章来自于阿里云云栖社区 摘要:作者简介:范伦挺阿里巴巴基础架构事业群-技术专家花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、Analytic DB、StreamComput 免费开通大数据服务:https://https://www.360docs.net/doc/505792033.html,/product/odps 作者简介: 范伦挺 阿里巴巴基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute等)的运维、架构优化及容量管理等
1、前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战; 阿里自动化平台建设; 数据精细化运维; 我对运维转型的思考和理解; 2、在阿里我们面对的挑战 在讲挑战之前,我们可以简单看一下阿里大数据平台演进历史,我们的MaxCompute(原ODPS)平台是2011年4月上线的,2013年8月份单集群超过5K,2015年6月单集群超10K,目前在进行异地多活和离在线混布方面的事情。
首先是规模大、小概率事件常态化 对于小概率事件大家不能赌运气,基本每次都会踩中狗屎的。譬如各类硬件故障,规模小的时候觉得硬件故障概率比较低,即使坏了也比较彻底,但是规模大了后会有很多情况是将坏不坏,类似这种奇葩事件会越来越多。 还有网络链路不稳定,网络链路会有很多原因导致它不稳定。一方面是网络设备多了,网络设备出现故障的概率也大了,另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。 还有一部分是工具,机器的环境变得复杂以后,我们对工具稳定性就有更高要求,比如你要考虑到有些机器的SSH 会hang 住,还有某些机器yumdb是坏的,不能想当然的以为一条命令下去一定会执行成功。 其次是多机房多地域 几千公里距离会有几十毫秒的延时增加,大家在布置异地多机房应用的时候,要考虑到应用之间的超时设置是不是合理,需要重新review 尤其针对多次往返的请求,累加效应是非常明显的。
阿里云产品容灾-高可用介绍及架构方案
袋鼠云出品——阿里云高可用-容灾解决方案 这两天,一篇名为《IT之家因无法忍受阿里云而迁移至XX云》的文章引起了整个云计算行业的热议。(袋鼠云CTO江枫还专门写了一篇热评) 从目前得到的信息看,其应该是在青岛区域购买了一台云服务器ECS,基于.net和自建SQL Server,并且应用和数据库跑在同一台云服务器上。 IT之家,所有应用都部署在单台ECS上,不具备高可用的特性。 即便阿里云产品本身就有容灾、高可用的特征,但是因为一些用户对阿里云产品的不了解和自身应用架构不够合理,也根本无法使其发挥该优势。 其实,IT之家的事情不是个例,有很多其他企业在这方面很头疼。 所以,袋鼠云技术专家结合以往实践经验,总结出了一套切实可行的《阿里云高可用-容灾解决方案》,希望能和各位阿里云上用户一起探讨。 一、阿里云产品容灾-高可用介绍 1、SLB 容灾-高可用介绍 阿里云SLB产品使用开源软件LVS+keeplived实现4层的负载均衡。 采用淘宝的Tengine实现7层的负载均衡。所有负载均衡均采用集群部署,集群之间实时会话同步,以消除服务器单点,提升冗余,保证服务稳定。在各个地域采用多物理机房部署,实现同城容灾。 SLB在整体设计上让其可用性高达99.99%。且能够根据应用负载进行弹性扩容,在任意一台SLB故障或流量波动等情况下都能做到不中断对外服务。
图一 2、ECS 容灾-高可用介绍 云服务器ECS实例是一个虚拟的计算环境,包含了CPU、内存、操作系统、磁盘、带宽等最基础的服务器组件,是ECS提供给每个用户的操作实体,就如同我们平时使用的虚机。 但需要确认的是,ECS自身是没有容灾和高可用方面的功能。 所以当我们在单台ECS服务器上部署各种应用时,特别是对于那些将应用服务,数据库服务等都打包安装在单台ECS服务器时就更要注意这点了。 那ECS自身没有容灾-高可用这样的功能,对于在单台ECS上部署各种服务,一旦ECS 故障就只能眼睁睁的看着它down机对外停止服务么? 此时,如果产品自身没有容灾和高可用功能,我们可以从架构上来弥补这个短板。 比如:在应用前端购买SLB产品,后端相同应用部署至少两台ECS服务器,或者是使用阿里云的弹性伸缩技术,根据自定义ECS自身资源的使用规则来进行弹性扩容。这样即便其中一台ECS服务器down机或者资源利用超负荷,也不会使我们的服务对外终止。 ECS具备的一些优势: 稳定性:服务可用性高达99.95%,数据可靠性高达99.9999999%。