如何看待6月2日AWS中国近12小时的大面积瘫痪?

如果真是光缆被挖断,那就验证了一句话,暴力施工无处不在,我们国家在云计算方面做的很不错,阿里云,腾讯云,为企业提供数据支持,美国企业(亚马逊)一直想进入国内进行竞争,但我感觉没戏

其实国外的云计算在理念上可能好着,但是在实际操作上肯定没有阿里云这么经历了实际挑战,经历了最具实战性的操作。

大面积的停当还是没有准备,技术不先进,实际不好用的原因

其实这个挺奇怪的,按道理AWS作为世界领先的云数据中心,不应该出现单条光纤被施工挖断引起整个网络瘫痪,并且长时间无法恢复的问题。

如果经常出现这种问题,只能说亚马逊的公有云数据中心互联的网络设计是不可靠的,至少阿里云的架构不会出现这种那么长时间无法恢复的问题。

一般公有云的设计,在同一region内(同城)可靠性一般有保障的,例如和运营商互通的TIX路由器光纤,会采用多条负载分担的方式,同城之间不同的AZ(区域)之间互联也会采用多条路径负载分担。像腾讯和阿里这种大型的数据中心,同城的光纤一般都是自建,在设计上会避开同时物理中断的问题

一些变态一点的数据中心,在设计时甚至要求主、备光纤在实际的城市街道部署路径也要完全隔离,这就极大避免了道路施工同时挖断的情况。

如果真的运营商互联的链路同时发生物理中断,例如两条街道施工,同时挖断了所有光纤,一般公有云都会有整套应急机制。

一般运营商会把访问公有云的流量送到公有云外地和该运营商正常互通的节点,由外地该节点把流量迂回到本地数据中心。举个例子,假设阿里云和电信北京互联接口发生全部中断,电信有可能会把访问阿里的流量转移到上海接入,然后从上海通过内部数据中心互联网络绕回北京。

这只是一个例子,阿里云内部不一定完全这样实现。阿里云内部会有应急极致来应付这种情况,现在阿里腾讯都在DCI部署SDN,目的也是为了尽快加强流量的切换

所以我觉得,这个事情说到底还是亚马逊的公有云网络架构的设计和不可靠,应急机制也不完善

当然,对于公有云用户而言,重要的数据基于地域冗余的备份可以很好的解决这个问题,这种冗余备份,一般有两种方式

一种方式是同城备份,当企业数据量不是很大,可以解决同城单点数据中心及网络故障的问题,诸如光纤挖断的问题应该可以大概率规避

一种方式是异地备份,当企业数据非常重要时,可以选择同城容灾加上异地容灾,或者单独选择异地容灾。这种容灾方式可以解决整个城市大面积网络瘫痪的问题。我国政府和金融行业要求的两地三中心方案,就是要求同城加上异地容灾的

对于云,大家可以多考虑考虑不同的灾备方式,否则亚马逊的这次故障不会是个案

瘫痪指的是什么,多数指的是某公司的业务产品挂了。AWS本身提供了高可用的配置方式,多可用区,跨可用区。但是很多公司为了省成本,并不会使用非常可靠的高可用配置。这是个没办法调和的东西。

2021-12-24

2021-12-24