淮海能源车,绿色出行新潮流,引领未来出行革命
随着全球气候变化和环境问题日益严重,绿色出行成为全球共识。我国政府高度重视新能源汽车产业的发展,将其作为国家战略。淮海能源车作为新...
扫一扫用手机浏览
10 月 4 日,包含 Facebook, Ins, Oculus和 WhatsApp 在内的一系列服务群体宕机靠近 7 小时,以致于 Facebook 高管要到竞争敌手的地皮——推特上去宣布关照、阐明,以及报歉。
故障办理后,各类细节陆续表露出来,其缘故原由的瑰异让宽大运维职员不由感慨:本来Facebook也会出这些不靠谱的初级差错啊。
单点故障
一条很简单的敕令失足——这是Facebook方面表露的事故最初缘故原由。依据Facebook工程和根基举措措施副总裁Santosh Janardhan在一篇博客中泄漏,运维工程师只是依据日常运维要求输入了一条敕令,目标是评估Facebook全网容量的可用性,成果倒是“无意中堵截了我们主干收集中的所有衔接,有用地断开了 Facebook 环球数据中心的衔接。”
Janardhan表现,体系中有一条审核法式可以防止呈现相似的差错,但很不巧的是,其时这个审核体系也呈现了问题,导致差错的敕令被“正确无误”的执行了下去。
这条敕令的执行成果也异常简单:关照Facebook的域名解析服务器(DNS)删除Facebook相关的IP段的路由记载。从全网评估变全网删除,从而导致了Facebook以及相关的域名无法拜访,全部宕机。
不外这些并不是Facebook亘古未有宕机的基本缘故原由。基本缘故原由在于, Facebook固然预备了多台DNS作为备份,但它们都处在子收集185.89.218.0/23和129.134.30.0/23。凡是Facebook的解析都必要颠末这里,一旦故障,就会导致Facebook及相关服务的失联。
可以说,过于简单的DNS设置装备摆设导致的单点故障才是Facebook这次故障的祸首罪魁。
电锯惊魂。
运维宇宙的上古期间传播这个传说:最高权限治理员是一把改锥。
在此次Facebook故障中,改锥没有露面,然则电锯露了一小脸。在铺天盖地的预测中,《纽约时报》语出惊人:由于数据中心平安举措措施掩护周密,加上体系故障导致门禁弗成用,Facebook工程师末了靠一把电锯打开了年夜门……
固然末了辟谣了,电锯并没有进场。但现场“物理维护”的艰巨并不比长途维护容易半分。
Facebook表现,由于DNS故障导致无法经由过程外网进行长途操作,只好派工程师现场办理问题。但“这些举措措施的设计斟酌到了高程度的物理和体系平安性。它们很难进入,一旦您进入内部,纵然您可以物理拜访它们,硬件和路由器的设计也很难改动。”
而且,工程师“必要额外的光阴来激活让人们到现场并可以或许在服务器上事情所需的平安拜访协定”。可见在宕机的7小时中,工程师为办理“物理问题”也花了不小的工夫。
而在技术圈还有另一个风闻:在统统办理后,工程师心急上电,成果导致DNS被刹时流量冲毁,只好拔失落网线从新开机,才真正的规复了服务。
至此,Facebook的惊魂7小时才算正式停止,而留给业界的思虑和教训、履历却会久长的传播下去。
1、任何能激发单点故障的环节都必要有冗余体系,无论看起来是否紧张。
2、当外网呈现问题无法长途运维的时刻,应该有可以进行拜访的内网通道。
3、一个关于电锯的问题:数据中心的物理平安步伐同样会受到体系故障的影响,应该若何避免平安酿成“掣肘”呢。
| 文章起源:中国IDC圈
赋能高质成长,开启低碳将来。10月13日,第十六届中国IDC财产年度年夜典(上海站)即将在上海万达瑞华酒店举行。邀您共话长三角数据中心将来。