淮海能源车,绿色出行新潮流,引领未来出行革命
随着全球气候变化和环境问题日益严重,绿色出行成为全球共识。我国政府高度重视新能源汽车产业的发展,将其作为国家战略。淮海能源车作为新...
扫一扫用手机浏览
这几天,年夜家都在存眷日本电信运营商KDDI的年夜范围通讯故障。
这个故障影响很年夜,涉及到日本全境规模,共3915万用户。并且,故障连续的光阴很长,差不多花了两天,才算根本规复。
故障的详细缘故原由,我看到许多"号都已经写了,我就不再反复阐发了。
本日这篇文章,我想把话题放年夜一点,和年夜家深刻聊聊——都2022年了,为什么我们的通讯收集还有这么多故障,以及,我们到底有没有最终办理计划。
█通讯故障:一场连续百年的博弈
故障是通讯收集的自然属性。就像人会生病一样,通讯收集自诞生以来,就随同着故障。或者说,我们便是在办理故障的进程中,才发明了通讯收集。
贝尔老爹在办理了无数故障后,才创造了德律风
一百多年来,无数的通讯人,都在与故障进行保持不懈的奋斗和博弈。他们尽力研发了各类技术,采纳了各类手腕,和通讯故障抗争。
从宏观上来说,抗争的后果是明显的。在履历的赓续积聚下,在工艺和技术的赓续提高下,通讯收集产生故障的概率在赓续降落。
年青的读者可能并不知道,20多年前,固定德律风拨欠亨(有德律风的家庭都不多),和停水停电一样,是常见征象。10多年前,手机拨欠亨,上彀上不去,也是常见征象。
近十年来,这些征象变得越来越少见。偶然产生一次,年夜家反而会感到很奇异。收集断了,许多人的第一反响是手机坏了,或者欠费了,赶紧重启或充值。不是吗。
我们如今所处的信息社会,通讯收集和水电一样,是紧张的根基举措措施。我们的事情和生涯,还有各行各业的运转,都离不开通讯收集。
在如许的条件下,通讯运营商作为国企,作为收集的建设和维护者,会始终把收集的平安稳固放在第一位。
针对收集稳固,工信部给运营商们设定了严厉的稽核指标。假如某省某市呈现了收集故障,一把手确定要担责,宦途堪忧。
运营商引导的压力,会通报到员工身上,也会通报到装备商和外包商身上。
如今市场竞争如斯剧烈,一旦失事,要么便是巨额的赔款,要么便是丢失落这个省的市场份额,这是装备商和外包商无法蒙受的损失。
以是说,整个通讯行业对付通讯收集的平安稳固,看重度确定是足够的。症结,照样才能和执行的问题。
█通讯收集的弱点,毕竟在哪。
起首,我要和年夜家说一下通讯收集的平安级别界说。
依据场景分歧,通讯收集的平安分为分歧品级。从低到高,分离是家庭级、企业级、电信级。
通讯体系的平安品级
像我们家里用的路由器什么的,都属于家庭级。这种装备的平安性靠得住性很低,说坏就坏,很容易导致收集中止。
企业级呢,便是单元里面用的收集装备。依据收集范围和用户数目,企业级装备有较高的平安性靠得住性,不太容易中止服务。
电信级的要求,就更高了。像移动、电信、联通,它们的收集,要为上亿的用户提供服务,绝对不容许随意马虎呈现故障。通常来说,电信级的靠得住性,要到达5个9以上的尺度。
本日小枣君说的通讯收集,指的便是运营商面向"大众的公共通讯收集,既包含蜂窝移动通讯收集,也包含固网宽带收集。它们都属于电信级。
蜂窝移动通讯收集和固网宽带收集的架构实在是相似的,主要区别在于接入网部门。
蜂窝移动通讯收集是无线接入网,接入装备是基站。而固网宽带收集是有线接入网,接入装备是PON装备(无源光收集装备,包含光猫)。
我们就以蜂窝移动通讯收集为例,进行阐发。
公共通讯收集,服务的是数以亿级的用户群体,以是,通常会采纳金字塔级的架构,焦点网为焦点,传输网(承载网)为主干,接入网为四肢。
年夜家一眼就能看明确,这种架构,最年夜的弱点,就在于焦点网和传输网(尤其是主干网)。
焦点网是治理中枢,是收集的心脏和年夜脑,一旦挂了,就整个收集挂了。以是,焦点网工程师(好比昔时的我)是风险和压力最年夜的岗亭。
焦点网机房
传输网(承载网)呢,是通讯收集的血管和神经。末梢还好说,坏了最多影响一小块,然则,假如血汗管和脑血管坏了,怎么办。那也是彻底瘫痪。
光传输装备
此次KDDI产生的故障,还有2021年10月DoCoMo产生的故障,以及2020年英国四年夜运营商的故障,2020年美国CenturyLink的故障,都和焦点路由器有关。说白了,便是心脑血管出了问题,整小我(收集)就瘫了。
相比之下,接入网这边出年夜问题的概率很低。个体基站“失落站”,最多影响几百几千人,规模很小,投诉可控。
基站装备
假如接入网呈现年夜范围故障,那极有可能是装备商的软件版本问题,或者硬件批次问题。这种环境的概率极低。
█为了防范故障,通讯人都做了些什么。
那么,为了保证通讯收集的平安安稳运行,防范故障的产生,我们通讯人都采纳了哪些方法呢。
起首,是顶层架构设计的完美。
收集的架构,是收集平安之本。一个好的架构,既要斟酌机能和容量,也要斟酌本钱,还要斟酌平安和冗余。
这里请年夜家务必记住一点:通讯装备作为一个繁杂的产物,不管你怎么设计或堆料,它都存在故障的可能,只是概率高下、光阴日夕的问题。
对付可能呈现的故障,与其谨防死守,不如重点斟酌产生故障之后,该怎么办。
以是,引入备份机制,是应对故障最有用的手腕。
备份机制
年夜家都学过“概率与统计”,1个装备呈现概率的故障假如是1%,那么,两个装备同时出故障的概率,便是1%×1%=0.01%。没错吧。
为了保证绝对的平安,收集架构设计时,会采纳POOL(池)组网的方式,如下图:
好几个装备配合构成池子(POOL),各自傲责营业,假如有一个坏了,其它的立即顶上,保证营业不受影响。
焦点装备,通常有两个或两个以上,分离在省会城市的分歧区域,物理上就离得很远。
此外,在做收集架构设计时,紧张的装备网元通常会放在平安级别更高的焦点机房。
焦点机房
例如,移动通讯收集里面最最最紧张的、卖力存储和治理用户数据的HSS(便是以前的HLR,里面有每个用户的手机号码、鉴权数据、营业信息等),就寄存在省会城市的焦点机房。同时,维护职员会按期进行数据的物理异地隔离备份。
这几年,由于地质灾害,加上战争或恐袭等因素考量,运营商乃至开端做异省份的备份。
例如,客岁郑州洪灾,其时焦点机房被淹,HLR退服,就紧迫启用了放在附近省份省会城市的HLR,实现营业的暂时规复。
分歧的容灾级别
第二个方法,底层的主备机制。
适才我们说的是顶层设计的冗余机制。详细到机房、机架、单板、线缆,也都有主备的设计,可以称之为底层的主备机制。
假如去过机房,你就会发现,机柜上的机框,插着各类各样的单板。而这些单板,根本上都是成对呈现的。
某厂家3G装备正面外观
也便是说,某一类型的单板,通常都邑有两块。
网线和光纤也是一样,你险些看不到单根的线缆,都是成对的。
某厂家4G装备正面外观
如许做的缘故原由,便是为了相互备份。假如某块单板坏了,那另一个单板就能继续事情,保证营业不受影响。同时,体系会进行报警,提示事情职员尽快调换。
电源也是一样,电信机房所有机柜装备,确定都有至少两路电源输入。
多路电源输入(一红一蓝为一起)
除了市电认为,紧张机房还会设置蓄电池、UPS、发电机等应急供电装备。
机房的蓄电池组
第三,完美的治理轨制和律例。
技术永久都不是影响收集平安稳固的独一要素。对通讯收集威逼最年夜的,实在是人,而不是技术。
对付这一点,小枣君信任每一个通讯人都邑有雷同的感触感染。
在治理流程和轨制方面,在工程技术规范方面,我们有过无数次血的教训。
为什么进级计划要重复评审。为什么工程规范要那么严厉。为什么要树立备件仓库。为什么割接步调要double-check,乃至triple-check。为什么重年夜操作后要支配值守。为什么紧张节沐日要封网。……
这些都是古人踩雷总结下来的履历。
对收集故障,要时候坚持敬畏之心
除了内部治理轨制和流程尺度之外,针对如今常常产生的通讯收集蓄意破坏变乱,国度也树立了越来越严厉的司法律例,进行处罚。
像非法施工铲断光纤、蓄意破坏基站、剪断光纤,都将受到司法的制裁。
被恶意剪断的基站馈线
█通讯故障背后的深条理缘故原由
有合理的收集架构设计,有完好的主备机制,又有完美的轨制和规范,为什么还会产生这么多故障。
接下来,我来说点深条理的缘故原由。
起首第一点,估量也是年夜家最认同的一点,那便是通讯行业的内卷情况。
这些年,恶意竞争、低价中标风行,装备商和分包商既要抢单,又要维持利润,只能冒死压低本钱,好比产物设计本钱、用料本钱、施工资料本钱。更主要的是,职员人为本钱。
本钱赓续紧缩,势必影响产物靠得住性以及工程质量。过低的人为,导致年夜量履历丰硕的人才流失。分包商为了竣工,只能雇用应届生,简单培训(乃至没有培训)之后,派到现场干活。
这些职员短缺需要的培训和实践,素质程度和技术才能不敷,成为很年夜的风险点。
有些极个体素质低的,被榨取狠了,直接删库跑路,也不是没有可能。
前些年,为了确保一线员工不被克扣报酬,有厂商乃至和分包商签署条约,束缚外包员工的收入底线。
除了低价竞争之外,影响收集运行平安的另一个紧张因素,是赓续增长的技术繁杂度。
越先进的技术,繁杂度越高,靠得住性越低。跟着技术的演进,运营商的收集范围变得越来越年夜,组网也越来越繁杂,呈现问题的概率年夜年夜增长。
通讯收集的潮汐效应长短常显著的。闲时和忙时有时刻会有十倍乃至百倍的差别。假如呈现不测变乱(灾害等),话务量激增,更可能是千倍的差别。
运营商弗成能做千倍的冗余设计。以是,假如没有合理的旁路设计或阈值设计,收集呈现拥塞的概率是极高的。(这几年的几回重年夜故障,都有信令流量拥塞的因素。)
今朝运营商的繁杂组网,本身都没几小我能完全看懂。光阴久了,职员一流动,就更生疏了。
通讯收集原来便是一门形而上学,问题光怪陆离,谁敢说本身能算准每一种可能性。
第三个潜在的收集平安风险,也是小枣君最担忧的风险,那便是外部的收集进击。例如黑客、病毒和体系破绽。
现在,通讯装备根本上都IP化、云化了,收集越来越开放,也有的直接部署在公有云上,和外界的物理隔离越来越弱,比以前更容易受到进击。
如今的进击者,程度也比以前高许多,手腕也加倍多样化,对收集的威逼极年夜。
当然,运营商和装备商在防范收集进击方面,投入也很年夜。
如今,所有厂商都存眷“平安加固”这个观点。顾名思义,平安加固便是封堵体系破绽,使得体系加倍稳定。运营商会采纳第三方对象,或聘任第三方厂家,对现网装备进行平安扫描,探求平安破绽,然后要求装备商进行整改和封堵。
统统为了平安
这种“道高一尺,魔高一丈”的博弈,会历久连续下去。
然则,小枣君小我以为,今朝防御的一方,在职员平安意识、技术才能方面,都存在很年夜问题。后续,我们遇到的平安变乱,会越来越多。
愿望有关单元和部分不要把平安放在嘴边,真正花点工夫晋升本身的职员素质,增强培训。否则真出了事,解救就太迟了。
█末了的话
日本KDDI的故障不是第一次,也确定不是末了一次。通讯收集故障,就像伐鼓传花,谁也不知道本身是不是下一个。
如今,厂商们都提出要引入AI,让人工智能来接收收集,以此低落收集的故障率。也有的厂商,在收集云化的根基上,搞灰度进级(即局部进级),也能年夜幅低落收集风险。这些都是好的趋向。
我感到,在与通讯收集故障进行奋斗的途径上,我们还有很长的路要走。路漫漫其修远兮,通讯人当上下而求索。
好了,以上便是本日文章的全体内容。感激年夜家的耐烦浏览,我们下期再会。
谢谢。