日本运营商DoCoMo的一次割接替换,给该国整个网络造成了大面积的故障。引起了大量用户的强烈不满,甚至于日本总务大臣不得不出来进行处理和解释。
据悉,这次本来是一次简单的升级替换,替换的设备是:存储物联网终端设备的用户/位置信息的服务器,大约有20万台物联网终端的位置信息从旧设备迁移到新设备的过程中,出现了问题。
于是操作人员启动了回退操作,重新倒回到旧设备。这一回退,恰好就是问题的关键:回退引发了大量物联网终端向旧服务器重新发起位置注册信息,一股汹涌而来的“信令风暴”快速引发了网络拥塞,直接把3/4/5G的核心网给挤“瘫痪”了。
让人难以理解的是,这一顿“升级-割接-回退”的操作,发生在工作日下午即将下班的晚高峰。(涨姿势了,岛国割接居然不要求在夜间?)
2021年10月14日下午5点左右开始,发生了导致DoCoMo语音通话和数据通信服务难以使用的网络事故。
2021年10月14日下午7点57分,该运营商采取了紧急网络操作,故障开始逐渐恢复,但由于网络拥塞,仍然有一些客户无法连接网络。
2021年10月15日凌晨5点05分,5G和4G网络恢复正常,但部分区域的3G网络仍然难以使用,正在努力恢复中,并告知广大用户,已订阅4G套餐并显示3G信号的用户,可以通过重启手机的方式来连接4G网络,以获得正常通信。
2021年10月15日下午,NTT DoCoMo副社长在新闻发布会上表示,3G网络恢复“无法给出明确的时间”,并解释说前景不明朗。
NTT DoCoMo管理层公开道歉,对于此次事故给客户和很多人带来了不便,深表歉意,并表示将努力防止事故再次发生。
嗯,在岛国,没有什么问题是鞠一躬解决不了的,如果有,就3个人一起鞠!
事故发生后,日本总务大臣在内阁会议后的记者招待会上表示:
作为关系人们日常生活的重要基础设施,移动网络发生了大规模故障,令人遗憾。总务省对此事非常重视,已要求NTT DoCoMo及时调查和报告事故原因和影响程度,以向广大用户做出充分的解释。希望NTT DoCoMo能履行好社会责任,并采取一切可能的措施防止类似事故再次发生。罚酒三杯,处理完毕!
启示录:
虽然此事发生在对面岛国,但我们仍然需要从中吸取教训。如今的移动网络如同水电气一样的基础设施,特别是5G时代,应用到工业互联网、煤矿、医院等,网络绝无小事。
1. 升级割接绝不可能在忙时进行.
这在我国几乎不可能,都是在深夜完成,这已经成了通信这20年来的铁律。感谢我们的“通信夜行者”辛勤的付出。
2. 网络充分的冗余和备份机制。
网络的状况永远不可预料,要保障网络不出问题,最可靠的方式就是冗余和备份机制,从AB面,到集群Pool,全面保障在核心网、传输网和接入网的冗余机制。这势必会增加投资,但是一个品质网络的必需。
3. 核心网是重中之重。
其它故障一般影响到局部,而核心网则影响全局。除了做好冗余和备份,更应该尽快升级网络架构。5G SA的核心网SBA架构,能在尽可能节省投资的情况下保障网络的安全运行。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场。
延伸阅读
版权所有:物联之家 - 物联观察新视角,国内领先科技门户