两次机房故障
Warning: getimagesize(): open_basedir restriction in effect. File(/etc/pki/tls/certs/ca-bundle.crt) is not within the allowed path(s): (/www/wwwroot/rinvay.cc/:/tmp/) in /www/wwwroot/rinvay.cc/usr/plugins/AMP/Action.php on line 520
Warning: failed loading cafile stream: `/etc/pki/tls/certs/ca-bundle.crt' in /www/wwwroot/rinvay.cc/usr/plugins/AMP/Action.php on line 520
Warning: getimagesize(): Failed to enable crypto in /www/wwwroot/rinvay.cc/usr/plugins/AMP/Action.php on line 520
Warning: getimagesize(https://pic.leus.cc/images/a67a170222b9d3ca85b5abed5f14c080.md.jpg): failed to open stream: operation failed in /www/wwwroot/rinvay.cc/usr/plugins/AMP/Action.php on line 520
第一次
- 第一次发生在前天,我正在黔江,下午4点噩耗来临,全部服务断网,我整个人就不好了。
- 五分钟后致电到机房,机房说上层交换机崩了!!!交换机崩了!!!没有冗余的吗???我去!!
- 经过3小时的紧急抢修,所有服务被切换到运营核心交换机,本以为好了吧,结果我的服务还是不能用,我去!!
- 经过一番排查无果,此时我正在前往重庆的客车上,就一个手机,我当时就在想,我以后一定要背着笔记本出门,至少我可以在第一时间通过笔记本介入而不是手机。@(泪)
- 车上我心急如焚,毕竟服务非常多,用户也非常多,停网络太久,又没在异地做双活,这下美滋滋。
- 经过我们一路上的讨论,我们惊奇的发现有很多客户和我一样,都是接通后内部设备无法上网,我一想可能是ARP表问题?于是我刷新了一下,还TMD不行。
- 于是我让核心交换机的这个部分刷新了一下,我的核心服务终于通网络了,可是我的其他服务还是不通!!不过幸好我的核心服务通网路了,我可以先到家用计算机处理故障。@(狂汗)
- 晚上10:40我到家了,第一时间打开电脑,开始处理其他设备的网路故障,此时机房给我个消息说其他客户最后通过重启内部交换机才解决这个问题,于是我就重启了一波我的交换机,并刷新了ARP,结果,好了!!!!#(扇耳光)
- 看来我是要开始部署异地双活了。
- 网络恢复以后,瞬间峰值一下达到了600M,你们是有多么渴望网络?
第二次
- 今天下午4点,我的香港节点突然传来噩耗,当了!!
- 于是我联系香港机房,机房一开始说是有大量攻击,正在处理,一小时后给我说攻击处理好了,但是我还是没有通网络。
- 10分钟后,机房给了我一个惊天消息,
下午电力骤降,导致部分机子自动重启。
MD还能这样? - 我机器光荣的被重启了,嗯,开机,检查服务,嗯,恢复一些因为不正常关闭导致的问题,好了,服务恢复了,我的小站也因为这个停了3小时。
安全
- 我内部设备都是双活的可是奈何上层出现故障,哎,这次好了,直接上到了机房的核心交换层,这个应该是不会再出事了吧。
- 希望以后这样的大事件不会发生了,好难受!
当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »