第一次
- 第一次发生在前天,我正在黔江,下午4点噩耗来临,全部服务断网,我整个人就不好了。
- 五分钟后致电到机房,机房说上层交换机崩了!!!交换机崩了!!!没有冗余的吗???我去!!
- 经过3小时的紧急抢修,所有服务被切换到运营核心交换机,本以为好了吧,结果我的服务还是不能用,我去!!
- 经过一番排查无果,此时我正在前往重庆的客车上,就一个手机,我当时就在想,我以后一定要背着笔记本出门,至少我可以在第一时间通过笔记本介入而不是手机。
- 车上我心急如焚,毕竟服务非常多,用户也非常多,停网络太久,又没在异地做双活,这下美滋滋。
- 经过我们一路上的讨论,我们惊奇的发现有很多客户和我一样,都是接通后内部设备无法上网,我一想可能是ARP表问题?于是我刷新了一下,还TMD不行。
- 于是我让核心交换机的这个部分刷新了一下,我的核心服务终于通网络了,可是我的其他服务还是不通!!不过幸好我的核心服务通网路了,我可以先到家用计算机处理故障。
- 晚上10:40我到家了,第一时间打开电脑,开始处理其他设备的网路故障,此时机房给我个消息说其他客户最后通过重启内部交换机才解决这个问题,于是我就重启了一波我的交换机,并刷新了ARP,结果,好了!!!!
- 看来我是要开始部署异地双活了。
- 网络恢复以后,瞬间峰值一下达到了600M,你们是有多么渴望网络?
第二次
- 今天下午4点,我的香港节点突然传来噩耗,当了!!
- 于是我联系香港机房,机房一开始说是有大量攻击,正在处理,一小时后给我说攻击处理好了,但是我还是没有通网络。
- 10分钟后,机房给了我一个惊天消息,
下午电力骤降,导致部分机子自动重启。
MD还能这样? - 我机器光荣的被重启了,嗯,开机,检查服务,嗯,恢复一些因为不正常关闭导致的问题,好了,服务恢复了,我的小站也因为这个停了3小时。
安全
- 我内部设备都是双活的可是奈何上层出现故障,哎,这次好了,直接上到了机房的核心交换层,这个应该是不会再出事了吧。
- 希望以后这样的大事件不会发生了,好难受!
本文由 Rinvay 创作,采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为: Jul 30, 2018 at 06:37 pm
原来是运维大佬吗
哪里大佬,我就是运维新人
看来是真的大佬。
哪里来的大佬,就是个喜欢折腾的学生
上个月机房空调坏了,机房42度,多数主机直接热到崩溃。服务商不得已只能把所有非关键主机关机,只留网络设备和管控设备。
机房的人从当地时间下午7点一直折腾到凌晨1点,直到负责空调的公司修好了空调,才搞定。维修日志里写着,因为是晚上,就只能盼着开窗户通风降温了。想想机房也挺不容易的。
这个就太不容易了!!
服务器就和天气一样
其实都是网络设备的锅,不过新世界的机房居然因为攻击导致电压不稳,我也很好奇!
恢复得还是算快了。
毕竟我们要的是1G的口子,他们知道我们服务有多大,哎,这次直接接到核心交换机希望以后都不要再出类似事件了,心累,我也着手在准备数据库异地容灾
还是国内的服务器稳妥一些。
其实不是服务器问题,这都是不可抗力了,设备运行都600+天了,这次是无奈啊,我的服务一直还是非常稳定!
博主,你用的是哪个评论邮箱通知插件,我的会重复发,有点0.0
(还有为给你带来好几封重读邮件感到抱歉)
拿去https://github.com/visamz/CommentToMail
夏天了所以容易炸吗
为啥你老被关进小黑屋?可能是太浮躁了吧!哈哈比较容易挂
辣鸡审核机制 热了就容易down
我感觉这个插件好坑爹,分分钟就关小黑我