|
沙发
楼主 |
发表于 2013-11-15 16:20:33
|
只看该作者
已替代所有地址和人名。
故事编号:0008
故事标题: 2013年11月15日托管机房网络堵塞问题的故事
故事的人: (4个人名)
故事发生时间:2013年11月15日
标签:网络 流量堵塞 沟通协调 分流
建议听故事的有: (一大堆部门)
故事详情
2013年11月15日 上午10点30分开始,(某人)部门反映连接托管机房服务器慢,并且ping值有丢包。it部门开始排查,过程中发现网络并无问题,是流量超标。我们托管机房的流量现在是15M,而流量已经超过15M达到20M以上了,因此造成网络丢包现象严重。it部门进一步排查,发现是games.qiandai.com的流量超标了,此站点的流量达到了8M左右,导致整体流量超标。games.qiandai.com流量超标的原因是游戏瓶今天新开了联运平台,并做了广告,导致流量增加的比较多。
和相关人员商量后,决定先限制games.qiandai.com的流量,再联系机房增加带宽。我们逐步限制此站点的流量,最终在11点20分左右终于限制到合适的流量,从而保证整个机房的带宽不超标。
从此时开始,由于流量限制games.qiandai.com站点访问非常缓慢,但是其他机房的服务是正常的。
我们联系机房增加流量,到14点30分左右,流量增加完成。it部门放开games.qiandai.com的流量限制,games.qiandai.com恢复正常。
这就是此件事的全部过程。
故事给我们的教训
1、会影响流量的新应用发布,需要和it部门协商,经过评估并扩容之后再上线。此事请和本次事故相关的游戏瓶组,开发八部特别注意一下,做好提前通知工作
2、由于机房增加流量的响应较慢,可以考虑增加备份机房进行分流工作。
即时任务
暂无
相关wiki地址 (一个地址)
感谢IT部门和某人的分享
我当时的回复:
不好意思,指出3个错误。
1.是games.youxiping.com,不是games.qiandai.com
2.该网站目前依然处于崩溃状态。
3.这是运营事故,不是故事。
.........
这封邮件我根本就没有勇气点发送。技术上的怠慢和松懈,直接造成10多个人2天的努力毁于一旦,损失上万。更重要的是,在这之前游戏瓶10多个人1年半的努力就因为这基础级的技术支持而跌回解放前了。对母公司而言,可能这不过只是不到1百万的工资钱。而已。然后这样的运营事故还会变成小故事......
|
|