已替代所有地址和人名。 故事编号:0008 故事标题: 2013年11月15日托管机房网络堵塞问题的故事 故事的人: (4个人名) 故事发生时间:2013年11月15日 标签:网络 流量堵塞 沟通协调 分流 建议听故事的有: (一大堆部门) 故事详情 2013年11月15日 上午10点30分开始,(某人)部门反映连接托管机房服务器慢,并且ping值有丢包。it部门开始排查,过程中发现网络并无问题,是流量超标。我们托管机房的流量现在是15M,而流量已经超过15M达到20M以上了,因此造成网络丢包现象严重。it部门进一步排查,发现是games.qiandai.com的流量超标了,此站点的流量达到了8M左右,导致整体流量超标。games.qiandai.com流量超标的原因是游戏瓶今天新开了联运平台,并做了广告,导致流量增加的比较多。 和相关人员商量后,决定先限制games.qiandai.com的流量,再联系机房增加带宽。我们逐步限制此站点的流量,最终在11点20分左右终于限制到合适的流量,从而保证整个机房的带宽不超标。 从此时开始,由于流量限制games.qiandai.com站点访问非常缓慢,但是其他机房的服务是正常的。 我们联系机房增加流量,到14点30分左右,流量增加完成。it部门放开games.qiandai.com的流量限制,games.qiandai.com恢复正常。 这就是此件事的全部过程。 故事给我们的教训 1、会影响流量的新应用发布,需要和it部门协商,经过评估并扩容之后再上线。此事请和本次事故相关的游戏瓶组,开发八部特别注意一下,做好提前通知工作 2、由于机房增加流量的响应较慢,可以考虑增加备份机房进行分流工作。 即时任务 暂无 相关wiki地址 (一个地址) 感谢IT部门和某人的分享 我当时的回复: 不好意思,指出3个错误。 1.是games.youxiping.com,不是games.qiandai.com 2.该网站目前依然处于崩溃状态。 3.这是运营事故,不是故事。 ......... 这封邮件我根本就没有勇气点发送。技术上的怠慢和松懈,直接造成10多个人2天的努力毁于一旦,损失上万。更重要的是,在这之前游戏瓶10多个人1年半的努力就因为这基础级的技术支持而跌回解放前了。对母公司而言,可能这不过只是不到1百万的工资钱。而已。然后这样的运营事故还会变成小故事...... |