跳至正文

线上环境运维随想

前段时间公司线上环境的游戏服务器出现了严重的运维事故,之前一直没有抽时间总结下来,最近过完年相对比较空,总结一下以防后患。事情的起因是,程序员测试时误删除了数据库大部分的表文件,恢复数据库时又发现备份机制存在问题,根本无法恢复数据。值得庆幸的是用户和角色表没有删除,而且大部分游戏行为都有相应的log记录,最后通过log记录使用大数据分析恢复了玩家的大部分数据。整个过程耗时3天,3天基本没有怎么睡觉。最终的结果还算是好的,停服3天,虽然玩家还是有部分数据丢失,但是我们给予了大幅度的补偿,基本玩家反馈还是正面的,比我们开服前的预期要好。

可能是开始写博客的契机

最近越来越发现, 自己真的开始老了。以前引以为豪的记忆力, 发现没有那么好了,好多事情刚想过就忘。

想想也是,已经过了而立之年, 一切的身体机能都会慢慢开始走下坡路。为了把自己的一些想法保留, 不至于以后想不起来,
还是有必要记录一下的。