极客APP-每日一课笔记-如何从容地应对生产事故

**主讲冯忠旗京东数科高级架构师 **

对自己负责的系统要了如指掌，有多种渠道来源帮助你第一时间发现这些生产事故：

如果确保第一时间能够发现生产问题，接下来最重要的事情不是去定位问题发生的根本原因。

重点强调：研发人员的特点是发现问题之后，都会习惯性地去排查问题的根本原因，因为研发人员一般都觉得自己可以很快地解决掉这些问题，真实情况往往是一个技术难度陷进去之后，需要很长时间，一个难点解决了可能第二个难点又出现了，耽误了时间导致生产事故已经扩大了影响范围

发现问题后，正确的做法是首要分析事故的影响范围和严重程度，例如是否会产生资损风险、影响用户范围等

根据公司部门的事故认定规定，上报上级领导

重点：汇报时提供预案给领导，并解释不同预案的风险优缺点

80%的问题是可以提前做好预案的，需要在长期运维中进行积累

最主要的目的不是问责，最主要的目的是回顾解决事故的整个过程，总结经验帮助下一次从容应对；其次是通过分析事故的特点，寻找能够提前避免的预案方案，因为最重要的还是要做到事前预防

通过长期的团队的运营和积累，把经常发生的事故应对方案放到应急的方案池中，作为共享资源作为团队共享。更像生产事故记录表，用来提醒和帮助团队，新问题一定会越来越少。

需要不定期进行，才能保证从容应对。包括数据库故障演练、应用故障演练、网络故障演练等一系列极端情况。