https://book.douban.com/people/fleure/annotation/27003697/
对于运维,除了平台、工具、知识、经验,意识也是非常重要的。有正确的认识、意识,就可以让运维数据库得心应手,又稳又好地运行大规模的数据库集群离不开一些行之有效的规则,可以说,意识在某种程度上决定了我们的运维质量。
15.3.2 应构建性能模型,进行容量规划
容量规划,应该提早发现是否需要扩容,更要主动。需要留有一定的余量,这样才能心中有数,遇事不慌。
15.3.3 优先扩容,再考虑优化
15.3.6 处理监控报警
一些不能处理,或者不需要及时处理的报警,往往属于趋势统计分析的范畴。我们完全可以选择在其他时间段进行处理。
15.3.8 允许出错
允许出错的运维文化,传统的绩效考核(KPI)可能会对此形成不必要的桎梏。人往往从错误中才能得到成长,所以犯一些错误都是可以理解的,关键是我们要建立一套机制,让错误能够尽可能快速地被修复,限制错误影响的范围,并且我们需要能够总结归纳错误,从错误中得到成长,这不仅仅是个人成长,也是组织成长的方式。
…
当然,我不是鼓励冒险主义,有计划的冒险才是可取的。