本文从携程瘫痪事件中总结出了数据中心运维管理的85条军规,看看你全都遵守了吗?
1) 承载能力优先 ——随后再进行优化 —— 不遵守这条规则必定带来故障停机时间。不要在故障停机时间的压力下进行优化——要先集中精力提高承载能力。
2) 以Postgres为例,一定要确保你的每一个网络都能匹配得上你的WAL文件、Slony复制、快照技术以及基于磁盘的DB版本化(快照的衍生品)
3) 不要把问题‘优化’到你的架构之中。为了解决问题而新加进来的一些东西往往后来都会变成运维沉重的负担。 要确保在运维工程化中开发出来的工具交接完整。过后再回头进行进一步的开发往往不灵。更重要的是,变更请求可能会破坏已经安排好的工程计划。
4) 保持简单。保持简单,因为你很聪明 别把事搞的太复杂 因为你行的。
5)应该非常谨慎地使用 缓存 ,为了保护资源一致性,它很难进行水平缩放。
如果你作的是一个可以横向扩展的东西,明智或审慎的做法是不要添加的缓存层。如果非要使用,它应该是为最终用户获得性能,不是为了赢得一个网站的容量;
6) 不要所有代码都自己写; 不要所有东西都外包; 在合适的时间使用合适的工具,完成你的工作.
7)协商-真正**的谈判**方式是先作一些调研,制定一些可行的性方案.这样你可以挑选你的**开发商,如果你真的需要. 别虚张声势.
8)一直保持N+1。如果N=1,无论任何情况下不要轻易使用+1,这个1只用于当N down机情况下。当使用冗余服务器来承载负载时候,不要让你的系统超过49%的负荷。当有机会能只用N+2的架构时候,使用它。
。 |