【翻译】为什么你现在比以往更需要混沌工程?

大约一年前,像餐馆和杂货店这样的实体店正争先恐后地设置送货和路边取货。他们中的很多人都在生产中使用混乱工程,在推出新功能和服务之前迅速寻找失败的原因。教育平台也是如此,在短短一周的时间里,从 "好的 "变成了 "绝对必要"。

企业混沌工程平台 Gremlin的首席网站可靠性工程师Tammy Bryant Bütow表示,大流行病的紧迫性克服了很多对采用混沌思维的不情愿。另外,她在一次采访中指出,因为现在人们更多的是在家里,如果出现故障,他们会更快地发推特。因此,这是一种混合的责任感,即以以前预见的规模提供服务,也是一种面子行为。

团队终于明白,混乱工程是必不可少的,以便为不可预见的情况做计划,并满足流量和用户的高峰(如组织在2020年经历的)。但什么是混沌工程,你如何说服你的团队接受它?

混沌工程是什么?

混沌工程是由Netflix命名的,以唤起调皮的猴子向你的系统扔东西的想法。因为没有什么比一桶猴子被放出来更不可预测的了--也许,除了分布式系统。

十多年来,开源的 Chaos Monkey一直在随机地终止生产中的实例,以测试你的系统是否真的有弹性,当那传说中的狗屎击中那传说中的风扇时。

从那时起,一大批混沌工程工具就出现了。我们已经看到了一个运营角色的出现--网站可靠性工程师,或称SRE--专门负责寻找和自动修复我们系统中的故障。SRE是一个50/50的混合体,当事情出错时随叫随到,并进行实验以找到隐藏的漏洞。

混沌工程是科学和智能创造力的独特组合,旨在大规模地提高系统的可靠性。

正如Bryant Bütow所说,"混沌工程是深思熟虑的、

猜你喜欢

转载自blog.csdn.net/community_717/article/details/130003093
今日推荐