复杂性导致了云计算的中断

复杂性导致了云计算的中断——这里有证据

复杂性是高度异构和分布式架构的一个自然副产品,现在我们可以更好地理解其影响

尽管我们从云计算供应商那里得到了不同的信息,但我们现在有数据表明,公共云的中断情况越来越严重。正常运行时间研究所最近发布了2022年的中断分析报告,其中包括 "高中断率仍然是一个问题 "这样的发现。事实上,五分之一的组织报告了 "严重 "或 "严重 "的故障,导致了重大的财务损失、声誉损失、合规性破坏,或者在一些严重的情况下,导致了生命损失。报告的结论是,在过去三年中,重大故障的发生率有轻微的上升趋势。

我通常不喜欢引经据典,但正常运行时间研究所的安迪-劳伦斯的这段话值得一提。"总体中断率没有改善,部分原因是最近对数字基础设施的投资规模巨大,以及运营商在向混合、分布式架构过渡时面临的所有相关复杂性。"

复杂性对IT来说不是一个新的挑战。然而,我们最近通过快速的数字化转型和为应对大流行病而疯狂涌向云和多云,创造了更多的复杂性。这些因素导致了支持企业的各类系统出现了新的、高的人数。大多数企业报告说,他们曾经为整个企业支持大约500个云服务,现在在多云部署上支持大约3000个服务。

这些数字表明,技术并不导致中断,而是技术的使用方式和使用的技术数量。正如报告所述,近40%的组织遭受过人为错误造成的重大故障。在这些事件中,85%的根本原因是员工没有遵守程序或流程和程序本身存在缺陷。

复杂性的根本原因是众所周知的。在多云和云架构中,有更多的移动部件需要监督,而没有足够的资金将运营人员翻两番。原因,满足效果。

为什么这种复杂性首先会发生?现在有了更好的运营工具,如AIops和跨云的多云监控解决方案。这些工具允许开发者和创新者利用最佳技术来构建和部署改变业务的技术。开发人员可以部署存储系统、人工智能系统、计算、数据库等的最佳选择,这些系统可能来自一个或(更可能)许多云供应商。

其结果是一个复杂和高度异质的多云部署,需要具有专业技能的工作人员来有效地操作和限制故障的数量。具有讽刺意味的是,大多数IT组织无法获得增加运营预算的批准,因为云计算承诺会使运营成本降低。

解决方案是什么?

正如我在这里说过的几次,抽象化和自动化层将人类(和人类的错误)从所有运营过程的前端和中心移除。这些层还包括用于运营规划或重新规划的工具,以优化多云运营,这可以使你的运营游戏更上一层楼。

这使我们回到了最初的问题。重新启动云和多云运营以纳入抽象化和自动化层,意味着更多的资金和技能。在企业达到一个临界点,即管理复杂性的成本高于直接解决的成本之前,我们将看到更多的故障。

太糟糕了,我们必须做损害,只是为了了解如何避免做损害。可悲的是,我们以前已经来过很多次了。

猜你喜欢

转载自juejin.im/post/7127088221028089869
今日推荐