关键字: [Amazon Web Services re:Invent 2023, Amazon Web Services Resilience Competency, Resilience Program, Failure Mode Analysis, Chaos Testing, Service Level Objectives, Resiliency Training]
本文字数: 2700, 阅读完需: 14 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1MK41187DD
导读
加入我们,启动亚马逊云科技弹性合作伙伴计划,了解它如何帮助亚马逊云科技合作伙伴解决端到端弹性问题。在本论坛中,了解信诺医疗如何通过采取基于风险的方法,推动其文化中的弹性,从而改变其过程。自 Cigna 和亚马逊云科技合作伙伴德勤(Deloitte)的领导者分享了他们合作的最佳实践和关键经验,共同发起了多项努力,以使用亚马逊云科技增强他们的微服务和云原生系统。亚马逊云科技合作伙伴可以了解亚马逊云科技弹性合作伙伴计划,该计划强调弹性设计、弹性操作、弹性恢复和扩展弹性最佳实践,以增强关键工作负载的弹性态势。本专题讨论会面向亚马逊云科技合作伙伴。
演讲精华
以下是小编为您整理的本次演讲的精华,共2400字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
亚马逊云科技的全球合作伙伴团队领导Ashu在一场有超过100名观众的演讲中开始了他的演讲。他表示,这场45分钟的会议的目的是探讨关于如何利用亚马逊云科技服务的最佳实践来构建具有弹性的组织。
Ashu在台上还有两位关键演讲者 - Steve Sefton,美国健康保险巨头Cigna公司的资深首席工程师,负责他们的技术恢复计划,以及Nathan Gupta,德勤公司技术战略实践部门的总监,帮助Cigna启动恢复计划,并作为该计划的主要顾问。
Ashu首先提供了一些背景信息,指出这次会议是在亚马逊云科技的re:Invent上举行,这是亚马逊云科技最大的年度会议,吸引了40,000多名与会者。他还强调了前一天的一个重大宣布 - 亚马逊云科技推出了一项新的弹性能力认证,以验证其在亚马逊云科技上运行弹性工作负载方面的专业知识。
接着,Ashu解释了弹性能力认证的三个类别 - 设计、运营和恢复。合作伙伴可以在每个类别中获得认证。那些能够在所有三个领域展示深厚实力的人可以被称为核心弹性合作伙伴。Ashu表示兴奋的是,德勤是第一批获得核心弹性合作伙伴资格的一家咨询公司。
在客户故事环节,Ashu让Steve from Cigna介绍他们公司的背景以及为什么恢复力是至关重要的优先事项。Steve解释说,Cigna是美国健康服务公司的领导者,旗下有两个主要品牌:
- Cigna Healthcare - 为商业雇主、政府机构和国际市场提供健康保险的保险公司。
- Evernorth - 专注于包括药房福利管理、专科药房和护理交付在内的健康服务。
为了说明恢复力的规模和重要性,Steve强调了一些关键数据:
- Cigna为全球17,000多个客户提供服务,包括雇主、政府和组织。
- 他们有超过1亿客户关系,这意味着依赖Cigna的福利和护理需求的病人。
- 在2021年,Cigna的收入超过1740亿美元。
Steve强调,作为众多客户和患者的依赖对象,Cigna始终将系统稳定性和恢复力视为首要任务。他们的客户期望在需要(例如在生病时)时能获得可用性和性能。正因如此,Cigna在这一领域不断改进,并启动了正式的弹性计划。
Steve随后解释了Cigna在2020年底启动弹性计划的流程。为了充分利用外部专业知识,Cigna决定选择一个咨询合作伙伴,并在多年的过程中为其提供指导。在经过竞争评估后,他们选择了与德勤合作,因为德勤在其他类似项目中取得了成功。
接下来,Steve邀请了Nathan,德勤的代表,分享他们在技术弹性方面的经验和内容。Nathan首先简要介绍了德勤的背景,提到了一些关键信息:
- 全球专业服务公司,拥有超过712,000名员工
- 在150多个国家/地区设有700多个办事处
- 2022财年营收为593亿美元
尽管德勤以审计、税务和管理咨询服务而闻名,但Nathan强调,德勤在数字转型和软件工程方面也有广泛的能力。他提到,德勤已为所有主要行业的客户进行了3500多次技术项目。他们专门从事技术的专业人员超过100,000人。
Nathan注意到,近年来,德勤发现客户对改善技术弹性的需求急剧增加。他解释道,这一趋势背后的两个驱动因素是:
- 随着数字依赖的加剧,客户对任何类型中断或中断的容忍度已显著降低。
- 系统已经变得非常复杂且相互连接,因此即使小的故障也可能引发连锁反应并造成重大影响。
面对这些挑战,德勤建立了一个专门的全球弹性实践领域来支持客户。Nathan概述了一些关键服务:
- 为组织量身定制北极星愿景和多年路线图的战略和运营模式设计
- 识别弹性缺口并提出技术改进方案的架构审查
- 验证弹性措施在出现故障时按预期运行的测试和可观察性
制定并执行灾难恢复策略,通过灾难模拟演练评估业务持续运行的准备情况。具体来说,作为站点可靠性工程(SRE)团队的管理工作的一部分,他们需要在日常工作中培养恢复力实践。在内森将演讲交给史蒂夫之前,史蒂夫将在德勤的技术恢复能力和经验的基础上,详细介绍Cigna公司的恢复力历程。
史蒂夫首先分享了Cigna公司在项目初期确定的七个指导原则。这七个原则旨在创建一套简单易懂的规则,引导工程师在构建、测试、部署和运行应用程序时遵循。遵循这些原则有助于系统地提高Cigna公司500多个业务应用程序的恢复能力。
第一个原则是“防御性集成”,即假设内部和外部的依赖关系可能会随时失败或降级,并采取电路断路器、重试、缓存和速率限制等措施来防范这些风险。
第二个原则是“充分测试”,即通过使用故障注入等技术全面验证恢复力,确保保护措施按照设计运行。
第三个原则是“悲观部署”,即假设任何发布或代码更改都可能导致问题,并使用金丝雀部署、黑暗启动和回滚等方法来限制故障的影响范围。
第四个原则是“谨慎运行”,即在多个区域中运行冗余的应用程序实例,以消除单点故障,并实施自动扩展以优雅地处理需求峰值。
第五个原则是“痴迷观察”,即通过仪器化应用程序提供实时的健康和性能可见性,通过强大的监控和警报快速检测故障,并深入了解根本原因。
第六个原则是“紧急恢复”,即架构恢复机制和恢复计划,以利用可观察的信号、指标和遥测数据迅速恢复服务。
最后一个原则是“频繁更新”,即不断交付新功能以修复缺陷并保持软件更新,以避免与技术债务或漏洞相关的停机。
史蒂夫强调,在Cigna与Deloitte合作推出弹性计划的15个月里,这些原则深刻地影响到了每一个举措。首先,他们定义了一个适用于弹性工程的运营模式和组织结构。内森解释了如何为专注于弹性的网站可靠性工程师(SRE)明确角色和责任。SRE们被分配到特定的技术领域和业务职能,以确保在整个组织中有明确的归属感。此外,还明确了目标关键结果(OKR),以设定SRE们的定量目标,并赋予他们在实现成果方面的能力。创建了沟通渠道和论坛,以促进弹性团队之间分享想法和经验教训。这包括一个定期工作阶段的实践社区以及Cigna内部网的一个内部弹性门户。接下来,史蒂夫介绍了关于创建针对弹性和持续进展的数据驱动可视化的举措。他引入了服务级别目标(SLO)、服务级别指标(SLI)和错误预算的概念。SLO是像正常运行时间、响应时间或性能之类的定量目标。SLI是用来衡量是否达到那些SLO目标的指标,如可用性、延迟、吞吐量和错误率。错误预算代表了在一定时间点的SLI和SLO之间的差距——只要错误预算保持在零以上,就可以满足SLO。如果错误预算耗尽,那就意味着违反了SLO,表明存在弹性风险。Cigna与Deloitte合作,利用他们的可观察数据源(包括监控工具、日志和追踪)来定义适当的SLI。SLI根据其架构和关键性量身定制,适用于每个应用程序。一旦建立了SLI,Cigna就为其最重要的业务关键应用程序中的50多个定义了初始SLO和错误预算。这创造了在应用级别对弹性状况的数据驱动的可视化。史蒂夫解释说,当弹性裕度开始降低时,错误预算可以指导优先级和发布规划。Cigna的开发团队现在将错误预算考虑进部署决策和路线图规划。
Nathan讨论了他的主要计划,即在对Cigna的应用程序组合进行故障模式分析。他的目标是创建一个潜在的弹性差距和弱点的积压列表,然后根据风险分数对它们进行优先级排序。
这个过程涉及到与德勤的专业人士合作,共同研究可能导致服务中断或影响应用程序可用性和性能的故障模式。他们根据不同的架构和技术识别出常见的风险。
在Cigna的50多个关键应用程序中,共发现了超过600个故障模式。每个故障模式都根据预计的发生概率、潜在的业务影响以及现有措施的可检测性进行了评分。
这生成了一个基于风险的差距排名,可用于指导修复工作。最高风险的故障模式将优先得到处理。
Nathan指出,Cigna正在与德勤合作开发一个简化并扩展故障模式分析的工具。这个工具将根据应用架构和依赖关系推荐常见的故障模式和缓解措施。
这将使评估过程系统化,并作为一个教育工具,提高工程师对他们服务的潜在弱点的理解。该应用程序已经记录了超过300种不同的故障模式场景,这是根据德勤的经验得出的。
接下来,Steve介绍了Cigna如何创建一个可靠性指南,其中列出了用于缓解不同故障模式的模式和最佳实践。该指南分为三个部分:系统设计模式、部署模式和可观察性模式。
例如,系统设计模式包括隔离器、断路器、重试、缓存、速率限制和冗余。部署模式包括金丝雀发布、蓝绿部署、特性标志和混沌测试。可观察性模式包括遥测、日志记录、追踪和监控。
这个指南为Cigna的工程师提供了代码示例和逐步实施说明。Steve解释称,其优点是为开发者提供一个用于构建弹性功能的常用库,而不仅仅是修复已识别的差距,还包括主动解决可靠性问题。
信诺公司通过代码审查和架构审查来确保其实施符合预定模式。该公司致力于将自动化检查集成到其CI/CD流程中,以便在大规模范围内跨越500多个应用程序提高合规性效率。对于外部依赖项,信诺还致力于评估和改进其第三方供应商和合作伙伴的弹性,包括更新合同、控制措施和应急计划。信诺已评估了20多个关键供应商,包括索赔管理、PBM和云计算基础设施供应商。内森介绍了信诺如何使用混沌工程等策略来验证生产环境中的弹性能力。混沌工程涉及到向系统主动引入故障(如延迟或中断)以观察其行为并识别缺陷。信诺首先针对其最关键应用程序子集进行了受控的混沌实验。模拟了例如亚马逊云技术中断、数据库失败或错误率激增等情况。这些“比赛日”练习验证了信诺快速检测问题、了解根本原因并恢复服务的能力——这些都是弹性的基本原则。已经制定了剧本,以使跨团队的混乱测试能够以一致的方式更广泛地进行。内森解释说,专门的网站可靠性工程师在为团队采用这些新测试方法方面提供指导和实际操作支持。目标是在任何主要部署或发布之前都进行游戏天测试。培训是内森关注的另一个重要领域。信诺为公司的不同角色(如产品经理、质量工程师、开发和网站可靠性工程师)定制了弹性教育内容。培训通过混合现场讲师指导的课程、自我学习的在线模块、办公时间和实际操作的弹性活动(如混沌测试)来提供。一些课程现在已经强制执行,以推动整个组织范围内的知识普及。内森解释说,这种教育使信诺能够通过在其应用程序团队中培养内部专家来扩展其弹性最佳实践。迄今为止,信诺已经为其11,000名技术员工中的2,000多人提供了关于弹性概念的培训。该课程将继续根据需要进行调整。
最终,史蒂夫参与了Cigna公司对应用弹性的认证项目的讨论。该项目涉及将所有相关措施,如服务水平目标(SLO)的定义、故障模式分析、游戏日、可靠性指南的采用以及员工培训,整合到一个全面的认证过程中。Cigna公司最初确定,其范围将涵盖75个跨功能的业务关键型应用程序,例如索赔管理、护理协调和药房。负责的团队被要求成为首批通过该认证项目的团队。然而,这对于一些需要优先处理竞争任务的团队来说是一个挑战。因此,Cigna公司通过其持续集成和部署(CI/CD)管道调整了更离散的要求:服务水平目标需明确且保持以允许部署;故障模式分析需每年更新;在生产发布前需进行混沌测试;须通过架构审查来确认可靠性指南的实施;团队成员需完成恢复力培训。截至目前,史蒂夫分享了弹性计划带来的一些高级指标:Cigna公司已将关键生产事故减少25%以上,超过预期目标;平均修复时间(MTTR)提高30%;2300名员工已完成恢复力培训课程;50多个关键应用程序已定义服务水平目标并进行混沌测试;600多个故障模式已被识别并解决。然而,史蒂夫指出,仍有很多工作要做,因为他们希望将Evernorth服务的范围扩展到包括Cigna医疗保健应用程序组合和基础设施服务。总的来说,演讲提供了一份关于如何在亚马逊云科技上与德勤合作成功实施全面弹性计划的详细概述。通过关注人员、流程和技术的方法,他们能够推动系统稳定性和可用性的实质性改进。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技的领军企业、Cigna及Deloitte共同探讨了构建弹性组织的最佳实践。
通过混乱测试,可以揭示系统和过程如何应对故障,从而提高恢复力。
系统可靠性工程师(SRE)在帮助新团队搭建环境、进行测试以及通过学习资源实现长期自主性方面发挥着关键作用。
亚马逊云科技推出了应用恢复能力认证,以验证软件的恢复能力。
在讨论中,领导者要求将每个恢复能力认证步骤应用于持续集成/持续部署(CI/CD)管道部署,以确保应用程序达到可用性和可靠性标准。
据Nitin介绍,亚马逊云科技已培训超过2000名员工关注恢复力,并计划每年继续这一培训。
此外,领导者还讨论了将亚马逊云科技服务扩展至Cigna内部的其他业务部门,以推动更多收益。
总结
信诺(Cigna)与德勤(Deloitte)在亚马逊云科技(Amazon Web Services Summit)上共同展示了一项关于如何建立企业弹性的案例研究。作为全球范围内为超过1亿患者提供医疗服务的领导者,信诺深知系统稳定性的重要性。为此,他们聘请了具备丰富经验的德勤公司来帮助大型企业提升弹性。
首先,信诺和德勤共同制定了一个SRE运营模型,明确了各个角色的职责、目标以及实践社区的协作方式。接着,双方制定了服务水平目标(SLOs)和服务水平指标(SLIs),以便在应用层面衡量弹性。随后,他们进行了故障模式分析,找出并优先处理潜在的漏洞。这一分析发现了400多个潜在故障模式,使信诺得以制定一个基于风险的治疗计划。
为了解决这些故障模式,信诺和德勤共同编写了一份可靠性指南,记录了许多经过验证的弹性设计模式。在处理第三方集成时,他们对供应商的灾难恢复能力进行评估,并在合同中加入了弹性要求。为了确保弹性的测试,他们在系统中引入错误,以观察系统的响应并进行混沌和游戏日测试。此外,他们还实施了一套全面的弹性培训方案,以确保知识的传播。
为了推广这项计划,信诺创建了一个应用程序认证流程,要求在部署到生产环境之前,团队必须完成分析、测试和培训。实施这一流程一年后,信诺成功减少了25%的严重事故,并为2000多名员工提供了培训。尽管仍有很多工作需要完成,但这种方法为建立组织的弹性提供了一个可借鉴的模板。
演讲原文
https://blog.csdn.net/just2gooo/article/details/135120309
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键查看 re:Invent 2023 所有热门发布
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。