이 기사는 Huawei 클라우드 커뮤니티 " FT-FMEA Fusion Chaos Drill, 소매 운영 시스템 복원력 아키텍처 온라인 검증 실습 ", 저자: "Huawei 클라우드 결정론적 운영 및 유지 관리 사례 모음(문제 2)" Nie Gang 에서 공유되었습니다 .
1. 사업배경
특정 소매 회사의 사업 범위는 20개 이상의 성, 수백 개의 도시를 포괄하여 수천 가구에 서비스를 제공하고 대중의 선호를 받고 있습니다. 최근 몇 년 동안 새로운 소매업과 지속적인 비즈니스 규모 확장에 직면하여 회사는 비즈니스의 포괄적인 디지털화를 달성하기 위해 노력해 왔으며 공급망에서 마케팅, 고객 서비스, 매장 운영에 이르기까지 모든 것을 포괄하는 새로운 IT 제품을 지속적으로 개발했습니다. , 운영 비용을 절감하고 운영 효율성을 향상시키기 위해 점진적으로 디지털 혁신을 구현합니다.
특정 시스템은 이 소매 기업을 위해 새로 개발된 IT 제품으로 생산 환경에 출시되었으며 공식적으로 오프라인 비즈니스 액세스 및 트래픽 배수를 시작할 계획입니다. 혼돈 훈련을 통해 공식적인 전환 중에 큰 안정성 위험이 없는지 확인하기 위해 전환 전에 애플리케이션 생산 환경의 아키텍처 복원력을 "채굴"하고 "수락"합니다.
2. 사업현황
디지털 트랜스포메이션과 사업 규모의 확대에 따라 회사는 새로운 매장 운영 시스템 XX를 개발했습니다. 시스템의 본체는 컨테이너화된 배포를 채택하고 15개 이상의 주변 시스템에 의존합니다. 여기에 의존하는 시스템 중에는 10년이 넘은 오래된 시스템이 있어 잠재적인 사용성 위험이 큽니다. 모든 매장의 운영을 책임지는 IT 시스템이기 때문에 예상치 못한 재난, 종속 시스템의 가용성 저하, 판촉 활동 중 순간적인 트래픽 폭증, 운영자 네트워크 장애 등 잠재적인 장애 위험에 대처할 수 있는 높은 복원력을 갖기를 기대합니다.
3. 계획 실천
COC 플랫폼의 카오스 드릴에는 위험 식별, 비상 계획 수립, 결함 주입부터 드릴 검토까지 전체 프로세스를 포함하는 화웨이 클라우드 카오스 드릴의 모범 사례가 포함되어 있습니다. 자체 개발한 결함 주입 프로브. 4년 이상 Huawei Cloud에서 실습하여 매년 3,000회 이상의 자동화된 혼란 훈련을 실행하여 1,500시간 이상의 훈련 인력을 절약했습니다. 디자인 과정은 다음과 같습니다.
1 . 위험 식별 및 관리
XX 애플리케이션의 배포 아키텍처와 외부 종속성 그래프를 결합하여 FT-FMEA 장애 분석 방법을 기반으로 프로덕션 환경에서 애플리케이션의 위험을 분석하여 장애 모드를 구성합니다. COC에는 Huawei Cloud FT-FMEA 오류 분석 방법이 내장되어 있어 사용자가 시스템 아키텍처, SLO 요구 사항, 오류 시나리오 분류, 오류 발생 조건, 고객 영향 등의 측면에서 시스템 위험을 효율적으로 분석하고 오류 모드를 형성할 수 있도록 지원합니다.
FMEA(Failure Mode Effect Analysis)는 주로 비즈니스의 기능적 측면에서 시작하여 발생할 수 있는 실패 모드, 영향 및 원인, 해당 제어 방법을 결함의 심각도, 발생 확률과 같은 요소와 결합하여 나열합니다. 마지막으로 모드에 대한 RPN 승수 점수를 구하며 이를 통해 실패 모드의 위험 수준을 판단할 수 있습니다. FMEA는 위험 중심의 고장 분석 방법을 제공하지만 FMEA의 고장 확률, 심각도, 탐지 가능성 수준의 분류 수준은 10에 도달하여 실제 구현에서 일치하기 어렵고 고장 모드의 다양화로 쉽게 이어져 시스템에 영향을 줄 수 있습니다. 실패 관리의 효율성. Huawei Cloud는 실제 사례에서 FT-FMEA(Fault Scenario Analysis Method based on Fault Tolerance Perspective)를 요약했으며, 이는 FMEA를 기반으로 SRE 실습 시나리오와 결합되어 7차원 오류 분석 프레임워크에 통합되었습니다. SRE 시나리오를 지향하며, 오류 모드의 차이 없이 포괄적인 오류 분석을 보장함으로써 오류 시나리오 분석의 효율성과 품질을 효과적으로 향상시킬 수 있습니다.
XX IT 시스템의 COC에서 FT-FMEA를 사용한 후 요약된 오류 모드 목록은 다음과 같습니다. 원래 90개 이상의 오류 모드가 30개 이상으로 병합되어 후속 비상 계획 수립 및 오류 주입 방식 설계를 위한 견고한 기반이 마련되었습니다.
2 . 비상 계획 개발
분석된 고장 모드를 기반으로 COC에 내장된 Huawei Cloud 비상 계획 지침 템플릿과 소매 기업의 실제 운영 및 유지 관리 상황을 결합하여 각 고장 모드에 해당하는 비상 계획을 개발했습니다. COC는 다양한 장애 모드의 긴급 복구 요구 사항에 대처하기 위해 이 두 가지 방법에 대해 완전 자동화, 자동화 + 수동 하이브리드 및 비상 계획을 지원합니다.
삼. 훈련 계획 개발
IT 시스템의 장애 모드와 바쁜 업무 기간을 기반으로 COC에 대한 훈련 계획이 개발됩니다.
4. 장애 주입 계획 설계, 훈련 및 비상 복구 수행
애플리케이션의 장애 모드 및 배포 상황을 기반으로 IT 시스템의 자가 치유 능력, 비상 계획 능력, 운영 및 유지 보수 인력의 복구 능력을 검증할 수 있는 훈련 계획을 설계합니다.
1) 선택된 실패 모드를 기반으로 COC에서 공격 대상과 공격 시나리오를 선택하여 실패 모드가 발생하는 조건을 정확하게 시뮬레이션하는 훈련 작업을 구성합니다.
2) 자동화된 훈련을 시작하고 모니터링 시스템이 결함 및 경보를 신속하게 감지할 수 있는지, IT 시스템의 자가 치유 시간, 운영 및 유지보수 인력이 비상 계획에 따라 능숙하게 작동할 수 있는지 관찰하고 최종적으로 RTO를 기록합니다. 시스템.
5. 운동 검토 및 요약
COC 플랫폼은 자동으로 이 연습의 점수를 매기고, 이 연습의 관찰팀은 COC에 개선 사항을 입력합니다. 이 연습 중에 시스템의 RTO가 표준을 충족하지 못했습니다. 또한 연습 중에 총 18개의 문제가 발견되었습니다. 일반적인 문제에는 모니터링 부족, 경보 시스템의 기능적 버그, 실제 배포 간의 특정 차이점이 포함됩니다. IT 시스템 및 설계 도면, 시스템 전화 접속 테스트 누락, 운영 및 유지 관리 담당자가 운영 및 유지 관리 도구 사용에 능숙하지 않음
4. 사업 개선
이 훈련은 COC 플랫폼을 사용하여 XX IT 시스템에 대한 전체 프로세스, 다중 시나리오 카오스 훈련을 수행합니다. 훈련을 통해 얻은 결과는 다음과 같습니다.
1) FT-FMEA 분석 방법을 사용하여 XX IT 시스템의 잠재적 위험을 종합적으로 분석하고 포괄적인 위험 식별을 보장하는 동시에 오류 모드 수가 90+에서 30+로 66.66% 감소하여 오류 모드 수렴을 달성하고 개선.
2) 장애모드별 비상계획을 수립하여 COC 플랫폼에 저장하였으며, 훈련을 통해 비상계획의 타당성을 검증 및 개선하였으며, IT 시스템이 직면한 잠재적 위험에 대한 안정적이고 효율적인 복구 능력을 구축하였다.
3) COC 카오스 드릴 플랫폼의 자동화된 드릴 기능은 드릴 효율성을 10배 이상 증가시켰으며 , 드릴 중에 18개의 문제가 발견되었습니다. 개선 및 구현을 통해 시스템 SLO가 99.99%로 증가하여 시스템의 신뢰성 요구 사항을 충족했습니다. 매장 운영을 위해
다섯 가지 사례 요약
이 사례는 소매 기업의 XX 시스템의 고가용성 요구 사항을 기반으로 하며 COC 플랫폼을 사용하여 위험 분석, 비상 계획 수립 및 결함 훈련을 수행합니다. 이번 훈련에서는 FT-FMEA 위험 분석 기법을 활용해 시스템이 직면한 위험을 빠르고 효율적으로 파악했으며, 자동화된 결함 주입을 통해 시스템의 위험 지점과 비상 계획의 유효성을 검증했다. 드릴에서 발견된 문제에 대한 개선 및 구현을 수행하여 시스템 SLO를 99.99%로 높이고 매장 운영을 위한 시스템의 안정성 요구 사항을 충족했습니다.
훈련은 시스템 가용성을 테스트하고 개선하는 가장 좋은 방법이며 소매 기업의 운영 및 유지 관리 조건과 결합하여 혼란 훈련에 대한 다음과 같은 모범 사례 원칙을 요약합니다.
1. 평가기준을 명확히 한다
• 카오스 드릴의 전체 프로세스는 가치를 창출할 수 있습니다. 카오스 엔지니어링의 각 링크에 대한 출력 및 평가 기준은 명확하고 온라인 드릴 플랫폼으로 전달되어야 합니다.
• 카오스 드릴(Chaos Drill)은 R&D 및 운영·유지관리 인력이 적시에 인센티브를 제공하여 선제적으로 위험을 노출하고, 위험에 대한 비상계획을 수립하도록 유도하는 기술이다.
2. 카오스 드릴을 수행하려면 먼저 고장 모드 분석이 이루어져야 합니다.
• 훈련의 시작점인 실패 모드는 훈련의 품질을 결정합니다. 복구 방법인 비상 계획은 훈련의 안전과 일상적인 결함의 빠른 복구를 보장합니다.
• FT-FMEA 방법을 사용하여 분석된 고장 모드는 위험을 정확하게 식별하는 동시에 고장 모드 수의 차이를 효과적으로 방지할 수 있습니다.
3. 자동화된 훈련을 사용하세요
• 자동화된 드릴 도구는 드릴 임계값을 낮추고 드릴 효율성을 향상시키며 결함 주입의 안전성과 정확성을 보장할 수 있습니다.
• 자동화된 훈련 도구는 훈련을 온라인으로 관리하여 적시에 훈련을 실행하고 훈련 경험을 상속 및 축적할 수 있습니다.
4. 드릴 작업 수행
• 청군은 대규모 훈련 활동을 조정하고 조직할 수 있으며 각 IT 시스템의 탄력성을 테스트하는 동시에 사각지대 없이 일일 훈련의 효과를 달성하기 위해 독립 시스템의 일일 훈련을 시연하고 추진할 수도 있습니다.
• 훈련 활동과 훈련 결과를 운영 및 공개하면 IT 개발, 운영 및 유지 관리 담당자가 시스템이 직면할 수 있는 위험을 인식하고 R&D, 운영 및 유지 관리 프로세스에서 품질 문화를 적극적으로 구현할 수 있습니다.
화웨이 클라우드의 신기술에 대해 빨리 알아보고 팔로우하려면 클릭하세요~
Microsoft의 중국 AI 팀은 수백 명의 사람들을 모아 미국으로갔습니다. 알려지지 않은 오픈 소스 프로젝트는 얼마나 많은 수익을 가져올 수 있습니까? Huawei는 공식적으로 Yu Chengdong의 위치가 화중 과학 기술 대학의 오픈 소스 미러 스테이션 으로 조정되었다고 발표했습니다. 사기꾼들이 TeamViewer를 사용해 외부 네트워크 접속을 공식적으로 개시했습니다 ! 원격 데스크톱 공급업체는 무엇을 해야 합니까? 최초의 프런트 엔드 시각화 라이브러리이자 Baidu의 유명한 오픈 소스 프로젝트 ECharts의 창립자 - "바다에 나간" 유명한 오픈 소스 회사의 전직 직원이 소식을 전했습니다. 리더는 격노하고 무례하게 행동하여 임신한 여성 직원을 해고했습니다. OpenAI는 AI가 포르노 콘텐츠를 생성하도록 허용하는 것을 고려했습니다. Microsoft는 Rust Foundation에 100만 달러를 기부했다고 보고했습니다. 여기서 time.sleep(6)의 역할은 무엇입니까? ?