この記事は、Huawei Cloud Community「FT-FMEA Fusion Chaos Drill、Retail Operation System Resilience Architecture Online Verification Practice」、著者:「Huawei Cloud Deterministic Operation and Maintain Case Collection (Issue 2)」Nie Gang から共有されたものです。
1. 事業背景
ある小売会社の事業範囲は 20 以上の省と数百の都市に及び、数千世帯にサービスを提供しており、一般の人々に支持されています。近年、ニューリテールの到来と事業規模の拡大が続く中、同社はサプライチェーンからマーケティング、顧客サービス、店舗運営に至るまで新たなIT製品を継続的に開発し、ビジネスの包括的なデジタル化に取り組んでいる。デジタル変革を段階的に導入し、運用コストを削減し、運用効率を向上させます。
あるシステムは、この小売企業向けに新たに開発された IT 製品であり、本番環境に導入され、オフラインのビジネス アクセスとトラフィックの排出を正式に開始する予定です。カオス ドリルを通じて、アプリケーション実稼働環境のアーキテクチャ上の回復力が転用前に「採掘」され、「受け入れ」られ、正式な転用中に大きな安定性のリスクがないことが保証されます。
2. 営業状況
デジタルトランスフォーメーションと事業規模の拡大に伴い、同社は新たな店舗運営システムXXを開発した。システム本体はコンテナ化された展開を採用しており、周囲の 15 を超えるシステムに依存しています。中には 10 年以上前の古いシステムも含まれており、ユーザビリティに大きな潜在的なリスクをもたらします。同社は全店舗の運営を担うため、予期せぬ災害、依存システムの利用不能、販促活動時の瞬間的なトラフィック集中、オペレーターネットワーク障害などの潜在的な障害リスクに対応できる高い復元力を備えたITシステムを期待している。
3. 計画の実践
COCプラットフォームのカオスドリルには、リスクの特定、緊急計画の策定、障害の挿入から訓練のレビューまでのプロセス全体が含まれ、FT-FMEAリスク分析手法を使用し、障害の挿入が使用される、ファーウェイクラウドのカオスドリルのベストプラクティスが組み込まれています。自社開発のフォールトインジェクションプローブ。 Huawei Cloud を 4 年以上実践し、毎年 3,000 以上の自動カオス訓練を実行し、1,500 時間以上の訓練人員を節約しました。設計プロセスは次のとおりです。
1 .リスクの特定と管理
XX アプリケーションのデプロイメント アーキテクチャと外部依存関係グラフと組み合わせて、運用環境におけるアプリケーションのリスクが FT-FMEA 障害分析手法に基づいて分析され、障害モードが形成されます。 COCには、Huawei Cloud FT-FMEA障害分析手法が組み込まれており、ユーザーがシステムリスクを効率的に分析し、システムアーキテクチャ、SLO要件、障害シナリオ分類、障害発生条件、顧客への影響などの側面から障害モードを形成できるようにします。
FMEA (Failure Mode Effect Analysis) は NASA 発祥で、主にビジネスの機能点から始まり、考えられる故障モード、影響と原因、および対応する制御方法を、故障の重大度、発生確率などの要素と組み合わせてリストします。最後に、モードの RPN 乗数スコアが取得され、これによって故障モードのリスク レベルが判断されます。 FMEA はリスク指向の故障解析手法を提供しますが、FMEA における故障確率、重大度、検出可能性レベルの分類レベルは 10 に達しており、実際の実装で一致させるのは難しく、故障モードの発散が容易に発生し、システムに影響を与える可能性があります。障害管理の効率化。 Huawei Cloudは、FT-FMEA(フォールトトレランスの観点に基づく障害シナリオ分析手法)を実践から要約し、SREの実践シナリオと組み合わせて、7次元の障害分析フレームワークに統合しています。 SRE シナリオを指向しており、障害モードを分岐させることなく包括的な障害分析を保証することに基づいて、障害シナリオ分析の効率と品質を効果的に向上させることができます。
XX IT システムの COC で FT-FMEA を使用した後に要約された障害モードのリストは次のとおりです。元の 90 を超える障害モードが 30 を超える障害モードに統合され、その後の緊急計画の策定と障害注入スキームの設計のための強固な基盤が築かれました。
2.緊急時の計画を立てる
分析された障害モードに基づいて、COC に組み込まれた Huawei Cloud 緊急計画ガイダンス テンプレートおよび小売企業の実際の運用および保守状況と組み合わせて、各障害モードに対応する緊急計画が開発されました。 COC は、完全自動化、自動化 + 手動ハイブリッド、およびこれら 2 つの方法の緊急計画をサポートし、さまざまな障害モードの緊急復旧ニーズに対応します。
3.訓練計画を作成する
IT システムの障害モードと繁忙期に基づいて、COC 上で訓練計画が作成されます。
4. 障害挿入計画を設計し、訓練を実施し、緊急復旧を行う
障害モードやアプリケーションの展開状況に基づいて訓練計画を立て、ITシステムの自己修復能力、緊急時対応能力、運用保守担当者の復旧能力などを検証します。
1) 選択した障害モードに基づいて、COC 上の攻撃ターゲットと攻撃シナリオを選択し、障害モードが発生する条件を正確にシミュレートする訓練タスクを作成します。
2) 自動訓練を開始し、監視システムが障害やアラームを迅速に検出できるかどうか、IT システムの自己修復時間、運用保守担当者が緊急計画に従って巧みに操作できるかどうかを観察し、最後に RTO を記録します。システム。
5.演習の復習とまとめ
COC プラットフォームはこの演習を自動的に採点し、この演習の観察チームが改善事項を COC に入力します。この演習では、システムの RTO が基準を満たしていませんでした。さらに、典型的な問題としては、監視の欠如、警報システムの機能上のバグ、実際の配備との相違などが挙げられます。 IT システムと設計図面、システムのダイヤルアップ テストが欠落している、運用保守担当者が運用保守ツールの使用に習熟していない、など。
4. 業務改善
この訓練では、COC プラットフォームを使用して、XX IT システム上でフルプロセスのマルチシナリオのカオス訓練を実施しました。訓練によって得られた結果は次のとおりです。
1) FT-FMEA 分析手法を使用した XX IT システムの潜在的なリスクの包括的な分析。包括的なリスクの特定を確保しながら、障害モードの数が90 以上から 30 以上に減少し、66.66% 削減され、障害モードの収束と目標。
2) 障害モードごとに緊急計画が作成され、COC プラットフォームに保存されました。訓練を通じて緊急計画の実現可能性が検証および改善され、IT システムが直面する潜在的なリスクに対して信頼性が高く効率的な復旧機能が確立されました。
3) COC カオス ドリル プラットフォームの自動ドリル機能により、ドリルの効率が 10 倍以上向上し、改善と実装を通じて 18 件の問題が発見され、システムの信頼性要件を満たしました。店舗運営のため。
5つの事例をまとめたもの
この事例は、小売企業の XX システムの高可用性要件に基づいており、COC プラットフォームを使用してリスク分析、緊急計画の策定、障害訓練を実施しています。この演習では、FT-FMEA リスク分析手法を使用してシステムが直面するリスクを迅速かつ効率的に特定し、自動障害挿入によるシステムのリスク ポイントと緊急計画の有効性を検証しました。訓練で発見された問題点を改善・実践することで、システムのSLOは99.99%に向上し、店舗運営におけるシステムの信頼性要件を満たしました。
訓練は、小売企業の運用および保守条件と組み合わせて、システムの可用性をテストおよび改善するための最良の方法です。カオス訓練のベスト プラクティスの原則を以下にまとめます。
1. 評価基準の明確化
• カオス ドリルのプロセス全体が価値を生み出す可能性があるため、カオス エンジニアリングの各リンクの出力と評価基準を明確にし、オンライン ドリル プラットフォームに組み込む必要があります。
• カオスドリルは、リスクを積極的に顕在化するテクノロジーであり、研究開発および運用保守担当者が、タイムリーなインセンティブを通じてリスクを積極的に顕在化し、リスクに対する緊急計画を策定することを奨励します。
2. カオスドリルを実施するには、最初に故障モード分析を行う必要があります。
• 訓練の開始点としての障害モードが訓練の品質を決定します。復旧方法としての緊急計画は、訓練の安全性と日常的な障害の迅速な復旧を保証します。
• FT-FMEA 手法を使用して分析された故障モードは、リスクを正確に特定すると同時に、故障モード数の発散を効果的に回避できます。
3. 自動ドリルを使用する
• 自動化されたドリル ツールにより、ドリルのしきい値が下がり、ドリルの効率が向上し、フォールト挿入の安全性と精度が確保されます。
• 自動ドリルツールはオンラインでドリルを管理し、タイムリーなドリルの実行とドリル経験の継承と蓄積を保証します。
4. ドリル作業の実施
• Blue Army は、各 IT システムの回復力をテストしながら、大規模な訓練活動を調整および組織することができ、また、毎日の訓練の効果を達成し、死角をなくすために、独立したシステムの毎日の訓練を実証および推進することもできます。
• 訓練活動と訓練結果を運用および公表することで、IT 開発担当者や運用保守担当者にシステムが直面する可能性のあるリスクを認識させ、研究開発および運用保守プロセスに品質文化を積極的に導入することができます。
クリックしてフォローし、できるだけ早くHuawei Cloudの新しいテクノロジーについて学びましょう~
マイクロソフトの中国AIチームは数百人を巻き込んで米国に渡ったが、 未知のオープンソースプロジェクトはどれだけの収益をもたらすことができるだろうか? 華中科技大学のオープンソースミラーステーション の立場が調整されたとファーウェイが正式に発表した。 外部ネットワークへのアクセスを正式にオープンしました。 詐欺師は TeamViewer を使用して 398 万件を転送しました。リモート デスクトップ ベンダーは何をすべきでしょうか? 初のフロントエンド視覚化ライブラリであり、Baidu の有名なオープンソース プロジェクト ECharts の創設者である - 有名なオープンソース企業の元従業員が「海に行った」というニュースを伝えた: 部下からの挑戦を受けて、技術者はリーダーは激怒し、無礼になり、妊娠中の女性従業員を解雇しました。OpenAI が AI にポルノ コンテンツを生成させることを検討したと 、Rust Foundation に報告されました。time.sleep (6) の役割を教えてください。 ?