Cet article est partagé par la communauté Huawei Cloud « FT-FMEA Fusion Chaos Drill, Retail Operation System Resilience Architecture Online Verification Practice », auteur : « Huawei Cloud Deterministic Operation and Maintenance Case Collection (Issue 2) » Nie Gang.
1. Expérience en affaires
Le champ d'activité d'une certaine entreprise de vente au détail couvre plus de 20 provinces et des centaines de villes, fournissant des services à des milliers de foyers et est favorisé par le public. Ces dernières années, face au nouveau commerce de détail et à l'expansion continue de son activité, l'entreprise s'est engagée à réaliser une numérisation complète de ses activités, en développant continuellement de nouveaux produits informatiques, couvrant tout, de la chaîne d'approvisionnement au marketing, du service client aux opérations des magasins. , et mettre en œuvre progressivement la transformation numérique Pour réduire les coûts d’exploitation et améliorer l’efficacité opérationnelle.
Un certain système est un produit informatique nouvellement développé pour cette entreprise de vente au détail. Il a été lancé dans l'environnement de production et prévoit de démarrer officiellement l'accès commercial et le drainage du trafic hors ligne. Grâce à des exercices de chaos, la résilience architecturale de l'environnement de production d'applications est « exploitée » et « acceptée » avant le détournement afin de garantir qu'il n'y a pas de risque majeur de stabilité pendant le détournement officiel.
2. Statut de l'entreprise
Avec l'expansion de la transformation numérique et de l'échelle commerciale, l'entreprise a développé un nouveau système d'exploitation de magasin XX. Le corps principal du système adopte un déploiement conteneurisé et s'appuie sur plus de 15 systèmes environnants. Parmi les systèmes sur lesquels il s'appuie figurent des systèmes anciens de plus de 10 ans, ce qui présente de grands risques potentiels d'utilisation. Étant responsable du fonctionnement de tous les magasins, l'entreprise espère que le système informatique aura une grande résilience pour faire face aux risques de défaillance potentiels tels que des catastrophes inattendues, l'indisponibilité des systèmes dépendants, un trafic intense instantané lors des activités promotionnelles et des pannes du réseau des opérateurs.
3. Planifier la pratique
L'exercice de chaos de la plate-forme COC intègre les meilleures pratiques de l'exercice de chaos Huawei Cloud, y compris l'ensemble du processus depuis l'identification des risques, la formulation du plan d'urgence, l'injection de pannes jusqu'à l'examen de l'identification des risques de forage. L'identification des risques utilise la méthodologie d'analyse des risques FT-FMEA et l'injection de pannes. Sonde d'injection de défauts auto-développée. Pratiqué dans Huawei Cloud depuis plus de 4 ans, exécutant plus de 3 000 exercices de chaos automatisés chaque année, économisant plus de 1 500 heures de main-d'œuvre. Le processus de conception est le suivant :
1 . Identification et gestion des risques
Combiné avec l'architecture de déploiement et le graphique de dépendance externe de l'application XX, le risque de l'application dans l'environnement de production est analysé sur la base de la méthode d'analyse des défaillances FT-FMEA pour former un mode de défaillance. COC intègre la méthode d'analyse des pannes Huawei Cloud FT-FMEA pour aider les utilisateurs à analyser efficacement les risques du système et à former des modes de panne à partir des aspects de l'architecture du système, des exigences SLO, de la classification des scénarios de panne, des conditions d'apparition des pannes, de l'impact sur le client, etc.
L'AMDEC (Failure Mode Effect Analysis) est issue de la NASA. Elle part principalement des points fonctionnels de l'entreprise et répertorie les modes de défaillance possibles, leurs effets et leurs causes, ainsi que les méthodes de contrôle correspondantes, combinées à des facteurs tels que la gravité du défaut, la probabilité d'apparition. , et la détectabilité. Enfin, le score multiplicateur RPN est obtenu pour le mode, grâce auquel le niveau de risque du mode de défaillance peut être jugé. L'AMDEC fournit une méthode d'analyse des défaillances axée sur les risques, mais les niveaux de classification de probabilité de défaillance, de gravité et de niveau de détectabilité dans l'AMDEC atteignent 10, ce qui est difficile à égaler dans la mise en œuvre réelle et peut facilement conduire à une divergence des modes de défaillance, affectant ainsi le efficacité de la gestion des pannes. Huawei Cloud a résumé la méthode FT-FMEA (Fault Scenario Analysis Method based on Fault Tolerance Perspective) basée sur la FMEA, combinée aux scénarios pratiques SRE, et est intégrée dans un cadre d'analyse des défauts en 7 dimensions. orienté vers les scénarios SRE. Il peut améliorer efficacement l’efficacité et la qualité de l’analyse des scénarios de panne en garantissant une analyse complète des pannes sans divergence des modes de panne.
La liste des modes de panne résumés après l'utilisation de FT-FMEA sur COC pour le système informatique XX est la suivante. Les plus de 90 modes de panne d'origine ont été fusionnés en 30+, ce qui a jeté une base solide pour la formulation ultérieure d'un plan d'urgence et la conception d'un schéma d'injection de pannes.
2 . Élaborer des plans d’urgence
Sur la base des modes de défaillance analysés, combinés au modèle d'orientation du plan d'urgence Huawei Cloud intégré au COC et à la situation réelle d'exploitation et de maintenance de l'entreprise de vente au détail, un plan d'urgence correspondant a été développé pour chaque mode de défaillance. COC prend en charge l'automatisation complète, l'automatisation + l'hybride manuel et les plans d'urgence pour ces deux méthodes afin de faire face aux besoins de récupération d'urgence des différents modes de défaillance.
3. Élaborer un plan de forage
Sur la base du mode de défaillance et de la période d'activité chargée du système informatique, un plan d'exercices est élaboré sur le COC.
4. Concevoir un plan d'injection de pannes, effectuer des exercices et une récupération d'urgence
En fonction du mode de défaillance et de la situation de déploiement de l'application, un plan d'exercices est conçu pour vérifier la capacité d'auto-guérison du système informatique, la capacité du plan d'urgence et la capacité de récupération du personnel d'exploitation et de maintenance.
1) En fonction du mode de défaillance sélectionné, sélectionnez la cible d'attaque et le scénario d'attaque sur le COC pour former une tâche d'exercice afin de simuler avec précision les conditions nécessaires au déclenchement du mode de défaillance.
2) Démarrez un exercice automatisé, observez si le système de surveillance peut détecter rapidement les défauts et les alarmes, le temps d'auto-guérison du système informatique, si le personnel d'exploitation et de maintenance peut opérer habilement conformément au plan d'urgence, et enfin enregistrer le RTO de le système.
5. Revue et résumé de l'exercice
La plateforme COC note automatiquement cet exercice, et l'équipe d'observation de cet exercice saisit les sujets d'amélioration dans le COC. Le RTO du système n'a pas respecté la norme lors de cet exercice. De plus, un total de 18 problèmes ont été découverts au cours de l'exercice, notamment : le manque de surveillance, des bugs fonctionnels dans le système d'alarme et certaines différences dans le déploiement réel du système. Le système informatique et les dessins de conception, le test de connexion du système est manquant, le personnel d'exploitation et de maintenance ne maîtrise pas l'utilisation des outils d'exploitation et de maintenance, etc.
4. Amélioration des affaires
Cet exercice utilise la plateforme COC pour mener un exercice de chaos complet et multi-scénarios sur le système informatique XX. Les résultats obtenus par l'exercice sont les suivants :
1) Analyse complète des risques potentiels du système informatique XX, à l'aide de la méthode d'analyse FT-FMEA, tout en garantissant une identification complète des risques, le nombre de modes de défaillance a été réduit de 90+ à 30+, soit une réduction de 66,66 % , permettant ainsi la convergence des modes de défaillance et amélioration.
2) Un plan d'urgence a été élaboré pour chaque mode de défaillance et stocké sur la plateforme COC. La faisabilité du plan d'urgence a été vérifiée et améliorée grâce à des exercices, et une capacité de récupération fiable et efficace a été établie pour les risques potentiels auxquels est confronté le système informatique.
3) La capacité de forage automatisé de la plate-forme de forage COC Chaos a augmenté l'efficacité du forage de plus de 10 fois et 18 problèmes ont été découverts au cours de l'exercice. Grâce aux améliorations et à la mise en œuvre, le SLO du système a été augmenté à 99,99 % , répondant ainsi aux exigences de fiabilité du système. pour les opérations du magasin.
Résumé de cinq cas
Ce cas est basé sur les exigences de haute disponibilité du système XX d'une entreprise de vente au détail et utilise la plateforme COC pour effectuer une analyse des risques, la formulation d'un plan d'urgence et des exercices d'analyse des pannes. Cet exercice a utilisé la méthode d'analyse des risques FT-FMEA pour identifier rapidement et efficacement les risques auxquels le système est confronté, et a vérifié les points de risque du système et l'efficacité du plan d'urgence grâce à l'injection automatisée de pannes. Des améliorations et la mise en œuvre des problèmes découverts lors de l'exercice ont été réalisées pour augmenter le SLO du système à 99,99%, répondant ainsi aux exigences de fiabilité du système pour les opérations du magasin.
Les exercices constituent le meilleur moyen de tester et d'améliorer la disponibilité du système. En combinaison avec les conditions d'exploitation et de maintenance des entreprises de vente au détail, les principes de bonnes pratiques suivants pour les exercices de chaos sont résumés :
1. Clarifier les critères d'évaluation
• L'ensemble du processus des exercices de chaos peut générer de la valeur. Les résultats et les critères d'évaluation pour chaque maillon de l'ingénierie du chaos doivent être clarifiés et intégrés dans la plateforme d'exercices en ligne.
• L'exercice de chaos est une technologie qui expose les risques de manière proactive. Elle encourage le personnel de R&D, d'exploitation et de maintenance à exposer les risques de manière proactive grâce à des incitations opportunes et à élaborer des plans d'urgence pour les risques.
2. Pour mener des exercices de chaos, une analyse des modes de défaillance doit être effectuée en premier.
• Le mode de défaillance, comme point de départ de l'exercice, détermine la qualité de l'exercice. Le plan d'urgence, en tant que méthode de récupération, garantit la sécurité de l'exercice et la récupération rapide des défauts quotidiens.
• Les modes de défaillance analysés à l'aide de la méthode FT-FMEA permettent d'identifier avec précision les risques tout en évitant efficacement la divergence du nombre de modes de défaillance.
3. Utilisez des exercices automatisés
• Les outils de forage automatisés peuvent abaisser le seuil des forages, améliorer l'efficacité du forage et garantir la sécurité et la précision de l'injection de défauts.
• Les outils de forage automatisés peuvent gérer les forages en ligne pour garantir leur exécution en temps opportun ainsi que l'héritage et l'accumulation de l'expérience en matière de forage.
4. Effectuer des opérations de forage
• L'Armée bleue peut coordonner et organiser des exercices à plus grande échelle. Tout en testant la résilience de chaque système informatique, elle peut également démontrer et piloter des exercices quotidiens de systèmes indépendants, afin d'obtenir l'effet d'exercices quotidiens et d'éviter les angles morts.
• L'exploitation et la publication des activités de forage et des résultats des forages peuvent sensibiliser le personnel de développement informatique, d'exploitation et de maintenance aux risques auxquels le système peut être confronté et mettre en œuvre de manière proactive une culture de la qualité dans les processus de R&D et d'exploitation et de maintenance.
Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~
L'équipe chinoise d'IA de Microsoft a fait ses valises et s'est rendue aux États-Unis, impliquant des centaines de personnes. Combien de revenus un projet open source inconnu peut-il rapporter ? Huawei a officiellement annoncé que la position de la station miroir open source de l'Université des sciences et technologies de Yu Huazhong a été ajustée. L'accès au réseau externe a été officiellement ouvert. Les fraudeurs ont utilisé TeamViewer pour transférer 3,98 millions ! Que doivent faire les fournisseurs de postes de travail à distance ? La première bibliothèque de visualisation frontale et fondateur du célèbre projet open source de Baidu, ECharts - un ancien employé d'une société open source bien connue qui "est allée à la mer" a annoncé la nouvelle : après avoir été interpellé par ses subordonnés, le technicien Le leader est devenu furieux et grossier et a licencié l'employée enceinte. OpenAI a envisagé d'autoriser l'IA à générer du contenu pornographique. Microsoft a déclaré à la Fondation Rust qu'elle avait fait un don de 1 million de dollars américains. Veuillez me dire quel est le rôle de time.sleep(6) ici. ?