Simulacro de caos integrado FT-FMEA, práctica de verificación en línea de la arquitectura de resiliencia del sistema operativo minorista

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

Este artículo es compartido por Huawei Cloud Community " FT-FMEA Fusion Chaos Drill, Retail Operation System Resilience Architecture Online Verification Practice ", autor: "Huawei Cloud Deterministic Operation and Maintenance Case Collection (Número 2)" Nie Gang.

1. Antecedentes comerciales

El ámbito comercial de una determinada empresa minorista cubre más de 20 provincias y cientos de ciudades, brinda servicios a miles de hogares y cuenta con el favor del público. En los últimos años, frente al nuevo comercio minorista y la continua expansión de la escala comercial, la compañía se ha comprometido a lograr una digitalización integral de su negocio, desarrollando continuamente nuevos productos de TI, abarcando todo, desde la cadena de suministro hasta el marketing, el servicio al cliente y las operaciones de la tienda. , e implementando gradualmente la transformación digital para reducir los costos operativos y mejorar la eficiencia operativa.

Cierto sistema es un producto de TI desarrollado recientemente para esta empresa minorista. Se lanzó al entorno de producción y planea iniciar oficialmente el acceso comercial fuera de línea y el drenaje del tráfico. A través de simulacros de caos, la resiliencia arquitectónica del entorno de producción de aplicaciones se "extrae" y "acepta" antes del desvío para garantizar que no haya riesgos importantes de estabilidad durante el desvío oficial.

2. Situación empresarial

Con la expansión de la transformación digital y la escala comercial, la empresa ha desarrollado un nuevo sistema de operación de tiendas XX. El cuerpo principal del sistema adopta una implementación en contenedores y se basa en más de 15 sistemas circundantes. Entre los sistemas en los que se basa se encuentran sistemas antiguos que tienen más de 10 años, lo que plantea grandes riesgos potenciales de usabilidad. Dado que es responsable de la operación de todas las tiendas, la compañía espera que el sistema de TI tenga una alta resiliencia para hacer frente a posibles riesgos de fallas, como desastres inesperados, falta de disponibilidad de sistemas dependientes, tráfico intenso instantáneo durante actividades promocionales y fallas en la red del operador.

3. Planificar la práctica

El simulacro de caos de la plataforma COC incluye las mejores prácticas del simulacro de caos en la nube de Huawei, incluido todo el proceso, desde la identificación de riesgos, la formulación del plan de emergencia, la inyección de fallas hasta la revisión de la perforación. La identificación de riesgos utiliza la metodología de análisis de riesgos FT-FMEA y los usos de inyección de fallas. Sonda de inyección de fallos de desarrollo propio. Practiqué en Huawei Cloud durante más de 4 años, ejecutando más de 3000 simulacros de caos automatizados cada año, ahorrando más de 1500 horas de mano de obra en perforación. El proceso de diseño es el siguiente:

1 . Identificación y gestión de riesgos.

Combinado con la arquitectura de implementación y el gráfico de dependencia externa de la aplicación XX, el riesgo de la aplicación en el entorno de producción se analiza según el método de análisis de fallas FT-FMEA para formar un modo de falla. COC ha incorporado el método de análisis de fallas FT-FMEA de Huawei Cloud para ayudar a los usuarios a analizar de manera eficiente los riesgos del sistema y formar modos de falla desde los aspectos de la arquitectura del sistema, los requisitos de SLO, la clasificación de escenarios de falla, las condiciones de ocurrencia de fallas, el impacto en el cliente, etc.

FMEA (Análisis de efecto de modo de falla) se originó en la NASA. Comienza principalmente desde los puntos funcionales del negocio y enumera los posibles modos, efectos y causas de falla, y los métodos de control correspondientes, combinados con factores como la gravedad de la falla y la probabilidad de ocurrencia. y detectabilidad. Finalmente, se obtiene la puntuación del multiplicador RPN para el modo, a través del cual se puede juzgar el nivel de riesgo del modo de falla. FMEA proporciona un método de análisis de fallas orientado al riesgo, pero los niveles de clasificación de probabilidad de falla, severidad y nivel de detectabilidad en FMEA llegan a 10, lo cual es difícil de igualar en la implementación real y puede conducir fácilmente a la divergencia de los modos de falla, afectando así la eficiencia de la gestión de fallos. Huawei Cloud ha resumido FT-FMEA (Método de análisis de escenarios de fallas basado en la perspectiva de tolerancia a fallas) desde la práctica. Basado en FMEA, combinado con escenarios prácticos de SRE, se integra en un marco de análisis de fallas de 7 dimensiones. orientado a escenarios SRE puede mejorar efectivamente la eficiencia y la calidad del análisis de escenarios de fallas sobre la base de garantizar un análisis de fallas integral sin divergencia de modos de falla.

La lista de modos de falla resumidos después de usar FT-FMEA en COC para el sistema de TI XX es la siguiente. Los más de 90 modos de falla originales se fusionaron en 30+, lo que sentó una base sólida para la posterior formulación del plan de emergencia y el diseño del esquema de inyección de fallas.

2 . Desarrollar planes de emergencia.

Con base en los modos de falla analizados, combinados con la plantilla de guía del plan de emergencia de Huawei Cloud incorporada de COC y la situación real de operación y mantenimiento de la empresa minorista, se desarrolló un plan de emergencia correspondiente para cada modo de falla. COC admite la automatización total, la automatización + el híbrido manual y los planes de emergencia para estos dos métodos para hacer frente a las necesidades de recuperación de emergencia de diferentes modos de falla.

3. Desarrollar un plan de perforación

Según el modo de falla y el período de actividad comercial del sistema de TI, se desarrolla un plan de perforación en el COC.

4. Diseñar plan de inyección de fallas, realizar simulacros y recuperación de emergencia.

Según el modo de falla y la situación de implementación de la aplicación, se diseña un plan de perforación para verificar la capacidad de autorreparación del sistema de TI, la capacidad del plan de emergencia y la capacidad de recuperación del personal de operación y mantenimiento.

1) Según el modo de falla seleccionado, seleccione el objetivo del ataque y el escenario de ataque en el COC para formar una tarea de simulacro que simule con precisión las condiciones para que ocurra el modo de falla.

2) Inicie un simulacro automatizado, observe si el sistema de monitoreo puede detectar rápidamente fallas y alarmas, el tiempo de autorreparación del sistema de TI, si el personal de operación y mantenimiento puede operar hábilmente de acuerdo con el plan de emergencia y, finalmente, registre el RTO de el sistema.

5. Revisión y resumen del ejercicio.

La plataforma COC califica automáticamente este ejercicio y el equipo de observación de este ejercicio ingresa los asuntos de mejora en el COC. El RTO del sistema no cumplió con el estándar durante este ejercicio. Además, se encontraron un total de 18 problemas durante el ejercicio. Los problemas típicos incluyen: falta de monitoreo, errores funcionales en el sistema de alarma y ciertas diferencias entre el despliegue real del sistema. El sistema de TI y los dibujos de diseño, falta la prueba de acceso telefónico del sistema, el personal de operación y mantenimiento no es competente en el uso de herramientas de operación y mantenimiento, etc.

4. Mejora empresarial

Este simulacro utiliza la plataforma COC para realizar un simulacro de caos de múltiples escenarios y de proceso completo en el sistema de TI XX. Los resultados logrados por el simulacro son los siguientes:

1) Análisis integral de los riesgos potenciales del sistema de TI XX, utilizando el método de análisis FT-FMEA, al tiempo que se garantiza una identificación integral de los riesgos, el número de modos de falla se redujo de 90+ a 30+, una reducción del 66,66% , logrando la convergencia del modo de falla y mejora. El objetivo.

2) Se desarrolló un plan de emergencia para cada modo de falla y se almacenó en la plataforma COC. Se verificó y mejoró la viabilidad del plan de emergencia mediante simulacros y se estableció una capacidad de recuperación confiable y eficiente para los riesgos potenciales que enfrenta el sistema de TI.

3) La capacidad de perforación automatizada de la plataforma de perforación caótica COC aumentó la eficiencia de la perforación en más de 10 veces y se descubrieron 18 problemas durante la perforación. A través de mejoras e implementación, el SLO del sistema se incrementó al 99,99 % , cumpliendo con los requisitos de confiabilidad del sistema. para operaciones de tienda.

Resumen de cinco casos

Este caso se basa en los requisitos de alta disponibilidad del sistema XX de una empresa minorista y utiliza la plataforma COC para realizar análisis de riesgos, formulación de planes de emergencia y simulacros de fallas. Este ejercicio utilizó el método de análisis de riesgos FT-FMEA para identificar de manera rápida y eficiente los riesgos que enfrenta el sistema, y verificó los puntos de riesgo del sistema y la efectividad del plan de emergencia a través de la inyección automatizada de fallas. Se llevaron a cabo mejoras e implementación de los problemas descubiertos en el simulacro para aumentar el SLO del sistema al 99,99%, cumpliendo con los requisitos de confiabilidad del sistema para las operaciones de la tienda.

Los simulacros son la mejor manera de probar y mejorar la disponibilidad del sistema. En combinación con las condiciones de operación y mantenimiento de las empresas minoristas, se resumen los siguientes principios de mejores prácticas para los simulacros de caos:

1. Aclarar los criterios de evaluación

• Todo el proceso de simulacros de caos puede generar valor. Los resultados y los criterios de evaluación para cada eslabón de la ingeniería del caos deben aclararse y trasladarse a la plataforma de perforación en línea.

• La perforación del caos es una tecnología que expone riesgos de manera proactiva. Alienta al personal de I+D y de operación y mantenimiento a exponer los riesgos de manera proactiva a través de incentivos oportunos y desarrollar planes de emergencia para los riesgos.

2. Para realizar simulacros de caos, primero se debe realizar un análisis del modo de falla.

• El modo de falla, como punto de partida del simulacro, determina la calidad del mismo. El plan de emergencia, como método de recuperación, garantiza la seguridad del simulacro y la rápida recuperación de las fallas diarias.

• Los modos de falla analizados usando el método FT-FMEA pueden identificar riesgos con precisión y al mismo tiempo evitar efectivamente la divergencia del número de modos de falla.

3. Utilice simulacros automatizados

• Las herramientas de perforación automatizadas pueden reducir el umbral de perforación, mejorar la eficiencia de la perforación y garantizar la seguridad y precisión de la inyección de fallas.

• Las herramientas de perforación automatizadas pueden gestionar simulacros en línea para garantizar su ejecución oportuna y la herencia y acumulación de experiencia en perforación.

4. Realizar operaciones de perforación.

• El Ejército Azul puede coordinar y organizar actividades de simulacros a mayor escala. Mientras prueba la resiliencia de cada sistema de TI, también puede demostrar e impulsar simulacros diarios de sistemas independientes, para lograr el efecto de simulacros diarios y sin puntos ciegos.

• Operar y publicar las actividades de perforación y los resultados de la perforación puede hacer que el personal de desarrollo y operación y mantenimiento de TI sea consciente de los riesgos que el sistema puede enfrentar e implementar proactivamente una cultura de calidad en los procesos de I+D y de operación y mantenimiento.

Haga clic para seguir y conocer las nuevas tecnologías de Huawei Cloud lo antes posible ~