Article long | Le système de surveillance intelligent de Pacific Insurance basé sur Zabbix

Nous partagerons l'historique de construction de la plate-forme de surveillance CPIC, la plate-forme de surveillance intégrée basée sur Zabbix, la fusion des données de surveillance, la création d'une plate-forme de surveillance intelligente et le système intelligent d'exploitation et de maintenance qui détecte quand cela se produit et élimine quand il est découvert.

——Du Yingjun, Taibao Technology, expert en exploitation et maintenance de l'automatisation

Le ppt peut être obtenu sur le compte public WeChat : Zabbix open source community, entrez ppt.

Veuillez ajouter une description de l'image

01 Historique de la construction de la plate-forme de surveillance CPIC

Dans une première partie, nous présenterons le processus de construction de notre plateforme de veille CPIC. Nous pouvons voir sur la photo que notre CPIC construit un système de veille global depuis 2008.

De 2008 à 2017, nous avons essentiellement utilisé ce produit commercial de BMC. A partir de 17 ans est une alternative à l'exploration de produits commerciaux. Depuis 2018, le plan de remplacement du BMC par Zabbix a été formellement confirmé. Après une série de démonstrations en environnement de test, de 2018 à 2020, nous le remplacerons progressivement. En 2020, nous le remplacerons complètement. Remplacer tout le système de cette collection d'index de surveillance avec ce produit de remplacement Zabbix, principalement certaines fonctions de BMC et Netcool. À ce stade, nous nous concentrons principalement sur la localisation de l'alerte précoce des pannes et sur un scénario d'analyse de dépannage intelligent.

Veuillez ajouter une description de l'image

Quant à la surveillance, elle doit être indissociable des outils d'exploitation et de maintenance qui la sous-tendent.Je présenterai également le processus de construction de cette plate-forme d'outils au sein du CPIC. Nous avons commencé à construire certaines choses liées au système automatisé d'exploitation, de maintenance et de surveillance en 2014. Nous avons principalement traversé quatre étapes, et nous en sommes encore à la troisième étape. Fondamentalement, nous avons réalisé un scénario frontal et automatisé. Il y a également la quatrième étape. Nous pensons que le système d'exploitation et de maintenance intelligent devrait être un scénario de guérison des pannes basé sur les données, et il deviendra de plus en plus abondant. Nous commençons maintenant progressivement à essayer de faire ces choses.

Veuillez ajouter une description de l'image

L'image suivante est une introduction générale d'une plate-forme d'outils existante du CPIC. Les précédentes sont quelques-unes de nos plates-formes fonctionnelles, vous pouvez voir que nous avons une gestion de cloud privé, une plate-forme de conteneurs et une plate-forme d'exploitation et de maintenance automatisée. La couche inférieure contient certains de nos appareils de niveau S connectés, et celle à côté contient des informations de configuration et certaines fonctions liées à la collecte de données. Il s'agit principalement de la surveillance et de la journalisation, ainsi que de notre CMDB. La couche intermédiaire est notre passerelle de service. En fait, nous en faisons également une plate-forme intermédiaire pour les capacités d'exploitation et de maintenance. Au niveau supérieur, nous regrouperons divers types de scénarios d'application liés à l'exploitation et à la maintenance automatisées et à la surveillance. Nous avons également une série de plates-formes low-code, certains systèmes d'interface utilisateur affichés sur grand écran.

2. Plateforme de surveillance intégrée basée sur Zabbix

C'est notre utilisation interne de Zabbix. Le premier que nous avons également implémenté est un déploiement distribué en deux endroits et trois centres. La gestion est probablement de 3 ensembles d'environnements pour le développement, les tests et la production, avec 60 000 nœuds. Les indicateurs de suivi que nous avons essentiellement atteints plus de 2 200 sur Internet. Plus tard, introduisons les meilleures fonctionnalités de Zabbix.

Veuillez ajouter une description de l'image

Le premier est la définition du seuil, que nous utilisons principalement en fonction du déclencheur.

Le deuxième modèle de configuration, il s'agit de réduire considérablement notre charge de travail de configuration globale. Le déploiement distribué a également été introduit plus tôt, et la gestion et la prise en charge unifiées de plusieurs ensembles de GPS dans nos trois centres à deux endroits sont relativement comparatives. Eh bien, la configuration d'alarme , l'utilisation de la définition de macro dans Zabbix est également utilisée plus en interne, il existe principalement des informations connexes, qui peuvent être distribuées directement via Zabbix, et la couche supérieure a également créé d'autres systèmes internes. Certains packages de données sont fournis , qui sont utilisés en combinaison.

Le troisième est la découverte automatique qui fait quand il s'agit de surveillance. Il s'agit certainement d'un angle mort de la surveillance. C'est aussi un sujet très important. Depuis l'introduction de Zabbix, il a été très utile pour notre auto-découverte de surveillance. Le système de fichiers principal et le port, sa capacité de découverte, réduisent en fait la charge de travail de nos étudiants en exploitation et en maintenance.

Le dernier élément est l'exportation de données, qui est également une dépendance importante pour nous pour mettre en œuvre une analyse de données ultérieure.C'est également le plus grand avantage de la fermeture de Zabbix qui est différente des produits commerciaux.

Veuillez ajouter une description de l'image

Cette page présente principalement quelques problèmes rencontrés lors de la construction de Zabbix.

Le premier est un seul ensemble de Zabbix. Maintenant, chaque ensemble a environ 2 000 nœuds, c'est donc aussi le système Zabbix. Un seul ensemble ne peut gérer que ces choses, et s'il y a trop de gestions, il peut y avoir des problèmes de performances.

La seconde est que la surveillance des équipements réseau est facile à manquer et que des angles morts de surveillance apparaissent souvent. En fait, nous avons également combiné certains de nos propres processus internes, y compris les étagères sur et en dehors, et combiné des informations complètes de notre CMDB.Cela repose principalement sur des ressources pour résoudre certaines des faiblesses de Zabbix lui-même, la couverture de l'index et variables macro que nous venons de mentionner. La lisibilité de la configuration des indicateurs clés est relativement médiocre. Pour nos étudiants en exploitation et maintenance en ligne réelle, cela peut ne pas être facile à comprendre. Nous le faisons progressivement maintenant, car il y a tellement d'indicateurs que nous n'avons pas fait tous les indicateurs clés. Nous avons fait toute une traduction et établi quelques règles pour le faire.

Le quatrième élément est la gestion du cycle de vie des objets de surveillance. Avant on n'implémentait pas cette gestion du cycle de vie, si certains appareils étaient retirés du marché, car nous en avons un en interne, la limite inférieure équivaut à conserver temporairement l'opération, mais en fait cette machine n'est plus utilisée. Si un système d'entreprise est utilisé, il est facile d'avoir quelques fausses alarmes dans ce lien. Nous combinons maintenant cela avec notre CMDB incluant le processus global d'un de nos équipements. étape, nous n'allons pas supprime automatiquement cette alarme.

Le dernier Zabbix s'appuie sur une base de données relationnelle. Ensuite, nous utilisons principalement le Zabbix mentionné ci-dessus, qui a pour fonction d'importer des données dans des fichiers. Ensuite, nous les importons d'abord dans des fichiers, puis utilisons FileBeat pour les collecter dans notre MongoDB. Nous l'appelons une plate-forme intermédiaire pour les données d'exploitation et de maintenance, et toutes nos analyses et agrégations de suivi partent toutes de ce bus.

Veuillez ajouter une description de l'image

L'adaptation Xinchuang de Zabbix est également un sujet brûlant maintenant.

Celui de gauche est le composant que nous gérons en interne avec Zabbix. Nous avons essayé Tongxin, Kirin et Hongqi au niveau du système d'exploitation. Nous avons utilisé la base de données de Tencent, Ali et Dameng. Ce sont tous C'est parce que nous ont réalisé la gestion au sein du CPIC.

Celui de droite est l'adaptation de Zabbix. Nous avons essayé de déployer Zabbix sur les systèmes d'exploitation Tongxin et Kirin sans aucun problème. La base de données principale, car la base de données actuelle de Xinchuang peut être basée sur cette version MySQL 5, et Zabbix lui-même peut nécessiter 8.0, et nous pouvons avoir beaucoup de doutes. Ensuite, nous allons examiner les versions TTC et MySQL de Tencent, mais nous ne les avons pas encore complètement mises en production et utilisées. Nous les exécutons uniquement sur l'environnement de test, et elles peuvent fonctionner.

Veuillez ajouter une description de l'image

Il s'agit d'un diagramme schématique de la plate-forme de surveillance globale au sein de notre CIPC. J'en profite également pour partager avec vous.

Nous sommes trois centres et l'environnement de notre centre de données hors site de Chengdu est relativement compliqué. En fait, il couvre Zabbix et les tests, et une petite partie du système de production sera également là.Voici nos deux centres à Shanghai, l'un est à l'origine à Tianlin, et l'autre est le centre principal. Nous sommes maintenant à Luojing, et celui de Tianlin est terminé.

Ensuite, nous avons également établi une coopération avec Alibaba Cloud et établi un nouveau centre de données. Notre système de surveillance reste fondamentalement inchangé. L'architecture des trois centres est basée sur plusieurs de Zabbix, puis nous avons encapsulé un centre de gestion d'événements global. Je vais me concentrer sur cela plus tard, puis collecter les données sous la forme d'un fichier dans la file d'attente des messages, puis les combiner. . Certains moteurs de streaming effectuent une agrégation de données. Celui ci-dessus est notre bus de données d'exploitation et de maintenance interne, qui est en fait similaire à une petite plate-forme intermédiaire. Toutes nos données de surveillance ne proviennent pas seulement de Zabbix, mais également de certains liens Surveillance des routes et certains une surveillance matérielle supplémentaire sera placée dans cette plate-forme de bus.

Ensuite, notre analyse post-événement s'appuie principalement sur un service de données fourni par MongoDB.L'autre pièce combinée avec le journal est en ES, ce qui n'est pas illustré sur cette image.

Veuillez ajouter une description de l'image

Cette pièce est principalement destinée à présenter l'efficacité de Zabbix. Du point de vue de la réduction des coûts, de l'augmentation de l'efficacité et de l'autonomisation.

La réduction des coûts est évidente, en fait, le fondateur vient de mentionner que Zabbix ne sera pas limité par le nombre d'utilisations, ce qui est notre plus grand avantage.

L'autre est l'amélioration de l'efficacité, la surveillance des alarmes invalides d'angle mort, ce qui est nettement meilleur que les plates-formes de surveillance précédentes. La rapidité de Zabbix lui-même et l'amélioration du BMC sont en fait beaucoup. Parce qu'après être arrivés sur Zabbix, les nœuds gérés au cours de la même période ont en fait augmenté à une vitesse double.

Le dernier élément, l'autonomisation, est l'ouverture des données, ce qui, à mon avis, est le plus important. Parce que la surveillance dans cette donnée d'exploitation et de maintenance est en fait une grande partie, parce que si vous utilisez un produit commercial, certaines analyses ultérieures convergeront, et nous aurons moins de place pour notre propre développement.

3. Intégrez les données de surveillance pour créer une plateforme de surveillance intelligente

La troisième partie combine ces données de surveillance et encapsule en interne certains travaux importants de recherche et développement effectués dans le cadre de la surveillance.

Le premier est la gouvernance des données d'exploitation et de maintenance. Nous la divisons en trois niveaux en interne. La première couche de données d'origine, puis certains de nos journaux de surveillance automatisés existants et la gestion du cloud CMDB, crachent des données, y compris la surveillance. En collectant des données, nous sont en fait différentes de l'approche traditionnelle du centre de données. Nous le demandons toujours à la demande, donc nous n'allons pas tout cloner, puis faire une véritable analyse statistique, car les données d'exploitation et de maintenance et les données commerciales sont en fait Il y a encore un nombre relativement important 70 % à 80 % des données d'entreprise sont précieuses, mais le rapport entre les données d'exploitation et de maintenance et ce rapport est en fait inversé, de sorte que l'avantage de notre approche est que les coûts de matériel peuvent être relativement réduits, ce qui est également utile pour certains d'entre eux. la représentation ultérieure.

La deuxième couche est principalement la couche de dimension publique. Notre équipe construira des organismes publics abstraits, et la valeur de la couche publique est le résultat du calcul. Nous extrairons également certaines analyses de données nécessaires à diverses équipes professionnelles d'exploitation et de maintenance. Nous les calculons, par exemple, si elles sont similaires à la valeur moyenne ou à certaines données. De plus, nous combinons les données avec notre analyse d'intégrité et les mettons sur cette couche pour établir un système de gestion global.

Veuillez ajouter une description de l'image

Il y a aussi un cycle de vie, qui je pense est très important, parce que nous avons fait quelques détours auparavant, et fait le modèle du pot de données, mais nous avons constaté que le volume devient de plus en plus gros. C'est plus difficile. Après de nombreuses itérations de versions, il a finalement été décidé de le mettre dans MongoDB. C'est en fait un problème résolu, y compris le cycle de vie. C'est relativement facile à gérer. Si vous ne le voulez pas, vous devriez le faire dès que possible. Supprimez-le, afin qu'il soit un amincissant pour la plateforme, pas trop encombrant.

Analyse, prise de décision et prédiction, cette partie est relativement ouverte, nous allons construire avec des équipes professionnelles, une partie est qu'ils l'utilisent pour faire directement quelques petits scénarios d'exploitation et de maintenance, et l'autre partie, une analyse et une décision relativement importantes -faire de l'alerte précoce et de la prédiction, c'est la nôtre.L'ensemble de l'exploitation et de la maintenance de l'outil R & D de l'équipe à réaliser.

Veuillez ajouter une description de l'image

Le deuxième bloc est une plate-forme globale de police et de répartition de haut niveau basée sur Zabbix. Plus tôt, tout comme le fondateur l'a également dit, Zabbix est un outil de traitement des indicateurs. Sur la base de cet outil, nous remplacerons BMC par des alarmes et des commandes en 2020. Il dispose d'un module complet de traitement des événements d'alarme. complètement remplacé au cours du premier semestre de cette année, et il était encore utilisé tout le temps, car Zabbix lui-même n'a pas cette pièce.

Nous sommes en retard car la répartition des commandes est assez compliquée dans notre système Taibao. Le schéma de nos règles de convergence et de nos règles de répartition des commandes est en fait inférieur à 1/10. Ceci n'est que la configuration interceptée. C'est un organigramme, mais ce n'est pas encore terminé , à côté se trouve un effet global, basé sur notre plate-forme de convergence d'alarme intelligente, en général, notre taux de convergence peut atteindre 40 %, et les alarmes invalides sont considérablement réduites. Ce bouche-à-oreille est toujours très bon, et toute notre plate-forme est également auto-développé.Cet avantage est qu'il peut s'adapter à notre intérieur, qui est relativement personnalisé et compliqué.

Veuillez ajouter une description de l'image

La seconde est la ligne de machine d'alerte précoce. En fait, nous l'implémentons toujours sur la base de certains algorithmes basés sur des règles. En fait, nous avons également essayé d'introduire des algorithmes intelligents liés à l'IA en 2018. À cette époque, l'effet n'était pas très bon. Qu'en est-il des dernières années ? , l'idée de tout le monde d'utiliser l'IA sur la scène de l'exploitation et de la maintenance devrait également revenir à la rationalité. Ensuite, nous avons finalement approfondi et affiné cette chose au cours du premier semestre de cette année. L'image ci-dessus, je pense qu'il est Il est préférable de surveiller.

Le droit de la mer est notre plate-forme de surveillance traditionnelle. En gros, 1 et 29 sur cette image seront surveillés, et au moins l'alarme sera déclenchée. Ensuite, nous n'appellerons certainement pas la police sur les 300 et 1 000 suivants, car le montant est trop grand et ils Il y a en fait très peu de situations qui doivent vraiment être traitées, donc nous combinons cette alerte précoce, et nous avons également une fonction de diagnostic plus tard, c'est-à-dire que nous ferons également un traitement pour les 1 000 et 300 choses , et d'intervenir en amont, puis d'autres Pour la surveillance, notre plus grand défi est désormais : nous pouvons trouver des problèmes, mais le temps laissé à l'exploitation et à la maintenance pour les traiter n'est finalement pas suffisant. Ensuite, il n'y a toujours pas moyen de vraiment s'en occuper avant que l'entreprise ne soit affectée.En fait, cette pièce peut être progressivement laissée à nos étudiants intermédiaires en opération et maintenance pour s'en occuper après son utilisation.

Veuillez ajouter une description de l'image

Il s'agit d'une relation de topologie d'application que nous avons reconstruite en interne cette année. La CMDB a été lancée en 2015 et 2016, mais nous avons commencé à planifier cet élément de données à la fin de l'année dernière. Lors de l'examen de ce plan de gouvernance des données, nous avons constaté que cette topologie est fondamentalement Ce qui précède est totalement indisponible, mais pour notre analyse des défaillances applicatives, cette topologie est en fait cruciale. De mon point de vue, du développement des outils d'exploitation et de maintenance à l'étape actuelle, la CMDB construite Qu'elle soit bonne ou non, dépend en fait de l'intégrité de cette image, si elle peut exercer sa valeur réelle, en plus de remplacer cela, la valeur enregistrée sous cette forme, je pense que cette relation est très importante, de toute façon, elle est basée sur notre plus tard Une base importante pour l'alerte précoce et le diagnostic dans son ensemble.

Veuillez ajouter une description de l'image

La cinquième étape consiste en fait à jeter les bases de cette chose. L'indicateur d'or commercial ci-dessus, trois cercles, c'est une entrée de notre alerte précoce de base, c'est-à-dire celle au-dessus de la règle de Hayne devant moi. Les deux couches inférieures de l'image, après avoir découvert, nous ne traiterons pas l'alarme immédiatement, mais passerons par le moteur de processus pour jeter un coup d'œil, la configuration, on peut aussi dire qu'il s'agit d'un processus de dépannage, mais tout est basé sur l'expérience et configuré manuellement. Ce dernier horizontal est un système de liens complets pour le dessin de liens, qui peut collecter une relation entre les applications. Nous allons combiner ces pièces et jeter un coup d'œil, et s'il y a effectivement un problème, alors ce n'est qu'alors que la véritable alarme a été émise. Dans dans ce cas, cela revient à dire que nous sommes intervenus en amont. Le block process est un natif et un moteur d'un job process basé sur une plateforme d'automatisation. Il sert au monitoring. Je pense personnellement que sa performance sera encore un peu difficile. Il peut être utilisé lorsque l'échelle est petite, et il sera certainement utilisé à l'avenir. Cela deviendra de plus en plus difficile, nous allons donc introduire des concepts liés à l'IA ou plus avancés pour le faire plus tard.

4. Un système d'exploitation et de maintenance intelligent qui détecte quand il se produit et s'en débarrasse lorsqu'il est découvert

Cette image est le système intelligent global de surveillance de l'exploitation et de la maintenance prévu par nous à l'avenir. À l'extrême gauche, des données globales à l'observation et à l'analyse, au niveau de la couche d'analyse, diverses scènes liées à l'exploitation et à la maintenance seront encapsulées. à l'extrême gauche, on voit aussi plusieurs choses. L'une est que l'on peut faire de l'exploitation et de la maintenance. Nous allons également utiliser cette plateforme d'analyse similaire à la BI à notre équipe professionnelle pour réduire les coûts de développement et développer ce seuil intelligent. , Tous nos étudiants en exploitation et la maintenance peuvent être introduites dans un écosystème construit par cet outil.Cette pièce se situe au niveau de l'analyse, et elle appartient en fait à un modèle de co-construction et de co-création.

Veuillez ajouter une description de l'image

Enfin, axé sur les données, la promotion consiste à surveiller et à mobiliser notre plate-forme d'automatisation, qui peut effectuer des scénarios de récupération de panne relativement compliqués, car nous traitons maintenant le redémarrage le plus simple, y compris le nettoyage des fichiers, qui sont tous liés à la liaison de surveillance, nous s'en occupera si nous le trouvons. S'il est plus, il peut être plus avancé ou : par exemple, la difficulté de prise en main et les facteurs de jugement sont plus compliqués. Nous ne l'avons pas activé automatiquement. Maintenant, c'est sûr. est basé sur notre processus précédent de dépannage et de précision. Une fois que le dépannage devient de plus en plus précis, nous pouvons progressivement ajouter une action de récupération automatique.

Veuillez ajouter une description de l'image

L'équipe dont je suis responsable va faire un travail préparatoire. Le premier est l'analyse des pannes que nous faisons sous le nouveau K8S, qui utilise le système de conteneurs. C'est point à point avec nous maintenant, celui-ci au niveau IP. Il existe encore des différences dans l'analyse des défaillances.

La deuxième partie est que nous combinerons l'intégration du temps d'exécution numérique et des données de surveillance pour réaliser une inspection de patrouille avec un fort sentiment d'expérience en ligne et un système de surveillance visuelle.

Le troisième est que nous continuons à introduire les bénédictions des algorithmes d'IA. La prédiction et le dépannage que je viens de mentionner, et le dernier est l'ingénierie hybride. Nous analyserons certains scénarios et les placerons dans un scénario qui peut être simulé. L'énergie dépendante de ce sujet Ou nos données de surveillance doivent être les données les plus importantes.

Veuillez ajouter une description de l'image

   最后讲讲愿景,因为我个人比较喜欢摄影,这两张图,就是也是我全部是自己拍的,这个我是从2011年进太保的啊,就这张图是就等于是我们上Zabbix之前啊,吃饭吃到一半拉去干活了,后面一张呢,就是等于我们上了这个工具平台来维持、越来越完善之后,那我们这个就意境就不一样了,那我个人也是成功的从一个一线干活的,发展到一个看着别人干活的,那也是归功于我们Zabbix功不可没,对于我个人以及我们系统的公司系统运维平台的一个建设都起到了至关重要的作用。

Veuillez ajouter une description de l'image

Je suppose que tu aimes

Origine blog.csdn.net/Zabbix_China/article/details/129294692
conseillé
Classement