Tout en un, construisez rapidement un système observable de bout en bout

Cet article est partagé par la communauté Huawei Cloud « Tout en un, créez rapidement un système observable de bout en bout » par Wang Lei.

Avec l'application de la technologie cloud native, l'observabilité est devenue le protagoniste des services cloud. La densité de déploiement et la fréquence de changement des applications ont radicalement changé par rapport aux environnements traditionnels. L'observabilité est nécessaire pour découvrir et enregistrer clairement l'évolution rapide du comportement des applications de l'hôte. L'observabilité joue un rôle important au niveau de la gouvernance informatique, de la mise en ligne des activités et de l'expérience utilisateur, et contribue à améliorer les capacités d'assurance de la continuité des activités dans le cadre du renforcement continu d'une architecture système complexe.

Le système de surveillance traditionnel actuel est confronté à de nombreuses limitations, telles que de multiples outils de surveillance pour les entreprises, l'incapacité de gérer les données de manière unifiée, des difficultés de communication pendant le processus de recherche et développement et de test des problèmes, des réseaux médiocres, des problèmes d'interface et l'incapacité de reproduire. problèmes lorsque le front/back-end change en même temps., Des problèmes tels qu'une collecte de données incomplète, des difficultés d'analyse de corrélation des données et des difficultés à réaliser rapidement la valeur des données sont tous des problèmes que les entreprises doivent résoudre en matière d'exploitation et de maintenance. Les systèmes observables peuvent aider à comprendre l’intérieur du système, même dans des architectures de microservices complexes. Ils facilitent également la localisation du défaut jusqu’à sa cause.

Panorama de l'analyse de l'observabilité de Huawei Cloud : accès unifié, stockage unifié et observation unifiée

Huawei Cloud combine les caractéristiques des services cloud, les problèmes des clients et les scénarios d'application pour créer des capacités d'observabilité complètes. Grâce à la collecte d'indicateurs, de journaux et de chaînes d'appels, une observation unifiée peut être réalisée, et tout, des ressources au middleware en passant par les applications. et les entreprises peuvent surveiller de bout en bout les requêtes et les alarmes des terminaux, tout en créant une architecture unifiée pour un accès et un stockage unifiés. Facile à utiliser et à entretenir pour les utilisateurs.

1.PNG

Architecture d'entreprise typique et établissement d'un système d'observabilité

Il existe de grandes différences dans les différentes structures de déploiement d'applications client et les objets d'observation. Les objets d'observation peuvent inclure des applications finales, des composants de couche d'accès, des applications, des middlewares et des données. Ces objets peuvent être distribués sur des terminaux, des navigateurs, sur IDC et le cloud. Huawei Cloud fournit une solution complète pour la construction d'observabilité pour diverses formes de déploiement, atteignant l'objectif d'une visibilité complète, rapide et précise à partir des niveaux de journal, d'indicateur et de chaîne d'appels.

La plate-forme Huawei Cloud Observability comprend quatre services principaux : Application Operation Management (AOM), Cloud Log Service (LTS), Application Performance Management Service (APM) et Cloud Monitoring Service (CES). Elle est largement utilisée dans Internet, le gouvernement et les entreprises. et d'autres secteurs. Favorisez une prise de décision efficace, couvrez les appareils cloud et Edge vers le bas, connectez l'expérience de l'entreprise et de l'utilisateur final vers le haut et obtenez une observabilité basée sur les perspectives commerciales et les scénarios commerciaux.

Accès panoramique aux données : prêt à l'emploi, configuration simple, accès rapide

La solution observable orientée locataire de Huawei Cloud combine les scénarios commerciaux des clients avec un système technologique d'exploitation et de maintenance déterministe pour aider les entreprises à créer des services stables, fiables et de haute qualité. Sur la base d'une analyse d'observation, elle met en œuvre la surveillance commerciale, la surveillance des applications, la surveillance de couche intermédiaire, et surveillance de base. La surveillance des installations et d'autres informations sur les données, l'accès unifié, le stockage unifié et l'observation unifiée soutiennent le développement commercial agile, garantissent le fonctionnement stable et efficace de l'entreprise dans un environnement cloud natif et permettent une récupération rapide des pannes, un contrôle des risques de changement, gestion des ressources et résilience.Amélioration des capacités observables d’exploitation et de maintenance telles que l’évaluation et l’optimisation.

2.PNG

Figure : Système d'observabilité du cloud Huawei

Le grand écran observable unifié réalise la surveillance du système ainsi que le fonctionnement et la maintenance intelligents

Huawei Cloud peut observer et surveiller de grands écrans, effectuer des requêtes et des analyses de données en temps réel et comprendre l'état et le fonctionnement passés du système. Une fois qu'une anomalie ou une panne se produit, il émettra immédiatement une alerte précoce et une notification pour garantir que le problème est résolu. est résolu.En même temps, cela peut aider les entreprises à prendre leurs responsabilités. Les gens prennent des décisions précises lors de l'optimisation de la configuration du système, de l'ajustement de l'allocation des ressources, etc.

Le grand écran de surveillance visualise les données d'exploitation et de maintenance, couvrant les indicateurs/performances/journaux, y compris des dizaines de sources de données telles que les applications/services cloud/conteneurs/journaux Prometheus/LB. En termes d'indicateurs métier, il fournit des données d'indicateurs métier extraites sur la base des journaux elb/interface métier SLA ; en termes d'indicateurs d'application, il combine des indicateurs de performance d'application/composant, des indicateurs de conteneur Prometheus et des indicateurs de middleware ; en termes d'indicateurs de ressources, il associe des indicateurs de ressources de service cloud, des données telles que ECS/VPC, etc.

Traitement des journaux DSL : plateforme de traitement des journaux à guichet unique. Le traitement DSL (Domain Specific Language) est une plate-forme unique de traitement des journaux fournie par LTS. Basée sur un langage de script personnalisé par domaine et plus de 200 fonctions intégrées, elle peut réaliser la mise en forme, l'enrichissement, le fractionnement, le fractionnement et la mise en forme des journaux de bout en bout. et séparation dans la console LTS. Sensibilisation, filtration et autres tâches de traitement.

Recherche massive de journaux : des dizaines de milliards de journaux peuvent être recherchés en quelques secondes, et des centaines de milliards de journaux peuvent être recherchés de manière itérative. Le moteur de recherche développé par LTS peut renvoyer des résultats de recherche en quelques secondes pour des dizaines de milliards de journaux ; les requêtes en plusieurs clics peuvent renvoyer des résultats de recherche précis pour des centaines de milliards de journaux.

4.PNG

Traitement des journaux DSL : plateforme de traitement des journaux à guichet unique

Les utilisateurs natifs de Container Insight Cloud accordent plus d'attention aux formats courts, plats et rapides.

Dans le processus d'exploitation, de maintenance et de développement d'applications conteneurisées, il est crucial d'améliorer l'observabilité et de dépanner efficacement les pannes. Localiser et résoudre de manière dynamique et efficace les problèmes inattendus. Lorsque le système est indisponible, comprendre rapidement l'état et les causes du problème et prévenir efficacement d'occurrence, développez des capacités d'observabilité et aidez à définir rapidement les problèmes grâce à cinq fonctionnalités principales :

» Diagnostic de santé : attention et traitement rapides des groupes à risque moyen et élevé ;

» Inventaire des ressources : couvrant l'aperçu du cluster, les statistiques des nœuds, les statistiques de déploiement, les statistiques des tâches et les événements ;

» Analyse des données : 3 types d'analyse de corrélation des données, analyse couche par couche ;

»Surveillance de l'ensemble du disque : intégration de fonctions de présentation, de vue de déploiement, de cluster et d'autres fonctions pour répondre aux besoins d'une utilisation prête à l'emploi ;

» Alarme : plus de 48 règles d'alarme de bonnes pratiques pour répondre à diverses spécifications de traitement de scénarios d'alarme.

5.PNG

Suivi complet des liens de bout en bout pour la gestion des performances des applications

Le suivi des liens complets de bout en bout couvre tous les systèmes informatiques associés et constitue une solution pratique qui enregistre complètement le chemin d'appel et l'état du comportement des utilisateurs entre les systèmes, y compris les performances de chargement des pages, la latence des requêtes API, la chaîne d'appels du serveur et d'autres scénarios. Basé sur la découverte de la topologie full-link, la surveillance de l'expérience utilisateur est effectuée côté terminal ; l'analyse des performances côté serveur est effectuée sur la couche d'accès ; les appels de données sont effectués dans la base de données pour rendre la prise de décision plus agile et crédible.

Le lien complet de bout en bout peut non seulement assurer la surveillance de bout en bout et réaliser une analyse de performances spéciale, mais également apporter des valeurs fondamentales telles que le diagnostic de problèmes de bout en bout, le tri des dépendances inter-systèmes et la transmission transparente des balises personnalisées. à l'entreprise. Grâce à l'analyse et au diagnostic de la situation de réponse du système, optimisez les processus commerciaux, améliorez l'observabilité et l'optimisabilité de la valeur et obtenez une gestion et une optimisation plus pratiques du système.

Résumer

L'observabilité est la capacité de relier l'informatique et les entreprises à l'ère du cloud natif. Avec le développement du cloud natif, un système d'observabilité de bout en bout efficace, flexible et évolutif peut répondre aux besoins d'exploitation et de maintenance des applications, d'analyse des journaux, et la conformité de la maintenance. , l'analyse opérationnelle, le diagnostic des performances et d'autres scénarios d'application pour parvenir à une optimisation continue des systèmes informatiques et à une amélioration de la valeur commerciale, améliorer le renforcement des capacités du système de stabilité de l'entreprise, améliorer le niveau de gouvernance informatique et les capacités de développement, et fournir une garantie solide pour le fonctionnement et l'exploitation de l'entreprise. opérations d'entretien.

Cliquez pour suivre et découvrir les nouvelles technologies de Huawei Cloud dès que possible~

 

L'auteur d'un projet open source bien connu a perdu son emploi à cause de la manie - "Rechercher de l'argent en ligne" No Star, No Fix 2023 Les dix plus grandes réalisations d'ingénierie au monde sont publiées : ChatGPT, le système d'exploitation Hongmeng, la Station spatiale chinoise et d'autres ByteDance sélectionnés ont été "interdits" par OpenAI. Google annonce l'extension Chrome la plus populaire en 2023. L'académicien Ni Guangnan : J'espère que le SSD domestique remplacera le disque dur importé pour déverrouiller le téléphone portable Xiaomi BL ? Tout d'abord, posez une question d'entretien avec un programmeur Java. Arm a licencié plus de 70 ingénieurs chinois et a prévu de réorganiser son activité de logiciels en Chine. OpenKylin 2.0 révèle | UKUI 4.10, un design à double diamant, beau et de haute qualité ! Manjaro 23.1 est sorti, nom de code « Vulcan »
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/4526289/blog/10326312
conseillé
Classement