Transformation et innovation de la gouvernance des données à l'ère du cloud natif

Avec l'approfondissement du processus de numérisation, les entreprises s'appuient de plus en plus sur les données, et l'importance des ressources de données est devenue de plus en plus importante. Comment bien gérer et utiliser les données, faire un bon travail dans la gouvernance des données et tirer pleinement parti de la valeur des ressources de données est devenu un enjeu important dans le processus d'amélioration de la qualité et de l'efficacité.

Dans cette émission en direct, nous avons présenté le système de gouvernance des données, le cadre technique et les avantages de la plateforme de données cloud native dans le domaine de la gouvernance des données. Le contenu suivant est organisé en brouillons basés sur le texte en direct.

Système et cadre traditionnels de gouvernance des données

Dans la transformation numérique, la volonté stratégique est la base, la gouvernance des données est la base et l'intelligence des données est la direction.

La gouvernance des données est le processus de modification continue du comportement d'utilisation des données du point de vue de l'organisation, de la gestion et de la technologie, tout au long du cycle de vie des données. L'objectif fondamental de la gouvernance des données est d'assurer la sécurité des données et d'améliorer la valeur des données.

Dans le même temps, la gouvernance des données est un système qui se concentre sur le niveau de mise en œuvre du système d'information. Il vise à intégrer les connaissances et les opinions de la direction des technologies de l'information et de la direction des affaires. Itérer la valeur des actifs de données, permettre le développement des affaires, réaliser des stratégies commerciales, assurer la sécurité des données et réduire le risque de fuite de confidentialité.

Le système de gouvernance des données implique plusieurs niveaux d'organisation, de gestion et de technologie, et est étroitement lié aux départements commerciaux. Habituellement, le travail de gouvernance des données d'une entreprise est dirigé par le service commercial et assisté par le service informatique. 

Figure 1 Schéma d'architecture du système de gouvernance des données 

Comme le montre la figure ci-dessus, le système de gouvernance des données est divisé en trois niveaux, qui sont les objets de gouvernance des données, les tâches de gouvernance des données et la prise en charge de la gouvernance des données.

  • Les objets de la gouvernance des données sont divisés autour de thèmes. Différentes entreprises ont différents thèmes de données, qui sont étroitement liés à l'organisation et aux paramètres de service de l'entreprise, et ne seront pas décrits ici.
  • La prise en charge de la gouvernance des données comprend la structure organisationnelle de l'entreprise, le rôle dans le processus de gouvernance des données, les systèmes et processus internes basés sur la gouvernance des données, ainsi que l'architecture et la plate-forme de la technologie informatique.
  • Les tâches de gouvernance des données comprennent principalement la gestion des données de référence, la gestion des normes de données, la gestion de la qualité des données, la gestion des actifs de données, la gestion de la sécurité des données, le cycle de vie des données, etc. Parmi eux, la gestion des données de référence, la gestion des métadonnées et la gestion de la qualité des données sont les points clés.

Gestion des données de référence

Les données de base font référence aux données décrivant les entités commerciales de base, telles que les clients, les produits, les employés, les comptes, etc., qui ont une valeur commerciale élevée et peuvent être réutilisées dans divers départements commerciaux et existent dans plusieurs systèmes d'application hétérogènes.

La gestion des données de base intégrera les données les plus essentielles et les plus partagées (c'est-à-dire les données de base) de plusieurs systèmes commerciaux de l'entreprise pour un nettoyage et un enrichissement centralisés, et distribuera les données de base aux types opérationnels et analytiques au sein de l'entreprise sous forme de services. application.

L'objectif de la gestion des données de base est de garantir que les données de base restent cohérentes lorsque les données sont utilisées sur plusieurs systèmes et plates-formes.

Gestion de la qualité des données

Le système de gestion de la qualité des données comprend le jugement de la qualité des données et toutes les activités et processus qui garantissent et améliorent la qualité des données, en s'efforçant d'obtenir une gestion complète de la qualité des données.

Parmi eux, l'optimisation et l'amélioration de la qualité des données est une activité de gestion de la qualité des données qui est orientée vers les données de stock, analyse et nettoie les données par lots selon les systèmes ou les sujets de l'entreprise, et améliore la qualité des données existantes.

La gestion et le contrôle de la gestion de la qualité des données nécessitent d'abord l'établissement de règles et réglementations pertinentes au sein de l'entreprise, et la désignation de départements correspondants pour les données selon différents domaines afin d'assurer l'amélioration continue de la qualité des données.

Figure 2 Attribution et traçabilité des problèmes de qualité des données 

Comme le montre le diagramme en arête de poisson ci-dessus, les problèmes de qualité des données ont de nombreuses raisons, parmi lesquelles le personnel, les processus et la saisie frontale du système d'entreprise sont les principaux problèmes de qualité des données ; la conception de la base de données principale du système d'entreprise, l'extraction des données, les données le chargement, etc. sont des problèmes secondaires de qualité des données.

Visant le problème de la qualité des données brutes, il est possible de réduire la probabilité d'erreurs lors de la saisie frontale en améliorant l'automatisation et la facilité d'utilisation de la saisie.

Pour les problèmes de qualité des données secondaires, certaines vérifications de points enterrés sont ajoutées dans le processus de transfert de données pour effectuer une comparaison des données afin d'éviter les erreurs de données.

gestion des métadonnées

Les métadonnées sont utilisées pour décrire les données des données, ce qui équivaut au catalogue de livres. Ce sont les informations explicatives des données, afin que les utilisateurs des données puissent comprendre les caractéristiques, le contenu, la fonction et les méthodes d'acquisition des données, et si les données peut répondre aux exigences d'utilisation Des évaluations appropriées sont requises.

Dans le système de gouvernance des données, les métadonnées peuvent être divisées en quatre types : métadonnées métier, métadonnées techniques, métadonnées opérationnelles et métadonnées de gestion.

La gestion des métadonnées est divisée en quatre niveaux : collecte, gestion, classification et service, impliquant de nombreux maillons tels que la formulation standard, la maintenance supplémentaire, la classification de gestion, l'analyse des liens sanguins et les statistiques de requête.

Pour les grandes entreprises, l'échelle des métadonnées est relativement grande, et beaucoup de main-d'œuvre et de temps sont nécessaires pour réaliser la gestion des métadonnées, et le cycle de projet est souvent en unités d'années.

De plus, la gouvernance des données d'entreprise implique également les normes de données, la sécurité des données, le cycle de vie des données, etc., ce qui ne sera pas répété ici.

 Défis de la gouvernance des données

Avec l'émergence continue de nouvelles technologies et la croissance rapide du volume de données, le système traditionnel de gouvernance des données est confronté aux défis suivants lors de la mise en œuvre :

  • Coûts élevés de gestion des métadonnées : La mise en place des métadonnées métiers nécessite l'intervention et l'identification du personnel métier, chaque plateforme de données doit être renseignée, et les métadonnées opérationnelles de transfert de données doivent également être renseignées, d'où des coûts d'enregistrement élevés.
  • La qualité des données est difficile à garantir : dans le processus de transfert de données entre les plates-formes, des problèmes secondaires de qualité des données se produiront et de nombreux travaux de vérification des points enfouis sont nécessaires.
  • Les normes de données sont compliquées : chaque plate-forme de données doit vérifier les normes de données, et il est difficile de garantir la cohérence des normes de données entre les plates-formes.
  • Stratégie complexe de synchronisation des données : la plate-forme de données de référence doit synchroniser les données de référence sur plusieurs plates-formes de données, ce qui nécessite une stratégie de synchronisation complexe, sinon elle peut être confrontée au problème de versions de données de référence incohérentes.
  • Les données sensibles sont difficiles à gérer de manière centralisée : les données sensibles sur chaque plate-forme de données doivent être régulièrement identifiées, et le transfert de données entre plates-formes nécessite un chiffrement et un déchiffrement, ce qui rend la maintenance difficile.
  • Long cycle de réponse des services de données : les services de données doivent être traités et transmis via plusieurs plates-formes de données, ce qui allonge le temps de réponse des services de données.

Gouvernance des données sous Cloud Native Data Platform

À l'heure actuelle, le cloud computing a eu un impact et des changements profonds sur l'architecture informatique de l'entreprise. La plate-forme native du cloud peut réduire considérablement la charge de gestion et de gouvernance des données susmentionnée et raccourcir le cycle de réponse. Gouvernance des données basée sur la plate-forme native du cloud il s'est avéré.

 Figure 3 Système de plate-forme cloud native et gouvernance des données 

Comme le montre la figure ci-dessus, par rapport au système de données traditionnel, le système de plate-forme de données cloud native présente les caractéristiques suivantes :

  • Service de données agile à guichet unique : grâce au portail de données à guichet unique, récupérez rapidement les actifs de données, développez de manière agile de nouveaux services et produits de données, publiez rapidement en ligne, interagissez avec les utilisateurs et mettez à jour de manière itérative, et accumulez la valeur des actifs de données d'entreprise dans un roulement manière.
  • Plate-forme de données native dans le cloud : adopte une architecture de séparation stockage-informatique, prend en charge nativement OneData, assure la cohérence des données de base de l'entreprise et réduit la complexité de la gouvernance des données ; selon la forme d'entreprise, réalise une mise à l'échelle élastique des ressources, une planification dynamique et une haute simultanéité pour répondre aux exigences flexibles de divers scénarios commerciaux. En même temps, il a une capacité d'auto-réparation et améliore la disponibilité du système.
  • Plate-forme de prise en charge des mégadonnées natives du cloud : fournit une prise en charge stable des plates-formes de données natives du cloud, réalise une séparation stockage-informatique, une planification flexible, une meilleure isolation des ressources et d'autres fonctionnalités, et prend également en charge les déploiements de cloud hybride et d'autres environnements hétérogènes pour assurer la continuité des activités. La flexibilité aide les entreprises atteignent rapidement leurs objectifs commerciaux.

Alors que les nouvelles technologies continuent de mûrir, que les scénarios d'application continuent d'augmenter et que les modèles commerciaux deviennent plus complexes, le concept de gouvernance mondiale des données est de plus en plus apprécié par les entreprises. Les données globales couvrent les données internes et externes liées à l'entreprise et sont étroitement liées à la nature commerciale et commerciale de l'entreprise.

La "séparation du stockage et de l'informatique" de la plate-forme de données native du cloud réalise la fusion globale des données au sein de l'entreprise, intègre des plates-formes de données dispersées, élimine complètement le phénomène des îlots de données et permet une gestion centralisée de la sécurité des données pour réduire les failles de sécurité. problèmes de qualité ; gestion à guichet unique du maître, des métadonnées, des normes de données, de l'architecture des données et des modèles pour les données mondiales, ce qui réduit considérablement la complexité de la gouvernance des données ; dans le même temps, les services d'actifs de données natifs du cloud rendent également les entreprises Être plus agile, s'adapter à l'évolution rapide du marché et itérer en permanence les actifs de données pour réaliser la transformation numérique.

À l'heure actuelle, HashData, en tant que principale plate-forme de données cloud native en Chine, a atteint une utilisation commerciale à grande échelle dans de nombreux domaines tels que la finance, les télécommunications, les affaires gouvernementales, l'énergie, les transports, etc., aidant les entreprises à mener à bien la gouvernance mondiale des données. efficacement et commodément.

Figure 4 HashData est implémenté dans une grande banque publique

Prenant l'exemple d'une grande entreprise publique, la plate-forme de données native cloud HashData a été utilisée pour intégrer toutes les plates-formes d'analyse P9, et les données mondiales ont été divisées en domaines, qui ont réalisé une gestion et un contrôle centralisés des données, et intégrés et unifiés. architecture de données.

Dans le même temps, les plateformes de données de toutes les branches sont collectées pour fournir des données globales et des ressources informatiques de manière unifiée. Basé sur un stockage partagé, il gère une vue unifiée et axée sur l'analyse des données de l'ensemble de la banque au niveau de l'entreprise et établit plusieurs clusters informatiques en fonction de différents scénarios d'application. Après autorisation, n'importe quel cluster informatique peut accéder à toutes les données du stockage partagé pour compléter traitement et calcul d'entreprise, ou interrogation et analyse en ligne.

Grâce à la plate-forme de données unifiée, la meilleure pratique du modèle de données unifié peut être utilisée dans l'ensemble de la banque, évitant les différences de modèle causées par différentes piles technologiques, réduisant les problèmes de qualité des données secondaires et les opérations de métadonnées, et réduisant considérablement les coûts de gestion des données.

À l'avenir, nous sommes impatients d'apporter les dernières pratiques technologiques natives du cloud à tous les horizons, permettant aux entreprises de réaliser OneData et de libérer facilement la valeur des données !

Je suppose que tu aimes

Origine blog.csdn.net/m0_54979897/article/details/131400125
conseillé
Classement