Comprendre les données de base et les données de référence dans un seul article

Si vous êtes sur le point de démarrer un projet qui pilote la gouvernance ou la qualité des données, il y a de fortes chances que vous ayez entendu quelques termes : données de référence et données de référence. Lorsque vous entendez pour la première fois le terme données de base, cela semble très élevé et n'est certainement pas compris par les non-professionnels (même les amis qui travaillent dans l'industrie des données sont difficiles à comprendre). Cette rubrique répondra aux questions suivantes :

1. Qu'est-ce qu'une donnée de référence ?
2. A quoi servent les données de base ?
3. Qu'est-ce qu'une donnée de référence ?
4. A quoi servent les données de référence ?
5. Quelle est la relation entre les données de base et les données de référence ?

définition des données de base

D'après la définition de l'encyclopédie Baidu, les données de base font référence aux données partagées entre les systèmes, également appelées données de référence , qui décrivent les personnes, les lieux et les éléments impliqués dans les activités de l'organisation (c'est-à-dire ce que nous appelons souvent les personnes et les cours de marchandises) , telles que les données relatives aux clients, aux employés, aux fournisseurs, les données de lieu (emplacement, zone de vente), les choses (comptes, produits, actifs), etc. dans une entreprise sont des données de base, car ces données sont souvent utilisées par plusieurs processus métier et Les systèmes informatiques et les données de base peuvent être utilisés pour analyser et piloter les processus métier afin d'améliorer l'efficacité opérationnelle.

J'ai l'impression de tout comprendre, mais j'ai l'impression de ne rien comprendre.
image
Ensuite, nous pouvons littéralement le comprendre comme les données principales, quelles sont les données principales ? Il joue un rôle clé dans l'ensemble du processus métier de l'entreprise et il s'agit de données relativement couramment utilisées. Les données générées dans le processus métier de base sont des données de base. D'après cette explication, on peut conclure que les données de base sont un moyen de détecter si le développement de l'entreprise est sain, mais cette compréhension est quelque peu biaisée. Une définition légèrement plus stricte est que les données de base sont des données de base non transactionnelles utilisées dans toute l'entreprise. Remarque : Il s'agit de données non transactionnelles . Par exemple, vous pouvez voir certaines données de transaction dans le système ERP, telles que la date et le numéro de la commande, l'emplacement, le montant, la marchandise, l'utilisateur, le fournisseur, le magasin et d'autres informations. Ensuite, les produits, les fournisseurs, les utilisateurs et les emplacements de ces informations sont tous des données de base, c'est-à-dire que les données principales participant au processus de base sont toutes des données de base. Ces entités fournissent des informations contextuelles pour les transactions commerciales et l'analyse . Allez ici I je me demande si vous comprenez un peu le concept de données de base ?

Bien sûr, à travers cet exemple, certains lecteurs peuvent avoir des doutes, quel est le relevé de transaction de la commande ? En fait, un autre type de données a été développé ici : les données de transaction , c'est-à-dire que ces données d'entité sont combinées pour générer un enregistrement d'activité d'événement, puis cet enregistrement appartient aux données de transaction. Tels que les enregistrements d'appels, les enregistrements de ventes et d'autres événements. Il semble que les données de base soient intégrées dans les données de transaction, mais par rapport aux données de transaction, les attributs des données de base sont relativement stables et les exigences de fiabilité sont élevées, elles doivent donc être identifiées de manière unique. impliqué, imageici Comparons-le avec un autre nom : metadata Pour la définition et le concept de metadata, vous pouvez voir l'introduction de Wanzi à 25 solutions de gestion de metadata (dont des vidéos, recommandées pour la collecte) . La différence entre les métadonnées et les données de référence est mentionnée dans le "White Paper on Master Data Management Practice" publié par l'Institute of Communications. L'éditeur pense qu'il est très clair. Le concept de données de référence est choisi parmi les métadonnées, qui représentent la clé et données générales du fonctionnement de l'entreprise. Il s'agit d'un concept relativement subjectif. Les données de base ne sont pas seulement des informations d'en-tête, mais comprennent également des données d'instance "

imageEnsuite, les métadonnées sont impliquées ici, et vous pouvez les associer à l'entrepôt de données.Les données de base sont en fait quelque peu similaires à l'entrepôt de données, mais les données de base ne peuvent pas être complètement assimilées à l'entrepôt de données. Tout d'abord, les données de référence et les entrepôts de données ont une chose en commun : l'intégration . Comme les données de référence sont des données partagées entre les entreprises, les systèmes et les services, il est nécessaire de gérer de manière centralisée les données partagées par chaque système d'entreprise, ce qui réduit Le problème de la redondance et de l'incohérence des données est éliminé ; l'entrepôt de données est également intégré pour les données, et toutes les données sont placées dans un « entrepôt » pour que tout le monde dans l'entreprise puisse les vérifier (bien sûr, la sécurité des données doit être prise en compte). Après avoir fait le tri de cette manière, vous devriez en fait trouver la différence entre les deux. L'entrepôt de données est orienté vers toutes les données, c'est-à-dire que tous les arrivants sont acceptés, et tous sont acceptés ; mais les données de base ne sont pas toutes les données intégrées. , mais les données de base. Seules les données à forte densité de valeur seront gérées de manière centralisée.
image

Il existe également une différence entre la direction du flux de données et l'actualité : pour les entrepôts de données, il est généralement à sens unique, c'est-à-dire qu'une fois que les données sont entrées dans l'entrepôt à partir du système d'entreprise, elles sont traitées par ETL, puis hors de l'entrepôt pour analyse de décision ; alors que les données de base proviennent du système d'entreprise, et en même temps La modification des données de base doit être appliquée au système de l'entreprise en temps réel. Par exemple, si l'adresse ou les coordonnées du client changent, elles doivent être synchronisées immédiatement avec le système de l'entreprise, sinon les données historiques peuvent être utilisées, affectant l'entreprise. expérience des services.image

Le rôle et les caractéristiques des données de référence

imageDès la définition du début, nous pouvons comprendre sa première caractéristique : le partage ; les données de référence sont des données partagées entre les systèmes et les services. Puisqu'il s'agit de données partagées, le problème d'incohérence des données entre les systèmes peut être résolu. Par exemple, un utilisateur peut avoir différentes informations locales (telles que le déplacement) entre plusieurs systèmes. Si chaque système utilise ses propres informations d'adresse, il y aura certainement des problèmes à la fin. Si chaque système utilise uniformément la dernière adresse, ce problème n'a pas à être pris en compte, ce qui améliore également le processus de collaboration (en effet, le périmètre de la gestion des données de référence MDM doit être impliqué ici pour assurer la spécification standard et unifiée des données de référence ). En même temps, parce que les données sont partagées, elles ont une grande valeur pour l'entreprise. Comme il s'agit de données de grande valeur, il n'est pas exagéré de les nommer données de référence. imageÀ partir de la phrase ci-dessus, nous pouvons la simplifier pour obtenir deux mots : partage et valeur ; étant donné que ce type de données est partagé et a une valeur relativement élevée, il est nécessaire d'assurer la qualité des données, et elles ne peuvent pas être modifiées fréquemment (aïe , cela ressemble un peu à des dimensions qui changent lentement), si chaque système partage cette partie des données et que la qualité ne peut être garantie, le développement de l'ensemble de l'entreprise sera très dangereux, et si les changements sont fréquents, le coût de maintenance de chaque système sera augmenté, et le risque augmentera également , On peut dire qu'il tire tout le corps.image

Définition des données de référence

La définition des données de référence dans le Guide du corpus de connaissances sur la gestion des données de DAMA est "toute donnée pouvant être utilisée pour décrire ou classer d'autres données, ou pour lier des données à des informations extérieures à l'organisation". Cette définition peut être considérée comme relativement abstraite. En termes simples, ce sont des données dimensionnelles, le dictionnaire de données que tout le monde comprend généralement. La fonction principale de ce type de données est d'améliorer la lisibilité et l'interprétation des données, telles que le code de statut, le sexe , produit Données dimensionnelles telles que les tables de dimensions et les informations géographiques. On peut voir que la source des données de paramètres peut être générée en interne ou collectée manuellement en externe (comme les codes standard internationaux, les normes de l'industrie)

caractéristiques

Les caractéristiques des données de référence sont les mêmes que celles des tables de dimension, il existe des dimensions lentes et des dimensions rapides.

Différence entre les données de référence et les données de base

Les données de base et les données de référence sont généralement deux types de données différents.
1. Du point de vue de la définition, les données de base sont les données représentant les objets métier, composées d'entités métier clés, qui contiennent les informations les plus précieuses partagées par l'ensemble de l'organisation ; tandis que les données de référence définissent un ensemble de valeurs autorisées​​utilisées par d'autres champs de données Les données, qui contiennent des descriptions textuelles supplémentaires, ressemblent davantage à un dictionnaire de données
2. Du point de vue de la portée, les données de référence sont un sous-ensemble spécial des données de base.
Le tableau ci-dessous résume la différence entre les données de base et les données de référence :image

Les références:

  1. "Livre blanc sur la pratique de gestion des données de référence 1.0" publié par la China Academy of Communications

  2. Guide du corpus de connaissances sur la gestion des données DAMA

Je suppose que tu aimes

Origine blog.csdn.net/qq_28680977/article/details/121940112
conseillé
Classement