元数据与数据治理|大数据治理(第九篇)

   魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。
首先,他们整理了一个治理流程,架构图

然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下:

然后,依照架构图,大致讲了架构图中的每个模块,以及将模块串联起来的一个管理流程,流程图如下: 


流程图上面,其中,“主数据管理” 模块是本人根据理解加的,下文会讲到。

接着,他们重点讲了“元数据管理” 模块。可能是做这方面,他们讲的细一些。主要是“自研”还是使用“开源解决方案”,其中,他们介绍使用了一种叫“Apache Atlas” 的开源框架,来做元数据的管理。他们有一个“元数据平台架构”,包括“多源数据采集”, “WEB UI” 调用”MetaData Api” 做数据展示,而“MetaData Core” 从底层,也就是“Apache Atlas” 获取数据。架构图细节比较多,如图: 

然后,他们介绍了元数据采集,以及数据度量(校验)规则。度量规则如图: 

接着,还有介绍了他们的“数据质量管理系统”,细节比较多,就不上图了。

最后,计算出来的结果数据合不合理,以及准确性高不高?为此,还有个“质量评价体系”,如图: 


其中,指标定义:

  1. 离线任务失败个数
  2. 离线任务整体延迟分钟数
  3. 九点之前未完成的任务数
  4. 流平台告警次数
  5. 规则执行完整度以及报错情况

总之,讲的侧重架构方面,由于本人目前做具体开发方面比较多,现把本人对一些内容的理解分享一下。

先介绍下这些所谓“元数据”门类的概念。

元数据是什么?
元数据(Meta Data)概念是”描述数据的数据” ,听上去,感觉,不是很明白.哈佛大学图书馆项目定义是:”元数据是帮助查找,存取,使用和管理信息资源的信息” .这下清晰了一些, 比如,如果一个app功能是用来查找,存取等管理数据的,那么元数据是用来帮助管理的. 再举一个例子可能更明白一点:例如在一座图书馆中,如果认为每本书的内容都是数据,用来查找每一本书的索引就是元数据.

这下对它的意义和功能清楚了一些,但是在管理元数据中,仅仅知道几个例子是不够的.我找了一张元数据的架构图:

架构图: 


网站上找了一张图,从图上看起来,元数据也是一个牵涉甚广的东西.

元数据的一般存在形式有:

(1) 数据库结构,和表之间的关系描述

(2) 配置文件,如xml格式文件;

(3) Sql 脚本

(4) 流程图

(5) UML图,E-R图

(6) …

以上大多东西,在开发中都会有用到,是实际用到的东西,以前我们知道这些东西,现在我们知道它们都属于元数据. 魅族工作人员有介绍了一种管理工具,叫做”Apache atlas”,它能管理元数据,似乎是一个强大的工具,那么它是什么呢?

它的网站(https://atlas.apache.org/)介绍说:

Data Governance and Metadata framework for Hadoop

用谷歌翻译,就是:用在hadoop上的数据治理和元数据框架工具.

它可以提供哪些功能,这里有个功能图:

它能治理上面提及的元数据形式吗?

有一个使用例子,是用来使用Apache atlas 查看数据血缘关系:

参考索引: 
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html

还有使用例子,是用来定义类型(Type)的:

pdf教程:

https://atlas.apache.org/0.7.1-incubating/AtlasTechnicalUserGuide.pdf

有兴趣可以慢慢研究.

这是它的源代码,应该是吧:

https://github.com/apache/incubator-atlas

总结: 
元数据是一个数据门类,用来描述数据,它的表现形式多样,具有一定的抽象性,对数据整体,或局部数据,都有一些相应的描述语言,规则和工具。 
Apache atlas 是一个hadoop系列的元数据管理工具, 它提供了完成度比较高的功能. 作为大数据开发工作者, 以前用苍白的语言描述自己做的事情, 给之的反馈是真的不屑或假的不屑;现在有了一个可以看的东西, 给之的反馈是真的理解或假的理解.

其实元数据只是数据门类里面的一个类别,其它的还有 主数据,参考数据,交易数据等等.这些也是一个个大类. 
下面介绍一些其它数据类型的概念。

主数据(Master Data)概念

主数据指实例化的企业关键数据.

主数据一般存在形式有:

(1)企业组织架构,如员工,部门等

(2)企业财务数据,如预算,利润,合同等

(3)企业产品等信息. 
(4)…

听起来,开办一个企业,就会有以上的数据,它们叫做主数据.

参考数据(Reference Data)概念

参考数据指帮助解释和理解数据的数据.

比如, 数据库中关于性别(sex)的数据,我们一般用1和2,而不是男和女. 这个1和2 是一个约定俗成的方式;还有,如果一个字段peopleSum ,它表示的是一个村子的人口总数,还是一个国家,还是一个世界的人口,这个注释就是参考数据。如果是国家人口,是哪个国家,国家有哪些,这些国家名的相关字段,也是参考数据。

还有一个数据门类,是交易数据。

交易数据(Transaction Data)的概念

交易数据指用于记录业务事件的数据,比如客户的订单,交易流水,申请记录等。它往往用于描述在某一个时间点上业务系统发生的行为。

介绍了以上几种数据门类,以后在描述数据时,起码对数据范畴和数据的关联会清晰一点,是不是?其实本人,并不知道有什么用。

不过,本人感兴趣的是,应用层面,能否借以上概念做些定性分析?

这里本人做了一点分析:https://blog.csdn.net/cafebar123/article/details/79836259

此外,还介绍了2个图形可视化工具,功能比较不错,以后再研究下:

SuperSet
Metabase
未完待续

参考资料: 
https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0904loulj/index.html 
http://atlas.apache.org/QuickStart.html 
https://github.com/apache/incubator-atlas 
https://wenku.baidu.com/view/9b39d5b5fe4733687f21aa25.html?from=search 
https://atlas.apache.org/ 
https://community.hortonworks.com/articles/36121/using-apache-atlas-to-view-data-lineage.html 
https://hortonworks.com/blog/apache-atlas-project-proposed-for-hadoop-governance/ 
http://www.cbdio.com/BigData/2016-02/16/content_4617126.htm
--------------------- 
作者:texture_texture 
来源:CSDN 
原文:https://blog.csdn.net/cafebar123/article/details/79776701 
版权声明:本文为博主原创文章,转载请附上博文链接!

猜你喜欢

转载自blog.csdn.net/zzhuan_1/article/details/86245677