数据仓库-元数据简单总结

是什么

数据的数据。
对使用者提供解释说明,方便快速找到想要的数据。
对开发者提供开发模型指导,提供优化方向,监控异常质量。

元数据主要分为两大类:技术、业务

  • 一、技术元数据
    • 1、表的基本信息、存储信息 (MetaStore、HDFS)
    • 2、计算资源(YARN | Dr-Elephant)
    • 3、调度信息(例:Hera)
    • 4、数据质量 (例:Apache Griffin)
    • 5、血缘关系 (HIVE hook)
  • 二、业务元数据
    • 1、维度建模(维表、事实表、指标)
    • 2、应用层(报表、数据产品)

怎么做

  • 1、收集HIVE表的各种信息(通过JobHistory收集计算资源、调度平台收集调度信息、Metastore&HDFS收集基本信息和存储信息、监控工具收集数据质量、解析开发任务收集血缘关系和表和字段的使用情况)
  • 2、使用血缘关系对HIVE表进行打标签(业务线、重要等级、安全等级)
  • 3、业务元数据,使用工具化平台在开发中进行记录和修改。

应用场景

1、元数据平台
帮助使用者 轻松获取数据

  • 表的使用热度、字段含义、加工逻辑、指标解释
  • 报表的粒度、指标

帮助开发工程师 快速了解

  • 维表的属性、事实表的粒度和事实、和对应的ETL过程;
  • 通过查看表和字段使用和关联情况,判断是否能改进仓库建模;
  • 对于数据质量有异常,快速定位链路中哪出问题;
  • 保证重要任务的整条链路质量和资源;
  • 提供可以下线的任务的数据依据

2、血缘分析 使用场景
异常定位、链路保障、建模优化等…

阿里巴巴大数据之路

发布了53 篇原创文章 · 获赞 50 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/xw514124202/article/details/104461306
今日推荐