数据质量检测

完整性

1.Row Count 比较:

    1). 增量的ETL job

    2). 错误的ETL

    3). 在开发过程中容易丢失的测试:对每一个表run test case 表容量;(Year, Month, Week)

2. Row Trend 分析:数据总数和历史趋势不一致。

   1). source的异常变化

   2). ETL job和脚本中的异常update和delete操作。

  • 测试:分析总行数的趋势; 一些重要的列看下趋势还要看下ditnct;最好看下NULL值 (AVG Row count/7 days)(Row count/day)(Trend/3 days)

3. 数据刷新: 数据源的稳定性和失败的job

          测试: 检查source和target运行时间

一致性

1. ETL 逻辑:数据转换清洗中的准确性

    1) 数据源和目标db的不一致
    2) 业务逻辑的不正确(add or update a measure, attribute 等等)
    3) 丢失外键
    4) 维度表和事实表中重复记录

2. Cube 多位数据集
   1) 错误的hierarchy
   2) measures 不符合业务逻辑
   3) kpi 逻辑不正确

准确性

1. 数据验证
     1) 表结构的改变
     2) 列长改变引起的不一致
     3) 数据类型不正确
2. 业务逻辑的验证
    1) 维度表的时效性,一般是由于维度变化引起的。
    2) 一些小于0%或者>100%的异常
    3) 一些不期待的负值
   4) ETL中一些错误的mapping逻辑
   5) Email地址明显的错误, 年龄,邮政编码等
3. 用户测试情景
  1) 用户query结果和业务不一致
  2) 不同系统的报表结果不一样

猜你喜欢

转载自www.cnblogs.com/Jesse-Li/p/12897155.html