数仓分层总结

数仓分层:
ODS层
(1）保持教据原貌不做任何修改，备份
(2）创建分区表，防止后续的全表扫描
(3）采用Lzo压缩，并创建索引（切片）
(4）创建外部表（多人共用）`内部表（自己使用的临时表）

DWD层
(1）数仓维度建模（星型模型）=》维度退化
商品表+品类表+SPU表+三级分类+二级分类+一级分类=》商品表
省份+地区表=》地区表―活动表+活动规则表=》活动表
好处:减少后续大量JOIN操作。
(2）数据清洗（ETL）专门的岗位，hive sql 、MR、Python、Kettle、SparksQL
(3）采用Lzo压缩
(4）parquet列式存储
(5）脱敏（手机号、身份证号、个人）
(6）对用户行为数据，进行解析event事件表（10张表，解析）

DWS层
每天各个主题的行为数据，会站在维度的角度去分析
用户、商品、优惠卷主题

ADS层
从开始创建，一直到现在的累积数据

为什么数仓分层?
减少重复操作
方便问题定位
隔离原始数据
数据集市和数仓概念
数据集市针对部门级，数据少—些
敬仓针对的是公司级，敬据多

三范式:
(1）多属性不可切割 5台电脑
(2）不存在部分函数依赖 AB=》C A或者B=》C猜分
(3）不存在传递函数依赖 A=》B=》C 但是C推不出A

OLTP 和OLAP
(1）OLTP mysql
(2）OLAP hive . spark

维度建模:
星型模型:事实表周围一级维度
雪花模型:事实表周围多级维度
星座模型:多个事实表，共用维度

维度建模一般按照以下四个步骤：选择业务过程→声明粒度→确认维度→确认事实
选择业务过程
述择感兴翻:下单、支付、退款、活动
全部业务线（前提:时间允许）淘宝、天猫、支付宝妳先做淘宝、后续逐渐做

声明粒度
一行代表信息:一条订单、一天的订单、一周的订单
选择最小粒度

确认维度
维度退化:谁什么时间什么地点

确认事实
度量值个数、件数、金额

DWS、DWT主题宽表在维度的视觉看待业务过程
ADS出报表

猜你喜欢