数仓分层总结

数仓分层:
ODS层
(1)保持教据原貌不做任何修改,备份
(2)创建分区表,防止后续的全表扫描
(3)采用Lzo压缩,并创建索引(切片)
(4)创建外部表(多人共用)`内部表(自己使用的临时表)

DWD层
(1)数仓维度建模(星型模型)=》维度退化
商品表+品类表+SPU表+三级分类+二级分类+一级分类=》商品表
省份+地区表=》地区表―活动表+活动规则表=》活动表
好处:减少后续大量JOIN操作。
(2)数据清洗(ETL)专门的岗位,hive sql 、MR、Python、Kettle、SparksQL
(3)采用Lzo压缩
(4)parquet列式存储
(5)脱敏(手机号、身份证号、个人)
(6)对用户行为数据,进行解析event事件表(10张表,解析)

DWS层
每天各个主题的行为数据,会站在维度的角度去分析
用户、商品、优惠卷主题

ADS层
从开始创建,一直到现在的累积数据

为什么数仓分层?
减少重复操作
方便问题定位
隔离原始数据
数据集市和数仓概念
数据集市针对部门级,数据少—些
敬仓针对的是公司级,敬据多

三范式:
(1)多属性不可切割 5台电脑
(2)不存在部分函数依赖 AB=》C A或者B=》C猜分
(3)不存在传递函数依赖 A=》B=》C 但是C推不出A

OLTP 和OLAP
(1)OLTP mysql
(2)OLAP hive . spark

维度建模:
星型模型:事实表周围一级维度
雪花模型:事实表周围多级维度
星座模型:多个事实表,共用维度

维度建模一般按照以下四个步骤:选择业务过程→声明粒度→确认维度→确认事实
选择业务过程
述择感兴翻:下单、支付、退款、活动
全部业务线(前提:时间允许)淘宝、天猫、支付宝妳先做淘宝、后续逐渐做

声明粒度
一行代表信息:一条订单、一天的订单、一周的订单
选择最小粒度

确认维度
维度退化:谁 什么时间 什么地点

确认事实
度量值个数、件数、金额

DWS、DWT主题宽表 在维度的视觉看待业务过程
ADS出报表

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/107647142