关于目前游戏直播平台数据仓库建设规划的思考

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/BabyFish13/article/details/81366253

大数据平台etl:sqoop、dataX,及airflow;python串联sql。
sqoop、dataX进行数据的抽取及传送;airflow进行调度;用python进行封装和编码。

游戏直播公司的数据仓库分层设计:
贴源设计的ODS层;主题设计的数据整合层;按需维度设计的集市层。
贴源ODS层数据分为两大类,一类是来源于业务系统数据库、一类是来源于日志,包括系统access log日志及因业务需要的各项打点日志。
日志数据按原始粒度保存在oss上,数据库数据保存在hdfs上;根据其数据量作增量或全量拉取。
整合层SOR主题是有层次的;现在整合层的主题可以考虑划分如下: 用户、主播、支付、活动、协议。
其中,用户下又有用户观看、弹幕、打赏、会话互动等,及与用户基本属性(身份证号,性别,联系属性电话、邮箱、邮寄地址)等。
主播的信息包括主播的房间、收礼、弹幕、评级等。
整合层可以考虑将其设计成一个包括尽可能多的属性的整合宽表。
集市层主要是根据实际的业务展示及部门需要而建立的维度模型的数据集合。
主要有运营集市、商务集市、财务集市、活动集市以及各项专题分析集市(留存分析、日活分析)等。
集市层DM主要采用维度建模,包括不同粒度的汇总数据;是各种抽象化的数据。
数据应用层ADS,直接面向最终端的报表,其数据来源可以是以上三层的任意一层。

猜你喜欢

转载自blog.csdn.net/BabyFish13/article/details/81366253