一、项目框架版本
名称 | 版本 |
---|---|
hadoop | 3.1.3 |
flume | 1.9.0 |
kafka | 2.11-2.4.1 |
zookeeper | 3.5.7 |
mysql | 5.1.27 |
sqoop | 1.4.6 |
spark | 3.0.0 |
hive | 3.1.2 |
二、数仓分层
- ODS :原始数据层
- DWD:数据明细层
- DWS:数据服务层,轻微聚合
- DWT:数据主题层,
- ADS:数据应用层。
本项目采用星型维度建模
三、数仓搭建
3.0 安装思路
1、配置sparkOnhive
--注意配置spark_home到环境变量
2、配置hive
--配置元数据到mysql
--配置相关中文注释
--配置hiveonspark,在hive-site.xml文件中配置:①spark的依赖位置,②hive执行的引擎
3、上传纯净的spark的jar包到hdfs上
4、配置hadoop上容量调度器(capacity-schdualer.xml)
5、配置hive提交任务到哪个队列上(hive-site.xml)