1 数据仓库项目
1.1 数据仓库概念
数据仓库(Data Warehouse)①日志采集系统②业务系统数据③爬虫系统等获得的数据进行清洗、转义、分类、重组、合并、拆分、统计等操作。
1.2 项目需求
- 用户行为数据采集平台的搭建(前端埋点日志数据)
- 业务数据采集平台的搭建(MySQL业务数据)
- 数据仓库维度建模(hive数据分层:ods、dwd、dws、dwt、ads)
- 即席查询工具,随时进行指标分析(es、kibana)
- 集群性能监控
- 元数据管理
- 质量监控
2 架构设计
2.1 技术选型
数据采集传输:Flume(日志采集,采集用户行为数据)、Kafka(消息队列、消息中间件)、Sqoop(关系型数据库<->HDFS,采集数据库中数据)、Logstash、DataX(非关系型数据库)
实时采集:(Sqoop不能做实时的采集关系型数据库的任务)、实时采集用到的是maxwell或者canal(