离线数仓01-用户行为日志采集平台

1 数据仓库项目

1.1 数据仓库概念

数据仓库(Data Warehouse)①日志采集系统②业务系统数据③爬虫系统等获得的数据进行清洗、转义、分类、重组、合并、拆分、统计等操作。

1.2 项目需求

  1. 用户行为数据采集平台的搭建(前端埋点日志数据)
  2. 业务数据采集平台的搭建(MySQL业务数据)
  3. 数据仓库维度建模(hive数据分层:ods、dwd、dws、dwt、ads)
  4. 即席查询工具,随时进行指标分析(es、kibana)
  5. 集群性能监控
  6. 元数据管理
  7. 质量监控

2 架构设计

image-20201105211844132

2.1 技术选型

数据采集传输Flume(日志采集,采集用户行为数据)、Kafka(消息队列、消息中间件)、Sqoop(关系型数据库<->HDFS,采集数据库中数据)、Logstash、DataX(非关系型数据库)

实时采集:(Sqoop不能做实时的采集关系型数据库的任务)、实时采集用到的是maxwell或者canal(

猜你喜欢

转载自blog.csdn.net/qq_43523503/article/details/114424861