BD项目

点击流分析

首先通过flume从web中获得日志

放到hdfs通过m (之所以不直接用hive来处理

是因为一些结构比较复杂的数据,hive不大容易处理

mr 适合处理复杂的数据,比如杂乱的shuju

而hive比较适合处理有结构有组织的数据,比如数据库中的数据,所以首先用mr处理成比较干净的数据

)r清洗,干净数据放到hive中etl(extract transform load) 成报表

报表 sqoop->mysql-》echart

任务调度 azakban协调全部

猜你喜欢

转载自blog.csdn.net/qq_38250124/article/details/80138554
BD