持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第23天,点击查看活动详情
摘要
随着大数据时代的到来,企业挖掘出隐藏巨大的数据价值给带来了更多的市场机会。大数据存储,处理和处理的研究已是企业未来发展的趋势,因此,将开展基于Hadoop + Hive框架进行电子商务数据分析,搭建一个大数据集群平台,用于通过电商案例的存储,处理,分析和可视化展示的实验迎向困难该挑战
数仓的总体设计
数据仓库概念
DataWarehouse是一套策略,可为公司提供决策和数据支持。
数仓分层概述
根据实际生产情况,数据仓库通常分为三层。
-
数据引入层:将采集到的数据不做处理导入到数据仓库,数据的类型结构与源数据一致,使用压缩分区减少磁盘的空间,是数据备份层
-
数据公共层(CDM,CommonDataModel):包括DIM维度表,DWD和DWS。对数据处理和集成、维度建模,构建多个维度的事实宽表,并汇总粒度指标,统计报表,指标分析。
- DIM(通用维度层次结构):维度建模,设置了维度和算法风险。维级别表就是一一对应逻辑维表。
- DWS(服务层) :构造粗粒度事实表。提供命名标准和统计指标,轻度聚合,针对一个维度进行分析,构建多个维度的事实宽表。细粒度事实层(DWD):根据业务流程进行ETL清洗(空值,重复值,异常值等),在对部分维度表降维,事实表中的某些字段可能保留。事实层的表也叫逻辑事实表。
- 数据应用层(ADS,ApplicationDataService):ADS 层针对某一个特定的维度CDM和dws层进行的汇总,统计报表,指标分析
数据源
业务数据:它通常由事务性流程处理创建,因此通常存储在关系数据库中,例如mysql和oracle业务数据源:用户基本信息,产品分类信息,产品信息,商店信息,订单数据,订单付款信息,事件信息。物流信息等 埋点日志:相对业务数据用于数据分析和挖掘需求,通常以日志格式存储。在分布式集群存储收集用户的行为日志 数据转换:创建DataFrame文件读取结构化的csv文件步骤:将csv文件加载到RDD并转换为DataFrame。主要进行数据分析的数据资源。
数据可视化模块
可视化工具的选择
- 报表工具是集数据查询、数据录入数据和展示(报表)和辅助开发基于BS软件系统的工具,而商业智能是对数据进行分析、决策支持的工具。报表工具可以生成各类数据报告。
- BI可以对数据建模并将其转换为控制面板。与报告相比,它专注于分析,简单操作和大数据处理。它通常基于企业构建的数据平台,并连接到数据仓库以进行分析。
可视化工具的介绍
简介
Superset是企业级BI分析工具。可对接多种数据源和简单操作展示图标,自定义仪表盘实现可视化报表,且易于维护和易于二次开发。
功能
- 丰富的数据可视化设置
- 易于使用的界面来浏览和可视化数据
- 创建和共享仪表板
- 与主要身份验证提供程序集成的企业级身份验证(通过Flask AppBuilder,OpenID,LDAP,OAuth和REMOTE_USER集成的数据库)
- 简单语义层允许用户使用安全性/权限模型定义下拉列表中的字段,使用聚合功能命令操纵数据源的显示模式。
- 与大多数通过SQLAlchemy讲SQL的RDBMS集成
- 与Druid.io的深度集成
部分运行截图