【大数据】】大数据开发工程师微专业直播课学习笔记(1)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ARPOSPF/article/details/83018084

什么是数据仓库

数据仓库是为企业的决策提供数据支持的战略集合。

  • 一个面向主题的(Subject Oriented)
  • 集成的(Integrated)
  • 相对稳定的(Non-Volatile)
  • 反应历史变化(Time Variant)

传统数据仓库发展历史

  • Inmon数据仓库
    • Inmon数据仓库是采用自上而下的方法,它将数据仓库定义为整个企业级的集中存储库。数据仓库存放着最低的详细级别的原子数据。维度数据集市只是在数据仓库完成以后才创建。因此,数据仓库是企业信息工厂(CIF)的中心,它为交付商业智能提供逻辑框架。
  • Kimball数据仓库
    • Kimball数据仓库采用自下而上的方法,它首先建立最重要的业务单元或部门的数据集市。这些数据集市可以为透视组织数据提供一个较窄的视图,需要的时候,这些数据集市还可以与更大的数据仓库合并在一起。Kimball将数据仓库定义为“一份针对查询和分析做特别结构化的事务数据拷贝”,Kimball的数据仓库结构就是著名的数据仓库总线。维度模型关注的重点是:如何使最终用户访问数据仓库更容易,并有较高的性能。

传统数据仓库发展历史

  • 约在1991年前的全企业集成
  • 1991年后的企业数据集成EDW时代
  • 1994-1996年的数据集市
  • 1996-1997年左右的两个架构吵架
  • 1998-2001年左右的合并时代

数据的变化

时代 非互联网时代 互联网时代 移动互联玩网时代
数据来源 结构化各类数据库(DB系统)、结构化文本、Excel表格等,少量word Web、自定义、系统的日志,各类结构化DB数据吗、长文本、视频,主要来自网页 除了互联网那些外还包含大量定位数据、自动化传感器、嵌入式设备、自动化设备等
数据包含信息 CRM客户信息、事务性EPR/MRPII数据、资金账务数据等 除了传统企业数据信息外,还含有用户各类点击日志、社交数据、多媒体、搜索、电邮数据等等 除了传统互联网的数据外,还含有GPS、穿戴设备、传感器各类采集数据、自动化传感器采集数据等等。
数据结构特征 几乎都是结构化数据 非结构化数据居多 非结构化数据居多
数据存储/数据量 主要以DB结构化存储为主,从几百兆到几百G级别 文件形式、DB形式、流方式,从TB到PB 文件形式、流方式、DB范式、非结构化,从TB到PB

工具的变化

从关系型数据库到分布式生态

大数据的数据仓库特点

  • 互联网时代弱化模型

互联网行业在发展初期基本都是直接使用日志和操作型数据库中的表进行数据分析的。但是模型的弱化也带来很多数据质量问题,比如统计口径的不统一,大量的计算冗余和数据冗余等问题。

  • 维度建模仍然是主要的建模方式

互联网数据仓库建模借用了传统维度建模的方法和概念,但是在处理的细节上已经完全不一样,比如数据的多样性、拉宽事实表、度量值单独存储、满足数据快速重生、维度的二次降维处理等、增加大量冗余列、增加大量派生列,结合自动化元素数据来耦合,合并等相关管理。

  • 以Log为核心的Event模型

互联网的分析业务中,大多数都是分析用户在网上的行为,基于Event模型的数据结构可以快速分析跟点击流相关的业务。Event模型简单易处理,基于Log的结构可以使该模型做成准实时的。但该模型也有缺点,比如维度的稀缺,日志打点问题等。目前这种模型十分流行,市面上大部分数据产品都是基于该模型改进的。

整体架构

维度建模

  • 星型模型:一个大的中心表(事实表),一组小的附属表(维表)
  • 雪花模型:是星型模式的扩展个,其中某些维表被规范化,进一步分解到附加表(维表)中。

分层设计

  1. 数据集市层(DM)
  2. 扩展信息层(MIDE)
  3. 中间信息层(MID)
  4. 细节数据层(DWD)
  5. 数据源层(DR)

主题划分

  • 主题设计是对主题域进一步分解,细化的过程。主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。
  • 主题域的划分有利于在更高的抽象层面理解业务,梳理业务的逻辑关系,明确数据分析的对象。

猜你喜欢

转载自blog.csdn.net/ARPOSPF/article/details/83018084