数据挖掘概念与分析第四章笔记

数据仓库与联机分析处理

构造数据仓库涉及数据清理,数据集成和数据变换 。那么什么是数据仓库呢?

数据仓库的定义很多,William H的说法是:数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,支持管理者的决策过程。数据仓库和数据库有什么不同?

名称 数据特点 技术 应用 区别
数据库 有组织,可共享,统一的结构存储数据 联机事务处理(OLTP) 银行交易和订单服务

1面向事物而设计的

2主要是在线交易数据

3结构设计原则不同-数据的访问效率要高,有一定的范式约束

数据仓库 面向主题的,集成的,时变的,非易失的数据集合 联机分析处理(OLAP) 根据不同的主题,对于失去时效性的数据进行分析

1面向主题而设计的

2历史数据

3结构设计原则不同-反范式设计

说起数据仓库就不得不说的一项技术联机分析处理(OLAP),还有另外一种技术联机事务处理(OLTP)用于数据库操作。

联机事务处理(OLTP):联机操作数据库的主要任务是执行联机事务和查询操作,覆盖了单位的大部分日常操作。

联机分析处理(OLAP):可以用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求

这两者有什么区别呢?

特征 联机事务处理(OLTP) 联机分析处理(OLAP)
用户和系统面向性 面向顾客的 面向市场的
数据内容 管理当前的数据,确保最新 管理大量的历史数据,提供汇总和聚集机制,跨时间维护
数据库设计 采用E-R图和面向应用的数据库设计 采用星形或雪花模型和面向主题的数据库设计
视图 详细,一般 汇总的,多维度的
访问模式 读/写 大多为读

书中还提到为什么需要分离的数据仓库,主要是为了提高两个系统的性能。详细的介绍书中已经解释的很清楚了,了解一下即可

数据仓库采用三层体系结构

底层是仓库数据库服务器:几乎总是一个关系数据库系统,这一层还包括元数据库,存放关于数据仓库和它的内容信息

中间层是OLAP服务器:典型的实现使用关系OLAP(ROLAP)和多维OLAP(MOLAP)模型

顶层是前端客户层:包括查询和报告工具,分析工具和数据挖掘工具

数据仓库模型:从结构角度来看

 企业仓库:收集了关于主题的所有信息,跨越整个企业

数据集市:包含企业范围数据的一个子集,如销售部们的数据集市,开发部分的数据集市

虚拟仓库:是操作数据库上视图的集合。

元数据库: 

元数据是关于数据的数据,可以参考数据仓库元数据管理

数据仓库建模 

数据仓库和OLAP工具是基于多维数据模型,这种模型将数据看做数据立方体形式 


数据立方体:允许以多维对数据建模和观察,由维和事实定义

多维数据模型可以参考多维数据模型

  • 在多维数据模型中我们还涉及到一个重要的概念数据立方体。给定维的集合,我们可以对给定诸维的每个可能的子集产生一个方体。结果形成方体的格,每个方体在不同的汇总级显示group by数据,方体的格称做数据立方体。图4.5更形象的表示了数据立方体。其中的基本方体顶点方体书中都给出了定义
  • 多维数据模型的模式包括:星形,雪花形和事实星座。这个很好理解,不做过多的记录。

在这里需要注意的是,数据仓库收集的是关于整个组织的主题信息,因此是企业范围的,所以对于数据仓库来说主要使用事实模式。但是数据集市市数据仓库的一个部门子集,所以流行采用星形或雪花模式

  • 概念分层:定义一个映射序列,将底层改建映射到较高层,更一般的概念。书中已经详细介绍。
  • 数据立方体度量:是一个数值函数,根据所使用的聚集函数将度量分为分布的,代数的,整体的。

OLAP 操作:OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。首先要声明的是这里介绍的有关多维数据模型和OLAP的内容基本都是基于ROLAP。

OLAP的基本操作有:上卷,下钻,切片和切块,OLAP操作


数据仓库的设计与使用

 数据仓库的设计:是一个长期的,复杂的任务,需要很多技巧。在设计数据仓库的时候我们应该考虑四种不同的视图:自顶而下视图,数据源视图,数据仓库视图和商务查询视图。

数据仓库的工具:分为访问与检索工具,数据库报表工具,数据分析工具和数据挖掘工具

数据仓库的有关应用分为:

  • 信息处理:支持查询和基本统计分析,并使用交叉表,表,图标或图进行报告
  • 分析处理:支持基本的OLAP操纵。与信息处理相比,OLAP处理的主要优势是它支持数据仓库的多维数据分析
  • 数据挖掘:支持知识发现 

在OLAP的基础上发展起来了数据挖掘。OLAM就是把数据挖掘与OLAP集成在一起,在多维数据库中发现知识的一种数据挖掘方式。

数据仓库的实现 

OLAP的服务器要在数秒之内回答决策支持查询,它的具体的技术细节是什么呢?P103,4.4.1节~4.4.3节讲解了具体的技术细节(物化和索引)。在这里要明确的是,所述的技术细节是建立在多维数据模型之上的!

数据立方体的有效计算:多维数据分析的核心是有效地计算多维集合上的聚集。每个分组可以用一个方体表示,而分组的集合形成定义数据立方体的方体格。这里需要注意如果计算全部的维即完全物化,那么可能产生维灾难,所以我们部分物化

索引OLAP数据:为了提供有效的数据访问,有以下两种方法:

  • 位图索引:在给定属性的位图索引中,属性域中的每个值v,有一个不同的位向量Bv。如果给定的属性域包含n个值,则位图索引每项需要n个位
  • 连接索引 :记录能够识别可连接的元祖,而不必执行开销很大的连接操作。对于维护来自可连接的关系的外码和与之匹配的主码的联系,连接索引特别有用

OLAP查询:物化方体和构造OLAP索引结构的目的是加快数据立方体查询处理的速度。

OLAP服务器结构:ROLAP,MOLAP,HOLAP的比较。书中已经讲解 

 

猜你喜欢

转载自blog.csdn.net/Phoenix_tgd/article/details/81530788