4.2数据探索(一) - 数据探索的方法

简介

数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作,它是数据挖掘较为前期的部分。数据探索并不需要应用过多的模型算法,相反,它更偏重于定义数据的本质、描述数据的形态特征并解释数据的相关性。通过数据探索的结果,我们能够更好的开展后续的数据挖掘与数据建模工作。

一句话解释版本:

数据探索要弄清楚这些问题:样本数据长什么样子?有什么特点?数据之间有没有关系?样本数据是否能满足建模需求?


数据分析与挖掘体系位置

数据挖掘要求我们从一堆数据中寻找潜在的关系与逻辑,并用数学的模型定义出来,以创造更大的价值。而数据探索就是实现这个目标的基石。

数据探索中的数据一般已经进行过数据预处理。虽然在现实生活中,也会有很多情况是要对未经任何处理的数据进行数据探索。但是严格来说,这种探索已经带有了太多数据加工、数据规约的知识。因此,我并不把得到良好样本之前的数据处理工作归于探索。

这里的探索,就像前面说的,更加偏重与数据本身的意义以及数据表现出的形态。所以,它位于样本抽取之后的步骤之后,数据建模的步骤之前。



数据探索的理解

许多人在定义或者理解数据探索的时候,会更多的联系到数据的前期调研、业务理解、数据抓取、数据清洗等过程。我可以理解这种说法,因为从宽了讲,数据探索其实可以贯穿整个数据分析与挖掘的框架。

但是,在我构建数据挖掘体系的时候,更希望能够将上面这些小过程一一切割出来,把他们单独放在框架定位、数据准备与样本抽取这些环节讲解,这样做能够避免数据探索这个点中覆盖的知识点太广泛扩散,不易提炼精华。所以,我这里探讨的数据探索方法,可能会与其他地方看到的有所不同。这是因为我将原本可以归属在数据探索中的知识分割出去了。

理解数据探索,就是理解如何描述数据本身的形态,理解通过数学上的数理统计方法与模型,来解释数据的表象特征与相关关系。


数据探索的方法

数据探索的方法可以分成两类:

  1. 数据描述方法
  2. 数理统计方法

下图是这两种方法的结构分类图:


数据描述方法

数据描述方法是最直观,最简单,最容易理解的探索方法。他说直白点,就是看着数据,告诉我:

  • 最多?(众值)
  • 平均?(平均数)
  • 中间?(中位数)
  • 最大?(极值)
  • 最小?(极值)
  • 浮动程度?(方差)
  • 曲线形状?(分布)

回答上面这些问题,就是需要通过数据描述方法。它主要包括以下三方面:

  1. 集中趋势分析:讨论数据平均处于什么位置,集中于什么位置,数据的中心点的什么位置。对应前面说的最多、平均、中间等问题。
  2. 离中趋势分析:讨论数据的离散程度,即数据的分散程度。对应前面说的最大、最小、浮动程度等问题。
  3. 数据分布关系:讨论数据的形态形状。对应前面说的曲线形状,即分布。
  4. 图分析:用散点图、柱状图、直方图等图表显示并比较数据的形态。

数理统计方法

数理统计方法相对来说更偏重数学的公式。它是在用统计学的语言去论证数据的规律。大多数方法,如假设检验、方差分析都是在用统计概率证明一种结论。

数理统计方法从理解上说要更难一些,同时包括的方法也更多更杂。它主要包括以下5种方法:

  1. 假设检验:分析样本指标与总体指标间是否存在显著性差异。
  2. 方差分析:用于两个以及两个以上样本均数差别的显著性检验。
  3. 相关分析:探索数据之间的正相关、负相关关系。
  4. 回归分析:探索数据之间的因果关系或依赖关系。
  5. 因子分析:从变量群中提取共性因子的统计技术。

通过这两种方法,一方面能够对整个样本数据的形态有完整的描述,一方面也能够深入的探讨数据之间的关系与内部联系。进而为下一步的数据建模创造良好的前提条件。


数据探索的题外话

虽然上面提及的方法都可以在数据探索中派上用场。但是,数据探索更多的与数据分析人员自身的经验以及业务敏感度有关。

在真实的数据分析与挖掘项目中,我们更希望能有效的通过数据探索,去了解什么样的数据是有价值、有研究意义的,什么样的模型建出来是有价值的,现有的样本是否能支撑模型,样本是否恰当、充足、合适。

所以说,数据探索是链接前期数据准备工作与后期数据建模工作的桥梁。我们可以通过众多方法去定义数据探索,但是它的最终目的一直是为后期的建模打好基础,确立方向。做到这一点,数据探索便是有价值的。


猜你喜欢

转载自blog.csdn.net/Orange_Spotty_Cat/article/details/80606980