探索一下

数据分析的起点(数据分类)
为什么称统计数据的分类为数据分析的起点,是因为不同类型的数据,其对应的分析方法有所差异。在分析数据时有时不仅需要好的分析结果,同时也需要有合理性的理论假设与之对应,这是经典统计学的一大特征。
一、描述性分析(整理数据)
定义
描述性分析是统计过程中的整理数据环节,对调查所得的大量数据资料进行初步的整理、归纳和展示,以找出这些资料的内在规律——集中趋势、分散趋势、偏态和峰态,是为了更好地描述数据的特征.
主要作用
-
产生所有个案或不同分组个案的综合统计量及图形;
个案又叫变量集的一条观测,指一条数据。
-
提供常见的统计量与描述图,例如均值、方差、最值等;
-
可用于进行数据筛查,发现奇异值;
-
可用于描述性分析,假设检验及不同分组个案的特征描述.
可视化技术
定义
可视化分析使用统计图进行数据可视化展示和分析有着直观、生动等良好效果. 可视化不断演变,边界在不断地扩大. 与高级的技术方法结合,允许利用图形、图像处理、计算机视觉、人机互动等技术,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释.
主要作用
- 明悉数据的含义、理解数据结构,发现异常值、筛查数据,以便于进行数据合并、清洗、整理;
- 通过对数据的主要信息提取,分析者对待问题的理解会不断深入,有助于将商业问题转化为可行的数据分析问题,也有利于结合行业背景选择合适的数据分析方法.
- 易于结果的展示;精炼模型、信息,加快知识的传播.
常用方法
基于不同的数据类型,可视化方法和描述性统计分析一样有不同的方法展示. 下表简要总结了单变量中描述统计和可视化的关系:(多变量可视化会在相关分析中提及)
数据结构 | 统计量 | 统计图表 |
---|---|---|
连续变量 | 平均值,中位数,众数,最小值, 最大值,四分位数,标准差等 |
统计量表,直方图,茎叶图,箱线图 |
无序型离散变量 | 各个变量值出现的频数和占比 | 频数分布表,条形图,饼图 |
有序型离散变量 | 各个变量值出现的频数和占比 | 频数分布表,条形图 |
可视化的其他用途
- 直方图看图形与钟形曲线吻合程度、
- 箱线图看图形是否对称、
- P-P图和Q-Q图可以用来比较数据是否符合指定分布.
二、相关性分析(分析数据)
定义
相关关系是相对于函数关系来说的,是指变量间确实存在、但数量上不固定的相互依存.
特点:
- 这种关系不能用函数关系精确表达;
- 一个变量的取值不能由另一个变量惟一地确定;
- 当变量 x 取某个值时,与之相关的变量 y 的取值可能有若干个;
- 各观测点分布在一条直线或曲线周围.
主要作用
- 判明所考察的定量数据各属性之间有无关联,即是否独立.
- 在判定变量之间存在关联性后,用多种定量指标来刻画其关联程度.
相关性分类
分类 | 因素个数 | 表现形态 | 相关的方向 | 涉及的变量类型 | 考察问题 | 常用指标 |
---|---|---|---|---|---|---|
类1 | 单相关 | 直线相关 | 正相关 | 相关分析(定量) | 有无关联 | Pearson、Spearman |
类2 | 复相关 | 曲线相关 | 负相关 | 列联分析(定性) | 关联程度 | 列联系数、kendall |
相关性测定
在测定相关性的时候,要确定测定的是相关性分类中的哪种相关性,按图索骥,从而选择合适的方法。两变量之间的相关关系也可以用图形来表示,通常是使用绘制散点图的方法进行衡量,通过散点的分布可以判断线性相关还是非线性相关. 当存在离散型变量是,散点图就不太能观察变量间的相关关系,可以通过复式箱型图或复试条形图简单观察,变量间的相关关系.
数据类型 | 统计量 | 图表 |
---|---|---|
连续*连续 | Pearson、Spearman、Kendall、偏相关系数 | 散点图、相关系数矩阵、热图 |
离散*连续 | T检验中t统计量、显著值、方差分析 | 直方图、复式箱形图、小提琴图 |
离散*离散(有序) | Kendall系数、Spearman相关系数 | 交叉列联表、网络图(多个离散) |
离散*离散(无序) | 列联系数、phi、V相关系数 | 交叉列联表、复式条形图 |
三、假设检验(分析数据)
定义
假设检验是事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。(先说假设,后验证)
作用
- 单总体时可以验证总体参数是否与预期一致(例如均值和方差)
- 两总体时可以验证两者的总体参数是否具有显著性差异(例如两总体的均值和方差是否相等)
- 多总体时主要是验证不同总体之间的均值是否相等,也可以理解成分类型变量对连续型变量是否具有影响(例如方差分析)
步骤(相对理论)
- 提出假设
- 确定适当的检验统计量
- 规定显著性水平α
- 计算检验统计量的值
- 作出统计决策
在做任何一个假设检验之前,要首先明白原假设和备择假设是什么. 常用的假设检验通常要满足正态分布的假定,非参数假设检验不需要.
常见的假设检验的分类
包括单总体和两总体均值、比例和方差的假设检验。
当对多总体的均值进行检验的时候,t检验就变成了方差分析,相对于配对t检验或独立样本t检验,方差分析的效率更高,只要有一组均值显著不相等就可以通过方差分析,因此方差分析在使用的时候要注意两点:一、不同组的样本个数是不是特别不均衡;二、要配合均值的多重比较使用,更能清晰地看到是哪些组的均值显著不相等.
四、回归分析(分析数据、解释数据)
定义
回归分析是相关分析的深化,相关分析是回归分析的基础。回归分析是一种预测性的建模技术,它研究的是因变量(结果)和自变量(原因)之间的数量化关系.
分类
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;
按照因变量的多少,可分为简单回归分析和多重回归分析;
按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.
步骤
回归分析的步骤一般是:
-
根据自变量与因变量的现有数据以及关系,设定回归模型;
-
求出合理的回归系数;
-
对模型和回归系数进行显著性检验(R方和回归系数t检验)
-
残差分析,共线性诊断等;
-
残差分析:自回归、正态性、异方差、库克距离
自回归通常德宾沃森检验;正态性是用直方图和P-P图;异方差一般是通过残差图来确定
-
- 模型预测:在符合要求后,即可根据已得的回归方程进行预测,并计算预测值的置信区间等.
回归分析的方法一般有前进法、后退法、逐步回归法和全子集法.