《Statistical Analysis with Missing Data》学习笔记——1. 缺失数据介绍

本学期将要学习《Statistical Analysis with Missing Data》一书,这本书关注在我们数据矩阵中一些没观测到的值。这些缺失值可能是各种原因引起的,例如我们调查各个年龄段人群的收入情况,有些人会拒绝回答这类型的隐私问题;亦或者可能由于由于机器故障从而导致实验结果缺失等等。很多时候我们在处理缺失值数据时,都是简单粗暴将有缺失值的样本直接进行删除,。通过这本书,我们可以了解一些数据缺失的原因以及针对不同数据进行一些不同的处理方法,这对我们之后数据分析都有极大的帮助。

本篇博客主要参考《Statistical Analysis with Missing Data》的第一章,对缺失数据(MISSING DATA)进行概述。


我们的数据形式

首先介绍一下之后我们都将统一接触到的数据形式,在书中都是这样表示:

Y = ( y i j )

Y 为一个 n × K 维的数据矩阵, n 行表示有 n 个样本, K 列表示有 K 个变量,这些都是和我们的常规定义是一致的,但书中还有一个非常重要的符号——缺失数据,这里同样用一个矩阵表示:
M = ( m i j )

y i j 缺失,则 m i j = 1 ;若 y i j 未缺失,也就是能观测到,则 m i j = 0

下面为了更好的理解这个数据格式以及缺失数据的一些可能形式,我们用下面几张图来进行更好的介绍。


几种缺失数据模式



下面我们看上面六张图,代表着六种缺失数据的情况。
a) 表示前四个变量( Y 1 Y 2 Y 3 Y 4 )没有缺失样本,只有第五个变量( Y 5 )有部分缺失。
b) 其实算是一种a)情形的推广,前两个变量( Y 1 Y 2 )没有缺失样本,但是后三个样本( Y 3 Y 4 Y 5 )缺失了相同的样本。举个栗子,这种类型出现的情况比如是男性与女性,女性可以检测经期是否正常,而男性则会缺失;或者是低年级和高年级学生,高年级学生可以选低年级的课,低年级学生无法选择高年级课程,就不会去收集他们这部分的课程信息,所以也会缺失。
c) 这类型数据的缺失会随着变量的变化( Y 1 Y 5 ),其观测到的样本数会越来越少,缺失样本越来越多。但是有一个限制能够观测到 Y 5 的样本,前四个变量都不会缺失,同理, Y 4 未缺失的样本,前三个变量都不会缺失,所以呈现图中的递减关系。其实际的情况在纵向数据分析中也非常常见, Y 1 Y 5 表示时间,所有人群是患病总体,随着时间的变化会逐渐由死亡或者删失,就会出现这种情况。
d) 这个就是随机删失,我们见得最多的就是这种删失,这里就不再举例说明了。
e) 这种情况是两个变量的样本观测值之间是互补的,同样也是男性、女性不同特属的疾病;两个不同人种之间的属性等等。
f) 最后一种乍一看会比较奇怪,其实在实际数据中也是会出现的情况,就是某一个变量全部都缺失。这对这种数据我们在处理的时候就会直接将这个所有样本都缺失的变量进行删除。


这里只是针对缺失数据进行一个初步的介绍,后面的博客我们会通过一些例子来说明一些idea。

猜你喜欢

转载自blog.csdn.net/weixin_41929524/article/details/82418237