R语言泰坦尼克号性别阶级模型案例

知识共享许可协议 版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons

这场灾难以拯救“妇女和儿童第一”而闻名,所以让我们来看看性别和年龄变量,看看是否有任何模式是明显的。我们将从乘客的性别开始。将数据重新加载到R后,请查看此变量的摘要:

> summary(train$Sex)

female male

314 577

所以我们看到大多数乘客都是男性。现在让我们扩展上次使用的比例表命令,对幸存的男性和女性进行双向比较:

> prop.table(table(train$Sex, train$Survived))

0 1

female 0.09090909 0.26150393

male 0.52525253 0.12233446

嗯,这不是很干净,默认情况下,比例表命令采用表中的每个条目,并除以乘客总数。我们希望看到的是行数比例,即存活的每个性别的比例,作为单独的群体。所以我们需要告诉命令在第一维中给出比例,这代表行(使用“2”而不是列比例):

> prop.table(table(train$Sex, train$Survived),1)

0 1

female 0.2579618 0.7420382

male 0.8110919 0.1889081

好的,那更好。我们现在可以看到大多数女性幸存下来,并且男性的比例非常低。在我们的最后一次预测中,我们说他们都遇到了Davy Jones,因此改变我们对这种新见解的预测应该会给我们在排行榜上带来巨大的收益!让我们更新旧的预测,并介绍一些更多的R语法:

> test$Survived <- 0

> test$Survived[test$Sex == 'female'] <- 1

在这里,我们开始像以前一样添加“everyone dies”预测列,除了我们将抛弃rep命令并将零指定给整个列,它具有相同的效果。然后我们改变了相同的列,其中1为乘客的变量“Sex”等于“女性”。

我们刚刚使用了两个新的R语法,相等运算符==和方括号运算符。方括号创建总数据帧的子集,并将我们的“1”赋值仅应用于满足指定条件的行。双等号不再适用于此处的赋值,现在它是一个布尔测试,看它们是否已经相等。

现在让我们写一个新的提交并发送给Kaggle,看看它是如何改善我们的立场的!

太好了!我们到了那里,但现在让我们开始深入研究年龄变量:

> summary(train$Age)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.42 20.12 28.00 29.70 38.00 80.00 177

数据分析中可能缺少值,这可能会导致现实世界中出现的各种问题,而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄,即。二十年代后期。

我们的最后几个表是分类变量,即。他们只有一些价值观。现在我们有一个连续的变量,这使得绘制比例表几乎无用,因为每个年龄可能只有一两个乘客!所以,让我们创建一个新的变量“Child”来表明乘客是否低于18岁:

> train$Child <- 0

> train$Child[train$Age < 18] <- 1

与我们的预测专栏一样,我们现在在训练集数据框中创建了一个新列,表明乘客是否是孩子。首先假设他们是成年人,然后覆盖18岁以下乘客的价值。为此,我们使用了小于运算符,这是另一个布尔测试,类似于我们上次预测中使用的等式检查。如果您单击资源管理器中的火车对象,您将看到任何年龄为NA的乘客都被分配了零,这是因为NA将失败任何布尔测试。这是我们想要的,因为我们决定使用平均年龄,这是一个成年人。

现在我们要创建一个包含性别和年龄的表,以查看不同子集的生存比例。不幸的是我们的比例表没有配备这个,所以我们将不得不使用一个新的R命令,aggregate。首先让我们尝试找出不同子集的幸存者数量:

> aggregate(Survived ~ Child + Sex, data=train, FUN=sum)

Child Sex Survived

1 0 female 195

2 1 female 38

3 0 male 86

4 1 male 23

该aggregate命令采用一个公式,其中目标变量位于波形符号的左侧,变量则位于右侧的子集中。然后我们告诉它使用data参数查看哪个数据帧,最后告诉它应用于这些子集的函数。上面的命令将整个数据帧的子集设置为年龄和性别变量的不同可能组合,并将该sum函数应用于这些子集中的每个子集的Survived向量。由于我们的目标变量被编码为1表示幸存,0表示未存在,因此求和的结果是幸存者的数量。但我们不知道每个子集中的总人数; 让我们来看看:

> aggregate(Survived ~ Child + Sex, data=train, FUN=length)

Child Sex Survived

1 0 female 259

2 1 female 55

3 0 male 519

4 1 male 58

这只是查看每个子集的Survived向量的长度并输出结果,其中任何一个为0或1的事实与长度函数无关。现在我们有每组乘客的总数,但实际上,我们想再次了解比例。要做到这一点有点复杂。我们需要创建一个函数,它将子集向量作为输入,并将sum和length命令应用于它,然后进行除法以给出一个比例。这是语法:

> aggregate(Survived ~ Child + Sex, data=train, FUN=function(x) {sum(x)/length(x)})

Child Sex Survived

1 0 female 0.7528958

2 1 female 0.6909091

3 0 male 0.1657033

4 1 male 0.3965517

嗯,似乎如果乘客是女性最幸存的,如果他们是男性,大多数不会,无论他们是否是孩子。所以我们没有任何改变我们在这里的预测。让我们来看看其他几个可能有趣的变量,看看我们是否能找到更多:他们所乘坐的课程,以及他们为自己的门票支付的费用。

虽然类变量仅限于可管理的3个值,但票价又是一个连续变量,需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元,10美元到20美元,20美元到30美元以及30美元以上,并将其存储到一个新变量中:

> train$Fare2 <- '30+'

> train$Fare2[train$Fare < 30 & train$Fare >= 20] <- '20-30'

> train$Fare2[train$Fare < 20 & train$Fare >= 10] <- '10-20'

> train$Fare2[train$Fare < 10] <- '<10'

现在让我们运行一个更长的聚合函数,看看这里有什么有趣的东西:

> aggregate(Survived ~ Fare2 + Pclass + Sex, data=train, FUN=function(x) {sum(x)/length(x)})

Fare2 Pclass Sex Survived

1 20-30 1 female 0.8333333

2 30+ 1 female 0.9772727

3 10-20 2 female 0.9142857

4 20-30 2 female 0.9000000

5 30+ 2 female 1.0000000

6 <10 3 female 0.5937500

7 10-20 3 female 0.5813953

8 20-30 3 female 0.3333333 **

9 30+ 3 female 0.1250000 **

10 <10 1 male 0.0000000

11 20-30 1 male 0.4000000

12 30+ 1 male 0.3837209

13 <10 2 male 0.0000000

14 10-20 2 male 0.1587302

15 20-30 2 male 0.1600000

16 30+ 2 male 0.2142857

17 <10 3 male 0.1115385

18 10-20 3 male 0.2368421

19 20-30 3 male 0.1250000

20 30+ 3 male 0.2400000

虽然大多数男性,无论是班级还是票价仍然做得不好,但我们注意到大多数支付超过20美元票价的3级女性实际上也错过了救生艇,我已经指出这些星号,但R不会知道你在找什么,所以它们不会出现在控制台中。

有点难以想象为什么三等票的人会在事故中使用昂贵的车票会更糟糕,但也许那些更贵的车厢位于靠近冰山撞击地点或离出口楼梯更近的地方?无论原因是什么,让我们根据新的见解做出新的预测。

> test$Survived <- 0

> test$Survived[test$Sex == 'female'] <- 1

> test$Survived[test$Sex == 'female' & test$Pclass == 3 & test$Fare >= 20] <- 0

到目前为止,您应该熟悉上面的大部分代码。唯一的例外是有多个布尔检查全部串在一起进行最后一次调整。对于更复杂的布尔逻辑,可以将逻辑AND运算符&与逻辑OR运算符组合使用|。

好的,让我们创建输出文件,看看我们是否做得更好!

好吧,现在我们到了某个地方!我们只提高了1.5%的准确度得分,但在排行榜上跳了数百个点!但这需要做很多工作,并且创建更多深入的子集需要花费大量时间。

有问题欢迎下方留言!

猜你喜欢

转载自blog.csdn.net/qq_19600291/article/details/83272245