1.How Models work

Introduction

我们首先概述机器学习模型如何工作以及如何使用它们。如果您之前已完成统计建模或机器学习,这可能会感觉很基础。别担心,我们很快就会建立强大的模型。

本课程将为您构建以下场景的模型:

你的堂兄已经花了数百万美元预测房地产。由于您对数据科学有兴趣,他愿意与您成为业务合作伙伴。他会提供资金,你会提供预测各种房屋价值的模型。

你问你的堂兄他过去如何预测房地产价值。他说这只是直觉。但更多的质疑表明,他已经确定了他看过的房屋的价格模式,他利用这些模式对他正在考虑的新房进行预测。

机器学习的工作方式也是如此。我们将从一个名为决策树的模型开始。有更高级的模型可以提供更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。

为简单起见,我们将从最简单的决策树开始。

                                          http://i.imgur.com/7tsb5b1.png

它将房屋分为两类。 所考虑的任何房屋的预测价格是同一类别房屋的历史平均价格。

我们使用数据来决定如何将房屋分成两组,然后再确定每组的预测价格。 从数据捕获模式的这一步称为拟合或训练模型。 用于拟合模型的数据称为训练数据

模型如何合适的细节(例如,如何分割数据)非常复杂。 在模型适合后,您可以将其应用于新数据以预测其他房屋的价格。



Improving the Decision Tree

通过拟合房地产训练数据,更有可能产生以下两个决策树中的哪一个?

http://i.imgur.com/prAjgku.png

左侧的决策树(决策树1)可能更有意义,因为它捕捉到了这样的现实:拥有更多卧室的房屋往往比卧室更少的房屋以更高的价格出售。 这种模式的最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,位置等。

您可以使用更多“拆分”的树来捕获更多因素。 这些被称为“更深”的树。 决策树也考虑每个房子的总批量大小可能如下所示:

                   http://i.imgur.com/R3ywQsR.png

您可以通过在决策树中进行追踪来预测任何房屋的价格,并始终选择与该房屋特征相对应的路径。 房子的预测价格位于树的底部。 我们进行预测的底部点称为叶子

叶子上的分割和值将由数据确定,因此您可以查看将要使用的数据。

Continue

让我们更具体一点。 是时候检查你的数据了。

猜你喜欢

转载自blog.csdn.net/cg129054036/article/details/82218359