机器学习之快速入门

机器学习的挑战：

大多数机器学习挑战都与数据处理和查找正确的模型相关。

（1）数据会以各种形式和大小出现。真实数据集可能比较混乱、不完整，并且采用各种不同格式提供。

（2）预处理数据可能需要掌握专业知识和工具。如：对象检测算法训练中的特征选取，需要掌握图像处理领域的专业知识等。

（3）找到拟合数据的最佳模型需要时间。如何选择正确的模型是一项平衡过程。高度灵活的模型由于拟合了噪声的细微变化而造成了过度拟合。另一方面，简单的模型可能要有更多的假设条件。这些始终是在模型速度，准确性和复杂性之间权衡取舍。

（1）您要处理哪种类型的数据？

（2）您想要从中获得哪些洞察力？

（3）这些洞察力将如何应用以及在哪里应用？

在这些问题确定答案之后，有助于帮你确定是采用监督式学习还是无监督学习。通常在你需要训练模型进行预测或者分类时，选择监督式学习。在你需要深入了解数据并希望训练模型找到好的内部表示形式时，选择无监督学习。

在第三步推导特征中，我们通常可以采用许多技术来处理不同类型的数据见下表：

在工作流程概览的第五步找到最佳模型，我们可以通过两种不同的方式改进模型：简化模型或增加模型的复杂度。

简化模型：

首先，我们要找机会减少特征的数量。热门的特征减少技术包括：

（1）相关矩阵——可显示变量之间的关系，因此可以删除并非高度相关的变量（或特征）。

（2）主分量分析（PCA）——可消除冗余，具体方法是找到一组捕获了原始特征的关键区别的特征，并推导出数据集中存在的强模式。

（3）序列特征减少——采用迭代的方式减少模型的特征，直到无法改进模型性能为止。

接下来，我们寻找方法来简化模型本身。我们可以通过以下方式实现：

（1）修剪决策树的分支；（2）从集成结构中删除学习器

增加复杂度：

（1）使用模型组合——将多个简单的模型组合成强模型，这样提供的数据趋势要优于其中任何一个简单的模型单独提供的趋势。

（2）添加更多的数据源——在模型中加入其它传感器或者其它可靠来源的数据，辅助验证。