机器学习特征选择

简  介

据《福布斯》报道,每天大约会有 250 万字节的数据被产生。然后,可以使用数据科学和机器学习技术对这些数据进行分析,以便提供分析和作出预测。尽管在大多数情况下,在开始任何统计分析之前,需要先对最初收集的数据进行预处理。有许多不同的原因导致需要进行预处理分析,例如:

  • 收集的数据格式不对(如 SQL 数据库、JSON、CSV 等)

  • 缺失值和异常值

  • 标准化

  • 减少数据集中存在的固有噪声(部分存储数据可能已损坏)

  • 数据集中的某些功能可能无法收集任何信息以供分析

在本文中,我将介绍如何使用 python 减少 kaggle Mushroom Classification 数据集中的特性数量。本文中使用的所有代码在 kaggle 和我的 github 帐号上都有。

减少统计分析期间要使用的特征的数量可能会带来一些好处,例如

  • 提高精度

  • 降低过拟合风险

  • 加快训练速度

  • 改进数据可视化

  • 增加我们模型的可解释性

事实上,统计上证明,当执行机器学习任务时,存在针对每个特定任务应该使用的最佳数量的特征(图 1)。如果添加的特征比必要的特征多,那么我们的模型性能将下降(因为添加了噪声)。真正的挑战是找出哪些特征是最佳的使用特征(这实际上取决于我们提供的数据量和我们正在努力实现的任务的复杂性)。这就是特征选择技术能够帮到我们的地方!

猜你喜欢

转载自blog.csdn.net/jxq0816/article/details/103430354