机器学习概述
特征工程
特征工程是指从原始数据转换为特征向量的过程
。特征工程是机器学习中最重要的起始步骤
,会直接影响机器学习的效果
,并通常需要大量的时间
。典型的特征工程
包括数据清理
、特征提取
、特征选择
等过程。
数据集
下面列举了一些示例来说明哪些内容能算作数据集:
-
包含某些数据的表格或 CSV 文件
-
组织有序的表格集合
-
采用专有格式的文件,其中包含数据
-
可共同构成某个有意义数据集的一组文件
-
包含其他格式的数据的结构化对象,您可能希望将其加载到特殊工具中进行处理
-
捕获数据的图像
-
与机器学习相关的文件,如经过训练的参数或神经网络结构定义
-
任何看来像数据集的内容