一、特征工程
数据决定了机器学习的上限,而算法只是尽可能逼近这个上限。如果输入的数据本身不反应客观事实,再牛逼的算法也无能为力。所以需要对输入数据(特征)有一个采集、整理、选择的过程,让算法模型更好的识别到客观事实的规律所在。
一般来说,特征工程大体上可以分为三个方面,一是特征构造,二是特征生成,三是特征选择。
二、特征构造
特征构造是指人工的从原始数据中找出、构造出具有业务意义的特征。这个部分需要根据业务知识观察原始数据,思考问题的潜在影响形式,构造加入新的特征。属性的分割和组合是常用的方法。有协同作用的特征可以考虑其协同方式,然后组合为新的特征。时间信息的不同粒度的影响不同,可以考虑分割为小时时段、周末平日等。
另外,如滴滴司机与订单的供求间隔预测比赛中,有些参赛队伍以原始订单数据组合构造出每个时段前三个小时的订单量,作为当天所在地图cell的即时订单趋势的参考。
个人理解,这个部分是包含最多个人经验,领域知识的部分。
三、特征生成
四、特征选择