【听课笔记】数据挖掘竞赛——特征工程中的开发与技巧

【听课笔记】数据挖掘竞赛——特征工程中的开发与技巧

写在前面

有机会在老师的指引下听了下此次【课程:特征工程中的开发与技巧】。课程主要是由近期一场温室温度数据预测比赛的大佬,分享了他在这次比赛实战中取得优异成绩的方法与技巧。是非常好的学习资源,故在这里用博客的形式记录下课程内容。

课程中这位老师首先简单介绍了时间序列预测任务 ,然后讲了特征工程的常见操作主要包括 数据清洗特征构造特征选择。最后老师分享了他在此次比赛中的一些上分技巧

文末附有课件PPT及视频回访资源


1. 时间预测任务简介

时间序列预测是指按照时间顺序观察事物的变换。通常会利用同一变量的历史值预测未来值,或者也可以加入一些预测因子来预测未来值。前者称为单变量时间序列预测,后者称为多变量时间序列预测。通常我们指的时间序列预测都是考虑定期观察的时间序列(如每分、每小时、每天、每周等)。比较经典的案
例有:降水量预测、销售预测、流量预测等。

2. 特征工程常见操作

2.1 数据清洗:提高数据质量,降低算法用错误数据建模的风险

  1. 特征变换:模型无法处理或不适合处理
    a) 定性变量编码:Label Encoder;Onehot Encoder;Distribution coding;
    b) 标准化和归一化:z分数标准化(标准正态分布)、min-max 归一化;
  2. 缺失值处理:增加不确定性,可能会导致不可靠输出
    a) 不处理:少量样本缺失;
    b) 删除:大量样本缺失;
    c) 补全:(同类)均值/中位数/众数补全;高维映射(One-hot);模型预测;最邻近/向后/向
    前补全;矩阵补全(R-SVD);
  3. 异常值处理:减少脏数据
    a) 简单统计:如 describe() 的统计描述;散点图等;
    b) 3∂ 法则(正态分布)/箱型图截断;
    c) 利用模型进行离群点检测:聚类、K近邻、One Class SVM、Isolation Forest;
  4. 其他:删除无效列/ 更改dtypes/ 删除列中的字符串/ 将时间戳从字符串转换为日期时间格式等

2.2 特征构造:增强数据表达,添加先验知识

  1. 统计量特征:
    a) 四分位数、中位数、平均数、标准差、偏差、偏度、峰度、离散系数等;
    b) 构造长短期统计量;
    c) 考虑时间衰减。
  2. 周期值:
    a) 前 n 个周期/天/月/年的同期值;
    b) 同比/ 环比;
  3. 数据分桶:
    a) 等频/等距分桶、Best-KS 分桶、卡方分桶;
  4. 特征组合(先用强特征):
    a) 类别特征和类别特征:笛卡尔积;
    b) 类别特征和连续特征:连续特征分桶后进行笛卡尔积,或者基于类别特征进行 groupby 操作,
    类似聚合特征的构造;
    c) 连续特征和连续特征:加减乘除,或者二阶差分等

2.3 特征选择:降低噪声,平滑预测能力和计算复杂度,增强模型预测性能

  1. 过滤式(Filter):先用特征选择方法对初识特征进行过滤,然后再训练学习器,特征
    选择过程与后续学习器无关。
    a) 方差选择/ 相关系数/ 卡方检验/ 互信息法
  2. 包裹式(Wrapper):直接把最终将要使用的学习器的性能作为衡量特征子集的评价准
    则,其目的在于给定学习器选择最有利于其性能的特征子集。
    a) Recursive Feature Elimination (RFE)
    b) Las Vegas Wrapper(LVM);
    c) 单特征建模模型;
  3. 嵌入式(Embedding):结合过滤式和包裹式方法,将特征选择与学习器训练过程融
    为一体,两者在同一优化过程中完成,即学习器训练过程中自动进行了特征选择。
    a) LR+L1或决策树

3. 温室温度预测上分小技巧

完整的PPT课件及视频回放链接
移动端:http://m.aidaxue.com/wechat/live?id=73&ch=22dsyd
PC端:https://www.aidaxue.com/live?id=73&ch=22dspc

猜你喜欢

转载自blog.csdn.net/GODSuner/article/details/107849013