PQ特征工程开荒

特征工程简介

========================

特征工程的重要性

有这么一句话在业界广泛流传:
+  数据和特征决定了机器学习的上限
+  模型和算法只是逼近这个上限而已

========================

特征工程是什么呢?

	-  本质是一项工程活动
	-  目的是最大限度地从原始数据中提取特征以供算法和模型使用。

========================
通过总结和归纳,特征工程包括以下方面

特征使用方案

要实现目标需要哪些数据?

基于业务理解 尽可能找出对因变量影响的自变量

可用性评估

获取速度

覆盖率

准确率

特征获取方案

如何获取

如何存储

特征处理

特征清洗

清洗异常样本

采样

数据不均衡

样本权重

预处理

单个特征

归一化

离散化

Dummy Coding

引入虚拟变量 的目的:
	将不能够定量处理的变量量化 标记为 0 1
		Service_Delivery_Type 
            Bring In ( 送修)
            Depot send In (寄修)
            OnSite(FRU)  (现场上门维修)
            Part Only (CRV)
            Advanced Exchange (高级交换)
		
			有五种服务类型 可以增加5个哑变量来代替SDT这个变量
			D1 D2 D3 D4 D5	 只能由一个1 其他都是0
				D1(1 = bring in / 0 = ! bring in)
				...
线性回归分析当中引入哑变量的目的:
	考察定性因素对因变量的影响

引入哑变量的方式

  • 加法方式
哑变量作为单独的自变量
有独立的系数
几何意义:
	只改变回归直线的截距(constant)
	不改变斜率(B)
  • 乘法方式
不是作为一个单独的自变量
而是与其中某一个自变量相乘后作为一个自变量
几何意义:
	不改变截距
	只改变斜率

缺失值

数据变换

log
指数
Box-Cox

多个特征

降维

PCA
LDA

特征选择

Filter
思路:自变量和目标变量之间的关联
相关系数
卡方检测
信息增益 互信息
Wrapper
思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
迭代:产生特征子集,评价

####### 完全搜索
####### 启发式搜索
####### 随机搜索
######## GA
######## SA

Embedded
思路:学习器自身自动选择特征
正则化
L1 Lasso
L2 Ridge
决策树 嫡 信息增益
深度学习

衍生变量

对原始数据加工 生成有商业意义的变量

特征监控

特征有效性分析

特征的重要性,权重

特征监控

监控重要特征

防止特征质量下降,影响模型效果

猜你喜欢

转载自blog.csdn.net/weixin_39381833/article/details/94846189
pq