XGboost实例--数据处理

可以分为三大部分：
• 特征工程
• 评估准则
• XGBoost参数调优

一、特征工程
数据分析
• 对数据进行探索性的分析的工具包：pandas、matplotlib／seaborn
• 读取训练数据，取少量样本进行观测，并查看数据规模和数据类型
– 标签、特征意义、特征类型等
• 分析每列特征的分布
– 直方图
– 包括标签列（对分类问题，可看出类别样本是否均衡）
– 检测奇异点（outliers）
• 分析每两列特征之间的相关性
– 特征与特征之间信息是否冗余
– 特征与标签是否线性相关
• 特征工程
1、直方图
• 直方图：每个取值在数据集中出现的次数，可视为概率函
数（PDF）的估计（seaborn可视化工具比较简单）
– import seaborn as sns
– %matplotlib inline（在juypter中才能加上这句）
– sns.distplot(train.price.values, bins=50, kde=True)
• 核密度估计
– Kernel Density Estimation, KDE
– 对直方图的加窗平滑
在分类任务中，我们关心不同类别的特征分布
– 核密度估计
– order = [‘low’, ‘medium’, ‘high’]
– sns.violinplot(x=’interest_level’, y=’price’, data=train, order = order)

2、奇异点
• 奇异点：或称离群点，指远离大多数样本的样本点。通常
认为这些点是噪声，对模型有坏影响
• 可以通过直方图或散点图发现奇异点
– 直方图的尾巴
– 散点图上孤立的点
• 可以通过只保留某些分位数内的点去掉奇异点
– 如0.5%-99.5%，或>99%
– ulimit = np.percentile(train.price.values, 99)
– train[‘price’].ix[train[‘price’]>ulimit] = ulimit

3、相关性
• 我们希望特征与标签强相关
– 分类直方图可以从某种程度上看出特征与标签的相关性：不同类
别的直方图差异大
• 特征与特征之间强相关的话意味着信息冗余
– 可以两个特征可以只保留一个特征
– 或采用主成分分析（PCA）等降维
特征之间的相关性的代码实现：
—sns.heatmap(correlationMatrix,annot=True)—-使用热图的方式来观察

4、数据类型
• XGBoost 模型内部将所有的问题都建模成一个回归预测问
题，输入特征只能是数值型。
• 如果给定的数据是不同的类型，必须先将数据变成数值型
类别型特征
• LabelEncoder：对不连续的数字或者文本进行编号
– 可用在对字符串型的标签编码（测试结果需进行反变换）
– 编号默认有序数关系
– 存储量小
• 如不希望有序数关系： OneHotEncoder：将类别型整数输入从1维K
维的稀疏编码
– ：对XGBoost，OneHotEncoder不是必须，因为XGBoost对特征进行排序从
而进行分裂建树；如果用OneHotEncoder得到稀疏编码，XGBoost建树过程中
对稀疏特征处理速度块
– 输入必须是数值型数据（对字符串输入，先调用LabelEncoder变成数字，再用
OneHotEncoder ）
– 存储要求高
类别型特征
• 低基数（low-cardinality ）类别型特征：OneHotEncoder
– 1维K维， K为该特征不同的取值数目
– 所以通常在K <10的情况下采用
• 高基数（high-cardinality）类别型特征：通常有成百上千个不同
的取值，可先降维
– 如邮政编码、街道名称…
– 聚类（Clustering）： 1 维变为 K维，K为聚类的类别数
– 主成分分析（principle component analysis, PCA）：但对大矩阵操作费
资源
– 均值编码：在贝叶斯的架构下，利用标签变量，有监督地确定最适合
特定特征的编码方式

5、特征工程小结
一些通用的规则：
– 字符串型特征：Label编码
– 时间特征：年月日、时间段（早中晚）…
– 数值型特征：加减乘除，多项式，log, exp
– 低基数类别特征：one-hot编码
– 高基数类别特征：先降维，再one-hot编码；均值编码
-利用领域知识设计特征
– 如曾经流行的图像目标检测特征HOG…
-利用深度学习从数据中学习特征表示
– 采用end-to-end方式一起学习特征和分类／回归／排序
– 学习好特征可以送入XGBoost学习器

标签interest_level
将类别型的标签interest_level编码为数字
y_map = {‘low’: 2, ‘medium’: 1, ‘high’: 0}
train[‘interest_level’] = train[‘interest_level’].apply(lambda x: y_map[x])

聚类降维编码(#用训练数据训练，对训练数据和测试数据都做变换) 到中心的距离（论坛上讨论到曼哈顿中心的距离更好）

kmeans_cluster = KMeans(n_clusters=20)

类别型特征
用sklearn中的LableEncoder 来处理

二、评价指标
对于回归问题：可以用L1、L2损失函数可以作为评价指标
对于分类任务的评价指标：
• 以下的损失函数可以作为评价指标
•：logistic／负log似然损失
• 0-1损失
• ROC／AUC
• PR曲线
• F1分数
•sklearn中用交叉验证（cross_val_score和GridSearchCV）评价模型
性能时，用scoring参数定义评价指标。评价指标是越高越好，因此用一些损失函数当评价指标时，需要再加负号，如neg_log_loss，neg_mean_squared_error
•Scikit-Learn：sklearn.metrics
metrics模块还提供为其他目的而实现的预测误差评估函数

XGBoost支持的目标函数

• Objective：定义学习任务及相应的学习目标，可选的目标函数如下：
– “reg:linear” –线性回归。
– “reg:logistic” –逻辑回归。
– “binary:logistic” –二分类的逻辑回归问题，输出为概率。
– “binary:logitraw” –二分类的逻辑回归问题，输出的结果为w T x。
– “count:poisson” –计数问题的poisson回归，输出结果为poisson分布。
– “multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题
– “multi:softprob” –和softmax一样，但是输出的是ndata* nclass的向量，可以将该向量reshape成ndata行nclass列的矩阵。没行数据表示样本所属于每个类别的概率。
reshape成ndata行nclass列的矩阵。没行数据表示样本所属于每个类别的概率。

XGBoost自定义目标函数： XGBoost在调用obj函数时会传入两个参数：preds和dtrain
– preds为当前模型完成训练时，所有训练数据的预测值
– dtrain为训练集，可以通过dtrain.get_label()获取训练样本的label
– 同时XGBoost规定目标函数需返回当前preds基于训练label的一阶和二阶梯度。

三、参数调优
参数说明：
max_depth 树的最大深度。树越深通常模型越复杂，更容易过拟合
learning_rate 学习率或收缩因子。学习率和迭代次数／弱分类器数目n_estimators相关。缺省：0.1
n_estimators 弱分类器数目. 缺省:100
slient 参数值为1时，静默模式开启，不输出任何信息
objective 待优化的目标函数，常用值有： binary:logistic 二分类的逻辑回归，返回预测的概率
multi:softmax 使用softmax的多分类器，返回预测的类别(不是概率)。 multi:softprob 和
multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。支持用户自定义目标函数
nthread 用来进行多线程控制。如果你希望使用CPU全部的核，那就不用缺省值-1，算法会自动检测它。
booster 选择每次迭代的模型，有两种选择： gbtree：基于树的模型，为缺省值。 gbliner：线性模型
gamma 节点分裂所需的最小损失函数下降值
min_child_weight 叶子结点需要的最小样本权重（hessian）和
max_delta_step 允许的树的最大权重
subsample 构造每棵树的所用样本比例（样本采样比例），同GBM
colsample_bytree 构造每棵树的所用特征比例
colsample_bylevel 树在每层每个分裂的所用特征比例
reg_alpha L1/L0正则的惩罚系数
reg_lambda L2正则的惩罚系数
scale_pos_weight 正负样本的平衡
base_score 每个样本的初始估计，全局偏差
random_state 随机种子
seed 随机种子
missing 当数据缺失时的填补值。缺省为np.nan

参数类别：
•通用参数：这部分参数通常我们不需要调整，默认值就好
• 学习目标参数：与任务有关，定下来后通常也不需要调整
• booster参数：弱学习器相关参数，需要仔细调整，会影响
模型性能
通用参数
• booster：弱学习器类型
– 可选gbtree（树模型）或gbliner（线性模型）
– 默认为gbtree（树模型为非线性模型，能处理更复杂的任务）
• silent：是否开启静默模式
– 1：静默模式开启，不输出任何信息
– 默认值为0：输出一些中间信息，以助于我们了解模型的状态
• nthread：线程数
– 默认值为-1，表示使用系统所有CPU核

学习目标参数
• objective: 损失函数
– 支持分类／回归／排序
• eval_metric：评价函数
• seed：随机数的种子
– 默认为0
– 设置seed可复现随机数据的结果，也可以用于调整参数

booster参数
• 弱学习器的参数，尽管有两种booster可供选择，这里只介绍
gbtree
• 1. learning_rate : 收缩步长 vs. n_estimators：树的数目
– 较小的学习率通常意味着更多弱分学习器
– 通常建议学习率较小（ �� < 0.1），弱学习器数目n_estimators大
– 可以设置较小的学习率，然后用交叉验证确定n_estimators

• 2. 行（subsample）列（colsample_bytree 、
colsample_bylevel）下采样比例
– 默认值均为1，即不进行下采样，使用所有数据
– 随机下采样通常比用全部数据的确定性过程效果更好，速度更快
– 建议值：0.3 - 0.8
• 3. 树的最大深度： max_depth
– max_depth越大，模型越复杂，会学到更具体更局部的样本
– 需要使用交叉验证进行调优，默认值为6，建议3-10
• 4. min_child_weight ：孩子节点中最小的样本权重和
– 如果一个叶子节点的样本权重和小于min_child_weight则分裂过程
结束

Xgboost实战建议：（摘录）

参数调优的一般方法
• 1. 选择较高的学习率(learning rate)，并选择对应于此学习率
的理想的树数量
– 学习率以工具包默认值为0.1。
– XGBoost直接引用函数“cv”可以在每一次迭代中使用交叉验证，并返回理想
的树数量（因为交叉验证很慢，所以可以import两种XGBoost：直接引用
xgboost（用“cv”函数调整树的数目）和XGBClassifier —xgboost的sklearn包
（用GridSearchCV调整其他参数）。
• 2. 对于给定的学习率和树数量，进行树参数调优( max_depth,
min_child_weight, gamma, subsample, colsample_bytree, colsample_bylevel )
• 3. xgboost的正则化参数(lambda, alpha)的调优
• 4. 降低学习率，确定理想参数

XGboost实例--数据处理

XGBoost支持的目标函数

猜你喜欢