人工智障-XGBoost 参数介绍

XGBoost的设置残差一般有三种:一般参数,提升参数和学习参数

一般参数 取决于提升器,通常是树或者线性模型

提升参数 取决于选择的提升器的相关参数

学习参数 取决于指定学习任务和相应的学习指标

一般参数(general parameters)

booster:选择提升器,默认为tree

silent:是否打印信息,默认0不打印

nthread:线程数,默认为最大可用线程数

num_pbuffer: 缓冲大小,默认为训练实例的数量

num_feature:特征纬度,默认为特征的最高纬度。

提升参数(booster parameters)

eta:学习率,范围[0,1],默认为0.3. 该参数越小,计算速度越慢;该参数越大,有可能无法收敛

gamma:控制叶子个数的参数,范围为[0,+无穷],默认为0.该参数越大,越不容易过拟合

max_depth:每棵树的最大深度,范围为0到正无穷,默认为6,该参数越大,越容易过拟合。

min_child_weight:每个叶子里面的最小权重和,范围为0到正无穷,默认为1,该参数越大,越不容易过拟合。

subsample:样本采样比率,范围0-1,默认为1,如果取0.5代表随机用50%的样本来进行训练。

colsample_bytree:列采样比率,范围0-1,默认为1.对每棵树的生成用的特征进行列采样,类似于随机森林的列采样

lambda:L2正则化参数,范围为0到正无穷,默认为1.该参数越大,越不容易过拟合。

alpha:L1 正则化参数,范围0到正无穷,默认为0,该参数越大,越不容易过拟合。

学习参数(learning parameters)

objective:损失函数,默认为线性。其他常见类型有:

reg:logistic-二分类

binary:logistic-二分类概率

multi:softmax-多分类

multi:softprob-多分类概率

rank:pairwise-排序

  • base_score:预测分数,默认为 0.5。最初每个样例的预测分数。
  • eval_metric:评估指标。该指标用在验证集上,比如回归任务默认的是rmse,分类人物默认为error;排序任务默认为map.其他的常见类型有:
    • rmse – root mean square error
    • mae – mean absolute error
    • logloss – negative log-likelihood
      • error – binary classification error rate
      • merror – multiclass classification error rate
      • mlogloss – multiclass logloss
      • auc – area under the curve
      • map – mean average precision
      • seed:随机种子,默认为0,用于产生可复现的结果。,




猜你喜欢

转载自blog.csdn.net/googler_offer/article/details/81018938
今日推荐