python机器学习-chapter2_10

•enumerate()用于同时返回索引和对应的值

list1 = ["这", "是", "一个", "测试"]
for index, item in enumerate(list1):
    print index, item
>>>
0 这
1 是
2 一个
3 测试

numpy.ravel()用于拉平数组

n = [[1, 2, 3],
       [4, 5, 6]]
n.ravel()
>>>[1, 2, 3, 4, 5, 6]

 

•随机森林:随机森林构造很多决策树,每棵树和其他树都略有不同,,但以不同的方式过拟合,对这些树的结果取平均值来降低过拟合

随机森林中的随机化:①选择用于构造树的数据点(自助采样)②选择每次划分测试的特征

随机森林的重要参数:

♠n_estimators:森林中决策树的个数,越大越好

♠max_fearures:结点选择特征时,特征子集的大小。决定每棵树的随机性大小。

♠n_jobs:训练随机森林时所使用的CPU内核数,如n_job = -1,即使用所有内核

优点:

♠不需要反复调节参数就可以得到很好地结果

♠不需要对数据进行缩放

缺点:

♠可视化效果不好

♠对维度非常高的稀疏数据(例如文本数据),表现不好

猜你喜欢

转载自www.cnblogs.com/bozi/p/12292285.html
今日推荐