模型融合问题

一模型融合的问题

在集成学习中用到了模型融合，现在主要是讨论不同模型融合方法所带来的问题

1.1 多数表决融合

举例： 
    假如现在有10条记录，某个模型对这10条记录进行分类能获得70%的准确率。 
    现在拟合三个相当的模型，采用多数表决的情况下，对每条记录， 
    三个模型都判断正确的概率为0.7*0.7*0.7~=0.34， 
    两个模型判断正确的概率为0.7*0.7*0.3*3~=0.44， 
    那么通过三个准确率0.7的模型来融合的话，理论上最终每条记录能被正确分类的概率提升到0.78！ 

周志华教授在他的著作《机器学习》提到，结果的差异性越高，最终模型融合出来的结果也会越好。 
    同样用一个简单的例子来证明：倘若上面的三个模型预测出来的结果是：
    model1：1111111100 = 80% 准确率
    model2：1111111100 = 80% 准确率
    model3：1011111100 = 70% 准确率 
    如果把这三个模型结果用多数表决组合起来，那么最终结果是：1111111100 = 80%， 
    这个结果跟第一、二个模型是一致的，这样的模型融合对最终结果没有任何的提升。 

    假如我们现在把三个模型结果改为：
    model1：1111111100 = 80% 准确率
    model2：0111011101 = 70% 准确率
    model3：1000101111 = 60% 准确率
显然这三个模型之间的差异更大，而且表面来看性能也不如前面提到的三个模型，
但它们融合出来的结果是：1111111101 = 90% 准确率！

1.2 加权表决融合

上述多数表决的融合方式默认了所有模型的重要度是一样的。
但通常情况下我们会更重视表现较好的模型而需要赋予更大的权值。 
在加权表决的情况下，表现较差的模型只能通过与其他模型获得一样的结果来增强自己的说服力。

1.3 对结果取平均

对结果取平均在很多机器学习问题上以及不同的评估准则上都获得很不错的结果。
取均值的做法常常可以减少过拟合现象。 
    在机器学习的应用上，过拟合现象是很普遍的，根本问题是训练数据量不足以支撑复杂的模型， 
    导致模型学习到数据集上的噪音，这样产生的问题是模型很难泛化，因为模型“考虑”得过分片面。 

但如果对结果取平均，可以在一定程度上减轻过拟合现象。 
图中所示，单个模型因为过拟合产生了绿色的决策边界，但事实上黑色的决策边界因为有更好的泛化能力从而有更好的效果。 
如果通过拟合多个模型并对模型结果取平均，对这些噪音点的考虑就会因为结果拉平均的原因而减少，决策边界也会慢慢的往黑色线靠拢。
记住，机器学习的目的并不是让模型记住训练数据，而是对未知数据有更好的推广。

二 Stacking&Blending

2.1 Stacking

Stacking的基本思想是用一些基分类器进行分类，然后使用令一个分类器对结果进行整合。

用2-fold stacking作为例子：(二分交叉验证)

1.将训练数据分成A和B两份

2.使用第一阶段模型用A训练，然后对B生成预测值

3.通过同样的模型用B训练，生成A的预测值

4.然后使用整个训练集来拟合这个模型，并生成测试集的预测值

5.像第（2）步一样训练第二阶段模型

Stacking的模型可以在特征空间上获取更加多的信息，因为第二阶段模型是以第一阶段模型的预测值会作为特征

2.2 Blending

Blending与Stacking大致相同 
只是Blending的主要区别在于训练集不是通过K-Fold的CV策略来获得预测值从而生成第二阶段模型的特征， 
而是建立一个Holdout集: 
    例如说10%的训练数据， 
    第二阶段的stacker模型就基于第一阶段模型对这10%训练数据的预测值进行拟合。 
    说白了，就是把Stacking流程中的K-Fold CV 改成 HoldOut CV。

Blending的优点在于：: 1.比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）; 2.避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集; 3.在团队建模过程中，不需要给队友分享自己的随机种子
Blending缺点在于：: 1.使用了很少的数据（第二阶段的blender只使用training set10%的量）; 2.blender可能会过拟合（其实大概率是第一点导致的）; 3.stacking使用多次的CV会比较稳健。对于实践中的结果而言，stacking和blending的效果是差不多的，所以使用哪种方法都没什么所谓，完全取决于个人爱好。

一 模型融合的问题