Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处:
1、直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。
2、可以结合grid search对参数进行选择。
from sklearn.pipeline import Pipeline
pipsline = Pipeline([('tfidf', featurer), ('clf', classifier)])
parameters = {
'tfidf__ngram_range': ((1, 2), (1, 3)),
'tfidf__min_df': (4, 6,8),
'tfidf__max_df':(0.7, 0.9, 1.6),
'clf__C': (1.0, 2.0, 3.0)
}