参考:李航《统计学习方法》
分类(classification)
输入变量X的值可以是连续的,也可以是离散的,输出变量
Y的值是
离散的,这时对Y进行
预测变成了
分类问题。可能的输出Y值称为
类(class)。当分类的
Y值为
多个时,称为
多分类问题。
分类器(classifier):
监督学习从数据中学习到的函数
如何评价分类器的性能?某个分类器好,还是不好?
1)通用的评价指标
分类准确率(accuracy):
给定数据集,分类器能正确分类的样本数占总样本数的比例。
2)二分类问题中的评价指标
二分类中,关注的类为正类,其他为负类。
TP
=将正类预测为正类的数目。
FP
=将负类预测为正类的数目。
TP+FP
=将样本预测为正类的数目。
FN
=将正类预测为负类的数目。
TN
=将负类预测为负类的数目。
FN+TN=
将样本预测为负类的数目。
精确率(precision)
=P=TP/(TP+FP)=正类中预测正确的数目/所有预测为正类的数目
召回率(recall)
=R=TP/(TP+FN)=正类中预测正确的数目/正类的数目
F1
=精确率和召回率的调和均值
分类的应用场景
1.在银行业务中, 可以构建一个客户分类模型, 对客户按照贷款风险的大小进行分类
2.在网络安全领域,可以利用日志数据的分类对非法入侵进行检测
3.在图像处理中 , 分类可以用来检测图像中是否有人脸出现
4.在手写识别中, 分类可以用于识别手写的数字
5.在互联网搜索中, 网页的分类可以帮助网页的抓取、索引与排序