机器学习 | 混淆矩阵和两类错误的关系

混淆矩阵和两类错误有什么关系吗?

1 混淆矩阵

在机器学习的分类问题中,最后需要去评估我们模型的优劣,这时候有众多的指标可以去考虑,之前两篇博客中也都有涉及,详情见:

在众多评价指标的计算中都得依赖于一个东东,他就是【混淆矩阵】,具体长下面这个样子,但有时候预测值和真实值位置会换过来,不过这个影响不大。
在这里插入图片描述
那通过混淆矩阵我们可以干嘛呢?可以看到什么呢?

  • 计算众多上面两篇之前博客中的一些评价指标,比如准确率precision 召回率等等
  • 看到不同类别的实际值有多少,预测为各自类别的有多少等等。

2 统计学上的两类错误

学统计的小伙伴都知道,统计上有著名的两类错误哈:

  • 第一类错误:弃真错误。即原假设为真我们却拒绝
  • 第二类错误:取伪错误。即原假设为假我们却没有拒绝

这其中有个很重要的统计思想:假设检验。源自英国一个故事-《女士品茶》。多说一句英国这个国家也是奇葩,当时整个国家都喜欢喝茶,那时候哪里茶叶最多呢?中国!所以每年都要在中国购买很多茶叶,交很多钱,于是心里不平衡啦,向中国输送鸦片,让中国的钱也流到自己的口袋里,这才有了后面的鸦片战争…

3 两者的关系

上面介绍了混淆矩阵和两类错误,那两者有什么关系呢?其实小编之前还真不知道,前段时间参加vivo的秋招提前批笔试遇到了这个问题,后来网上搜了一下才知道,两者具体的关系如下:
在这里插入图片描述
为什么两类错误对应是FP和FN呢?

  • 通常我们先考虑我们预测的阳性结果,里面有多少错误(先竖着看预测为1的)。也就是预测为1的有多少预测错了称为第一类错误。
  • 再考虑我们预测的阴性结果,里面有多少是假阴性(后竖着看预测为0的)。也就是预测为0的有多少预测错了称为第二类错误。

4 参考

猜你喜欢

转载自blog.csdn.net/qq_27782503/article/details/91347332