기계 학습 분류 및 회귀 알고리즘 요약의 종합 평가 지표

이 문서에서는 평가 지표의 분류 및 회귀 알고리즘을 마스터 할 수이 기사를 읽은 후 "기계 학습 도서"처음 세입니다.

PS :와 기사의 마지막 연습

읽은 후 기계 학습 알고리즘을 상식 이미 피팅을 통해 피팅, 베이 즈 오류와 편견과 분산 빚진 무엇인지 후를. 이 모델에서 오프라인 기계 학습의 일부의 성능을 평가하는 지표의 숫자를 소개합니다.

우리는 더 많은 교육 모델을 얻을 때, 어떻게이 모델의 성능이 어떻게 측정? 우리는 우리가 평가 지표 전화 "좋고 나쁜"표준 모델을 측정 할 수 있어야있다. 다른 모델의 효과를 비교할 때, 다른 평가 지표는 종종 좋고 나쁜 효과 모델이 상대적 의미, 다른 결론으로 ​​이어질.

학습 작업의 다른 유형을 위해, 우리는 여기에 우리가 분류 및 회귀 알고리즘을 평가하는 가장 일반적인 지표의 일부를 소개하고, 서로 다른 평가 지표가있다.

분류 색인

인생에서 대부분의 문제는 그래서 여기에 하위 분류에 관한 지표의 일부를 설명하기 위해 예로서 분류이 가진 모든 두 클래스 분류 문제입니다.

공식적으로 도입 표시하기 전에 먼저 몇 가지 기본 개념을 대중화하기 : 때때로 "긍정적", "진정한", "n 형", "1"같은 일을 말합니다, "음", "거짓", "네거티브 형을" "0"도 같은 일을 말합니다. 이 샘플에 대한 예시적인 예측 모델은 1이고, 그것은 사실, 또는 포지티브 형 또는 양성이 샘플의 결과를 예측하는 모델로 간주 될 수 있으며, 실제로, 그 의미이다.

혼란 매트릭스

혼란 행렬 (혼동 행렬) K 진 분류 분류 문제를 평가하기 위해 통상적으로 사용되는 도구, 실제로, 예측 분류기를 기록하는 KXK 테이블이다. 일반적인 바이너리 들어, 그 혼란 매트릭스는 2 × 2입니다.

두 번째 범주에서, 상기 샘플의 실제 결과를 예측 결과를 분할의 조합 참된 긍정 모델 (참 양성 TP), 진정한 음극 (참 부정적 TN), 위양성 (위양성, FP), 위음성에 기초 할 수있다 (위음성, FN). TP, TN, FP에 따르면, FN은 혼란 매트릭스는 이분법 얻을 수 있습니다.

정확성

정확성 (정밀도) 모델을 의미 올바르게 샘플들의 총 수의 샘플 비율의 숫자, 즉 (포함한 예측이 참과 거짓 예측이 정확한지 올) 예측

어떤 올바르게 모델을 분류 샘플의 수를 나타낸다 는 샘플의 수를 모두 나타냅니다.

이진 정확도는 다음의 계산식에 의해 구할 수있다.

정확도는 가장 쉽고 직관적 인 평가 지표 분류 문제의 하나이지만, 정확도 몇 가지 제한 사항이 있습니다. 모델은 음성 시료를 99 % 정도의 속도를 얻을 수있는 예측 된 경우, 예를 들어, 제 2 카테고리에, 네가티브 샘플의 99 %의 모든 샘플을 차지하는 경우. 정확한 비율이 높은 것 같지만 그것은 긍정적 인 샘플을 찾을 수 없기 때문에,하지만 사실 때이 모델은 사용하지 않습니다.

정확도 속도

명중률 모델 예측에 해당되는 (정밀도)를 의미하지만, 또한 샘플들의 총 수의 실제 비율이 정말 사실 모델은 샘플의 수를 예측, 즉,

같은 도둑을 잡기 위해 경찰로, 설명하기 위해, 다음 정확성 속도가 6/10 = 0.6 도둑입니다 육명 등 10 명 체포.

소환

리콜 때로는 리콜라고 (리콜), 모델 예측을 의미 사실, 또한 샘플 수의 거의 모든 실제 비율 회계, 즉, 정말 샘플 사실 수 있습니다

도둑 상기 예를 경찰을 설명하거나 붙잡는 멀리 다른 세 도둑 후 회수율이 6 / (+ 3-6) ≈ 0.67가 개별 도둑 6 항에있어서, 10 개인 구속.

값 F1 / Fα 값

일반적으로, 정밀 리콜이 상호 배타적 인, 즉 정확한 비율이 높은 말하자면, 회수 속도가 낮아지고, 회수율은 명중률 낮은 높아지고있다. 따라서, 계정에 값 인덱스 F1의 정밀도와 리콜 비율의 디자인을 복용. F1은 정밀도 및 회수, 즉의 조화 평균 값

우리는 정밀도와 리콜에 집중하는 방법을 일부 시나리오에서는이 시간이 동일하지 않습니다, 더 일반적인 형태 Fα 값의 F1 값을 충족 할 수있을 것입니다. Fα을 다음과 같이 값 정의

상기 식에서 α는 리콜의 정확한 비율의 상대적 중요성의 크기를 나타냅니다.

다중 분류

우리가 발생할 여러번 각 조합 스물 두 카테고리 혼란 이진 행렬에 대응하는 것을 의미 다중 분류된다. 가설은 n 개의 이진의 혼란 행렬, 그럼 어떻게 결과를 n 개의 이들의 평균을 올입니까?

매크로 평균

첫 번째 방법이 호출되어 계산 된 각 혼동 행렬 결과의 첫 번째이고 다음 평균치를 계산 "평균 매크로."

마이크로 평균

상기 매크로 평균 외에도, 또한 평균 TP를 얻기 위해 평균화된다 행렬의 이가 해당 요소를 혼란스럽게 할 수 TN이, FP는, FN은 다음의 평균값은 다음에 기초하여 계산되며, 이는 "이라고 마이크로 평균. "

큰 괴조

결과는 모델 (네가티브 형 또는 포지티브 형)에 의해 예측 얻을 필요 (등 정확도, 정밀도, 소환으로) 전술 이들 지표 많은 모델의 예측 된 확률이 클래스에 속하는 양성 값은, 그래서 당신은, 긍정적 인 클래스에 대한 임계 값 이상의 임계 값을 지정할 그렇지 않으면 부정적인 카테고리가 필요합니다. 콘트라스트 직접 모델의 일반화 능력의 크기를 결정한다.

평가 지표는, 상기 평가 지표가 임계 값을 지정할 수없는 특성 (수신기 동작 특성 ROC) 곡선을 동작하는 수신기를했다. ROC 곡선의 종축은 참 양성 비율 (TPR)이고, 가로축은 위양성율 (FPR)이다.

다음과 같은 화학식에 해당 양성률 및 위양성율이다 :

이 발견 및 TPR 리콜 화학식은 동일 할 수있다. 그렇다면 그것의 ROC 곡선을 그릴 수 있습니까? 볼 수있는, 일련의 ROC 곡선 (FPR, TPR) 점, 특정 모델의 구성 만 한 세트 (FPR, TPR은)는 ROC 곡선의 한 점에 해당하는 분류 결과를 얻을 방법 그것의 더 얻을?

임계 값과 예측 된 확률값 다음 내림차순 모든 샘플 (포지티브 형의 확률 값) 예측치에 대한 우리의 모델은, 각 모델은 양 클래스에 대한 임계 값에 따라 예측 결과를 얻을 샘플 수 네가티브 형 및 당신이 조금 얻을, 그리고 마지막으로 ROC 곡선의 모든 점을 연결할 수 있도록 세트 (FPR, TPR) 값을 생성 ROC 곡선을 보였다. 분명히, 더 배 설정된 임계 값 이상 (FPR, TPR) 값을 생성 할수록, ROC 곡선은 부드러운 그려. 즉,  반드시 샘플 수에 연결되지 절대적인 관계의 임계 수와 ROC 곡선의 평활성 수를 설정 . 실제로, ROC 곡선은 우리 대부분이 원활하게되지 않습니다 그려.

ROC曲线越靠近左上角,表示效果越好。左上角坐标为(0,1),即 FPR = 0,TPR = 1,这意味着 FP(假阳性)=0, FN(假阴性)=0,这就是一个完美的模型,因为能够对所有的样本正确分类。ROC曲线中的对角线(y=x)上的所有的点都表示模型的区分能力与随机猜测没有差别。

AUC

AUC(Area Under Curve)被定义为ROC曲线下的面积,很明显,AUC的结果不会超过 1,通常ROC曲线都在 y = x 这条直线上面,所以,AUC的值一般在 0.5 ~ 1 之间。

如何理解AUC的作用呢?随机挑选一个正样本(P)和负样本(N),模型对这两个样本进行预测得到每个样本属于正类的概率值,根据概率值对样本进行排序后,正样本排在负样本前面的概率就是AUC值。

AUC可以通过下面的公式计算得到。

其中,rank为将模型对样本预测后的概率值从小到大排序后的正样本的序号(排序从1开始),|P|为正样本数,|N|为负样本数。

需要注意的是,如果多个样本被模型预测的概率值一样,那么求rank的时候只需要将这些原始rank加起来求平均即可。所以说相等概率得分的样本,无论正负,谁在前,谁在后无所谓。

对数损失

对数损失(Logistic Loss,logloss)是对预测概率的似然估计,其标准形式为:

对数损失最小化本质是上利用样本中的已知分布,求解导致这种分布的最佳模型参数,使这种分布出现概率最大。

对数损失对应的二分类的计算公式为:

其中,N为样本数,为第i个样本预测为1的概率。

对数损失在多分类问题中也可以使用,其计算公式为:

其中,N为样本数,C为类别数,表示第i个样本的类别为j,为第i个样本属于类别j的概率。

logloss衡量的是预测概率分布和真实概率分布的差异性,取值越小越好。

回归指标

在回归学习任务中,我们也有一些评估指标,一起来看看吧!

平均绝对误差

平均绝对误差(Mean Absolute Error,MAE)公式为:

其中,N为样本数,为第i个样本的真实值,为第i个样本的预测值。

均方误差

均方误差(Mean Squared Error,MSE)公式为:

平均绝对百分误差

平均绝对百分误差(Mean Absolute Percentage Error,MAPE)公式为:

MAPE通过计算绝对误差百分比来表示预测效果,其取值越小越好。如果MAPE=10,这表明预测平均偏离真实值10%。

由于MAPE计算与量纲无关,因此在特定场景下不同问题具有一定可比性。不过MAPE的缺点也比较明显,在  处无定义。另外需要注意的是,MAPE对负值误差的惩罚大于正值误差,比如预测一个酒店消费是200元,真实值是150元的会比真实值是250的MAPE大。

均方根误差

均方根误差(Root Mean Squared Error)的公式为:

RMSE代表的是预测值和真实值差值的样本标准差。和MAE相比,RMSE对大误差样本有更大的惩罚。不过RMSE有一个缺点就是对离群点敏感,这样会导致RMSE结果非常大。

基于RMSE也有一个常用的变种评估指标叫均方根对数误差(Root Mean Squared Logarithmic Error,RMSLE),其公式为:

RMSLE对预测值偏小的样本惩罚比预测值偏大的样本惩罚更大,比如一个酒店消费均价是200元,预测成150元的惩罚会比预测成250的大。

R2

R2(R-Square)的公式为:

R2用于度量因变量的变异中可由自变量解释部分所占的比例,一般取值范围是 0~1,R2越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归的拟合程度就越好。

练习题

看完这篇文章,我们来做几道练习题来检验下学习成果:

  1. 为什么说ROC曲线的光滑程度与样本数量没有绝对的关系呢?

  2. 如果一个模型的AUC小于0.5,可能是因为什么原因造成的呢?

  3. 在一个预测流量的场景中,尝试了多种回归模型,但是得到的 RMSE 指标都非常高,考虑下可能是因为什么原因造成的呢?

  4. 在一个二分类问题中,15个样本的真实结果为[0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0],模型的预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1],计算准确率、精确率、召回率以及F1值。

  5. 在一个二分类问题中,7个样本[A, B, C, D, E, F, G]的真实结果为[1, 1, 0, 0, 1, 1, 0],模型的预测概率为[0.8, 0.7, 0.5, 0.5, 0.5, 0.5, 0.3],计算AUC值。

想要学习更多机人工智能知识,欢迎关注公众号AI派

以上所有的练习题答案我都会公布在我的知识星球中,方便后续做一个知识沉淀;另外,关于文章有任何疑问或者想要深入学习与交流,都可以加入我的知识星球来交流(加入方式:扫描下方二维码或者点击“阅读原文”)。

参考:

[1] 周志华.机器学习.第二章第三节(性能度量)
[2] 美团算法团队.美团机器学习实战.第一章第一节(评估指标)
[3] https://blog.csdn.net/qq_22238533/article/details/78666436
[4] https://blog.csdn.net/u013704227/article/details/77604500

 

추천

출처blog.csdn.net/Mei_ZS/article/details/92996581