下载这个hga038 下载这个hga038 下载这个hga038

分类算法评价指标详解

一、基本概念

评价指标是对模型性能的量化指标。

一个评价指标只能反映模型的部分性能。如果选择的评价指标不合理,则可能得出错误的结论。因此,应针对具体的数据和模型选择不同的评价指标。

本文将详细介绍机器学习分类任务常用的评价指标:Confuse Matrix、Accuracy、Precision、Recall、F1 Score、PR Curve(Precision-Recall Curve)、ROC、AUC。

2.混淆矩阵

对于一个二元分类问题,即将实例分为正类或负类,在实际分类中会出现以下四种情况:

(1) 如果一个实例是正类,被预测为正类,则为真类TP(True Positive)

(2) 如果一个实例是正类,但被预测为负类,则为假负类FN(False Negative)

(3) 如果一个实例是负类,但被预测为正类,则为假正类FP(False Positive)

(4) 如果一个实例是负类,被预测为负类,则为真负类TN(True Negative)

混淆矩阵的每一行都是样本的预测类别,每一列都是样本的真实类别(反之亦然)。

数据测算胎儿体重计算器_按八字测算黄道吉日法_数据预测算法有哪些

3. Accuracy、Precision、Recall、F1 Score 1. Accuracy

预测正确样本数占总数的百分比,具体公式如下:

Accuracy=\frac{TP+TN}{TP+FP+FN+TN}

准确率的一个缺点是数据的样本不平衡。该指标不能评价模型的性能。

假设一个测试集有 99 个正样本和 1 个负样本。该模型将所有样本预测为正样本,因此模型的准确率为99%。从评价指标来看,模型的效果很好,但实际上模型没有预测能力。

2.精度

又称准确率,是对预测结果的评价指标。在模型预测为正样本的结果中数据预测算法有哪些,实际上是正样本所占的百分比。具体公式如下:

Precision = \frac{TP}{TP+FP}

准确率是指预测为正样本的结果中有多少是准确的。该指标较为谨慎,分类门槛较高。

3.召回率(Recall)

又称召回率,是对原始样本的评价指标。在实际正样本中,预测正样本的百分比。具体公式如下:

Recall = \frac{TP}{TP+FN}

尽量检测数据,不要遗漏数据。所谓宁可错杀一千,也不放过一个,分级门槛低。

4.F1成绩

准确率和召回率都有各自的缺点;阈值高,准确率高,但会漏掉很多数据;如果阈值低,召回率会很高,但预测会很不准确。

例子一

假设总共有 10 个好苹果和 10 个坏苹果。对于这20个数据,模型只预测了1个好苹果,对应的结果如下

数据预测算法有哪些_按八字测算黄道吉日法_数据测算胎儿体重计算器

Precision = \frac{1}{1+0} = 1

Recall= \frac{1}{1+9} = 0.1

虽然准确率很高,但是这个模型的性能并不好。

例子二

总共还有 10 个好苹果和 10 个坏苹果。对于这20个数据,模型预测所有的苹果都是好苹果,对应的结果如下

数据预测算法有哪些_按八字测算黄道吉日法_数据测算胎儿体重计算器

Precision = \frac{10}{10+10} = 0.5

Recall=\frac{10}{10+0} =1

虽然召回率很高,但这个模型的表现并不好。

从上面的例子可以看出准确率和召回率是权衡取舍的。如果要同时考虑两者,则需要 F1 分数。

F1 = \frac{2\times P\times R}{P+R}

F1 Score 是一种调和平均数。

4.PR曲线

PR曲线是描述精确率和召回率变化的曲线。对于所有正样本,

绘制PR曲线?

设置不同的阈值,模型对所有正样本进行预测,并计算相应的precision和recall。

数据预测算法有哪些_数据测算胎儿体重计算器_按八字测算黄道吉日法

模型与坐标轴围成的面积越大,模型的性能越好。但一般来说,曲线下的面积是很难估计的,所以推导出“平衡点”(Break-Event Point,简称BEP),即P=R时的值,越高的值平衡点高,性能更好。

五、ROC曲线与AUC 1、为什么会有ROC?

实例三

有 9 个好苹果和 1 个坏苹果,模型预测所有苹果都是好苹果。

数据预测算法有哪些_按八字测算黄道吉日法_数据测算胎儿体重计算器

Accuracy=\frac{9}{9+1} = 0.9

Precision=\frac{9}{1+9}=0.9

Recall=\frac{9}{9+0}=1

F1 = \frac{2\times P\times R}{P}=\frac{2\times 0.9\times 1}{1+0.9} = \frac{1.8}{1.9}\approx 1

我们可以得出结论,虽然Precision、Recall、F1都很高,但是模型的效果并不好。因此,对于样本不平衡,上述指标很难区分模型的性能,所以需要ROC和AUC。

2. 基本概念

相应缩写的含义:

数据测算胎儿体重计算器_按八字测算黄道吉日法_数据预测算法有哪些

在介绍ROC和AUC之前,我们需要明确以下三个概念:

真阳性率(TPR),也称为灵敏度(sensitivity),相当于召回率。它描述了被分类器正确分类的正例占所有正例的比例。

数据测算胎儿体重计算器_按八字测算黄道吉日法_数据预测算法有哪些

真阴性率(TNR),也称为特异性,描述了被分类器正确分类的负例占所有负例的比例。

数据预测算法有哪些_数据测算胎儿体重计算器_按八字测算黄道吉日法

假阳性率(FPR),也称为1-specificity,计算被分类器误认为阳性的阴性实例占所有阴性实例的比例。

数据测算胎儿体重计算器_数据预测算法有哪些_按八字测算黄道吉日法

3.ROC曲线

ROC(Receiver Operating Characteristic)曲线,又称接受者操作特征曲线。曲线对应的纵坐标为TPR,横坐标为FPR。

按八字测算黄道吉日法_数据测算胎儿体重计算器_数据预测算法有哪些

绘制方法:

设置不同的阈值会导致不同的TPR和FPR,随着阈值的逐渐降低,越来越多的实例被归类为正类,但这些正类中也夹杂着负类,即TPR和FPR。FPR会同时增加。当阈值最大时,对应的坐标点为(0,0),当阈值最小时,对应的坐标点为(1,1)。

理想目标:TPR=1,FPR=0,即图中的点(0,1)。因此,ROC曲线越靠近(0,1)点,即越偏离45度对角线越好。相应的,TPR越大越好数据预测算法有哪些,FPR越小越好。

4.AUC

AUC(Area Under Curve)是ROC曲线下面积的大小。AUC 越大,模型的性能越好。

对于例3中的不平衡样本,对应的TPR=1,FPR=1,可以判断模型性能不好。

总结

当正负样本差异不大时,ROC和PR的趋势相似,但当负样本较多时,两者就完全不同了。ROC的效果好像还是很好的,但是PR体现出来的效果一般。ROC不会出现例1、例2、例3的情况。