曲线说明

横轴FPR=FPN=FPFP+TNFPR = \\frac{FP}{N}=\\frac{FP}{FP+TN}FPR=NFP=FP+TNFP
纵轴TPR=TPP=TPTP+FNTPR=\\frac{TP}{P}=\\frac{TP}{TP+FN}TPR=PTP=TP+FNTP
FPR反应模型把负例预测为正例的能力
TPR反应模型把正例预测为负例的能力
ROC曲线越接近左上角,分类器越好,意味着在不断增大阈值的过程中,TP比FP增长的更快,分类器对数据的排序能力更强。
AUC:ROC曲线下面积,曲线越接近左上角,AUC越接近1

曲线绘制

将模型对测试集给出的概率预测排序,依次将概率取为阈值,计算TPR与FPR。
当阈值取为最小时,将样本全部判为正例,此时FN,TN均为0,对应曲线中(1,1)(1,1)(1,1)处点。
当阈值取为最大时,只有一个样本被判为正例,即TP及FP只有一个为1,此时对应的点在坐标轴上(一般会在纵轴上)。

随机直线的意义:

(0,0)到(1,1)的直线意味着不论如何调节阈值,TP与FP变化率都相同,模型把正例和负例预测为正的概率一直相同,所以此时模型为随机猜测。

ROC缺点

当样本很不均衡时,正例占比很少的情况下,模型识别结果中TN会远大于FP,此时的FPR增长会很缓慢,ROC会将过于乐观地估计结果。

收藏 打印