ROC曲线
ROC曲线
0x01 receiver operating characteristic (ROC) curve.
T/F(识别结果正确或错误)P/N(模型识别结果)

True Positive Rate(TPR) (aka,recall 真阳率)
用于衡量对positive目标的识别准确率的,如果将所有positive目标(理想)/所有目标(极限) 识别为positive,则TPR=1.
理想情况下,模型将坏人识别为坏人的概率
极限情况下,模型目标是检测坏人时,将所有人识别为坏人,宁可杀一万,不放过一个。
TRP越高越好
TP,true positive 正确positive识别为positive,FN ,false negative 错误negative识别为positive
defined as fellows:
\[ TPR = \frac{TP}{TP+FN} \]
False Positive Rate(FPR)
用于衡量对negative目标的误报率,如果将所有negetive目标/所有目标 识别为positive,则FPR=1
模型将好人识别为坏人的概率
FPR越低越好
defined as fellows: \[ FPR = \frac{FP}{FP+TN} \]
越倾向于将所有目标识别为positive则FPR和TPR,精准度和误报率回同时上升
ROC curve
ROC 曲线绘制了不同分类阈值下的 TPR 与 FPR。降低分类阈值会将更多项目分类为阳性,从而增加假阳性和真阳性
classification thresholds(分类阈值)
分类阈值指将多大概率的可能性识别为真,sigmoid和softmax会输出一个0到1之间的概率
threshold决定我们是当模型预测概率大于90%还是80%时预测为真。
大多数算法的 ML 阈值默认设置为 0.5
在没有适当的模型评估和分析的情况下,假设默认的 0.5 分类阈值对于特定用例来说是正确的可能是有风险的。模型错误分类的数量和性质将决定机器学习计划的成功。设置适当的分类阈值对于限制这些错误分类至关重要,因此在机器学习中是不可或缺的。
分类阈值选择最常用的方法是绘制 ROC 曲线。 ROC 代表接收者操作特征,绘制所有分类阈值下的真阳性率 ( TPR= TP TP + FN ) 和假阳性率 ( FPR= FP FP + TN )
ROC 曲线可以快速直观地了解分类器的准确性。曲线越接近直角,模型越准确。返回曲线左上角的分类阈值(最小化 TPR 和 FPR 之间的差异)是最佳阈值