机器学习模型评价指标整理
如何量化机器学习的模型性能?本文整理了机器学习模型性能度量指标,主要是我对这些指标的一些思考。这里说的“性能”指模型泛化(即预测)能力 performance,不是指在机器上运行消耗资源的多少。
1. recall & precision
最常见的指标有recall(召回率,查全率),precision(查准率)。“召回”一词来自制造业,比如某款汽车售卖到市场上后发现有安全问题需要回收,关心有没有把所有有问题的汽车都找到回收了,以及有没有误回收[1]。
另外还有准确率、精确率的叫法,各个地方翻译得不一样,中文的“博大精深”,在这里增加了不必要的麻烦,比如accuracy网络上大多称准确率,周志华《机器学习》书中称为“精度”,而网络上是将precision称为精确率。精确率、准确率本身也不够见名知义,本文将用英文单词叙述。我读研时是做程序静态分析的,用工具查找程序缺陷,在这个领域用的指标是漏报率(false negative rate)和误报率(false discovery rate,注意不叫 false positive rate),漏报率就是1-recall,误报率是1-precision,这两个名称能够见名知义。
维基百科上这张图总结得很全[2],红框中是常用的指标。