MedTechToday編集部のよしがいふみたかです。
今回は、AIや統計を用いた検査でよく目にする
感度や特異度、F値などの評価指標について解説します。
以下、説明していきます。
Contents
1. 混合行列について
AIの性能を評価する指標について詳しく紹介するためには、
混同行列について紹介する必要があります。
混同行列とは、各テストデータに対するモデルの予測結果を
真陽性(True Positive)、真陰性(True Negative)、偽陽性(False Positive)、偽陰性(False Negative)の4つで分類を行い、当てはまる予測結果の個数をまとめた表です。
「真か偽」は予測が的中したかどうか、
「陽性か陰性」は予測された結果をそれぞれ示します。
まとめると
真陽性:「陽性と予測され、結果も陽性であった個数」(正解)
真陰性:「陰性と予測され、結果も陰性であった個数」(正解)
偽陽性:「陽性と予測されたが、結果は陰性であった個数」(不正解)
偽陰性:「陰性と予測されたが、結果は陽性であった個数」(不正解)
をそれぞれ示しています。

(図:1)
2. 評価指標の計算方法
それでは、ここから一つの混合行列を題材にそれぞれの指標を計算していきましょう。
例えば、
癌の陽性、陰性の識別をAIが行い、このような混合行列が計算されたとします。

(図:2)
すると評価指標は以下のように求めることができます。
1) 正解率 (Accuracy):(TP+TN)/(TP+FP+FN+TN)
これが正解率の計算方法です。
4つある混合行列の合計の中で正しく判定できた要素(真陽性+真陰性)
を全体(真陽性+偽陽性+偽陰性+真陰性)
で割ることで正しく判定できた割合を求めます。
図2において、正解率は(62+94)/(62+18+12+94)=84%になります。
2) 再現率 (Recall) = 感度 (Sensitivity):TP/(TP+FN)
再現率は、正解が陽性であるサンプルのうち、
正しく陽性と判定された率で正確に検出できた陽性の数(真陽性)を、
陽性の総数 (真陽性 +偽陰性) で割ります。
感度が高い=正しく陽性と判断する確率が高いので、
病気の可能性をこぼさずにスクリーニングしたい検査においては最重要の指標になります。
図2で再現率は 62/(62+12)=84%となります。
3) 特異度 (Specificity):TN/(TN+FP)
正解が陰性であるサンプルのうち、正しく陰性であると判定された率で
正確に陰性と判定できた数(真陰性)を、
陰性と判定されたものの数(真陰性+偽陰性)で割ります。
特異度が高い=正しく陰性と判断する確率が高いので、
この指標は、病気の確定診断において使われます。
図2で特異度は 94/(94+18)=84%となります。
4) 適合率 (Precision):TP/(TP+FP)
陽性と判定されたもの(真陽性 + 偽陽性) を
正確に検出できた陽性の数(真陽性)で割ることで
実際にどれだけ誤診があるかを測ることができます。
「陽性」判定の信憑性を示す指標ですね。
図2において、適合率は62/(62+18)=78%となります。
5) F値:2×Precision×Recall/(Precision+Recall)
F値は、特異度と再現率の調和平均で計算します。
調和平均とは,算術平均をとったものの逆数で、
正の実数 a1, a2, . . . , an の調和平均は各 an の逆数 1/an について
算術平均をとったものの逆数
すなわち

図3:
のことです。
「確率」や「割合」といった値の平均値を取りたい場合にはこの
「調和平均」が良く用いられます。
機械学習モデルの評価の際には、正解率と並んで最も使われる指標で
データの偏りがある場合は、F値が使われます。
図2において、
F値は2×(62/(62+18))*(62/(62+12))/(62/(62+18)+62/(62+12))=80%となります。
まとめ
以上、5つの評価指標についてまとめました。
参考になりましたら幸いです。