Binary Classification Scoring Methods(2)

1 minute read

지난 시간엔 정답의 형태에 따른 예측 문제의 구분을 알아보았다.

그리고 이진분류 예측문제에서 학습된 머신러닝 모델이 얼마나 예측값을 잘 나타내고 있는지 판별할 수 있는 점수에 대해서도 알아 볼 수 있었다.

그러나 정확도는 완벽한 점수라고 하기엔 데이터 편향성에 따른 약점이 존재하였고, 보다 데이터를 디테일하게 확인할 수 있는 혼동행렬에 대해서도 알아보았다.

$정확도(Accuracy) = \frac{TN + TP}{TN + FN + FP + TP}$

혼동행렬로 표현한 정확도(Accuracy)

혼동행렬은 그 자체로 평가 기준이 될 수 있지만 단일값으로 나타낼 수 없다는 단점이 있다.

하지만 단일값들로 나타낼 수 있는 다른 평가점수들을 알기쉽게 표현할 수 있다는 장점도 가지고 있다.

오늘은 그러한 단일값으로 나타나는 다른 평가점수들을 알아보겠다.

이진분류문제, 즉 Positive(1), Negative(0)인 문제라고 생각해보자.

Positive : 1

Negative : 0

Precision (정밀도)

정밀도는 머신러닝 모델이 1이라고 예측한 것 데이터 중 실제로 1인 데이터의 수 이다.

$정밀도(Precision) = \frac{TP}{TP + FP}$

혼동행렬로 표현한 정밀도(Precision)

재현율(또는 민감도, 둘은 이음동의어다)은 실제 1인 데이터 중 머신러닝모델이 1이라고 예측한 데이터의 수 이다.

$재현율 or 민감도(Recall or Sensitivity) = \frac{TP}{TP + FN}$

혼동행렬로 표현한 재현율(Recall) 또는 민감도(Sensitivity)

특이도는 실제 0인 데이터 중 머신러닝모델이 0이라고 예측한 데이터의 수 이다.

$특이도(Specificity) = \frac{TN}{TN + FP}$

혼동행렬로 표현한 특이도

F1 Score는 실제 정밀도와 재현율(민감도)의 조화평균이다.

$F_1 = 2*\frac{precision*recall}{precision + recall}$

F1 score는 정밀도와 재현율이 비슷할 때 점수가 크다. 하지만, 상황에 따라 정밀도와 재현율의 중요도가 다를 수 있으므로, 자신의 문제에서 무엇이 더 중요한 지 생각해 보아야 한다.

(출처:njy568의 블로그)

끝