Article 1. 평가지표 4111

1 minute read

Section 1. 분석 모형 평가

빅데이터 분석 모형은 분류 모형과 회귀 모형(또는 예측 모형)에 따라 다른 평가지표를 이용하여 평가한다.

Paragraph 1. 회귀 모형의 평가지표Permalink

Subparagraph 1. 회구 모형의 이해를 위한 지표Permalink

기호 설명
yᵢ i번째 실제 y값
ŷ y에 대한 예측값( ŷ = 𝛼x + 𝛃)
ȳ yᵢ들의 평균값

Subparagraph 2. 회귀 모형의 기본 평가지표Permalink

img

회귀 모형에 대한 평가지표를 상펴보면 다음과 같다.

img

Subparagraph 3. 호귀 모형의 결정계수와 Mallow’s Cₚ에 대한 평가지표Permalink

img

Paragraph 2. 분류 모형의 평가지표Permalink

  • 분류 모형의 결과를 평가하기 위해서 혼동 행렬(Confusion Matrix)을 이용한 평가지표와 ROC 곡선의 AUC를 많이 사용한다.
  • 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파(Kappa) 통계량을 통하여 설명할 수 있다.

Subparagraph 1. 혼동 행렬Permalink

Clause 1. 혼동 행렬(Confusion Matrix; 정오 행렬) 개념Permalink

혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표(Cross Table) 형태로 정리한 행렬이다.

Clause 2. 혼동 행렬 작성 방법Permalink

img

  • Positive/Negative는 예측한 값, True/False는 예측한 값과 실젯값의 비교 결과이다.
  • 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표(Metric)가 도출된다.
  • 모델의 정확도를 예측값과 실젯값의 일치 빈도를 통해 평가할 수 있다.
구분 분류 값 설명
예측이 정확한 경우 TP(True Positive) 실젯값이 Positive이고 예측값도 Positive인 경우
예측이 정확한 경우 TN(True Negative) 실젯값이 Negative이고 예측값도 Negative인 경우
예측이 틀린 경우 FP(False Positive) 실젯값은 Negative이었으나 예측값은 Positive이었던 경우
예측이 틀린 경우 FN(False Negative) 실젯값은 Positive이었으나 예측값은 Negative이었던 경우
  • 혼동 행렬은 예시된 2×2 형태의 행렬 외에 N×N 형태로도 작성할 수 있다.

Clause 3. 혼동 행렬을 통한 분류 모형의 평가지표Permalink

혼동 행렬로부터 계산될 수 있는 평가지표는 정확도, 오차 비율, 민감도 등이 있고, 그중에서 정확도, 민감도, 정밀도는 많이 사용되는 지표이다.

img

Subparagraph 2. ROC 곡선Permalink

Clause 1. ROC 곡선(Receiver Operating Characteristic Curve; ROC Curve) 개념Permalink

  • 가로축(x)을 혼동 행렬의 거짓 긍정률(FP Rate)로 두고 세로축(y)을 민감도(TP Rate)로 두어 시각화한 그래프이다.

img

  • ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다.

Clause 2. ROC 곡선의 특징Permalink

  • 거짓 긍정률(FP Rate)과 민감도(TP Rate)는 서로 반비례(Trade-Off) 관계에 있다.
  • AUC(Area Under ROC; AUROC)는 진단의 정확도를 측정할 때 사용하는 것으로 ROC 곡선 아래의 면적을 모형의 평가지표로 삼는다.
  • AUC의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형이다.
AUC 판단 기준 설명
0.9~1.0 Excellent(뛰어남)
0.8~0.9 Good(우수)
0.7~0.8 Fair(보통)
0.6~0.7 Poor(불량)
0.5~0.6 Fail(실패)

Subparagraph 3. 이익 도표(Gain Chart)Permalink

  • 분류 모형의 성능을 평가하기 위해서 사용되는 그래프 분석 방법이다.
  • 이익(Gain)은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값이다.
  • 이익 도표(Gain Chart)는 이익 곡선(Gain Curve), 리프트 곡선(Lift Curve)이 라고도 부른다.

img

img