분류모델에서 정확도만이 최적의 결정포인트가 아닌 이유는 모든 데이터가 공평하게 나뉘어 있지 않기 때문이다
예를들어
100개의 라벨중 A가 50개 , B가 50개라면 A와 B를 구분하는 분류모델에서 정확도가 중요한 평가지표가 된다
하지만 A가 90개, B가 10개 라벨의 모델이라면 무작정 A라고 분류해도 90%의 정확도를 나타내기 때문이다
그래서 필요한 개념이
혼동행렬, 정확도 , 정밀도 , 재현율의 개념이다
각 요소를 정확하게 이해하는 것이 가장 중요하다
포인트는 !!! 뒤에서 부터 해석 !!!
!!!앞은 예측의 맞음과틀림, 뒤는 모델의 예측!!!
백신접종을 예로 들면
TP : 모델의 예측 positive = 백신 맞았을거야 , 예측 True = 예측 맞음
즉, 백신을 맞았을 거라고 예측했고 , 예측이 맞았으므로 , 실제로 백신을 맞음 사람임
TN : 모델의 예측 Negaive= 백신 안맞을거야 , 예측 True = 예측 맞음
즉, 백신을 안맞을 거라고 예측했고, 예측이 맞았으므로 , 실제로 백신을 안맞은 사람임
FP : 모델의 예측 positive = 백신 맞았을거야 , 예측 False = 예측 틀림
즉, 백신을 맞았을 거라고 예측했으나, 예측이 틀렸으므로 , 실제로 백신을 안맞음
FN : 모델의 예측 Negative = 백신 안맞았을거야 , 예측 False = 예측 틀림
즉, 백신을 안맞은 거라고 예측했으나, 예측이 틀렸으므로, 실제로는 백신을 맞음
Accuracy (정확도) :
전체 데이터 중 올바르게 예측한 비율
TP + TN / (TP + FN + FP + TN)
단점 : 예측하려고 하는 종속변수의 비율이 불균형할때 가치가 낮아집니다
Recall (재현율) :
TP / (TP + FN)
총 백신을 맞은 사람들 중 (TP와 FN) 백신을 맞았을거라고 예측한 비율
(맞았을거라고 예측했고 그 예측이 맞은 경우와 안맞았을거라고 예측했으나 그 예측이 틀린 경우__즉 맞은경우)
예시) 암진단
암인 사람을 음성으로 판단하면 매우 위험해집니다
음성인 사람을 양성으로 판단할 가능성이 높아지는 단점 (이부분은 결과적으로 환자한테 괜찮으니까)
Precision (정밀도) :
TP / (TP + FP)
백신을 맞았을 거라고 예측한 사람들 중 (TP + FP) 실제로 백신을 맞은 비율
(맞았을거라고 예측했고 그 예측이 맞은 경우와 맞았을거라고 예측했으나 그 예측이 틀린 경우__즉 안맞은경우)
출처 : velog.io/@skyepodium/%EB%B6%84%EB%A5%98-%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80-%EB%B0%A9%EB%B2%95
'AI월드 > ⚙️AI BOOTCAMP_Section 2' 카테고리의 다른 글
판다스 groupby 활용법_Day 32 (0) | 2021.02.16 |
---|---|
분류 정확도와 불균형, accuracy만 집중했을 때의 문제점_Day 31 (0) | 2021.02.15 |
결정트리,랜덤포레스트,혼동행렬,교차검증 키워드 개념정리 (0) | 2021.02.08 |
Precision,Recall,F-Measure,정밀도,재현율,정확도란?_Day28(2) (0) | 2021.02.08 |
Confusion Matrix, 혼동행렬_Day28 (0) | 2021.02.08 |
댓글