1. 소개
1) 모델 평가와 성능 측정의 개념
▪ 모델 평가는 머신러닝 모델이 얼마나 잘 동작하는지를 측정하는 프로세스
▪ 모델이 예측한 결과가 실제 데이터와 얼마나 일치하느지를 평가함으로써 이루어짐
2) 모델 평가가 중요한 이유
▪올바른 모델 평가는 모델이 실제 환경에서 얼마나 효과적으로 작동하는지를 이해하고 개선하는 데 도움
▪ 잘못된 모델 평가는 실전에서 예측 성능을 과대 또는 과소 평가할 수 있음
▪ 이는 비효율적인 의사 결정으로 이어짐
2. 평가 지표의 필요성
1) 정확도 만으로는 충분하지 않은 이유
▪ 정확도는 모델의 성능을 평가하는 일반적인 지표 중 하나
▪ 하지만, 클래스 불균형이나 데이터의 특성에 따라 신뢰할 수 없는 경우가 있음
▪ 특히, 클래스의 분포가 균일하지 않거나 특정 클래스의 중요성이 높은 경우 정확도만으로는 모델의 실제 성능을 정확히 평가하기 어려움
2) 다양한 평가 지표의 필요성
▪ Precision(정밀도), Recall(재현율), F1 Score와 같은 다양한 평가지표가 요구됨
▪ 이러한 평가 지표들은 모델의 성능을 더 상세하게 살펴볼 수 있으며, 특정한 측면에서 모델의 동작을 평가하는 데 도
3) 비즈니스 목표애 따른 평가 지표 선택
▪ 모델 평가는 비즈니스 목표에 따라 달라질 수 있음
ex) 양성 크랠스에 대한 정확한 예측이 중요한 의료 분야에서는 재현율이 중요 그러므로, 정밀도, 재현율, F1 Score 등을 조합하여 비즈니스 목표에 최적화된 지표를 선택하는 것이 요구됨
3. 이진 분류 모델의 평가 지표
1) 혼동행렬(Confision Matrix) 소개
▪ 혼동 행렬은 이진 분류 모델의 성능을 평가하는 데 사용되는 표
▪ 주요 개념으로는 True Postivie(TP), True Negative(TN), False Positive(FP), False Negative(FN)
▪ 이를 통해 모델의 예측 결과를 상세히 분석 가능
구분 | 예측값 | ||
Yes | No | ||
실제 값 | Positive | TP | FN |
Negative | FP | TN |
2) 정확도 정밀도, 재현율, F1 점수의 의미와 활용
정확도 (Accuracy) |
전체 샘플 중 올바르게 예측한 비율 | (TP + TN) / (TP+TN+FP+FN) |
정밀도 (Precision) |
Positive로 예측한 샘플 중 실제 Positive인 비율 | TP/(TP+FP) |
재현율 (Recall) |
실제 Positive인 샘플 중 모델이 Positive로 예측한 비율 | TP/(TP+FN) |
F1점수 | 정밀도와 재현율의 조화 평균 | 2*(Precision * Recall) / (Precision + Recall) |
3) ROC 곡선과 AUC 개념 설명
ROC 곡선 | 모델의 임계값 조절하여 정밀도와 재현율의 트레이드오프 관계를 시각화한 곡선 |
AUC (Area Under the Curve) |
ROC 곡선 아래의 면적이며, 모델의 성능을 하나의 숫자로 표현(AUC가 1에 가까울수록 성능이 좋은 모델) |
4,. 다중 클래스 분류 모델의 평가 지표
1) 다중 클래스 혼동 행렬 소개
▪다중 클래스 분류에서는 혼동 행렬이 다양한 클래스 간의 예측 결과를 표현하는 표
▪ 각 행은 실제 클래스, 각 열은 모델이 예측한 클래스로 구성
▪ 이를 통해 각 클래스에 대한 정확도 및 에러의 종류를 파악
2) 정확도, 정밀도, 재현율의 다중 클래스 적용
▪ 다중 클래스 정확도(Accuracy): 전체 샘플 중 올바르게 예측한 비율로, (TP1 + TP2 + ... + TPk) / (전체 샘플 수)
▪ 다중 클래스 정밀도(Precision): 각 클래스에 대해 TP / (TP + FP), 이를 평균하여 다중 클래스 정밀도 확인
▪ 다중 클래스 재현율(Recall): 각 클래스에 대해 TP / (TP + FN), 이를 평균하여 다중 클래스 재현율 확인
3) 다중 클래스에서의 평가 지표 선택 방법
▪ 다중 클래스에서는 클래스 간의 불균형이 발생할 수 있으므로, 정확도 외에도 정밀도와 재현율을 종합적으로 고려하는 평가 지표 필요
▪ 일반적으로는 F1점수, 혹은 각 클래스에 가중치를 부여한 평균값인 wighted precision과 wegithed recall 이 사용.
▪ 선택하게 되는 평가 지표는 비즈니스 목적 및 데이터 특성에 따라 달라질 수 있음
5. 회귀 모델의 평가 지표
1) 평균 제곱 오차(MSE)
MSE는 회귀 모델의 예측 값과 실제 값 간의 차이를 제곱한 후, 평균을 구한 지표
오차를 제곱하기 때문에 큰 오차에 민감
2) 평균 절대 오차(MAE)
MAE는 회귀 모델의 예측값과 실제 값의 절대값 차이를 평균한 지표
오차의 크기만을 고려하며, 제곱하지 않기 때문에 MSE보다 이상치에 덜 민감
3) R-Squared(결정 계수)의 의미와 활용
R-Squared는 회귀 모델의 설명력을 측정하는 지표, 예측값이 실제값의 분산을 얼마나 설명하는지를 표현
R-Squred값이 1에 가까울수록 모델이 데이터를 잘 설명
회귀 모델 평가 지표들은 모델의 성능을 다양한 측면에서 평가하며, 비즈니스 목표와 데이터 특성에 따라 선택이 달라질 수 있음
6. 모델 선택과 하이퍼파라미터 튜닝
1) 교차 검증(Cross-Validation)의 개념과 활용
▪교차 검증은 데이터를 여러 부분으로 나누어 모델을 여러 번 훈련하고 평가하는 기법
▪단점인 과적합(Overfitting)을 방지하고 모델의 일반화 성능을 더 정확하게 평가 가능
▪대표적인 교차 검증 기법: k-fold 교차검증, 데이터를 k 개의 부분으로 나누고 각각의 부분을 테스트셋으로 사용하고, 나머지는 훈련셋으로 사용
2) 그리드 서치를 이용한 하이퍼파라미터 튜닝
▪하이퍼파라미터 모델은 학습할 때 사용자가 직접 설정해야 하는 매개변수 → 모델의 성능에 큰 영향
▪그리드 서치는 사용자가 지정한 하이퍼파라미터 후보들의 조합을 시도해가며 최적의 조합을 찾는 방법 → 가능한 모든 조합을 시도하므로 계산 비용이 크지만, 최적의 하이퍼파라미터를 찾을 수 있음
▪모델 선택과 하이퍼파라미터 튜닝은 모델의 성능을 극대화하기 위해 필수적인 단계 → 신중한 선택과 조정이 모델의 효율성에 큰 영향
7. 실제 응용 사례
1) 의료 분야에서의 모델 평가와 성능 측정 사례
▪ 의료 분야에서는 모델의 신뢰성이 생명과 직결되기 때문에 모델 평가와 성능 측정이 중요
ex) 암 진단 모델의 경우 정확한 예측이 필요하며, 모델의 민감도와 특이도 등의 지표를 통해 성능 평가
→ ROC 곡선과 AUC를 통해 모델의 분류 능력을 시각적으로 확인하고 평가할 수 있음
2) 금융 분야에서의 모델 선택과 평가 응용
▪금융 분야에서는 정확한 예측은 재무 건전성과 위험 관리에 영향
▪신용평가 모델에서는 정확도 뿐만 아니라 거짓 긍정 및 거짓 부정의 비율을 고려하여 모델 평가
▪금융 거래 사기 탐지 모델에서는 정확도와 더불어 정밀도와 재현율이 중요한 평가 지표로 활용됨
▪실제 응용 사례에서 모델 평가와 성능 측정은 해당 분야의 특성에 맞는 조정이 필요
▪신뢰성 있는 결과를 도출하기 위해 다양한 평가 지표의 종합적인 고려가 요구됨
8. 도전과 미래 전망
1) 대규모 데이터와 다양한 모델에 대한 평가 도전
▪현대적 빅데이터 환경은 모델 평가를 위한 데이터 양이 매우 많기 때문에 대용량 데이터의 특성을 잘 반영하고 다양한 모델에 대한 평가 필요
▪다양한 모델이 등장하면서 적절한 모델 선택과 평가가 더 중요
2) AutoML과 같은 자동화된 평가 방법의 미래 전망
▪자동화 기술이 발전함에 따라 AutoML(자동화된 머신러닝)과 같은 자동화된 평가 방법이 미래에 더욱 중요성을 갖게 될 것으로 전망
▪AutoML은 모델 선택, 하이퍼파라미터 튜닝, 평가 지표 선택 등을 자동으로 수행
▪머신러닝 작업을 효율적으로 진행 가능
'AI & 딥러닝' 카테고리의 다른 글
[15강] 의료 분야에서의 인공지능 활용 (0) | 2024.11.29 |
---|---|
[14강] 인공지능과 빅데이터의 활용 (0) | 2024.11.29 |
[12강] 데이터 시각화와 그 중요성 (2) | 2024.11.29 |
[11강] 데이터 전처리와 정제 (0) | 2024.11.29 |
[10강] 이미지 처리와 컴퓨터 비전 기초 (2) | 2024.11.29 |