-
1. 소개
-
1) 분류모델의 개념 소개
-
2) 분류모델이 중요한 이유
-
2. 분류모델의 기본 개념
-
1) 분류의 정의와 목적
-
2) 예측과 분류의 차이
-
3) 이진 분류와 다중 분류의 개념 설명
-
3. 분류모델의 동작 원리
-
1) 학습 데이터와 특징 벡터
-
2) 가중치와 편향의 역할
-
3) 손실 함수와 최적화 알고리즘
-
4. 주요 분류모델 종류 소개
-
1) 로지스틱 회귀
-
2) 결정 트리
-
3) 서포트 벡터 머신(SVM)
-
4) 신경망 기반 모델
-
5. 성능 평가 지표
-
1) 정확도, 정밀도, 재현율 등의 지표 설명
-
2) ROC 곡선과 AUC 개념 소개
-
6. 실제 응용 사례
-
1) 의료 분야에서의 환자 분류
-
2) 금융 분야에서의 사기 탐지
-
3) 이미지 분류 예시
1. 소개
1) 분류모델의 개념 소개
∎ 분류모델
데이터를 여러 카테고리 또는 클래스로 분류하는 데 사용되는 알고리즘,
주어진 데이터의 패턴을 학습하여 새로운 데이터를 정확하게 분류하는데 활용
2) 분류모델이 중요한 이유
현실 세계에서 다양한 분야에서 활용
▪ 예측, 판별, 인식 등의 작업을 수행하여 의사 결정에 도움
▪ 비즈니스, 의료, 금융 등에서 데이터 기반의 전략을 수립하는데 중요한 역할
2. 분류모델의 기본 개념
1) 분류의 정의와 목적
∎ 분류
입력 데이터를 사전 정의된 클래스 또는 레이블로 할당하는 작업을 의미
∎ 분류의 목적
새로운 데이터에 대해 정확한 레이블을 예측하여 판별 또는 분류하는 것
2) 예측과 분류의 차이
∎ 예측
연속적인 값을 예측 하는 작업
∎ 분류
데이터를 범주에 할당 하는 작업,
분류는 미리 정의된 클래스 중 하나에 데이터를 할당 하는 것이 핵심적인 차이
3) 이진 분류와 다중 분류의 개념 설명
∎ 이진분류
두 개의 클래스 중 하나로 데이터를 분류하는 작업
∎ 다중 분류
세 개 이상의 클래스로 분류하는 작업,
다중 분류는 일반적으로 원-핫 인코딩을 사용하여 구현된다.
원-핫 인코딩(One-Hot Encoding)
범주형 데이터를 컴퓨터가 처리하기 쉬운 형태로 변환하는 기술.
기계 학습 및 인공 지능 분야에서 자주 사용
3. 분류모델의 동작 원리
1) 학습 데이터와 특징 벡터
분류 모델은 학습 데이터를 기반으로 데이터의 특칭을 추출하고 이를 벡터로 표현,
특징 벡터는 입력 데이터의 핵심 특성을 나타냄.
2) 가중치와 편향의 역할
가중치와 편항은 모델이 학습 데이터의 특징을 얼마나 중요하게 간주하는지를 결정하는 요소,
모델이 학습 데이터를 적절하게 학습하고 일반화할 수 있도록 조절됨.
3) 손실 함수와 최적화 알고리즘
▪ 손실함수: 모델의 예측 결과와 실제 레이블 간의 차이를 측정
▪ 최적화 함수: 이 손실을 최소화하도록 모델의 매개변수를 조정, Gradient Descent등이 일반적으로 사용됨.
경사 하강법(Gradient Descent)
기계 학습과 최적화에서 사용되는 반복적인 최적화 알고리즘 중 하나이며,
주어진 함수의 최솟값(또는 최댓값)을 찾는데 사용됨.
특히, 모델의 매개변수를 조정하여 손실 함수를 최소화하는 값을 찾는 데 주로 사용.
4. 주요 분류모델 종류 소개
1) 로지스틱 회귀
▪ 로지스틱 회귀는 이진 분류에 주로 사용한다.
▪ 선형 결합을 로지스틱 함수에 적용하여 0과 1 사이의 확률을 출력 경사 하강법을 사용하여 최적의 가중치를 학습한다.
2) 결정 트리
▪ 결정 트리는 데이터를 특성 값에 따라 분할하여 의사 결정 규칙을 생성한다.
▪ 이를 통해 입력 데이터를 분류하는 모델을 만들고, 각 분할은 정보 이득이 최대가 되도록 선택한다.
3) 서포트 벡터 머신(SVM)
▪ 데이터를 고차원 공간으로 매핑하여 클래스 간의 최대 마진을 찾는 알고리즘
▪ 결정 경곛를 결정하는데 중요한 역할을 한다.
4) 신경망 기반 모델
▪ 인공 신경망 구조를 사용하여 복잡한 문제를 해결하는 데 효과적인 딥러닝 모델
▪ 다층 퍼셉트론(MLP) 등이 대표적, 학습 데이터를 기반으로 가중치를 조정하여 분류를 수행한다.
5. 성능 평가 지표
1) 정확도, 정밀도, 재현율 등의 지표 설명
정확도, 정밀도, 재현율 등의 지표와 같은 성능 평가 지표들은 모델이 얼마나 효과적으로 작동하는지를 평가하는데 사용한다.
∎ 정확도: 전체 예측 중 올바르게 분류된 비율
정확도 = (올바르게 분류된 샘플 수) / (전체 샘플 수)
∎ 정밀도: 양성으로 예측한 것 중 실제로 양성인 비율
정밀도 = (양성으로 정확하게 예측된 샘플 수) / (양성으로 예측된 전체 샘플 수)
∎ 재현율: 실제 양성 중 모델이 올바르게 예측한 비율
재현율 = (양성으로 정확하게 예측된 샘플 수) / (실제 양성 전체 샘플 수)
이외 F1점수(F1 Score), 특이도(specificity)등이 있음.
2) ROC 곡선과 AUC 개념 소개
ROC 곡선(Reciver Operating Characteristic Curve)은 민감도와 특이도 간의 관계를 시각화한 것이고,
AUC (Area Under the Curve)는 ROC 곡선 아래의 면적으로 모델의 성을 하나의 숫자로 표현한 것이다.
ROC 곡선과 AUC의 개념
ROC 곡선은 민감도와 특이도 간의 관계를 시각화
AUC는 ROC 곡선 아래의 면적으로 모델의 성을 하나의 숫자로 표현.
① ROC 곡선
▪ 이진 분류 모델에서 임계값을 변화시키면서 민감도(Sensitivitiy)와 1-특이도(Spcificitiy)간의 트레이드오프를 표현 ▪ X 축에 1-특이도를, Y축에 민감도를 나타내며, 각 임계값에서 모델의 성능을 표현
▪ 곡선이 좌상단에 가까울 수록 좋은 성능
② AUC(Area Under the Curve) 곡선
▪ AUC는 ROC 곡선 아래의 면적이며, 모델의 전반적인 성능을 정량화
▪ AUC 값은 0과 1 사이의 실수
▪1에 가까울수록 모델의 성능이 좋다고 판단
▪AUC가 0.5에 가까울 수로가, 모델의 성능이 무작위 수준에 가깝다는 의미
▪1보다 작은 값은 모델이 반대로 예측하는 것보다 나쁜 성능

6. 실제 응용 사례
1) 의료 분야에서의 환자 분류
환자의 건강 상태를 예측하거나 질병을 감지하기 위해 분류모델을 사용
ex) 암 진단이나 당뇨병 예측에 응용 가능
2) 금융 분야에서의 사기 탐지
금융 분야에서는 신용 카드 거래 데이터를 기반으로 사기를 탐지하는데 분류모델을 활용, 신속하고 효과적으로 사기 거래 식별 가능
3) 이미지 분류 예시
이미지 분류는 컴퓨터 비전 분야에서 많이 사용
ex) 고양이와 개를 분류하는 모델이나 자동차 종류를 식별하는 모델 등
'AI & 딥러닝' 카테고리의 다른 글
[6강] 군집화: 유사한 데이터 그룹화하기 (2) | 2024.11.26 |
---|---|
[5강] 회귀 분석: 데이터 예측을 위한 기본 원리 (0) | 2024.11.26 |
[3강] 딥 러닝과 신경망의 기본 개념 (0) | 2024.11.26 |
[2강] 기계 학습의 종류: 지도 학습, 비지도 학습, 강화 학습 (2) | 2024.11.25 |
[1강] 인공지능과 기계 학습 소개 (0) | 2024.11.25 |
1. 소개
1) 분류모델의 개념 소개
∎ 분류모델
데이터를 여러 카테고리 또는 클래스로 분류하는 데 사용되는 알고리즘,
주어진 데이터의 패턴을 학습하여 새로운 데이터를 정확하게 분류하는데 활용
2) 분류모델이 중요한 이유
현실 세계에서 다양한 분야에서 활용
▪ 예측, 판별, 인식 등의 작업을 수행하여 의사 결정에 도움
▪ 비즈니스, 의료, 금융 등에서 데이터 기반의 전략을 수립하는데 중요한 역할
2. 분류모델의 기본 개념
1) 분류의 정의와 목적
∎ 분류
입력 데이터를 사전 정의된 클래스 또는 레이블로 할당하는 작업을 의미
∎ 분류의 목적
새로운 데이터에 대해 정확한 레이블을 예측하여 판별 또는 분류하는 것
2) 예측과 분류의 차이
∎ 예측
연속적인 값을 예측 하는 작업
∎ 분류
데이터를 범주에 할당 하는 작업,
분류는 미리 정의된 클래스 중 하나에 데이터를 할당 하는 것이 핵심적인 차이
3) 이진 분류와 다중 분류의 개념 설명
∎ 이진분류
두 개의 클래스 중 하나로 데이터를 분류하는 작업
∎ 다중 분류
세 개 이상의 클래스로 분류하는 작업,
다중 분류는 일반적으로 원-핫 인코딩을 사용하여 구현된다.
원-핫 인코딩(One-Hot Encoding)
범주형 데이터를 컴퓨터가 처리하기 쉬운 형태로 변환하는 기술.
기계 학습 및 인공 지능 분야에서 자주 사용
3. 분류모델의 동작 원리
1) 학습 데이터와 특징 벡터
분류 모델은 학습 데이터를 기반으로 데이터의 특칭을 추출하고 이를 벡터로 표현,
특징 벡터는 입력 데이터의 핵심 특성을 나타냄.
2) 가중치와 편향의 역할
가중치와 편항은 모델이 학습 데이터의 특징을 얼마나 중요하게 간주하는지를 결정하는 요소,
모델이 학습 데이터를 적절하게 학습하고 일반화할 수 있도록 조절됨.
3) 손실 함수와 최적화 알고리즘
▪ 손실함수: 모델의 예측 결과와 실제 레이블 간의 차이를 측정
▪ 최적화 함수: 이 손실을 최소화하도록 모델의 매개변수를 조정, Gradient Descent등이 일반적으로 사용됨.
경사 하강법(Gradient Descent)
기계 학습과 최적화에서 사용되는 반복적인 최적화 알고리즘 중 하나이며,
주어진 함수의 최솟값(또는 최댓값)을 찾는데 사용됨.
특히, 모델의 매개변수를 조정하여 손실 함수를 최소화하는 값을 찾는 데 주로 사용.
4. 주요 분류모델 종류 소개
1) 로지스틱 회귀
▪ 로지스틱 회귀는 이진 분류에 주로 사용한다.
▪ 선형 결합을 로지스틱 함수에 적용하여 0과 1 사이의 확률을 출력 경사 하강법을 사용하여 최적의 가중치를 학습한다.
2) 결정 트리
▪ 결정 트리는 데이터를 특성 값에 따라 분할하여 의사 결정 규칙을 생성한다.
▪ 이를 통해 입력 데이터를 분류하는 모델을 만들고, 각 분할은 정보 이득이 최대가 되도록 선택한다.
3) 서포트 벡터 머신(SVM)
▪ 데이터를 고차원 공간으로 매핑하여 클래스 간의 최대 마진을 찾는 알고리즘
▪ 결정 경곛를 결정하는데 중요한 역할을 한다.
4) 신경망 기반 모델
▪ 인공 신경망 구조를 사용하여 복잡한 문제를 해결하는 데 효과적인 딥러닝 모델
▪ 다층 퍼셉트론(MLP) 등이 대표적, 학습 데이터를 기반으로 가중치를 조정하여 분류를 수행한다.
5. 성능 평가 지표
1) 정확도, 정밀도, 재현율 등의 지표 설명
정확도, 정밀도, 재현율 등의 지표와 같은 성능 평가 지표들은 모델이 얼마나 효과적으로 작동하는지를 평가하는데 사용한다.
∎ 정확도: 전체 예측 중 올바르게 분류된 비율
정확도 = (올바르게 분류된 샘플 수) / (전체 샘플 수)
∎ 정밀도: 양성으로 예측한 것 중 실제로 양성인 비율
정밀도 = (양성으로 정확하게 예측된 샘플 수) / (양성으로 예측된 전체 샘플 수)
∎ 재현율: 실제 양성 중 모델이 올바르게 예측한 비율
재현율 = (양성으로 정확하게 예측된 샘플 수) / (실제 양성 전체 샘플 수)
이외 F1점수(F1 Score), 특이도(specificity)등이 있음.
2) ROC 곡선과 AUC 개념 소개
ROC 곡선(Reciver Operating Characteristic Curve)은 민감도와 특이도 간의 관계를 시각화한 것이고,
AUC (Area Under the Curve)는 ROC 곡선 아래의 면적으로 모델의 성을 하나의 숫자로 표현한 것이다.
ROC 곡선과 AUC의 개념
ROC 곡선은 민감도와 특이도 간의 관계를 시각화
AUC는 ROC 곡선 아래의 면적으로 모델의 성을 하나의 숫자로 표현.
① ROC 곡선
▪ 이진 분류 모델에서 임계값을 변화시키면서 민감도(Sensitivitiy)와 1-특이도(Spcificitiy)간의 트레이드오프를 표현 ▪ X 축에 1-특이도를, Y축에 민감도를 나타내며, 각 임계값에서 모델의 성능을 표현
▪ 곡선이 좌상단에 가까울 수록 좋은 성능
② AUC(Area Under the Curve) 곡선
▪ AUC는 ROC 곡선 아래의 면적이며, 모델의 전반적인 성능을 정량화
▪ AUC 값은 0과 1 사이의 실수
▪1에 가까울수록 모델의 성능이 좋다고 판단
▪AUC가 0.5에 가까울 수로가, 모델의 성능이 무작위 수준에 가깝다는 의미
▪1보다 작은 값은 모델이 반대로 예측하는 것보다 나쁜 성능

6. 실제 응용 사례
1) 의료 분야에서의 환자 분류
환자의 건강 상태를 예측하거나 질병을 감지하기 위해 분류모델을 사용
ex) 암 진단이나 당뇨병 예측에 응용 가능
2) 금융 분야에서의 사기 탐지
금융 분야에서는 신용 카드 거래 데이터를 기반으로 사기를 탐지하는데 분류모델을 활용, 신속하고 효과적으로 사기 거래 식별 가능
3) 이미지 분류 예시
이미지 분류는 컴퓨터 비전 분야에서 많이 사용
ex) 고양이와 개를 분류하는 모델이나 자동차 종류를 식별하는 모델 등
'AI & 딥러닝' 카테고리의 다른 글
[6강] 군집화: 유사한 데이터 그룹화하기 (2) | 2024.11.26 |
---|---|
[5강] 회귀 분석: 데이터 예측을 위한 기본 원리 (0) | 2024.11.26 |
[3강] 딥 러닝과 신경망의 기본 개념 (0) | 2024.11.26 |
[2강] 기계 학습의 종류: 지도 학습, 비지도 학습, 강화 학습 (2) | 2024.11.25 |
[1강] 인공지능과 기계 학습 소개 (0) | 2024.11.25 |