1. 소개
1) 군집화의 개념
◾ 군집화는 비슷한 특성을 가진 데이터를 그룹으로 묶는 데이터 마이닝 기술 중 하나
◾ 데이터 내의 패턴을 식별하고 유사성을 기반으로 한 그룹을 형성하는 방법
◾ 광범위한 응용 분야에서 사용
2) 군집화의 중요성
◾ 군집화는 고객 세그멘테이션(Seg. 분류), 이미지 세분화, 추천 시스템, 이상 탐지 등 다양한 분야에서 활용
◾ 이를 통해 데이터를 효과적으로 이해하고 의사 결정에 활용할 수 있음.
2. 군집화의 기본 개념
1) 군집화의 정의와 목적
◾ 군집화는 비슷한 특성을 가진 데이터를 동일한 그룹으로 묶는 것
◾데이터 간의 유사성을 기반으로 한 패턴을 찾아내는 통계적 기법
2) 군집화와 분류의 차이
◾ 군집화는 레이블이 없는 데이터를 비슷한 특성을 가진 그룹으로 구분
◾ 분류는 이미 레이블이 부여된 데이터를 학습하여 새로운 데이터를 미리 정의된 클래스로 분류
3) 군집화의 주요 알고리즘 소개
◾ K-평균(K-Means): 가장 일반적, 사용자가 지정한 k개의 클러스터를 형성하며, 각 클러스터의 중심(centroid)을 계산하여 데이터를 할당
3. K-평균 군집화
1) K-평균 알고리즘의 작동 원리
◾ K-평균은 데이터를 K개의 클러스터로 그룹화하는 알고리즘
◾ 각 클러스터의 중심과 데이터 간의 거리를 최소화하는 방식으로 작동
2) 군집 중심과 데이터 할당
◾ K-평균은 무작위로 선택한 중심에 데이터를 할당 후, 중심을 업데이트하며 반복적으로 최적의 군집을 형성
3) K-평균의 장단점과 적용 사례
▮K-평균(K-Means)의 장점
간단하고 효과적 | - 구현이 간단하며, 대체로 빠르게 결과에 수렴함. - 대용량 데이터셋에서도 효과적으로 사용할 수 있음. |
확장 가능성 | - 데이터가 큰 경우에도 적용이 쉬우며, 많은 클러스터에 대해서도 잘 작동 |
이해하기 쉬움 | - 직관적이고 간단한 알고리즘으로, 이해하기 쉽다. |
클러스터 크기가 균일하지 않아도 잘 작동 | - 클러스터의 크기나 밀도가 다르더라도 비교적 잘 동작하는 경향이 있음. |
▮K-평균(K-Means)의 한계
사전에 클러스터 수 지정 필요 | - 사용자는 클러스터 수를 사전에 정해주어야 하며, 이 값에 민감하게 반응할 수 있음. |
초기 중심점에 민감 | - 초기 중심점의 선택에 따라 결과가 달라질 수 있음. |
원형 클러스터에 적합 | - K-평균은 클러스터가 원형에 가까울 때 가장 잘 작동하며, 비선형적인 형태의 클러스터에는 적합하지 않을 수 있음. |
이상치에 민감 | - 이상치가 있는 경우에 클러스터의 중심이 영향을 받을 수 있음. |
▮K-평균(K-Means)의 적용 사례
고객 세그멘테이션 (Customer Segmentation) |
- 고객의 특성에 따라 세분화하여 비슷한 특성을 갖는 그룹을 찾아낼 때 사용 - 각 세그먼트에 맞는 마케팅 전략을 수립하는 데 활용 |
이미지 압축 (Image Compression) |
- K-평균은 이미지를 색상 기반으로 클러스터링하여 색상 수를 줄이는 데 사용 - 이를 통해 이미지를 압축하고 메모리 사용량의 감소 가능 |
문서 군집화 (Document Clustering) |
- 비슷한 문서들을 그룹화하여 특정 주제에 대한 문서 집합을 |
경제 지표 분석 | - 다양한 경제 지표로 군집을 형성하여 경제적 유사성을 확인하고 정책 결정에 활용 |
인터넷 사용자 행동 분석 | - 웹 사용자의 행동 패턴으로 클러스터를 구성하여 서비스를 최적화하거나 마케팅 전략을 수립하는 데 활용 |
4. 계층적 군집화
1) 계층적 군집화의 개념과 원리
◾ 계층적 군집화는 계층적인 트리 구조로 데이터를 그룹화하는 방법
◾ 유사한 데이터를 묶어가며 계층적 구조를 형성
2) 덴드로그램을 통한 군집화 결과 시각화
덴드로그램으로 계층적 군집화의 결과를 시각적으로 표현하고 해석하는 방법을 설명
3) 계층적 군집화의 활용 사례
◾ 고객 세그멘테이션, 생물학적 분류 등 다양한 분야에서의 계층적 군집화 활용 가능
5. 군집화 평가 지표
1) 군집화 평가의 필요성
◾ 군집화 결과의 품질을 평가하고 비교하는데 중요
◾ 올바른 군집화는 데이터의 패턴을 잘 파악하고 해석하는데 도움이 되며, 비즈니스나 연구에서 의사 결정에 활용
▮ 평가가 필요한 이유
◾ 성능 평가: 군집화 알고리즘의 성능을 정량화하고 다양한 알고리즘을 비교
◾ 하이퍼파라미터 튜닝:
① 군집화 알고리즘의 성능은 하이퍼파라미터에 의해 영향을 받음.
② 평가 지표를 사용하여 최적의 하이퍼파라미터를 찾을 수 있음.
▮ 모델 해석
좋은 군집화는 데이터의 구조를 더 잘 이해하도록 하며, 해석 가능한 결과를 도출함.
2) 내부 평가 지표와 외부 평가 지표
내부평가 지표 (Internal Evaluation Metrics) |
- 군집화 결과를 사용하여 평가하는 지표로, 실제 라벨이 필요하지 않음. - 주로 군집 내의 응집성(cohesion)과 군집 간의 분리도(separation)를 측정 ex). 실루엣 계수, Davise-Bouldin 지수, 군집 내 분산 등 |
외부평가 지표 (External Evalutation Metrics) |
- 군집화 결과를 외부에서 제공되는 실제 라벨과 비교하여 평가하는 지표 - 주로 정확도, 정밀도, 재현율, F1 스코어 등이 사용 - 외부 라벨 정보가 필요하므로 지도 학습에서 사용되는 평가 지표와 유사 |
3) 일반적으로 사용되는 군집화 평가 지표 소개
▮실루엣 계수(Silhouette Score)
◾ 군집 내 데이터의 응집성과 군집 간의 분리도를 종합적으로 평가하는 지표
◾ 범위는 -1 에서 1까지
◾ 높을 수록 좋음.
▮Davies-Bouldin 지수
◾ 각 군집의 응집도와 군집 간 분리도의 비율을 측정
◾ 낮은 값이 더 좋음.
▮군집 내 분산(Within-Cluster Variance)
◾ 각 군집 내 데이터 포인트 간의 거리의 평균 또는 합을 표현
◾ 군집 내 분산이 작을수록 좋음.
▮ARI(Adjusted Rand index)
◾ 외부 평가 지표로, 실제 라벨과 군집화 결과 간의 일치도를 측정
◾ 범위는 -1 에서 1이며, 1에 가까울수록 좋음.
▮NMI(Normalized Mutual Information)
◾ 두 확률 분포 사이의 정보 이론적 유사도를 측정
◾ 범위는 0에서 1이며, 1에 가까울수록 좋음.
6. 실제 응용 사례
1) 고객 세그멘테이션을 위한 군집화
◾ 은행에서 고객의 소득, 지출패턴, 계좌 활용 등을 바탕으로 군집화하여 고객 세그먼트르 ㄹ구성
→ 각 세그먼트에 맞는 서비스 및 마케팅 전략을 개발하고, 고객 경험을 향상
2) 이미지 세분화를 위한 군집화 응용
◾ 의료 영상에서는 종양 부분을 군집화
→ 정확한 위치 및 크기를 확인하고 진단에 활용
◾ 지리 정보 시스템(GIS)에서 항공 사진이나 위성 이미지를 픽셀 단위로 군집화
→ 지형, 도로, 건물 등을 구분
3) 다양한 산업 분야에서의 군집화 활용 사례
◾ 금융 분야
→ 신용평가 모델 개발을 위해 고객들을 신용 등급에 따라 군집화하여 각 군집의 특성을 파악
◾ 제조 분야
→ 제품 생산 데이터를 군집화하여 생산 라인의 이상 감지 및 품질 향상을 위한 개선점 도출
◾ 의료 분야
→ 환자의 건강 정보를 기반으로 비슷한 진단 및 치료 경로를 가진 환자들을 군집화, 개별적인 치료 계획을 수립
◾ 소매 분야
→ 소매업에서는 제품 구매 이력, 구매 금액 등을 고려하여 고객을 군집화, 개인화된 할인 및 프로모션을 제공
'AI & 딥러닝' 카테고리의 다른 글
[8강] 텍스트 분류: 스팸 필터링 예시 (0) | 2024.11.27 |
---|---|
[7강] 자연어 처리(NLP) 소개 (1) | 2024.11.26 |
[5강] 회귀 분석: 데이터 예측을 위한 기본 원리 (0) | 2024.11.26 |
[4강] 분류모델: 무엇인지와 어떻게 동작하는지 (0) | 2024.11.26 |
[3강] 딥 러닝과 신경망의 기본 개념 (0) | 2024.11.26 |