AI & 딥러닝

[6강] 군집화: 유사한 데이터 그룹화하기

teon98 2024. 11. 26. 22:10
728x90

1. 소개

1) 군집화의 개념 

◾ 군집화는 비슷한 특성을 가진 데이터를 그룹으로 묶는 데이터 마이닝 기술 중 하나

◾ 데이터 내의 패턴을 식별하고 유사성을 기반으로 한 그룹을 형성하는 방법

◾ 광범위한 응용 분야에서 사용

2) 군집화의 중요성

◾ 군집화는 고객 세그멘테이션(Seg. 분류), 이미지 세분화, 추천 시스템, 이상 탐지 등 다양한 분야에서 활용

◾ 이를 통해 데이터를 효과적으로 이해하고 의사 결정에 활용할 수 있음.

2. 군집화의 기본 개념

1) 군집화의 정의와 목적

◾ 군집화는 비슷한 특성을 가진 데이터를 동일한 그룹으로 묶는 것

◾데이터 간의 유사성을 기반으로 한 패턴을 찾아내는 통계적 기법

2) 군집화와 분류의 차이

군집화는 레이블이 없는 데이터를 비슷한 특성을 가진 그룹으로 구분

분류는 이미 레이블이 부여된 데이터를 학습하여 새로운 데이터를 미리 정의된 클래스로 분류

3) 군집화의 주요 알고리즘 소개

◾ K-평균(K-Means): 가장 일반적, 사용자가 지정한 k개의 클러스터를 형성하며, 각 클러스터의 중심(centroid)을 계산하여 데이터를 할당

3. K-평균 군집화

1) K-평균 알고리즘의 작동 원리

◾ K-평균은 데이터를 K개의 클러스터로 그룹화하는 알고리즘

◾ 각 클러스터의 중심과 데이터 간의 거리를 최소화하는 방식으로 작동

2) 군집 중심과 데이터 할당

◾ K-평균은 무작위로 선택한 중심에 데이터를 할당 후, 중심을 업데이트하며 반복적으로 최적의 군집을 형성

3) K-평균의 장단점과 적용 사례

▮K-평균(K-Means)의 장점

간단하고 효과적 - 구현이 간단하며, 대체로 빠르게 결과에 수렴함.
- 대용량 데이터셋에서도 효과적으로 사용할 수 있음.
확장 가능성 - 데이터가 큰 경우에도 적용이 쉬우며, 많은 클러스터에 대해서도 잘 작동
이해하기 쉬움 - 직관적이고 간단한 알고리즘으로, 이해하기 쉽다.
클러스터 크기가 균일하지 않아도 잘 작동 - 클러스터의 크기나 밀도가 다르더라도 비교적 잘 동작하는 경향이 있음.

▮K-평균(K-Means)의 한계

사전에 클러스터 수 지정 필요 - 사용자는 클러스터 수를 사전에 정해주어야 하며, 이 값에 민감하게 반응할 수 있음.
초기 중심점에 민감 - 초기 중심점의 선택에 따라 결과가 달라질 수 있음.
원형 클러스터에 적합 - K-평균은 클러스터가 원형에 가까울 때 가장 잘 작동하며, 비선형적인 형태의 클러스터에는 적합하지 않을 수 있음.
이상치에 민감 - 이상치가 있는 경우에 클러스터의 중심이 영향을 받을 수 있음.

▮K-평균(K-Means)의 적용 사례

고객 세그멘테이션
(Customer Segmentation)
- 고객의 특성에 따라 세분화하여 비슷한 특성을 갖는 그룹을 찾아낼 때 사용
- 각 세그먼트에 맞는 마케팅 전략을 수립하는 데 활용
이미지 압축
(Image Compression)
- K-평균은 이미지를 색상 기반으로 클러스터링하여 색상 수를 줄이는 데 사용
- 이를 통해 이미지를 압축하고 메모리 사용량의 감소 가능
문서 군집화
(Document Clustering)
- 비슷한 문서들을 그룹화하여 특정 주제에 대한 문서 집합을 
경제 지표 분석 - 다양한 경제 지표로 군집을 형성하여 경제적 유사성을 확인하고 정책 결정에 활용
인터넷 사용자 행동 분석 - 웹 사용자의 행동 패턴으로 클러스터를 구성하여 서비스를 최적화하거나 마케팅 전략을 수립하는 데 활용

4. 계층적 군집화

1) 계층적 군집화의 개념과 원리

◾ 계층적 군집화는 계층적인 트리 구조로 데이터를 그룹화하는 방법

◾ 유사한 데이터를 묶어가며 계층적 구조를 형성

2) 덴드로그램을 통한 군집화 결과 시각화

덴드로그램으로 계층적 군집화의 결과를 시각적으로 표현하고 해석하는 방법을 설명

Ward 연결법을 사용한 덴드로그램, 재척도화 거리 군집 조합

3) 계층적 군집화의 활용 사례

  고객 세그멘테이션, 생물학적 분류 등 다양한 분야에서의 계층적 군집화 활용 가능

5. 군집화 평가 지표

1) 군집화 평가의 필요성

  군집화 결과의 품질을 평가하고 비교하는데 중요

올바른 군집화는 데이터의 패턴을 잘 파악하고 해석하는데 도움이 되며, 비즈니스나 연구에서 의사 결정에 활용

 

▮ 평가가 필요한 이유

성능 평가: 군집화 알고리즘의 성능을 정량화하고 다양한 알고리즘을 비교

◾ 하이퍼파라미터 튜닝:

① 군집화 알고리즘의 성능은 하이퍼파라미터에 의해 영향을 받음.

② 평가 지표를 사용하여 최적의 하이퍼파라미터를 찾을 수 있음.

 

▮ 모델 해석

좋은 군집화는 데이터의 구조를 더 잘 이해하도록 하며, 해석 가능한 결과를 도출함.

 

2) 내부 평가 지표와 외부 평가 지표

내부평가 지표
(Internal Evaluation Metrics)
- 군집화 결과를 사용하여 평가하는 지표로, 실제 라벨이 필요하지 않음.
- 주로 군집 내의 응집성(cohesion)과 군집 간의 분리도(separation)를 측정
ex). 실루엣 계수, Davise-Bouldin 지수, 군집 내 분산 등
외부평가 지표
(External Evalutation Metrics)
- 군집화 결과를 외부에서 제공되는 실제 라벨과 비교하여 평가하는 지표
- 주로 정확도, 정밀도, 재현율, F1 스코어 등이 사용
- 외부 라벨 정보가 필요하므로 지도 학습에서 사용되는 평가 지표와 유사

3) 일반적으로 사용되는 군집화 평가 지표 소개

▮실루엣 계수(Silhouette Score)

◾ 군집 내 데이터의 응집성과 군집 간의 분리도를 종합적으로 평가하는 지표

◾ 범위는 -1 에서 1까지

◾ 높을 수록 좋음.

 

▮Davies-Bouldin 지수

각 군집의 응집도와 군집 간 분리도의 비율을 측정

낮은 값이 더 좋음.

 

▮군집 내 분산(Within-Cluster Variance)

각 군집 내 데이터 포인트 간의 거리의 평균 또는 합을 표현

  군집 내 분산이 작을수록 좋음.

 

▮ARI(Adjusted Rand index)

◾ 외부 평가 지표로, 실제 라벨과 군집화 결과 간의 일치도를 측정

◾ 범위는 -1 에서 1이며, 1에 가까울수록 좋음.

 

▮NMI(Normalized Mutual Information)

◾ 두 확률 분포 사이의 정보 이론적 유사도를 측정

◾ 범위는 0에서 1이며, 1에 가까울수록 좋음.

 

6. 실제 응용 사례

1) 고객 세그멘테이션을 위한 군집화

◾ 은행에서 고객의 소득, 지출패턴, 계좌 활용 등을 바탕으로 군집화하여 고객 세그먼트르 ㄹ구성

→ 각 세그먼트에 맞는 서비스 및 마케팅 전략을 개발하고, 고객 경험을 향상 

2) 이미지 세분화를 위한 군집화 응용

◾ 의료 영상에서는 종양 부분을 군집화

정확한 위치 및 크기를 확인하고 진단에 활용

◾ 지리 정보 시스템(GIS)에서 항공 사진이나 위성 이미지를 픽셀 단위로 군집화

→ 지형, 도로, 건물 등을 구분

3) 다양한 산업 분야에서의 군집화 활용 사례

◾ 금융 분야

  신용평가 모델 개발을 위해 고객들을 신용 등급에 따라 군집화하여 각 군집의 특성을 파악

◾ 제조 분야

→ 제품 생산 데이터를 군집화하여 생산 라인의 이상 감지 및 품질 향상을 위한 개선점 도출

◾ 의료 분야

→ 환자의 건강 정보를 기반으로 비슷한 진단 및 치료 경로를 가진 환자들을 군집화, 개별적인 치료 계획을 수립

◾ 소매 분야

→ 소매업에서는 제품 구매 이력, 구매 금액 등을 고려하여 고객을 군집화, 개인화된 할인 및 프로모션을 제공

728x90