Page 23 -
P. 23
군집: 서브그룹 찾기
군집(clustering)은 사전 정보 없이 쌓여 있는 그룹 정보를 의미 있는 서브그룹(subgroup) 또는 클러
스터(cluster)로 조직하는 탐색적 데이터 분석 기법입니다. 분석 과정에서 만든 각 클러스터는 어느 1
정도 유사성을 공유하고 다른 클러스터와는 비슷하지 않은 샘플 그룹을 형성합니다. 이따금 군집
을 비지도 분류(unsupervised classification)라고 하는 이유가 여기 있습니다. 클러스터링은 정보를
조직화하고 데이터에서 의미 있는 관계를 유도하는 훌륭한 도구입니다. 예를 들어 마케터가 관심 컴퓨터는 데이터에서 배운다
사를 기반으로 고객을 그룹으로 나누어 각각에 맞는 마케팅 프로그램을 개발할 수 있습니다.
의 유사도를 기반으로 세 개의
그림 1- 6은 군집이 어떻게 레이블되지 않는 데이터를 특성 x 1 과 x 2
개별적인 그룹으로 조직화하는지 보여 줍니다.
그림 1- 6 군집의 예
차원 축소: 데이터 압축
비지도 학습의 또 다른 하위 분야는 차원 축소(dimensionality reduction)입니다. 고차원의 데이터를
다루어야 하는 경우는 흔합니다. 즉, 하나의 관측 샘플에 많은 측정 지표가 있습니다. 이로 인해
머신 러닝 알고리즘의 계산 성능과 저장 공간의 한계에 맞닥뜨릴 수 있습니다. 비지도 차원 축소
는 잡음(noise) 데이터를 제거하기 위해 특성 전처리 단계에서 종종 적용하는 방법입니다.
039
machinelearning_06.indd 39 2021-03-17 오후 12:36:07