Page 11 -

P. 11

지금부터 지도 학습의 알고리즘을 하나씩 살펴보겠습니다.

3.1.1 K-최근접 이웃
3

표 3-2 K-최근접 이웃을 사용하는 이유와 적용 환경
왜 사용할까? 주어진 데이터에 대한 분류 머신 러닝 핵심 알고리즘

언제 사용하면 좋을까? K-최근접 이웃은 직관적이며 사용하기 쉽기 때문에 초보자가 쓰면 좋습니다. 또한, 훈련
데이터를 충분히 확보할 수 있는 환경에서 사용하면 좋습니다.

K-최근접 이웃(K-nearest neighbor)은 새로운 입력(분류되지 않은 검증 데이터)을 받았을 때 기존
2
클러스터에서 모든 데이터와 인스턴스(instance) 기반 거리를 측정한 후 가장 많은 속성을 가진 클
러스터에 할당하는 분류 알고리즘입니다. 즉, 과거 데이터를 사용하여 미리 분류 모형을 만드는

것이 아니라, 과거 데이터를 저장해 두고 필요할 때마다 비교를 수행하는 방식입니다. 따라서 K 값
의 선택에 따라 새로운 데이터에 대한 분류 결과가 달라질 수 있음에 유의해야 합니다.

다음 그림과 같이 네모, 세모, 별 모양의 클러스터로 구성된 데이터셋이 있다고 합시다. 신규 데이
터인 동그라미가 유입되었다면 기존 데이터들과 하나씩 거리를 계산하고 거리상으로 가장 가까운
데이터 다섯 개(K=5)를 선택하여 해당 클러스터에 할당합니다.

그림 3-2 K-최근접 이웃

नӏ ؘ੉ఠ
ӝઓ ؘ੉ఠ৬ Ѣܻ ҅࢑

2 새로운 데이터가 들어왔을 때 데이터와 데이터 사이의 거리를 측정한 관측치(혹은 데이터 값)를 의미합니다.

067

6 7 8 9 10 11 12 13 14 15 16