Page 12 -
P. 12
예를 들어 다음 그림과 같이 새로운 입력 데이터(빨간색 외각선 원)가 세 개 있을 때 새로운 입력
에 대한 분류를 진행해 보겠습니다(K=3).
● 새로운 입력 ❶: 주변 범주 세 개가 주황색이므로 주황색으로 분류
● 새로운 입력 ❷: 주변 범주 두 개가 주황색, 한 개가 녹색이므로 주황색으로 분류
● 새로운 입력 ❸: 주변 범주 두 개가 녹색, 한 개가 주황색이므로 녹색으로 분류
그림 3-3 K-최근접 이웃 학습 절차
⇣
⇡
⇢
이제 코드에서 구체적으로 확인해 보겠습니다. 예제 목표는 붓꽃에 대한 분류입니다. 참고로 머신
러닝 코드는 심층 신경망이 필요하지 않기 때문에 사이킷런(scikit-learn)을 이용합니다.
다음 과정으로 K 값을 예측할 것입니다.
그림 3-4 K-최근접 이웃 예제
ݾ ೠ , чী ೠ ஏ
ۄ࠳۞ܻ ഐ ؘఠࣇ ۽٬ ള۲җ Ѩૐ ؘఠࣇ ܻ࠙
࠙ࢳ
ର
ݽ؛ ࢤࢿ , ч ஏ
먼저 필요한 라이브러리를 호출하고 데이터를 준비하겠습니다. 데이터는 내려받은 예제 파일의
3
data 폴더에 있는 iris.data 파일을 사용합니다. iris.data 데이터 경로는 자신의 실습 환경에 맞
게 수정해서 사용할 수 있습니다.
3 iris.data 데이터셋은 1936년 논문에서 영국 통계학자이자 생물학자인 로널드 피셔(R. A. Fisher)가 소개한 다변량 데이터셋입니다(https://
archive.ics.uci.edu/ml/machine-learning-databases/iris).
068