Page 19 -
P. 19
분류: 클래스 레이블 예측
2
분류는 지도 학습의 하위 카테고리입니다. 과거의 관측을 기반으로 새로운 샘플 의 범주형 클래
스 레이블을 예측하는 것이 목적입니다. 클래스 레이블은 이산적(discrete)이고 순서가 없어 샘플 1
이 속한 그룹으로 이해할 수 있습니다. 앞서 언급한 스팸 메일 감지는 전형적인 이진 분류(binary
classification) 작업의 예입니다. 스팸과 스팸이 아닌 이메일 두 개의 클래스 사이를 구분하려고 머
신 러닝 알고리즘이 일련의 규칙을 학습합니다. 컴퓨터는 데이터에서 배운다
그림 1-3은 30개의 훈련 샘플이 있는 이진 분류 작업의 개념을 나타냅니다. 15개의 샘플은 음
성 클래스(negative class)로 레이블(뺄셈 기호)되어 있고, 다른 15개의 샘플은 양성 클래스(positive
값에 연관되어 있으므로 2차원
class)로 레이블(덧셈 기호)되어 있습니다. 각 샘플이 두 개의 x 1 , x 2
데이터셋입니다. 지도 학습 알고리즘을 사용하여 두 클래스를 구분할 수 있는 규칙을 학습합니다.
값이 주어
이 규칙은 점선으로 나타난 결정 경계(decision boundary)입니다. 새로운 데이터의 x 1 , x 2
지면 두 개의 범주 중 하나로 분류합니다.
그림 1-3 두 개의 클래스를 구분하는 결정 경계
두 개 이상의 클래스 레이블을 가진 경우가 많습니다. 지도 학습 알고리즘으로 학습한 예측 모델
은 훈련 데이터셋에 있는 클래스 레이블을 새로운 샘플에 할당할 수 있습니다.
2 역주 원서에서는 ‘instance’를 여러 의미로 사용합니다. 혼동을 피하기 위해 ‘example’을 의미할 때는 ‘샘플’로, ‘instance-based’는 ‘사례
기반’으로, 파이썬 객체를 나타낼 때는 ‘인스턴스’로 번역합니다.
035
machinelearning_06.indd 35 2021-03-17 오후 12:36:03