Page 19 -
P. 19

분류: 클래스 레이블 예측
                                                                                  2
                    분류는 지도 학습의 하위 카테고리입니다. 과거의 관측을 기반으로 새로운 샘플 의 범주형 클래
                    스 레이블을 예측하는 것이 목적입니다. 클래스 레이블은 이산적(discrete)이고 순서가 없어 샘플                          1
                    이 속한 그룹으로 이해할 수 있습니다. 앞서 언급한 스팸 메일 감지는 전형적인 이진 분류(binary
                    classification) 작업의 예입니다. 스팸과 스팸이 아닌 이메일 두 개의 클래스 사이를 구분하려고 머
                    신 러닝 알고리즘이 일련의 규칙을 학습합니다.                                                         컴퓨터는 데이터에서 배운다

                    그림 1-3은 30개의 훈련 샘플이 있는 이진 분류 작업의 개념을 나타냅니다. 15개의 샘플은 음

                    성 클래스(negative class)로 레이블(뺄셈 기호)되어 있고, 다른 15개의 샘플은 양성 클래스(positive
                                                                       값에 연관되어 있으므로 2차원
                    class)로 레이블(덧셈 기호)되어 있습니다. 각 샘플이 두 개의 x 1       , x 2
                    데이터셋입니다. 지도 학습 알고리즘을 사용하여 두 클래스를 구분할 수 있는 규칙을 학습합니다.
                                                                                       값이 주어
                    이 규칙은 점선으로 나타난 결정 경계(decision boundary)입니다. 새로운 데이터의 x 1       , x 2
                    지면 두 개의 범주 중 하나로 분류합니다.


                       그림 1-3 두 개의 클래스를 구분하는 결정 경계




























                    두 개 이상의 클래스 레이블을 가진 경우가 많습니다. 지도 학습 알고리즘으로 학습한 예측 모델

                    은 훈련 데이터셋에 있는 클래스 레이블을 새로운 샘플에 할당할 수 있습니다.




                    2   역주 원서에서는 ‘instance’를 여러 의미로 사용합니다. 혼동을 피하기 위해 ‘example’을 의미할 때는 ‘샘플’로, ‘instance-based’는 ‘사례
                       기반’으로, 파이썬 객체를 나타낼 때는 ‘인스턴스’로 번역합니다.

                                                                                                  035





     machinelearning_06.indd   35                                                           2021-03-17   오후 12:36:03
   14   15   16   17   18   19   20   21   22   23