Page 35 -
P. 35

다음과 같이 판다스 함수를 호출해 범주형 변수에 원핫 인코딩을 바로 적용할 수 있다.

                      print(pd.get_dummies(df2))
                                                                                                      1

                       그림 1-18 원핫 인코딩 적용 결과                                                           머신 러닝과 신경망 개론


















                    1.4.3.2 결측값 보간

                    앞서 언급했듯이 결측값 보간 작업은 머신 러닝 워크플로에서 매우 중요하다. 실무에서 접하는 실
                    세계 데이터는 대체로 매우 난잡하며 결측값이 많다. 하지만 신경망과 일부 머신 러닝 모델은 결

                    측값을 입력받을 수 없으므로 반드시 전처리 과정을 먼저 거쳐야 한다. 판다스는 결측값을 다루는
                    손쉬운 방법을 제공한다.

                    붓꽃 데이터셋을 다시 사용하자. 하지만 붓꽃 데이터셋에는 결측값이 없다. 실습을 위해 값을 임
                    의로 지우고 진행한다. 다음 코드는 로우 열 개를 무작위로 고르고 sepal_length 값을 지운다.

                      import numpy as np
                      import pandas as pd

                      # 붓꽃 데이터셋을 다시 가져온다
                      URL = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
                      df = pd.read_csv(URL, names = ['sepal_length', 'sepal_width',
                                                     'petal_length', 'petal_width', 'class'])

                      # 로우 열 개를 무작위로 고른다
                      random_index = np.random.choice(df.index, replace= False, size=10)

                      # 무작위로 고른 로우의 sepal_length 값을 None으로 바꾼다
                      df.loc[random_index,'sepal_length'] = None





                                                                                                  47





     신경망교과서_07.indd   47                                                                     2020-05-19   오전 9:04:33
   30   31   32   33   34   35   36   37