Page 35 -
P. 35
다음과 같이 판다스 함수를 호출해 범주형 변수에 원핫 인코딩을 바로 적용할 수 있다.
print(pd.get_dummies(df2))
1
그림 1-18 원핫 인코딩 적용 결과 머신 러닝과 신경망 개론
1.4.3.2 결측값 보간
앞서 언급했듯이 결측값 보간 작업은 머신 러닝 워크플로에서 매우 중요하다. 실무에서 접하는 실
세계 데이터는 대체로 매우 난잡하며 결측값이 많다. 하지만 신경망과 일부 머신 러닝 모델은 결
측값을 입력받을 수 없으므로 반드시 전처리 과정을 먼저 거쳐야 한다. 판다스는 결측값을 다루는
손쉬운 방법을 제공한다.
붓꽃 데이터셋을 다시 사용하자. 하지만 붓꽃 데이터셋에는 결측값이 없다. 실습을 위해 값을 임
의로 지우고 진행한다. 다음 코드는 로우 열 개를 무작위로 고르고 sepal_length 값을 지운다.
import numpy as np
import pandas as pd
# 붓꽃 데이터셋을 다시 가져온다
URL = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(URL, names = ['sepal_length', 'sepal_width',
'petal_length', 'petal_width', 'class'])
# 로우 열 개를 무작위로 고른다
random_index = np.random.choice(df.index, replace= False, size=10)
# 무작위로 고른 로우의 sepal_length 값을 None으로 바꾼다
df.loc[random_index,'sepal_length'] = None
47
신경망교과서_07.indd 47 2020-05-19 오전 9:04:33