Page 33 -
P. 33

그림 1-15 붓꽃 데이터셋으로 그린 상자차트


                                                                                                      1









                                                                                                      머신 러닝과 신경망 개론













                    그림에서 볼 수 있듯이 sepal_width의 분산이 다른 숫자 변수보다 훨씬 더 작고, petal_length의
                    분산이 가장 크다.

                    지금까지 판다스로 손쉽게 데이터를 시각화하는 방법을 살펴봤다. 재차 강조하지만, 머신 러닝 워
                    크플로에서 가장 중요한 단계는 탐색적 데이터 분석이다. 책의 나머지 프로젝트에서도 탐색적 데

                    이터 분석은 빠지지 않고 계속 등장할 것이다.




                    1.4.3 판다스를 활용한 데이터 전처리


                    마지막으로 판다스를 데이터 전처리 작업에 활용하는 방법을 알아보자. 특히 범주형 변수를 인코
                    딩하는 방법과 결측값을 보간하는 방법을 살펴본다.



                    1.4.3.1 범주형 변수 인코딩

                    머신 러닝 프로젝트에서는 범주형 변수를 포함한 데이터셋을 다룰 경우가 많다. 범주형 변수의 예
                    시는 다음과 같다.








                                                                                                  45





     신경망교과서_07.indd   45                                                                     2020-05-19   오전 9:04:32
   28   29   30   31   32   33   34   35   36   37