Page 11 -
P. 11

에 상위 입상에 반드시 수반되는 과정이 데이터 클렌징(이상 값을 제거하거나 결손 값을 보완하는
                    것)인 경우도 많습니다(실무에서 잘 정리한 데이터를 제공하는 경우는 거의 없습니다, 그림 1-1,
                                                                                                      1
                    그림 1-2).


                       그림 1-1 결손 값이 많은 데이터 예. Cabin 열에 NaN(결손)이 다수 포함(3장에서 다루는 타이타닉호 데이터 중 하나)        캐글이란




















                       그림 1-2 이상 값 예. 그래프 오른쪽에 통상적인 경향과 다른 데이터가 표시(4장에서 다루는 주택 가격 예측 데이터 중 하나)























                    덧붙여 캐글 창시자인 앤서니 골드블룸이 테드(TED)(유명인의 강의를 찍어 공유하는 미국 비영리
                    단체)에서 강의한 동영상인 “The jobs we’ll lose to machines - and the ones we won’t”(그

                    림 1-3)를 시청하길 추천합니다. 그동안 여러 경진대회를 치르면서 머신 러닝이 어떻게 발전해 왔
                    는지, 앞으로 인간은 어떤 일에 도전해야 하는지 볼 수 있습니다.








                                                                                                  025
   6   7   8   9   10   11   12   13   14   15   16