Page 15 -
P. 15
을 활용했다). 당신도 알게 되겠지만, 이런 연구는 다양한 데이터 정보
원을 이용한다. 어떤 것은 크고, 어떤 것은 작고, 어떤 것은 온라인이
고, 어떤 것은 오프라인이다.
좋은 데이터 과학자는 도움이 된다면 새로운 디지털 정보원들만큼
이나 흥미로운 구식 정보원을 찾아보는 일을 마다하지 않는다. 적절한
답에 이르는 최선의 길은 이용 가능한 모든 데이터를 갖추는 것이기
때문이다.
첫 번째로 점검한 관련 데이터는 모든 선수의 출생지였다. 나는 미
국의 모든 카운티에서 1980년대에 얼마나 많은 흑인과 백인이 태어
났는지를 기록했다. 다음으로 그중 NBA에 이른 사람이 얼마나 많은
지를 기록해 이것을 해당 카운티의 가구 평균 소득과 비교했다. 또한
나는 그 카운티의 인종별 인구통계를 통제했다. 왜냐하면 흑인은 백인
보다 NBA에 이를 확률이 약 40배 높기 때문이다(이는 이 책의 주제
와는 완전히 다른 영역의 내용이다).
데이터는 부유한 카운티에서 태어났을 때 NBA에 이를 확률이 상당
히 더 높다고 말해줬다. 미국에서 가장 부유한 카운티 중 한 곳에서 태
어난 흑인 아이는 가장 가난한 카운티에서 태어난 흑인 아이에 비해
NBA에 이를 가능성이 두 배 이상 높다. 백인 아이의 경우, 부유한 카
운티에서 태어난 아이가 가난한 카운티에서 태어난 아이보다 NBA에
이를 확률이 60퍼센트 높다.
이는 통념과 반대로 가난한 사람이 NBA에 적게 진출해 있다는 사
실을 보여준다. 그렇지만 이 데이터는 완벽하지 않다. 뉴욕의 맨해튼
1부. 빅데이터와 스몰데이터 ‥ 052