Page 13 -
P. 13
5
은 천식보다 토네이도를 더 흔한 사망 원인으로 평가한다. 사실, 천식
6
의 사망률은 토네이도보다 70배 높다. 천식으로 인한 사망은 눈에 띄
지 않는다. 따라서 뉴스거리가 되지 않는다. 토네이도로 인한 사망은
눈에 띈다.
들은 것이나 개인적인 경험에만 의존하면 세상이 어떻게 돌아가는
지에 관해 틀리게 생각하기 쉽다. 좋은 데이터 과학의 방법론은 직관
적이지만, 그 결과는 직관에 반할 때가 많다. 데이터 과학은 자연적이
고 직관적인 인간의 행위에 따라 패턴을 발견하고, 이해하는 과정을
거친다. 그러고는 거기에 스테로이드를 주입해 우리에게 세상이 우리
생각과는 완전히 다른 방식으로 돌아간다는 점을 보여준다. 어떤 사람
이 농구 선수로 성공을 거둘지 예측하는 사람들에 관해 연구할 때 바
로 이런 일이 일어났다.
어린 시절 나에게는 꿈이 있었다. 단 하나의 꿈이었다. 커서 경제학
자이자 데이터 과학자가 되고 싶었다. 농담이다. 나는 프로 농구 선수
가 돼서 나의 영웅, 뉴욕 닉스의 올스타 센터, 패트릭 유잉 Patrick Ewing의
발자취를 따르기를 간절히 원했다. 7
모든 데이터 과학자의 내면에는 왜 어린 시절 꿈이 이뤄지지 않았
는지를 알아내려고 노력하는 아이가 있지 않을까 하는 생각을 가끔
한다. 그러니 내가 최근에 NBA 선수가 되는 데 무엇이 필요한지 조사
한 것도 놀랄 일은 아니다. 하지만 결과는 놀라웠다. 조사 결과는 좋은
데이터 과학이 세상을 보는 시각을 어떻게 바꿀 수 있는지, 숫자가 얼
1부. 빅데이터와 스몰데이터 ‥ 050