Page 7 -
P. 7
이 되자, 당신은 불평을 많이 하면 사람들이 멀어진다는 것을 알게 됐
다. 이것 역시 데이터 과학이다. 사람들과 어울리지 못하면 그리 행복
하지 않다는 것도 알게 됐다. 행복하지 못하면 사람들을 우호적으로
대하지 못한다. 사람들에게 우호적이지 않으면 사람들은 당신과 어울
리는 것을 더 꺼린다. 모두가 데이터 과학이다.
데이터 과학은 너무나 당연하고 자연스럽기 때문에, 제대로 된 빅데
이터 연구라면 보통 사람 누구나 이해할 수 있다. 연구가 이해되지 않
는다면 문제는 당신이 아니라 그 연구에 있다.
훌륭한 데이터 과학이 직관적이라는 데 증거가 필요한가? 나는 지
난 몇 년간 이뤄진 연구 중에 가장 중요하다고 생각되는 한 연구를 최
근 우연히 발견했다. 내가 본 연구 중에 가장 직관적이기도 했다. 연구
의 중요성에 대해서만 생각하지 말고 연구가 얼마나 자연스러운지 내
할머니의 생각과 얼마나 비슷한지도 생각해보길 바란다.
이 연구는 컬럼비아대학교와 마이크로소프트 Microsoft 연구팀이 주관
2
했다. 그들은 췌장암을 예견하는 징후를 찾고자 했다. 췌장암은 5년
생존율이 약 3퍼센트로 매우 낮지만 조기에 발견하면 생존율을 두 배
까지 높일 수 있다.
연구자들은 어떤 방법을 썼을까? 그들은 마이크로소프트 검색엔진
인 빙 Bing을 쓰는 익명의 사용자 수만 명의 데이터를 이용했다. 그들은
‘방금 췌장암 진단을 받았어요’나 ‘췌장암에 걸렸다는 이야기를 들었
습니다. 앞으로 어떤 일이 일어나나요?’처럼 틀림없는 검색어를 기반
으로, 이런 검색을 한 사용자를 최근에 췌장암 진단을 받은 사람으로
1부. 빅데이터와 스몰데이터 ‥ 044