Page 13 -
P. 13
원치 않는다”라는 장난스러운 충고가 쓰여 있었다. 그런데 바로 그
문구가 내게 논문을 쓰도록 동기를 부여해줬다.*
당시 사람들은 구글 검색 데이터가 ‘진지한’ 학계 연구를 위한
정보원으로 적절치 않다고들 여겼다. 설문조사와 달리 구글 검색 데
이터는 인간의 정신을 이해하는 데 도움을 주는 방법으로 만들어지
지 않았다. 구글은 사람들이 세상에 관해 알 수 있도록 만들어졌지,
연구자들이 사람들에 관해 알 수 있도록 만들어진 것이 아니었다.
하지만 우리가 인터넷에서 지식을 구하면서 남긴 흔적은 엄청나게
흥미로운 사실들을 보여준다.
달리 말해 사람들의 정보 검색 그 자체가 정보다. 그들이 언제
어디에서 사실, 인용구, 농담, 장소, 사람, 물건, 도움을 검색하는지
는 그들이 정말로 어떤 생각을 하고, 어떤 욕망을 가지며, 무엇을 두
려워하고, 무엇을 하는지에 관해 막연한 추측보다 훨씬 많은 것을
이야기해준다. 사람들이 때로 구글 검색창에 질문이 아닌 고백을 할
* 구글 트렌드는 내가 제시하는 데이터의 주 정보원이다. 그렇지만 구글 트렌드
는 다양한 검색 키워드의 상대적 빈도를 비교할 수 있을 뿐 특정 검색 빈도의 절댓값
은 알 수 없기 때문에 얼마나 자주 검색되는지를 정확하게 알려주는 ‘구글 애드워즈
Google AdWords’의 도움을 받는다. 그러고 나서 내 나름의 트렌드 기반 알고리즘을 이
용해서 전반적인 내용을 다듬는다. 이 알고리즘에 관해서는 논문 〈구글 데이터를 이
용한 에세이Essays Using Google Data〉와 《퍼블릭 이코노믹스 저널Journal of Public Economics》
에 발표한 논문 〈흑인 후보에 대한 인종적 반감의 대가: 구글 검색 데이터를 이용한
증거The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data〉에서 설명
했다. 이 책에 등장하는 모든 연구에 사용된 데이터와 코드에 관한 완벽한 설명, 문서
링크, 논문은 내 웹사이트 sethsd.com에서 찾아볼 수 있다.
서론: 빅데이터 혁명의 개요 17