Page 18 -
P. 18

르면 우리는 지금 날마다 2.5퀸틸리언 quintillion(조의 1만 배. 100경–옮긴

               이) 바이트나 되는 데이터를 생산하고 있다. 그런데 이 중 90퍼센트는
               최근 2년 동안 생산된 데이터라고 한다.          36

                 정보의 기하급수적 증가는 1970년대에 컴퓨터가 그랬던 것처럼 때

               로 만병통치약으로 보이기도 한다. 2008년 《와이어드 Wired》의 편집자
               크리스 앤더슨Chris Anderson은 엄청난 양의 데이터가 이론에 대한 욕구

               뿐 아니라 과학적 방법론까지 지워버릴 것이라고 썼다.               37
                 이 책 《신호와 소음》은 단호하게 과학과 기술을 지지하며,  나는 이

               책이 매우 낙관적이라고 본다. 하지만 이 책은 그러한 관점들이 심각

               하게 착각하는 게 있다고 주장한다. 수치 자체는 스스로를 변호할 길
               이 없다. 수치를 대신해 우리가 말한다. 우리는 수치에 의미를 부여한

               다. 우리는 카이사르와 마찬가지로 어쩌면 객관적 실체와 동떨어진 방

               식으로 그 수치들을 해석하는지도 모른다.
                 데이터를 기반으로 한 예측은 성공할 수도 있고 실패할 수도 있다.

               실패 가능성은 우리가 예측 과정에서 수행해야 할 우리 자신의 역할을

               부정할 때 높아진다. 우리는 더 많은 데이터를 요구하기에 앞서 자기
               자신에 대해 더 많은 것을 알 필요가 있다.

                 내 이력을 아는 독자에게는 나의 이런 태도가 뜻밖으로 보일 수도
               있다. 데이터와 통계 관련 일을 하고 또 그걸 이용해서 미래를 성공적

               으로 예측한 덕분에 나는 지금 제법 유명 인사로 행세하고 있다. 2003

               년 당시 나는 내가 하던 컨설팅 업무가 너무 지루한 나머지 ‘페코타
               PECOTA’라는 통계 예측 프로그램을 개발했다. 메이저리그 야구 선수들

               의 기록 통계를 예측하는 프로그램이었다.






               56 | 신호와 소음
   13   14   15   16   17   18   19   20   21   22   23