Page 16 -
P. 16
탁월하며 그런 문제를 다룰 통계적 방법을 개발해왔다. 이 책에서도
비슷한 방법을 설명한다. 하지만 이 이야기의 알짜 메시지는 ‘매사
가 겉보기와 다를 수도 있다’는 것이다. 다시 말해 많은 데이터, 그러
니까 ‘빅데이터’가 있으면 좋긴 하지만 크기가 모든 것을 말해주지
는 않는다. 그리고 우리가 모르는 것, 가지고 있지 않은 데이터가 가
지고 있는 데이터보다 상황을 이해하는 데 훨씬 더 중요할 수도 있
다. 앞으로 보겠지만 다크 데이터의 문제는 단지 빅데이터에서만이
아니라 작은 데이터 세트에서도 생긴다. 그야말로 어디에서나 생기
는 문제다.
TARN 데이터베이스 이야기는 과장일지 모르지만 일종의 경고
역할을 한다. 어쩌면 환자 19,289명의 결과가 기록되지 않은 까닭
은 바로 그들이 30일 이내에 전부 사망했기 때문일 것이다. 만일 입
원한 지 30일이 넘은 환자들을 대상으로 결과를 파악했다면 그보다
일찍 죽은 이들은 아무도 질문에 응답하지 못했을 테니까 말이다.
이런 가능성을 놓친 기록은 사망한 환자가 있다는 사실을 누락할 수
밖에 없다.
조금 어처구니없는 소리로 들릴지 모르지만, 사실 이런 일은 곧
잘 벌어진다. 가령 특정한 치료를 받는 환자의 예후를 알아내려고
만든 모형은 이전에 그 치료를 받았던 환자들의 결과에 바탕을 두었
을 것이다. 하지만 모든 환자가 어떤 결과를 내놓기에는 시간이 충
분히 지나지 않았다면 어떻게 될까? 그런 환자들은 최종 결과가 미
확정이다. 따라서 이미 결과가 알려진 환자들만을 바탕으로 만든 모
형은 틀릴 수 있다.
22 1부 | 다크 데이터는 어떻게 생겨나고 어떤 결과를 초래하는가