Page 17 -
P. 17
비슷한 현상이 벌어지는 예로 무응답이 문젯거리가 되는 설문
조사가 있다. 보통의 경우 연구자들은 이론상으로 답을 얻고자 하
는 대상의 전체 명단을 갖고 있지만, 마찬가지로 보통의 경우 모두
가 응답하지는 않는다. 만약 응답한 사람들이 그러지 않은 사람들과
어떤 식으로든 다르다면, 연구자들은 통계가 전체 집단의 속성을 잘
짚어내는지를 의심해봐야 한다. 어쨌거나 어느 잡지가 구독자에게
‘잡지의 설문조사에 응답하시겠습니까?’라는 단일 질문으로 설문조
사를 했는데, 응답한 이들의 100퍼센트가 ‘예’라고 대답했다는 사실
을 놓고서 모든 구독자가 설문조사에 응답했다는 뜻이라고 해석할
수는 없다.
앞의 사례들은 다크 데이터의 첫 번째 유형(DD 유형 1: 빠져 있는지
우리가 아는 데이터)을 잘 보여준다. 우리는 TARN 환자들에 대한 데
이터에 누락된 값이 존재한다는 것, 설문조사 명단에 있는 사람들
중 설령 응답하지 않은 사람들도 나름의 답을 갖고 있다는 것을 안
다. 일반적으로 우리는 데이터에 빠진 값이 있다는 것은 알지만, 그
값이 무엇인지 모를 뿐이다.
이와 다른 유형의 다크 데이터(DD 유형 2: 빠져 있는지 우리가 모르
는 데이터)의 예는 다음과 같다.
많은 도시는 도로 표면에 움푹 팬 구덩이가 골칫거리다. 물이 작
은 틈으로 들어가서 겨울에 얼어버리는 바람에 틈이 더 넓어지는데,
자동차 타이어가 그 틈을 지나가면서 도로가 더욱더 훼손된다. 이런
악순환이 계속되다 결국 도로에 타이어와 차축을 망가뜨릴 만큼 큰
구덩이가 생기고 만다. 보스턴시는 현대기술을 이용해 이 문제를 해
23
1장 | 다크 데이터 보이지 않는 것이 이 세계를 만든다