Page 17 -
P. 17

비슷한 현상이 벌어지는 예로 무응답이 문젯거리가 되는 설문

                    조사가 있다. 보통의 경우 연구자들은 이론상으로 답을 얻고자 하
                    는 대상의 전체 명단을 갖고 있지만, 마찬가지로 보통의 경우 모두

                    가 응답하지는 않는다. 만약 응답한 사람들이 그러지 않은 사람들과

                    어떤 식으로든 다르다면, 연구자들은 통계가 전체 집단의 속성을 잘
                    짚어내는지를 의심해봐야 한다. 어쨌거나 어느 잡지가 구독자에게

                    ‘잡지의 설문조사에 응답하시겠습니까?’라는 단일 질문으로 설문조
                    사를 했는데, 응답한 이들의 100퍼센트가 ‘예’라고 대답했다는 사실

                    을 놓고서 모든 구독자가 설문조사에 응답했다는 뜻이라고 해석할

                    수는 없다.
                      앞의 사례들은 다크 데이터의 첫 번째 유형(DD 유형 1: 빠져 있는지

                    우리가 아는 데이터)을 잘 보여준다. 우리는 TARN 환자들에 대한 데

                    이터에 누락된 값이 존재한다는 것, 설문조사 명단에 있는 사람들
                    중 설령 응답하지 않은 사람들도 나름의 답을 갖고 있다는 것을 안

                    다. 일반적으로 우리는 데이터에 빠진 값이 있다는 것은 알지만, 그

                    값이 무엇인지 모를 뿐이다.
                      이와 다른 유형의 다크 데이터(DD 유형 2: 빠져 있는지 우리가 모르

                    는 데이터)의 예는 다음과 같다.
                      많은 도시는 도로 표면에 움푹 팬 구덩이가 골칫거리다. 물이 작

                    은 틈으로 들어가서 겨울에 얼어버리는 바람에 틈이 더 넓어지는데,

                    자동차 타이어가 그 틈을 지나가면서 도로가 더욱더 훼손된다. 이런
                    악순환이 계속되다 결국 도로에 타이어와 차축을 망가뜨릴 만큼 큰

                    구덩이가 생기고 만다. 보스턴시는 현대기술을 이용해 이 문제를 해






                                                                         23
                    1장 | 다크 데이터                       보이지 않는 것이 이 세계를 만든다
   12   13   14   15   16   17   18   19   20   21   22