Page 24 -
P. 24
동료 연구자들은 510개의 소규모 실제 데이터 세트를 모았다. 통계
학 교사들에게 통계적 개념과 방법을 설명하는 데 사용할 수 있도록
자료를 제공하기 위해서였다(《작은 데이터 세트 핸드북A Small Handbook
1
of Small Data Sets》 이라는 제목으로 출간되었다). 그런 데이터 세트 중에
서 전체 모집단을 제대로 기술해낼 수 있는 것은 극히 소수다. 그때
모은 데이터 세트의 예는 주사위를 2만 번 던진 결과, 임신 지속 기
간, 눈의 각막 두께, 신경 자극 지속 기간 등이다.
3. 조건 바꾸기
앞의 두 가지 데이터 수집 전략을 가리켜 ‘관측observational’ 데이
터 수집이라고 한다. 여기서는 어떤 대상이나 사람이 가진 값을 단
지 관측하기만 하면 된다. 관측하는 조건을 바꾸지 않고 있는 그대
로 측정하는 것이다. 사람들에게 약을 준 뒤 반응을 살피거나, 특정
한 과제를 수행해달라고 부탁하거나, 과제를 완수하는 데 시간이 얼
마나 걸리는지 살피지 않는다. 작물이 더 풍성하게 자라는지 알아보
려고 비료를 바꾼다든지, 차 茶를 탈 때 맛의 변화를 알아보려고 물의
온도를 바꾸거나 하지 않는다. 데이터를 수집하는 상황을 바꾼다면,
다시 말해 상황에 개입한다면 그 데이터는 ‘실험experimental’ 데이터라
고 한다. 실험 데이터는 특히 중요한데, 그 이유는 1장에서 언급한
반사실에 관한 정보를 제공할 수 있기 때문이다.
이 세 가지 데이터 수집 방법에는 공통적으로 많은 다크 데이터
문젯거리가 뒤따르는데, 방법마다 문제점이 다르다. 이제부터 데이
48 1부 | 다크 데이터는 어떻게 생겨나고 어떤 결과를 초래하는가