Page 23 -
P. 23
집 단위로 셈한다). 1장에서 보았듯이 슈퍼마켓의 경우 모든 구매
내역이 수집된다. 세금 내역과 신용카드 거래 내역, 회사 직원 정보
도 마찬가지다. 모든 스포츠 기록, 도서관 서가의 책, 가게의 물품가
격 등도 수집될 수 있다. 이 모든 사례에서 사물, 사람 또는 기타 모
든 것 각각의 세부사항을 모아서 데이터 세트를 만들 수 있다.
2. 모집단 내의 일부 항목에 대해서 데이터 수집하기
인구총조사의 대안은 사람들의 일부 표본에 대해서만 데이터를
수집하는 것이다. 이때 조사 표본을 추출하는 것은 매우 중요하기
때문에 우리는 표본 추출하기 및 이와 관련된 다크 데이터 사안을
자세히 살펴본다. 덜 공식적인 경우지만, 때때로 데이터는 바로 구
할 수 있는 대상에게서 수집하기도 한다. 쇼핑 고객이 어떻게 행동
하는지 파악하려면 마침 오늘 가게에 들른 사람들을 관찰하면 된다.
또는 출근시간이 대충 얼마나 걸리는지 알려면 한 달 동안 매일 출
근시간을 재보면 된다. 하지만 모든 것을 측정하기가 현실적으로 불
가능한 상황도 많다. 식품가격이 시간에 따라 변하는지 알려고 모든
이의 모든 식품 구매 내역을 수집할 수는 없고, 모래 한 줌의 평균
무게를 알려고 모래를 한 알씩 무게를 잴 수는 없다. 그리고 또 다른
맥락에서 보면 1장에서처럼 ‘모든 것’을 측정한다는 개념 자체가 무
의미할 때도 있다. 가령 어느 한 사람의 키를 잴 때, 측정해서 나올
수 있는 모든 결과치를 기록하기란 불가능하며 오로지 실제 측정한
결과치만 기록할 수 있다.
예전에 대규모 데이터 세트를 쉽게 입수할 수 없던 시기에 나와
47
2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것