Page 22 -
P. 22
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터는 애초부터 존재해서 누군가가 분석해주길 기다리는 게
아니다. 누군가가 데이터를 하나씩 모아나가야 한다. 그리고 누구나
예상할 수 있듯이 데이터 수집 방법이 달라지면 종류가 다른 다크
데이터가 생길 수 있다.
이번 장에서는 데이터 세트를 생성하는 근본적인 방법 세 가지와
더불어 각 방법에 따르는 다크 데이터 문제점을 살펴본다. 3장에서
는 여러 상황에 적용될 수 있는 다크 데이터 문제들을 탐구한다.
데이터 세트 생성을 위한 기본 전략은 다음 세 가지가 있다.
1. 관심이 가는 모든 사람 또는 모든 것에 대해 데이터 수집하기
인간을 대상으로 할 경우, 인구총조사census(센서스)가 이에 해당
한다. 마찬가지로 재고조사는 창고를 포함해 모든 장소에서 모든 것
의 세부사항을 알아내려고 한다. 런던 동물원의 연례 재고조사는 약
일주일 동안 진행되는데, 2018년의 경우 동물을 19,289마리 소장
하고 있다고 밝혔다. 동물 종은 필리핀악어, 다람쥐원숭이, 훔볼트펭
귄, 쌍봉낙타 등 다양하다(개미와 벌 같은 다른 사회성 곤충들은 군
46 1부 | 다크 데이터는 어떻게 생겨나고 어떤 결과를 초래하는가