Page 23 -
P. 23

집 단위로 셈한다). 1장에서 보았듯이 슈퍼마켓의 경우 모든 구매

                    내역이 수집된다. 세금 내역과 신용카드 거래 내역, 회사 직원 정보
                    도 마찬가지다. 모든 스포츠 기록, 도서관 서가의 책, 가게의 물품가

                    격 등도 수집될 수 있다. 이 모든 사례에서 사물, 사람 또는 기타 모

                    든 것 각각의 세부사항을 모아서 데이터 세트를 만들 수 있다.



                      2. 모집단 내의 일부 항목에 대해서 데이터 수집하기
                      인구총조사의 대안은 사람들의 일부 표본에 대해서만 데이터를

                    수집하는 것이다. 이때 조사 표본을 추출하는 것은 매우 중요하기

                    때문에 우리는 표본 추출하기 및 이와 관련된 다크 데이터 사안을
                    자세히 살펴본다. 덜 공식적인 경우지만, 때때로 데이터는 바로 구

                    할 수 있는 대상에게서 수집하기도 한다. 쇼핑 고객이 어떻게 행동

                    하는지 파악하려면 마침 오늘 가게에 들른 사람들을 관찰하면 된다.
                    또는 출근시간이 대충 얼마나 걸리는지 알려면 한 달 동안 매일 출

                    근시간을 재보면 된다. 하지만 모든 것을 측정하기가 현실적으로 불

                    가능한 상황도 많다. 식품가격이 시간에 따라 변하는지 알려고 모든
                    이의 모든 식품 구매 내역을 수집할 수는 없고, 모래 한 줌의 평균

                    무게를 알려고 모래를 한 알씩 무게를 잴 수는 없다. 그리고 또 다른
                    맥락에서 보면 1장에서처럼 ‘모든 것’을 측정한다는 개념 자체가 무

                    의미할 때도 있다. 가령 어느 한 사람의 키를 잴 때, 측정해서 나올

                    수 있는 모든 결과치를 기록하기란 불가능하며 오로지 실제 측정한
                    결과치만 기록할 수 있다.

                      예전에 대규모 데이터 세트를 쉽게 입수할 수 없던 시기에 나와






                                                                         47
                    2장 | 다크 데이터 찾아내기                   우리가 모은 것과 모으지 않은 것
   18   19   20   21   22   23   24   25   26   27   28