Page 27 -
P. 27
이 있으며, 각 전략에는 서로 다른 다크 데이터 문제가 등장한다.
내가 다크 데이터를 처음으로 진지하게 접한 분야는 소비자금융
consumer banking, 곧 신용카드・직불카드・개인대출・자동차 금융・담보대
출 등의 영역이다. 신용카드 거래 데이터에는 해마다 수백만 고객이
수십억 건의 신용카드 거래를 하며 생기는 거대한 데이터 세트가 포
함된다. 가령 2014년 6월부터 2015년 6월 사이에 비자카드의 총 거
3
래 건수는 약 350억 건에 달했다. 신용카드로 구매를 할 때마다 구
매 금액, 통화 종류, 판매자, 거래 일자 및 시간, 그리고 그 밖에 수많
은 정보 항목이 기록된다(실제로 정보 항목은 70~80가지다). 이 정
보 중 상당수가 수집되어야 거래가 체결되고 정해진 계좌로 금액이
청구될 수 있다. 거래에 필수인 부분이므로 이런 세부사항을 빠뜨리
기란 비현실적일뿐더러 불가능하다. 예를 들어 얼마를 청구할지, 누
구에게 청구할지 모른다면 거래 자체가 이루어질 수 없다. 하지만
데이터의 어떤 항목은 거래 체결에 결정적으로 중요하지는 않아서
기록되지 않을 수도 있다. 예를 들어 청구서 번호나 자세한 제품 코
드나 단가는 생략하더라도 거래에 지장을 주지 않는다. 이것은 분명
첫 번째 다크 데이터 유형인 DD 유형 1: 빠져 있는지 우리가 아는 데이터
의 한 예다.
게다가 적어도 다크 데이터 관점에서 보자면, 어떤 고객은 신용
카드로 구매하는 반면 현금으로 결재하는 고객도 있다. 따라서 신용
카드 데이터베이스에는 DD 유형 4: 자기 선택으로 인해 생기는 다크
데이터가 있을 수밖에 없다. 그래서 모든 구매와 거래 기록이라기에
는 부족함이 있다. 게다가 신용카드 운용 회사들도 여러 곳이다. 한
51
2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것