Page 28 -
P. 28

군데 카드 회사에서 나온 데이터는 전체 신용카드 소지자 집단을 대

              표하기 어려우며, 당연히 전체 인구를 대표하지 못한다. 따라서 행
              정 데이터는 솔깃한 희망을 던져주긴 하지만, 그 역시 언뜻 봐서는

              확실히 드러나지 않는 다크 데이터로 인한 약점을 갖기 쉽다.

                언젠가 나는 평점표를 만들어달라는 의뢰를 받았다. 평점표란 신
              용카드 대출 신청자가 채무불이행에 빠질 가능성이 있는지를 예측

              하는 통계 모형으로, 은행이 대출 여부를 결정하는 근거 자료로 사
              용될 수 있다. 나는 이전 고객들의 대출 신청 내역과 더불어 그 고객

              들이 실제로 채무불이행 상태에 빠진 적이 있는지를 알려주는 대규

              모 데이터 세트를 받았다.
                 본질적으로 그 작업은 단순했다. 채무불이행을 일삼은 고객들과

              그러지 않은 고객들을 구분짓는 특징의 패턴을 찾기만 하면 장래의

              신청자들이 채무 이행자와 채무 불이행자 중 어느 패턴과 비슷한지
              구분해낼 수 있었다.

                문제는 은행이 장래의 신용카드 신청자 전부를 대상으로 예측하

              길 원했다는 것이다. 내게 제공된 데이터는 분명 장래 신청자의 모
              집단이라고 보기 어려웠는데, 왜냐하면 그 데이터는 이미 선택 과정

              을 거친 것이기 때문이었다. 아마도 이전 고객들이 대출받을 수 있
              었던 까닭은 이전의 어떤 메커니즘(이전의 통계 모형이나 어쩌면

              은행 관리자의 주관적 의견)에 따라 리스크가 낮다고 여겨졌기 때

              문이었을 것이다. 리스크가 높다고 판단된 이전의 고객들은 대출을
              받지 못했을 테니, 나로서는 그들이 실제로 채무불이행을 하게 될지

              를 알 길이 없었다. 이 데이터로는 이전에 얼마나 많은 신청자가 거






              52   1부 | 다크 데이터는 어떻게 생겨나고 어떤 결과를 초래하는가
   23   24   25   26   27   28   29