Page 29 -
P. 29
절당했는지 알 수 없었다. 그런 정보는 내 데이터 세트에 전혀 들어
있지 않았다. 다시 말해 내게 제공된 데이터는 선택 범위 또는 선택
편향을 알 수 없는 왜곡된 표본이었다. 이렇게 왜곡된 데이터 세트
를 바탕으로 만들어진 통계 모형이 잠재적인 장래 신청자 전체 집단
에 적용될 경우 오해의 소지가 대단히 클 수 있었다.
그런데 문제는 그보다 훨씬 더 심각했다. 실제로 여러 겹의 다크
데이터가 숨어 있었다. 예를 들면 다음과 같다.
실제로 누가 신청했는가? 예전에 은행은 잠재 고객에게 대출을 원
하는지 물어보는 우편을 보냈을지 모른다. 원한다고 대답한 고객도
있고 원하지 않는다고 대답한 고객도 있었을 것이다. 대량 발송된 편
지에 대답한 사람들만이 데이터에 포함되었을 텐데, 응답하고 싶은
마음은 편지의 내용, 대출 금액, 대출 이율, 그리고 내가 모르는 다른
여러 요소에 따라 정해졌을 것이다. 여기서 답변하지 않은 고객들은
다크 데이터를 나타낸다.
누구한테 제안했는가? 답변한 고객들은 평가를 받았을 것이며, 그
들 중 누구는 대출을 제안받고 누구는 받지 못했을 것이다. 하지만
은행이 어떤 근거에서 대출을 제안했는지는 모르기 때문에 나는 더
많은 다크 데이터를 안고 있는 셈이었다.
누가 제안을 받아들였는가? 앞의 두 선택 과정과 더불어 대출을 제
안받은 고객 중 일부는 받아들이고 일부는 받아들이지 않았을 것이
다. 또 한 겹의 다크 데이터가 생긴다.
53
2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것