Page 10 -
P. 10
이란 용어는 지하에 묻힌 광물을 찾아낸다는 의미에서 나온 것으로, 데이터 분석을 이에 비유하여
사용되었다. 이러한 데이터 마이닝을 이해하고자 그 정의를 좀 더 구체적으로 살펴보겠다.
데이터 마이닝이란 대용량의 데이터를 분석해서 이해하고, 앞으로의 사건에 대한 예측까지를 목
표로 한다. 즉, 데이터의 관계, 패턴, 규칙 등을 찾아내어 이를 체계적이고 통계적으로 모형화하여
2
이전에는 알지 못했던 유용한 지식을 발견하는 일련의 과정을 의미하는 것이다. 또 다른 정의에
따르면 데이터 마이닝은 기존 통계학과는 다르게 대용량의 관측 가능한 데이터를 대상으로 하며
자료에 대한 탐색적인 분석을 중시한다고 한다.
결국 데이터 마이닝은 전산 시스템에 저장하거나 저장할 수 있는 대용량의 데이터를 가공·분
석하고, 통계 모형, 수학적 기법, 패턴 인식부터 머신 러닝에 이르는 방법론까지 적용하여, 통계
적 규칙이나 패턴을 체계적이고 자동적으로 찾아 분석하고, 가치 있는 의미를 찾아내는 과정이
라고 볼 수 있다. 이는 데이터를 기반으로 한 의사 결정 과정에서 이미 많이 활용되는 기법이다.
예를 들어 신용 평점 시스템(credit scoring system)의 신용평가모형 개발, 사기 탐지 시스템(fraud
detection system), 장바구니 분석(market basket analysis), 최적 포트폴리오 구축, 웹 로그 분석, 소셜
미디어 분석을 통한 선거 전략 수립 등과 같이 다양한 산업과 분야에서 많이 활용된다.
데이터 과학은 데이터를 기반으로 현상을 해석하고 솔루션을 제시한다. 예를 들어 온라인 마케팅
용어로 ‘그로스 해킹(Growth Hacking)’이 있다. 그로스 해킹은 데이터를 기반으로 마케팅에 정량적
으로 접근하고 의사 결정하는 것을 의미하며, 온라인 기반 산업에서 활발하게 이용되고 있다. 물
론 데이터가 현실을 충분하게 반영하지 못한다면 모형도 현실을 충분히 반영하지 못할 수 있는
위험이 있다. 그래서 데이터 수집부터 편향(bias)이 발생하지 않게 주의해야 하며, 분석할 때도 현
실 관점에서 데이터를 균형 있게 이해하도록 주의해야 한다.
데이터 과학에서 무엇보다 항상 염두에 두어야 하는 것은 ‘창의적인 관점에서 데이터에 접근하는
것’이다. 같은 데이터가 주어진 상태에서, 여러 명의 분석가가 같은 분석 도구를 활용한다면 어느
정도 비슷한 결과물을 얻을 수 있다. 하지만 같은 데이터라 하더라도 창의적인 관점에서 데이터를
바라보고 직관으로 분석한다면 더 가치 있는 결과물을 이끌어 낼 수 있다. 또한, 데이터를 분석하
면 분석 자체에만 집중하여 나무가 아닌 숲을 보는, 즉 전체를 볼 수 있는 시야와 창의적인 관점을
잃어버리기가 쉽다. 같은 데이터에, 같은 접근 방법으로, 같은 도구를 통해 얻은 유사한 결과로 큰
가치를 만들기는 어렵다. 그렇기 때문에 쉽지는 않지만, 빅데이터로부터 좀 더 가치 있는 결과를
끌어내려면 데이터에 대해 항상 고민하고 남들이 보지 않는 새로운 관점으로 데이터를 대하는 노
력이 필요하다.
2 David J. Hand, Principle of Datamining, MIT Press, 2001
18
수학통계_06.indd 18 2020-08-13 오후 4:29:04