Page 13 -
P. 13
1.1 통계 모델링이란 MODELING WITH ST AN
모델링이란 불필요한 성질을 과감하게 무시하고 필요한 핵심만 뽑아내는 과정이다. 예를 들어 자
동차나 비행기의 조립 모델은 원형의 실제 무게, 재질, 기능을 무시하고 형태와 색만 모방한다. 핵
심적인 부분으로 수식을 사용한 모델이 수리 모델이고, 확률분포를 사용한 수리 모델이 확률 모델
(probabilistic model)이다. 이 책에서는 간단하게 모델이라고 하면 따로 설명하지 않는 한 확률 모
델을 가리킨다. 다음으로 확률 모델을 데이터에 맞추어 현상을 이해하고 예측하는 과정을 통계 모
델링(statistical modeling)이라 한다. 확률 모델은 확률분포와 매개변수(parameter) 그리고 매개변수
1
를 잇는 관계식으로 구성된다. 매개변수란 분석 전에는 값이 정해지지 않은 변수고, 분석자가 어
떤 값인지 알고 싶어 하는 대상이다. 분석자는 확률 모델과 데이터로부터 매개변수 값을 추정하
고 그 값을 사용하여 현상을 해석하고 예측한다. 모든 확률 모델은 어디까지나 가정 또는 가설임
에 주의하자. 확률 모델을 사용하는 큰 이점은 확률분포와 매개변수를 잇는 관계식 부분에 배경지
식을 여러 가지 형태로 집어넣을 수 있다는 것이다. 단, 모델링할 때 무시한 성질이 중요한 요소는
아닌지 충분히 주의할 필요가 있다.
1.2 통계 모델링의 목적 MODELING WITH ST AN
앞 절에서도 이야기했지만 통계 모델링의 목적 중 첫 번째는 해석이다. 현상의 원인이나 원리를
알고 싶거나 새로운 지식을 알고 싶은 것은 인간의 근원적 욕구다. 어떻게 그 현상이 일어났는지
그리고 가지고 있는 모델이 어떻게 생성되었는지를 쉽게 해석해주는 것이 모델이다. 그러므로 해
석하기 쉬운 데이터가 좋은 모델이라고 할 수 있다. 그러므로 좋은 모델이란 이해하기 쉬운 모델,
설명하기 쉬운 모델이라 해도 좋다. 해석하기 쉬우면 모델을 기반으로 다음 행동을 취하기 쉽다는
이점도 있다.
두 번째는 예측이다. 지금까지 얻은 데이터로 미래가 어떻게 될지 예측한다. 어떠한 조작을 하면
1 2.4절에서 설명하겠지만 베이즈 통계에서는 모든 매개변수가 확률분포를 따른다고 가정한다.
024
1데이터분석을위한베이지안통계모델링.indd 24 2019. 3. 14. 오후 8:32