Page 25 -
P. 25
● 과학습되기 쉬워진다.
예를 들어 주사위를 3회 던져 우연히 3회 연속으로 1이 나오는 극단적인 결과가 나왔을 때
최대가능도 추정으로는 “1이 나올 확률이 1이고, 다른 값이 나올 확률은 0이다.”라 추정하
지만, 이 결과는 경험과 다르다. 이처럼 얻은 데이터를 과하게 맞춰서 새로운 데이터를 예측 2
하는 능력(일반화 능력이라고 한다)이 낮아지는 것을 과학습(overfitting)이라 한다. 과학습은
이런 극단적인 경우뿐만 아니라 전체적으로 데이터 양이 부족하지는 않지만 범주별로 나누 베이즈 추정 복습
었을 경우에 각 범주에 속하는 데이터 수가 적어지면 빈번하게 발생한다.
● 최대가능도 추정의 실제 계산이 어려워진다.
매개변수 공간 전체에서 가장 좋은 값을 대역 최적 값(global optimum)이라 하고, 제한된 범
위에서 가장 좋은 값을 국소 최적 값(local optimum)이라고 한다. 최대가능도 추정 알고리즘
의 대부분은 초깃값에 가까이 있는 국소 최적 값에 빠져서 충분히 최적화되지 않는 경우가
있다. 그래서 보통은 초깃값을 여러 개 시험한 후 최적인 값을 사용하는데, 매개변수가 여러
2
개일 때는 조합 수가 늘어나므로 초깃값을 많이 시험하기 어렵다.
2.4 베이즈 추정과 MCMC MODELING WITH ST AN
2.2절과 2.3절에서 이야기했던 문제를 해결하는 방법 중 하나가 베이즈 정리를 사용한 베이즈 추
정(Bayesian inference)과 마르코프 연쇄 몬테칼로 방법(Markov chain Monte Carlo methods, MCMC)의
조합이다.
전통적인 통계학과 베이즈 통계의 차이는, 베이즈 통계에서는 모든 매개변수를 확률 변수로 보고
확률분포를 가정한다는 것이다. 이 차이 덕분에 “매개변수 θ값이 구간 [a, b]에 있을 확률은 95%
다.”라는 알기 쉬운 해석이 가능하다. 또한, “내일 방문하는 손님이 10명을 넘을 확률은 어느 정도
인가?”라는 질문도 답할 수 있다.
최대가능도 추정에서는 매개변수의 한 점을 추정하지만, 베이즈 추정에서는 데이터 Y가 있을 때
의 매개변수 분포 p(θ|Y)를 추정한다. 매개변수가 여러 개라면 매개변수의 동시분포를 추정한다.
100
2 매개변수 개수가 100개인 경우 각 매개변수당 10개 값을 시험하면 조합 수는 10 가지가 된다. 이때 난수를 사용해 초깃값을 만드는 방법이
있지만 매개변수 공간을 충분히 탐색하지 못할 수 있다.
037
1데이터분석을위한베이지안통계모델링.indd 37 2019. 3. 14. 오후 8:32