Page 28 -
P. 28
잘 수렴하지 않은 표본 수열도 살펴보자. 그림 2-3이 그 예다. 스텝 수를 늘리면 분포의 형태도 계
속 변하고 체인별로 분포도 다르다. 사후분포가 수렴하지 않는다고 할 수 있다. 수렴하지 않는 경
우에는 대부분 표본 수열의 자기상관이 크다. 즉, 어느 스텝에서 얻은 값이 그 스텝보다 일정 스
텝 앞 값에 영향을 받아서 실제로 새롭게 표본을 추출하는 것이 아니게 되어 MCMC 표본이 늘어
나지 않는 상황이다. 이 영향이 가벼울 때는 MCMC 샘플을 ‘솎아내는 것’, 다시 말해 스텝에서 몇
스텝 중 한 번만 표본을 추출해서 수열이 수렴할 때가 있다. 이렇게 솎아내는 것을 씨닝(thinning)
이라 한다. 단, 그림 2-3과 같은 표본 수열인 경우에는 기본적인 모델이 적절하지 않다고 보이므
로 스텝 수를 늘리거나 씨닝을 아무리 해도 수렴하지 않을 가능성이 크다. 수렴하지 않는 경우의
모델 개선 방법은 10장에서 다룬다.
수렴하지 않은데도 MCMC 표본을 사용해 분석을 진행하면 안 된다. 수렴하지 않을 때 초깃값과
난수 시드를 바꾸면 사후분포는 크게 변한다. 이는 분석 재현성이 없음을 의미하므로 피해야 한다.
2.5 베이즈 신뢰 구간과 베이즈 예측 구간
MODELING WITH ST AN
앞 절에서도 이야기했듯이 베이즈 통계에서는 모든 매개변수에 확률분포를 상정하므로 매개변수
의 ‘폭’을 구하기가 간단하다. 이 책에서는 이 폭을 전통적인 통계학의 신뢰 구간과 명확하게 구분
하기 위해 베이즈 신뢰 구간(Bayesian confidence interval)이라 부른다. 신용 구간(credible interval)이나
5
확신 구간이라고도 부른다. 사후분포의 양 끝에서 α / 2%인 면적을 잘라내고 남은 가운데 부분
(1 2 α)%에 대응하는 구간을 (1 2 α)% 베이즈 신뢰 구간이라 부른다. MCMC를 사용해서 사후
분포를 추정했을 때는 MCMC 표본의 분위점을 계산한 것이 베이즈 신뢰 구간이 된다. 쉽고 간단
하다.
예측분포를 설명하기 위해 예를 들어 보자. A가 밤에 사자자리 유성군 별똥별 수를 세었다고
하자. 10분씩 10회 관측해 개수는 0, 1, 1, 3, 0, 3, 3, 2, 1, 0이었다. 이 개수가 푸아송분포
y 2θ
Poisson(у|θ) 5 θ e / у!을 따른다고 하자. 이때 다음 10분간 별똥별을 i개 셀 확률(i 5 0,
…, 3)은 얼마일까? 이 물음에 답하려면 매개변수의 분포가 아니라 새로운 데이터의 예측분포
5 역주 두 용어는 엄밀히 이야기하면 다르지만 이 책에서는 같다고 생각하고 사용한다. 자세한 내용은 다음의 위키피디아 페이지에서 빈도주의
신뢰 구간과 베이즈 신용 구간의 차이를 참고하기 바란다. https://ko.wikipedia.org/wiki/신용_구간
040
1데이터분석을위한베이지안통계모델링.indd 40 2019. 3. 14. 오후 8:32