Page 27 -
P. 27
어떤 알고리즘이라도 매개변수의 MCMC 표본 초깃값을 적당히 정해서 시작한다. 그리고 현재
스텝의 MCMC 표본 값을 기준으로 다음 스텝의 MCMC 표본을 난수로 생성하고 값을 갱신한
다. 스텝 수가 늘어나며 얻어지는 수의 나열을 표본 수열이라고 부른다. 특히 초깃값과 난수 시드
3
(seed) 를 각각 하나로 정해서 얻은 표본 수열을 체인(chain)이라 부른다. 그림 2-2는 MCMC의 전 2
형적인 표본 수열의 예다. 왼쪽 그림은 가로축을 스텝 수, 세로축을 매개변수의 MCMC 표본 값
으로 한 꺾은선 그래프고 트레이스 플롯(trace plot)이라 부른다. 베이즈 추정 복습
그림 2-2에는 세 개의 체인이 있고 각각 다른 초깃값에서 시작한다. 처음 200스텝 정도까지는
p(Y|θ) p(θ)값이 커지는 곳을 찾는 중간 과정이고, 초깃값에 크게 의존하므로 표본으로 사용하지
4
않고 버린다. 표본 수열에서 제외하는 스텝 기간을 웜업(warm up)이나 번인(burn in)이라 부른다.
웜업의 길이는 문제에 의존하므로 시행착오를 겪어가며 정한다. 웜업 후의 MCMC 표본은 사후
분포에서 추출한 표본이라고 본다. 그림 2-2 오른쪽의 밀도함수는 스텝이 200스텝을 넘는 범위
의 MCMC 표본 값에서 계산한 확률밀도함수며 사후분포다. 이 이상 스텝을 반복해도 사후분포의
형태에는 변화가 없는 것처럼 보인다. 그리고 어느 체인이라도 거의 같은 분포가 되었다. 이런 이
유로, 구해야 하는 사후분포에 수렴(convergence)했다고 본다. 사후분포는 항상 예쁜 대칭이 있는
산 형태의 분포가 되는 것은 아니고 한쪽으로 치우친 분포나 뒤틀린 분포, 봉우리가 여러 개인 분
포도 될 수 있다.
그림 2-3 수렴하지 않은 표본 수열 예. 범례는 그림 2-2와 같다
MCMC sample value
Step
3 역주 첫 번째 난수를 생성하기 위한 수. 씨앗이라는 의미에서 seed를 사용해 random seed다.
4 Stan에서는 웜업 기간에 알고리즘에서 사용하는 매개변수를 조정하므로 적응(adaptation)이라 부를 때도 있다.
039
1데이터분석을위한베이지안통계모델링.indd 39 2019. 3. 14. 오후 8:32