Page 17 -
P. 17
2.2 모델링 방법 BAYESIAN METHODS
베이지안 모델링을 시작할 때 여러분의 데이터가 어떻게 만들어졌는지를 생각해보는 것이 좋다. 여러
분이 전문적인 지식을 가졌다고 가정하고, 데이터셋을 어떻게 다시 만들지 상상해보자.
1장에서는 문자 메시지 데이터를 살펴보았다. 우리는 어떻게 관측이 이루어졌는지에 대한 질문으
로 시작했다.
1. 시작하면서 “개수 데이터를 나타내는 최고의 확률변수는 무엇인가?”를 생각했다. 푸아송 확률
변수는 개수 데이터를 잘 표현하므로 좋은 후보다. 그래서 푸아송분포에서 표본으로 얻은 문자
메시지 개수를 모델링한다.
2. 다음으로 “좋아, 문자 메시지가 푸아송분포를 따른다고 가정하면 푸아송분포를 위해 필요한 것
은 무엇인가?”를 생각한다. 푸아송분포는 모수 λ를 가진다.
3. 여러분은 λ를 아는가? 모른다. 사실 우리는 λ가 두 개 있다고 의심하고 있다. 하나는 초기 행동
에 대한 것이고, 나머지 하나는 사후 행동에 대한 것이다. 행동이 언제 바뀌는지 알지 못하지
만, 바뀌는 시점을 변환점 τ라고 부를 것이다.
4. 두 λ에 대한 바람직한 확률분포는 무엇인가? 지수확률분포는 양의 실수에 확률을 부여하므로
적합한 분포다. 지수확률분포는 α라고 부르는 모수를 가진다.
5. 모수 α가 무엇인지 알고 있는가? 모른다. 이 시점에서 어떤 분포를 α에 계속 부여하지만, 알지
못하는 수준에 이르면 일단 중단하는 것이 좋다. 우리는 λ에 대한 사전 믿음을 가지고 있는 반
면(“이것은 아마도 시간에 따라 변할 것이다”, “아마도 10과 30 사이일 것이다” 등), α에 대한
믿음은 강력하지 않다. 따라서 여기서 모델링을 중단하는 것이 최선이다.
그럼 적합한 α 값은 무엇일까? 우리는 λ 값들이 10과 30 사이라고 생각한다. 만일 우리가 α 값
을 낮게 설정한다면(높은 값에는 더 큰 확률) 우리는 우리의 사전 믿음을 충분히 반영하지 못하
는 것이다. 마찬가지로 너무 높은 α 역시 우리의 사전 믿음을 반영하지 못한다. α에 λ에 대한
우리의 믿음을 반영하려면 주어진 α 내에서 λ의 평균이 우리가 관측한 평균과 같도록 설정하는
것이 좋다. 이는 1장에서 보여주었다.
6. 우리는 τ가 언제 일어났는지에 대한 전문적인 견해가 없다. 그래서 우리는 τ가 전체 기간 동안
이산균등분포에서 나왔다고 가정할 것이다.
056
베이지안_11.indd 56 2017-11-17 오전 11:07:25