Page 20 -

P. 20

이 장에서는 가능도와 베이즈 추정의 기본을 설명하고 MCMC를 사용하는 데 필요한 용어를 설명
한다. 이 내용을 충분히 안다면 3장으로 건너뛰어도 된다.

2.1 기본 용어와 표기법 MODELING WITH ST AN

● 확률분포(probability distribution)
확률 변수가 가질 수 있는 각 값이 출현하는 정도를 확률로 표시한 것이다. 단순히 분포라

부르기도 한다. 확률 변수 a의 확률분포는 p(a)라 표기한다.
● 확률질량함수(Probability Mass Function, PMF)

이산 값을 가지는 확률 변수의 확률분포를 확률질량함수라고 한다. 확률함수라 부르기도
한다.
● 확률밀도함수(Probability Density Function, PDF)

연속 값을 가지는 확률 변수의 확률분포를 확률밀도함수라고 한다. 밀도함수나 밀도라 부르
기도 한다. 확률밀도함수를 p(x)라 하면 p(x) 위에 있는 한 점의 값(예를 들어 p(x 5 0))은
0.2
확률이 아니다. 적분한 값(예를 들어 ∫ p(x)dx)이 0 ≤ x ≤ 0.2일 확률임에 주의한다.
0
● 동시분포(joint distribution)
확률 변수가 여러 개 있을 때 확률 변수가 만들 수 있는 조합이 출현하는 정도를 확률로 표
시한 것이다. 확률분포의 일종이다. 결합분포라 부르기도 한다. 확률 변수가 a와 b로 두
개가 있을 때는 p(a, b)라 표기하고, 확률 변수가 θ 1 , θ 2 ,…, θ K 와 같이 K개일 때는 p(θ 1 ,
θ 2 ,…, θ K )와 같이 표기한다.

● 주변화(marginaliztion)와 주변분포(marginal distribution)
동시분포에서 특정한 확률 변수가 가질 수 있는 값을 합하거나 적분해서 변수를 소거하는
과정을 주변화라 한다. 주변화한 후 확률분포를 주변분포라 부른다. 예를 들어 a와 b가 이

산 값을 가지는 확률 변수인 경우 a에 대한 합을 계산하여 p(a, b)에서 주변분포 p(b)를 구
한다.

032

1데이터분석을위한베이지안통계모델링.indd 32 2019. 3. 14. 오후 8:32

15 16 17 18 19 20 21 22 23 24 25