Page 33 -
P. 33
(4.6.3절) 등에 근거해 분포의 모양을 가정하는 일이 많습니다. 이 책에서도 모수 추정을 이어서
설명합니다.
, , 을 보고 µ
예를 들어 X 1 … , X n 이 모두 정규분포 N(µ, 1)를 따른다는 전제하에서 X 1 … , X n
, )
를 맞히는 것이 모수 추정입니다. 일반적으로는 ‘유한 차원의 벡터값 매개변수 θ ≡ (θ 1 … , θ k
에 따라 이러이러한 것처럼 데이터의 분포가 정해진다’는 설정을 준 다음 데이터에서 θ를 맞히는
것을 목표로 합니다. 1 6
ˆ
, )이라고 쓰겠습니다. 또 θ의 추정값을 θ라 추정 및 검정
이후부터는 n개의 데이터를 모아서 X 5 (X 1 … , X n
고 합니다. 추정값에는 이렇게 ‘모자’를 씌우는 것이 관습입니다. 데이터 X가 운에 따라 변하기
때문에 데이터에 따라 얻을 수 있는 추정 결과도 변하는 값(확률변수)입니다. 이 점을 강조하고
ˆ
ˆ
싶을 때는 θ를 추정량(estimator)이라 부르거나 X에 따라 정해지는 것을 명시하고 θ(X)라고 쓰기
2 ˆ
도 합니다. 책에 따라서는 표본 크기가 n이라는 것을 나타내기 위해 θ n 이라고 쓸 수도 있습니
다. 위의 예라면
은 추정량 중 하나입니다. 또한,
, 의 중앙값’
‘X 1 … , X n
도 추정량 중 하나입니다(이전의 µˆ와는 다른 추정량이므로 기호를 다르게 했습니다).
이런 식으로 추정량은 얼마든지 생각해볼 수 있습니다. 어쨌거나 데이터 X에 따라 정해지는 것
은 일단 무엇이든 추정량입니다. 예를 들어
● 내일 날씨를 예상하는 것 자체는 누구나 할 수 있다(맞히는 것은 다른 이야기지만).
● 데이터 X를 입력하면 ‘θ의 값은 ◯◯일 것’이라고 출력하는 프로그램은 모두 일종의 추정
프로그램이다(맞히는 것은 다른 이야기지만).
와 같은 입장을 취한다고 생각해보세요. 이런 식으로 우선 넓게 후보를 모아 놓고 그중에서 가장
좋은 추정량은 어느 것인지 결정합니다. 이것이 이 절에서 몰두하는 주제입니다.
1 미지의 파라미터는 그리스 문자 θ(세타)로 나타내는 것이 관례입니다. 또한 추정에는 추정값을 핀포인트로 답하는 점 추정과 여기서부터 여기까지라는 범
위로 답하는 구간 추정이 있습니다. 이 책에서 다루는 것은 점 추정 쪽입니다.
2 ‘데이터로부터 어떤 식으로 추정 결과를 구하는가’라는 것도 추정량이라고 부릅니다. 예를 들면 ‘프로그램 h’도 ‘변하는 데이터 X를 h에 입력하고 얻게 되
는 변하는 출력 h(X)’도 모두 추정량이라고 부릅니다.
297
06 프로그래머를 위한 확률통계.indd 297 2019. 4. 25. 오전 11:41