Page 32 -
P. 32

¯
                                        ̃
                  그림 6-8 평균값 X(실선)와 중앙값 X(점선)의 확률밀도함수
                   0.8
                                       평균값으로 추정
                   0.7                 중앙값으로 추정
                   0.6
                   0.5
                 확률밀도  0.4
                   0.3
                   0.2
                   0.1
                    0
                     2    3    4   5    6    7    8
                                   x


               이 이야기에서 전하고 싶었던 내용은 단순한 평균 외에도 다양한 추정법이 있을 수 있다는 것,
               그리고 추정법에 따라 변하는 상태가 다르다는 것입니다.



               6.1.4  문제 설정


               위의 몇 가지 예를 통해


                ●   현실의 관측값의 배후에 진정한 분포가 있다고 가정하고 그것을 맞히는 것을 목표로 한다.
                ●   관측값이 운에 따라 변하므로 관측값에서 계산되는 추정값도 변한다.

                ●   여러 가지 추정법을 생각할 수 있고 추정법에 따라 추정값의 변하는 상태가 다르다.

               라는 핵심을 소개했습니다. 이 절에서는 이를 근거로 이야기를 일반화하고 추정론의 문제 설정
               을 설명합니다.

                           ,       은 i.i.d.인 확률변수라고 합니다. 통계 산업에서는 보통 데이터라고 하
               얻은 데이터 X 1 … , X n
               기보다는 표본이라고 하지만, 위압감을 주기 때문에 이 책에서는 데이터라고 부릅니다. 데이터의
               개수 n을 표본 크기라고 부릅니다.

               데이터의 진정한 분포는 미지의 영역입니다. 특히 이 분포의 구체적인 함수 형태를 단정하지 못

               하는 설정을 비모수적(nonparametric)이라고 부릅니다. 반면 기댓값과 분산은 잘 모르지만 정규분
               포라고 가정할 수 있는 것처럼, 분포를 제한한 설정을 모수적(parametric)이라고 부릅니다.

               비모수 추정과 모수 추정은 일장일단이 있습니다. 모수 추정은 더 강한 가정이 필요하므로 적
               용 범위가 좁습니다. 하지만 그만큼 가정이 정확하다면 높은 정밀도로 추정할 수 있습니다. 그런
               까닭에 과거의 경험이나, 데이터가 어떻게 생성되는지에 관한 지식(질문 6.2)이나, 중심극한정리


         296







     06 프로그래머를 위한 확률통계.indd   296                                                            2019. 4. 25.   오전 11:41
   27   28   29   30   31   32   33   34   35