Page 25 -
P. 25

●   모든 데이터를 입수
                     ●   하지만 방대한 목록을 나열해도 이해되지 않는다.
                     ●   거기서 적은 개수의 ‘특징량’을 사용해 데이터의 상태를 관찰하자.

                     ●   어떤 특징량을 쓰는 것이 좋을까?

                    초등학교에서 배우는 것은 기술 통계 영역입니다. 반면에 추측 통계는 데이터로부터 추측한다는                                6
                    이야기입니다. 예를 들어 시청률 조사를 생각해보세요.


                     ●   모든 데이터를 구할 수 없다.                                                             추정 및 검정
                     ●   대신 그 일부만 입수한다.

                     ●   이를 토대로 전체의 성질을 추측한다.
                     ●   어떤 추정법을 쓰는 것이 좋을까?

                    통계를 실제로 사용하고 싶어지는 상황을 보면, 이 경우가 많을 것이라고 생각합니다.

                    이 장에서는 우선 기술 통계에 대해 조금 설명한 후에 주로 추측 통계를 설명하겠습니다.




                    6.1.2  기술 통계


                    이 책에서는 기술 통계를 망라하지 않습니다. 따라서 여기서 명심해야 할 몇 가지만 짚고 넘어갑
                    시다.


                     ●   데이터를 어떻게 처리하고 축약할지 생각하기 전에 우선 데이터를 살펴봅시다. 예를 들어
                        그림 6-1 같은 데이터라면 산점도를 그리며 분포의 모습을 파악하세요.
                     ●   분포의 모습을 나타내기 위해 흔히 평균·분산이 쓰이지만, 이상치(outlier)에 끌려가기 쉽고
                        실태와 다른 인상을 주기도 합니다. 종종 지적되는 사례를 언급하면, ‘평균 소득은 현실과
                        맞지 않는다. 소수의 부자가 평균을 올려서, 대표적인 값이라고 말하기 어려운 숫자가 된다’

                        는 문제가 있습니다. 그러므로 평균·분산 대신 중앙값·사분위수의 사용도 검토하세요.
                     ●   애초에 평균이 의미를 갖는 것은 수치 데이터의 눈금이 등간격으로 예상되는 경우뿐입니
                        다. 예를 들어 설문지의 5단계 평가라면 각 단계가 반드시 등간격이라 간주할 수 없고, 아
                        무리 평균치를 말해도 이론적 타당성에 의문이 남습니다. 참고문헌 [31]의 첫머리에 이 문

                        제가 친절하게 설명되어 있습니다. 이는 기술 통계·추측 통계를 구분하기 이전의 이야기입
                        니다.



                                                                                                  289







     06 프로그래머를 위한 확률통계.indd   289                                                            2019. 4. 25.   오전 11:41
   20   21   22   23   24   25   26   27   28   29   30