Page 27 -
P. 27

그림 6-4 원그래프보다는 띠그래프를 사용하자.








                                                                                                      6





                                                                                                      추정 및 검정














                    6.1   중앙값이나 사분위수가 무엇인가요?

                          크기 순서로 나열할 때 꼭 한가운데에 오는 값을 중앙값이라고 합니다. 예를 들어 1, 1, 2, 3, 5, 8, 13
                          의 중앙값은 3입니다. 위에서 세어도 아래에서 세어도 같은 네 번째가 한가운데에 있습니다. 만약 짝
                          수 개일 때는 중간에 있는 두 값의 평균이 됩니다. 예를 들어 1, 1, 2, 3, 5, 8, 13, 21이라면 3과 5의
                          평균인 4가 중앙값입니다.

                          중앙값의 장점은 엉뚱한 값이 다소 섞여도 영향을 거의 받지 않는다는 점입니다. 가령 무언가 잘못되
                          어 데이터 5를 500으로 둔갑시켰다고 합시다. 그러면 전체의 평균값은 크게 달라집니다. 한편 중앙값
                          (즉 1, 1, 2, 3, 8, 13, 21, 500의 한가운데)은 3과 8의 평균으로 (3 1 8)/2 5 5.5입니다. 원래의 중앙
                          값 4에서 크게 변하지 않았습니다.

                          중앙값은 전체 데이터를 크기 순서대로 늘어놓고 둘로 나눌 때의 경계선이라고 말할 수도 있습니다.
                          사분위수는 네 개의 분할판, 즉 네 개로 분할할 때의 경계선입니다(단, 중앙값은 제외하고, 나머지 두
                          개의 경계선을 가리킵니다). 데이터의 개수가 어중간한 경우에는 몇 가지 처리 방식이 있습니다. 사분
                          위수는 분포의 편차가 얼마나 넓은지에 대한 기준이 됩니다. 게다가 분포가 대칭적이거나 왜곡되어 있
                          는지에 대한 기준도 됩니다.








                                                                                                  291







     06 프로그래머를 위한 확률통계.indd   291                                                            2019. 4. 25.   오전 11:41
   22   23   24   25   26   27   28   29   30   31   32