Page 38 -
P. 38

값이 나오기 때문이다. 이렇게 제곱하여 계산했기 때문에 모분산이나 표본 분산의 측정 단위는
               관측값과 평균의 차이를 측정한 크기보다 커진다. 사실 우리가 알고 싶은 것은 각 관측값이 평균
               과 대체로 어느 정도 차이 나는지이지만, 분산은 평균과의 차이를 제곱한 값으로 원래 알고자 한

               크기가 제곱되어 나타난다. 그렇기 때문에 분산을 원래 알고자 하던 크기로 바꾸려면 분산값의 양
               의 제곱근을 사용해야 한다. 이를 표준편차(standard deviation)라 한다.






               4.3        통계량의 이해: 다변수 통계량
                                                      MATH FOR MACHINE LEARNING






               이제 두 종류 이상의 관측값에 대한 요약인 다변수 통계량을 살펴보자. 앞에서는 한 과목의 성적
               에 대한 요약 값을 다뤘다면 여기서는 두 과목의 성적에 대한 요약 값으로 넓어진 경우를 가정해
               보자. 한 과목의 성적에 대한 요약 값을 구하는 것은 앞서 살펴본 단변수 통계량의 영역이다. 과목

               수를 늘리면 다변수 통계량이 된다. 이 절에서는 두 과목으로 넓어진 경우로 다변수 통계량을 살
               펴보자.

               다음 그림 4-6처럼 한 반에서 두 과목에 대한 성적을 정리하였다. 이 절에서 살펴보려는 다변수
               통계량은 수학과 영어 두 과목 간의 관계에 대한 요약 값을 의미한다.

                  그림 4-6 한 학급의 두 과목 성적



















               두 변수가 같은 개수의 값을 갖고 있을 때 우리가 말하는 두 변수의 관계라는 것은 한 변수가 커질
               때 다른 변수도 커지거나 작아지는 관계를 의미한다. 이러한 다변수 통계량의 대표적인 예가 바로




         140





     수학통계_06.indd   140                                                                      2020-08-13   오후 4:30:05
   33   34   35   36   37   38   39