Page 39 -
P. 39

공분산(covariance)이다. 공분산은 단변수 통계량의 분산(한 변수에 대한 관측값의 퍼짐 정도)과 비
                    슷하다. 공분산은 두 변수 X, Y가 각 평균으로부터 떨어진 정도로, 변수와 변수 평균값의 차이를
                    각 곱한 다음 평균으로 구한 값이다. 한 학급의 두 과목 성적을 다음 표 4-1에 나타내고, 공분산을

                    계산해보자.

                       표 4-1 세 학생의 수학과 영어 점수
                                                                                                      4
                                 수학          영어
                     학생 1        60          40                                                       확률과 통계
                     학생 2        70          70

                     학생 3        80          100
                     평균          70          70






                                                                 ) (80 70
                                                ) (70 70
                                  (60 70 )(40 70         )(70 70          )(100 70 )
                          공분산 =                                                     = 200
                                                          3
                    공분산을 통해 두 변수의 증감 관계를 알 수 있는데, 공분산이 0보다 크면 두 변수가 같이 증가하
                    는 관계이고, 0보다 작으면 한 변수가 커질 때 다른 변수는 작아지는 관계를 의미한다.
                    예를 들어 학생 10명의 시력과 키, 두 변수의 공분산을 10이라고 하자. 시력이 좋아지면(값이 커
                    지면) 키도 커지는 관계를 볼 수 있다(인과관계는 아니다). 만약 공분산이 -0.9라고 하면 시력이
                    좋아질 때 키는 작아지는 관계임을 알 수 있다. 공분산의 크기는 변하는 정도를 알려준다. 하지만
                    공분산을 계산하는 데 사용한 두 변수 값의 단위가 아주 크거나 작은 경우에는 변수의 크기가 공
                    분산에 반영된다. 그러다 보니 순수한 의미에서 두 변수의 변화 관계를 보여주지는 못한다. 구체
                    적으로 시력과 키의 공분산이 10이고, 몸무게와 키의 공분산이 5라고 할 때 두 관계 중에서 어느

                    관계가 더 큰지에 대해 얘기하기가 어려워진다. 시력과 키의 공분산이 큰 것이 실제 두 변수의 증
                    감 관계에 의한 것인지 아니면 시력과 키라는 각 변수의 크기에 영향을 받은 것인지를 구분할 수
                    가 없기 때문이다. 그래서 구하게 되는 것이 바로 상관관계(correlation)이다.

                    상관관계 역시 두 변수의 증감 관계를 보기 위한 통계량인데, 두 변수의 공분산을 바로 각 변수의
                    표준편차로 나눠 구한다. 이렇게 하면 값은 언제나 -1~1 사이의 값으로 조정된다. 표준편차라는
                    것은 그 변수가 갖는 변수의 중심으로부터의 평균적인 퍼짐 정도라고 볼 수 있으며, 일종의 값의

                    단위가 된다. 이러한 표준편차로 공분산을 각각 나누면 변수의 크기로 인한 부분이 제거가 되어
                    두 변수의 증감에 대한 관계만 남는다. 그래서 두 변수의 공분산이 각 변수의 절대적 크기에 영향
                    을 받지 않도록 각 변수의 표준편차로 나눠준 버전(scaled version)을 상관관계라 한다. 대표적인 상

                    관관계로는 피어슨의 상관관계(Pearson correlation)가 있으며, 다음과 같이 구할 수 있다.

                                                                                                  141





     수학통계_06.indd   141                                                                      2020-08-13   오후 4:30:05
   34   35   36   37   38   39