Page 39 -
P. 39
공분산(covariance)이다. 공분산은 단변수 통계량의 분산(한 변수에 대한 관측값의 퍼짐 정도)과 비
슷하다. 공분산은 두 변수 X, Y가 각 평균으로부터 떨어진 정도로, 변수와 변수 평균값의 차이를
각 곱한 다음 평균으로 구한 값이다. 한 학급의 두 과목 성적을 다음 표 4-1에 나타내고, 공분산을
계산해보자.
표 4-1 세 학생의 수학과 영어 점수
4
수학 영어
학생 1 60 40 확률과 통계
학생 2 70 70
학생 3 80 100
평균 70 70
) (80 70
) (70 70
(60 70 )(40 70 )(70 70 )(100 70 )
공분산 = = 200
3
공분산을 통해 두 변수의 증감 관계를 알 수 있는데, 공분산이 0보다 크면 두 변수가 같이 증가하
는 관계이고, 0보다 작으면 한 변수가 커질 때 다른 변수는 작아지는 관계를 의미한다.
예를 들어 학생 10명의 시력과 키, 두 변수의 공분산을 10이라고 하자. 시력이 좋아지면(값이 커
지면) 키도 커지는 관계를 볼 수 있다(인과관계는 아니다). 만약 공분산이 -0.9라고 하면 시력이
좋아질 때 키는 작아지는 관계임을 알 수 있다. 공분산의 크기는 변하는 정도를 알려준다. 하지만
공분산을 계산하는 데 사용한 두 변수 값의 단위가 아주 크거나 작은 경우에는 변수의 크기가 공
분산에 반영된다. 그러다 보니 순수한 의미에서 두 변수의 변화 관계를 보여주지는 못한다. 구체
적으로 시력과 키의 공분산이 10이고, 몸무게와 키의 공분산이 5라고 할 때 두 관계 중에서 어느
관계가 더 큰지에 대해 얘기하기가 어려워진다. 시력과 키의 공분산이 큰 것이 실제 두 변수의 증
감 관계에 의한 것인지 아니면 시력과 키라는 각 변수의 크기에 영향을 받은 것인지를 구분할 수
가 없기 때문이다. 그래서 구하게 되는 것이 바로 상관관계(correlation)이다.
상관관계 역시 두 변수의 증감 관계를 보기 위한 통계량인데, 두 변수의 공분산을 바로 각 변수의
표준편차로 나눠 구한다. 이렇게 하면 값은 언제나 -1~1 사이의 값으로 조정된다. 표준편차라는
것은 그 변수가 갖는 변수의 중심으로부터의 평균적인 퍼짐 정도라고 볼 수 있으며, 일종의 값의
단위가 된다. 이러한 표준편차로 공분산을 각각 나누면 변수의 크기로 인한 부분이 제거가 되어
두 변수의 증감에 대한 관계만 남는다. 그래서 두 변수의 공분산이 각 변수의 절대적 크기에 영향
을 받지 않도록 각 변수의 표준편차로 나눠준 버전(scaled version)을 상관관계라 한다. 대표적인 상
관관계로는 피어슨의 상관관계(Pearson correlation)가 있으며, 다음과 같이 구할 수 있다.
141
수학통계_06.indd 141 2020-08-13 오후 4:30:05