Page 28 -
P. 28
6.1.3 추측 통계의 사물을 파악하는 방법
이제 본론으로 돌아가겠습니다. 지금부터는 기술 통계가 아닌 추측 통계의 입장에서 이 절 첫머
리의 질문(‘왜 그런 처리를 하는가?’)을 생각해봅시다. 사실 추측 통계에는 이 분야 특유의 사물을
파악하는 방식이나 해석하는 방법이 있습니다. 우선은 이것부터 설명하겠습니다.
시청률 조사
전국에 1,000만 대의 텔레비전이 있고, 그중 200만 대에서 축구 중계를 봤다고 합시다. 즉, 시청
률은 200만/1,000만 5 0.2(5 20%)입니다. 이를 단 50대만 조사해서 추측하려 한다면 어떤 일
이 벌어질까요?
조사는 이런 순서로 진행하기로 합니다.
● 1,000만 대 중 한 대를 완전히 랜덤하게 등확률로 뽑고, 축구 중계가 나오고 있으면
X 1 5 ◯, 그렇지 않으면 X 1 5 3로 둔다.
● 1,000만 대 중 한 대를 다시 완전히 랜덤하게 등확률로 선택하고, 축구 중계가 나오고 있으
면 X 2 5 ◯, 그렇지 않으면 X 2 5 3로 둔다.
,
● 이하 마찬가지로 X 3 , X 4 … , X 50 을 정한다.
,
● X 1 … , X 50 중에서 ◯의 개수 Y를 세고 Z ≡ Y/50를 추정 시청률로 답한다.
이야기가 단순해지도록 매번 선택은 모두 독립적이라고 합니다(만일 같은 텔레비전이 두 번 선택
되어도, 순서대로 두 번으로 셉니다).
물론 이 조사의 결과가 20%에 딱 들어맞는다고는 할 수 없습니다. 어떤 텔레비전이 조사 대상이
되는지가 운에 좌우되므로, Y나 Z도 운에 따라 변화하는 확률변수가 되기 때문입니다. 극단적으
로 축구를 보여주는 텔레비전만 우연히 선택되면 추정 시청률이 100%가 될 가능성도 있습니다.
그렇다면 빗나갈 확률은 얼마일까요? 요컨대 Y나 Z의 확률분포가 어떻게 되는지에 대한 이야기
인데, 우리는 이미 답을 알고 있습니다. 각 X i 는 독립적이고, 확률 0.2로 ◯, 확률 0.8로 3가 나
옵니다(i 5 1, 2, … , 50). 다시 말해 Y는 이항분포 Bn(50, 0.2)를 따른다는 의미입니다(3.2절).
그래프를 그리면 그림 6-5의 왼쪽과 같습니다. Z는 그 가로축을 다시 읽을 뿐입니다(그림 6-5
의 오른쪽). 정답의 20% 주위에서 Z가 얼마나 변화할지를 이 그림에서 알 수 있습니다.
292
06 프로그래머를 위한 확률통계.indd 292 2019. 4. 25. 오전 11:41