세상에서 가장쉬운 통계학 입문 요약(9)
10강 구간추정: 95% 적중하는 신뢰구간 찾기
예언적중구간을 모집단추정에 역이용
관측된 데이터가 모수의 95%예언적중구간에 포함되면 기각하지 않고, 포함되지않으면 기각하는 가설평가법을 모든 모수 각각에 실행하면, ‘버릴 수 없는 가능성으로 두어야 하는 모수의 집합’이 확정될 것이다. 이렇게 ‘있을 수 있는 모수가 들어있는 구간’을 95% 신뢰구간이라고 하며, 모수를 이러한 구간에서 추정하는 것을 구간추정이라고 한다.
동전 예제 모집단 추정 : N개의 동전을 던저셔 10개 앞면일 될때, N의 95% 신뢰구간은 13≤N≤30
신뢰구간 ‘95%’가 의미하는것
‘95% 예언적중구간’일때 95%라는 것은 분명히 ‘95%의 데이터가 그 구간에 들어가 있다.’ 라는 의미이다. 그래서 다음에 관측한 데이터는 95%확률로 그 구간에 들어간다고 생각할 수 있다. 그러나 신뢰구간의 경우는 그렇지 않다. ‘앞면이 나온 개수가 10개로 관측될때, 모수N이 95%의 확률로 13≤N≤30의 범위에 들어간다’는 의미가 아니다. 애초에 N은 ‘불확실하게 앞으로 결정될 것’이 아니라 ‘이미 확정된 것이지만, 모르는 것’이다. 어떤 관측값 x가 나온 경우에 N을 추정해 가는 과정을 반복한다면, 그 중 95%의 추정 결과는 맞다는 것이 올바른 해석이다. 다시말해 관측되는 데이터에 관해서 구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간을 구할 수 있지만, 그 100번 중 95번은 실제N이 그 구간에 들어간다’는 추정이며, 그 %가 된다.
풀어서 설명하면 관측데이터 x1의 추정이 a1≤N≤b1 이고 x2의 추정이 a2≤N≤b2 이고… x100의 추정이 a100≤N≤b100이라면 즉 관측된 100개의 데이터로 추정한 구간이 100개 있을때 이중 95개의 구간에 실제N이 들어 있다는 것이다.
표준편차를 아는 정규모집단의 평균값에 대한 구간추정
‘모집단이 정규분포인 것을 알고 있으며, 표준편차는 알고 있지만, 평균값을 모를 때, 관측된 데이터로 부터 평균값을 구간추정한다’ 유형의 구간추정 : 기계나 눈에 의한 측정값데이터는 ‘실제 값’을 평균값으로 하느 정규 분포를 한다는 사실이 알려져 있다. 즉, 모집단이 (무한개의)관측값의 데이터 집합일 경우, 평균값 →실제값, 표준편차 →측정정확도로 대응시켜 생각 할 수 있으며, 측정 기계의 고유한 정확도=표준편차가 알려져 있는 것은 이상하지 않다.
온도 측정 예제 : 별로 정확하지 않은 온도계 실제 온도 μ를 평균으로 하고 표준편차 5ºC의 정규분포로 한다. 지금 측정된 온도는 20ºC이다. 실제 온를도 95% 신뢰구간에서 추정하시오.
-1.96 ≤ (x-μ)/σ ≤ +1.96부등식을 이용하면 -1.96 ≤(20-μ)/5≤ +1.96를 풀면 10.2 ≤ μ ≤ 29.8이된다. 즉 실제온도 μ의 95% 신뢰구간은 ‘10.2 ≤ μ ≤ 29.8’가 된다.