세상에서 가장쉬운 통계학 입문 요약(8)

jaeyoung kang
5 min readAug 3, 2018

--

9강 가설검정 : 하나의 데이터로 모집단을 추리

통계적 추정이란 부분으로 전체를 추리하는 것

통계적 추정은 일상생활에서 접하는 엄청나게 많은 데이터 세트 중에서 겨우 몇 개의 데이터를 관측하는 일에서 출발한다. 이렇게 생각하면 ‘관측한 몇 개의 데이터로부터 그 뒷면에 펼쳐져 있는 엄청나게 많은 모든 데이터에 대해서 무엇을 관측할 수 있을까?’라는 의문이 생기게 된다. 이렇게 ‘부분으로 전체를 관측하는 것’이 통계학의 묘미라고 할 수 있다.

관측된 데이터 뒷면에 펼쳐져 있는 모든 데이터를 통계학에서는 ‘모집단(population)’이라고 부른다. 따라서 통게적 추정은 ‘관측된 데이터로 모집단을 추리’하는 것이라고 정리할 수 있다. 선거를 예로 들면, 모집단은 투표를 한 모든사람들의 투표결과를 말하고 출구조사는 관측된 데이터이다.

더욱 정확한 모집단을 추정

건설회사 예제 : 아파트 분양광고 후 10명으로 부터 모델하우스 방문문의 전화가 왔다. 직원은 모델하우스를 둘러보기 원하는 사람이 1/2의 확률로 사전에 문으 전화한다는 것을 경험적으로 알고 있다. 그렇다면 이번에 모델하우스를 둘러보기 원하는 인원수를 다음과 같이 예상하는 것이 타당한지 판단해보자. 16명, 36명

동전버전으로 변환 : 몇개의 동전을 던진지는 모르지만 앞면이 나온 동전이 10개이고 앞면이 나올 확률은 1/2이다. 몇개의 동전을 던졌다고 판단하는것이 타당할까? 16개, 36개 이렇게 바꾸면 문제의 본질을 ‘통계학적으로’ 파악하기 쉽다.

모수(parameter)란 ‘모집단을 하나로 정하는 것’이며, ‘실제로는 얼마인지 모르는 추정 대상인’ 수치다. 문제는 어떻게 타당한 모수를 추정할 것인가 하는 점이다.

우선, 아주 타당한 추정으로 ‘N(모수)=20'을 생각할 수 있다. ‘대략’ 절반이 앞면이라고 생각하면, 딱 절반에서 벗어난 ‘N=21’ 이나 ‘N=19’도 타당하다고 생각할 수 있다. 그러면 20에서 어디까지 벗어나도 타당하다고 생각할 수 있을까? N=16어떨까? 또는 N=36은 어떨까? 이것이 포인트다.

95%예언적중구간으로 가설의 타당성 판단

‘모수 N으로 타당한 수치를 어디까지 허용할 수 있을까’를 생각할 때, 통계학에서는 앞 강의에서 설명한 ‘95% 예언적중구간’의 개념을 이용한다.‘16개의 동전을 던져서 앞면이 나오는 개수를 예언한다면, 10개는 그 예언의 범위에 들어갈까?’ 실제로 N=16의 경우, 앞면이 나오는 개수를 예언할 때의 ‘95% 예언 적중구간’을 만들어보자.

평균값은 8, 표주편차는 2인 정규분포라고 생각할 수 있기때문에(동전던지기의 평균은 N/2, 표준편차는 (루트N)/2) 95%예언 적중구간 부등식은 4.08 ≤ x ≤ 11.92 로 구할 수 있다. 즉, 앞면이 나오는 개수는 ‘4.08개 이상 11.92개 이하’라고 예언할 수 있다. 앞서 관측된 10은 이 범위에 들어간다. 이것은 다음을 의미한다. 우리가 모집단을 모수 N=16이라는 정보를 갖고 있고, 앞면이 나오는 개수 구간을 예측한다면 10은 그 예측의 구간안에 있다는 말이다. 그렇기 때문에 16개의 동전을 던질때 앞면이 10개 나와도 이상한 일이 아니고 예상범위내에 있는 것이다. 그래서 ‘N=16’이라는 가설은 버릴 수 없는 타당한 가능성이 된다.

이와같이 N=36도 검토해보면 95%예언 적중구간은 12.12≤x≤23.88 ‘12.12 이상 23.88이하’ 범위가 되어 현실에서 관측된 10이 들어가지 않는다. 만일 모집단의 모수가 N=36이라고 하면 ‘현실에서 관측된 데이터 10은 예상외의 수치’이다. 이때 우리는 두 가지 방법을 생각할 수 있는데 1. 모집단에 관한 가설은 바른데 트릴지도 모른다는 리스크가 일어났다. (5%의 확률에서만 일어난 휘귀한 일) 2. 모집단에 관한 가설이 바르지 않다. 통계학에서는 2번 방법을 사용한다. 애당초 예언적중 범위를 만들 때, 틀리지도 모른다는 리스크를 각오하고 진행한 것이기 때문에 여기에서도 일관된 태도를 취하는 것이다. 이때 가설 N=36을 타당하지 않다고 보고 버린다. 이것을 통계학 전문용어로 ‘가설을 기각한다’고 말한다 .

건설회사 예제의 답 : 16명은 예상하지만, 36명은 예상할 수 없다.

이것은 통계학에서 ‘가설검정(statistical hypothesis test)’이라고 불리는 방법론이다.

(칼럼) 통계적 검정의 획기적인 점과 한계

통계적 추론이 획기적인 이유는 ‘부분적인 사실로 전체를 추론한다’ 는 귀납적 추론이기 때문이다.

인간의 추론방법은 크게 두가지가 있다. 연역법과 귀납법. 연역법은 ‘모든’에서 성립되는 것은 ‘각각’에서도 성립한다는 것으로 아주 당연한 추론방법이다. 하지만 놀랄만한 결론을 도출하기 어렵다는 한계가 있다. 이에 비해 귀납법은 ‘부분에서 전체’라는 형식으로 추론하는 방법이다. 우리의 일상에서 자주 나타나는 것으로, 자연스럽지만 ‘반드시 옳다’고는 말할 수 없는, 틀리는 경우가 많은 추론법이다. 통계학적 검정이 이부분을 획기적으로 보완한다.

다만 통계학적 검정을 이용할 때 항상 의식해야하는 것은 그 결론이 ‘소극적’으로 밖에 평가할 수 없다는 점이다. 검정의 결론이라는 것은 ‘기각한다‘;’고 할때는 강하게 주장할 수 있지만, ‘채택할’ 때는 단순히 ‘기각할 수 없다’는 것을 의미하는데 불과하기 때문에 그렇다.

즉 통계적 추론은 (사용하는 방법 나름이지만)’부정’에만 강하게 사용할 수 있는데, ‘긍정’으로 사용하는 것은 타당하지 않다고 하는것과 구별할 필요가 있기 때문이다.

한계를 잘 이해한다면, 통계적 추론은 인류에게 가장 새로우면서 가장 효율적인 추론방법을 약속해줄 것이다.

10강 구간추정: 95% 적중하는 신뢰구간 찾기

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response