세상에서 가장쉬운 통계학 입문 요약(7)

jaeyoung kang
3 min readAug 3, 2018

8강 통계적 추정의 출발점 : 정규분포를 이용해서 예언

정규분포의 성질을 이용해서 ‘예언’을 할 수 있다.

앞서 ‘우리의 일상생활에서 흔히 볼 수 있는 데이터에는 정규분포가 많다’는 것을 언급했다. 그렇다면 다음과 같은 생각을 할 수 있을 것이다. ‘만일 주목하고 있는 불확실한 현상이 정규분포라고 간주한다면, 정규분포의 성질을 이용해서 어떠한 예언을 할 수 있지 않을까?” 그렇다. 이 생각은 올바르며, 이것이야말로 ‘통계적 추정’의 출발점이 되는 발상이다.

표준정규분포의 경우 ‘0에 가까운 것’을 예언하는 것이 ‘쉽게 맞추기’위한 좋은 전략이다. 구간을 설정하면 예언의 적중률을 높일 수 있다. ‘-1이상 +1이하’ 구간의 예언 적중률은 약68.26%이다.

표준정규분포의 95% 예언적중구간

어느정도의 ‘적중 확률’을 목표로해서 어느 구간을 예언하는것이 좋을까? 우선 적중률을 높이고 싶으면 구간을 넓혀야 한다. 많이 사용되는것은 ‘95% 적중’ 혹은 ‘99% 적중’의 범위이다. ‘95% 적정의 범위를 고른다’는 말을 뒤집으면 ‘5%의 예언은 틀린다’는 말이다. 일반적으로 발생확률이 5%를 밑도는 현상에 대해 사람들은 ‘흔치않은 이상한 일(동전을 5회던저서 모두 앞면이 나오는일)’이라는 인상을 받기때문에 틀려도 납들 할 수 있는 수치이다. 통계학에서는 적중확률을 가능한 한95%로 고정해서 사용한다. 그래서 구간을 약간 좁혀서 (-2이상 +2이하 구간이 아니라) ‘-1.96 이상+ 1.96이하’라는 범위를 95% 적중의 구간으로 삼기로 약속했다.

통계학의 방법론은 지금까지의 과학 법칙(예를 들어서 ‘지구상의 물체는 그냥 떨어트리면 바닥을 향해서 떨어진다’는 법칙과 같은 것)과는 조금 다른 형식을 취한다. 바로 ‘처음부터 100%맞추지는 못한다’는 것을 전제하는 거이다. 95% 예언적중구간의 개념은 5%는 틀린다는, ‘완벽하지 않다’는 점을 허용하여, 상당히 좁은 구간의 예언을 가능하게 하는 것이라고 이해해야 한다.

‘-2.1이상 +1.86이하’도 상대도수는 95%가된다. 이렇게 하면 예언의 정확성이 낮아지는데 ‘-1.96이상 +1.96이하’ 구간 길이는 3.92인데 앞구간은 3.96이여서 더 긴 범위를 예언하는 셈이다. 예언구간은 짧으면 짧을수록 좋다. 예언을 바탕으로 뭔가를 준비한다면, 범위가 좁은 쪽이 더 효율적인 준비를 할 수 있기 때문이다.

일반정규분포의 95% 예언적중구간

평균값이 μ이고, 표준편차가 σ인 정규분포의 95% 예언적중구간은 ‘(μ-1.96* σ)이상 (μ+1.96* σ)이하’이고 부등식으로 표현하면 ‘-1.96 ≤ (x-μ)/σ ≤ +1.96’이다. (외워두면 앞으로 편하다.) 요점은 ‘평균값에서 표준판차의 몇 배 정도 떨어진다’는 단위에서 볼때 1.96을 기준으로 예언하면 된다는것이다.

9강 가설검정 : 하나의 데이터로 모집단을 추리

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

No responses yet

Write a response