세상에서 가장쉬운 통계학 입문 요약(6)

jaeyoung kang
3 min readAug 3, 2018

--

7강 정규분포

자연이나 사회에서 관측되는 데이터들 속에 아주 자주 등장하는 것이고, 그 분포의 모습은 수학적으로 정확히 설명되는 것이다. 바로 ‘정규분포(normal distribution)’라고 하는 분포다. 실제로 사람이나 생물의 키 데이터는 정규분포의 하나라고 알려져 있으며, 주식의 수익률 데이터도 정규분포라고 생각하는 연구자가 많다.

표준정규분포(standard normal distribution)

  1. 평균값 = 0, 표준편차 = 1
  2. (+1) ~ (-1)범위의 데이터(평균에서 표준편차 1배 이내 범위의 데이터)의 상대도수는 0.6826(=약70%)
  3. (+2) ~ (-2)범위의 데이터(평균에서 표준편차 2배 이내 범위의 데이터)의 상대도수는 0.9544 (=약95%)

일반정규분포

일반정규분포의 데이터 세트는 단순히 표준정규분포의 모든 데이터에 일정한 수를 곱하고, 그뒤에 일정한 수를 더하는 방법으로 얻을 수 있다. 곱하는 일정한 수를 σ(시그마로 읽는다), 더하는 일정한 수를 μ(뮤로 읽는다)라고 한다면 (일반정규분포의 데이터)=σ * (표준정규분포의 데이터)+μ 라는 계산으로 구할 수 있다. 구해진 데이터의 평균값은μ, 표준편차는 σ이다.

예를 들어 σ=3이고, μ=4, 표준정규분포 데이터에 3을 곱하고 4를 더하면 ‘+7과 +1사이에 있는 데이터의 상대도수는 대략 68%라’라는 말이된다. 이것을 생각하면 히스토그램으 좌우로 3배가 늘어나고 오른쪽으로 4만큼 이동한다는 것을 알수 있다.

  1. 평균값 = μ, 표준편차 = σ
  2. (μ+1*σ)~(μ-1*σ)의 범위의 데이터(평균에서 표준편차 1배 이내 범위의 데이터)의 상대도수는 0.6826(=약70%)
  3. (μ+2*σ)~(μ-2*σ)의범위의 데이터(평균에서 표준편차 2배 이내 범위의 데이터)의 상대도수는 0.9544 (=약95%)

지금까지의 것들을 뒤집어 보면, 다음과 같이 일반정규분포를 표준정규분포 데이터로 바꿀 수 있다. 데이터 x가 평균값이 μ, 표준편차가 σ인 일반정규분포를 따르는 데이터일 경우, z=(x-μ)/σ라는 가공을 하면, 데이터 z는 표준 정규분포를 따르는 데이터가 된다.

키가 정규분포의 한종류가 맞는지 앞의 공식을 응용해서 확인할수 있다. 앞강에서나온 여대생80명의 키 평균값은 157.75cm, 표준편차는 5.4였다. 키 데이터에서 평균값을 빼고 표준편차로 나누면 표준정규분포 하는 데이터 중 어떤데이터와 대응하는지를 구할 수 있는데, 값을 구해보면 실제의 상대도수와 표준정규분포라고 했을때의 상대도수와 상당히 비슷하게 일치하는 것을 볼 수 있다.

동전 던지기는 정규분포와 근사

동전 N개를 동시에 던져서(혹은 N번 계속해서 던져서), 그 중 몇개가(혹은 몇번이) 앞면으로 나올지를 데이터로 기록한다. 이 작업을 반복하여 앞면이 X수가 나올 상대도수의 히스토그램을 만들면 그것은 근사적으로 평균값이 N/2, 표준편차가 (루트N)/2인 정규분포를 따른다.

8강 통계적 추정의 출발점 : 정규분포를 이용해서 예언

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response