세상에서 가장쉬운 통게학입문 요약(3)

jaeyoung kang
2 min readJul 25, 2018

--

3강 분산과 표준편차

흩어져 있는 데이터 상태를 추정하는 통계량

1. 불규칙한 통계량을 아는 것이 중요

평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과하며, 데이터가 그 주변에 어느 정도 퍼져 있는지, 또는 흩어져 있는지 알 수 없다. 이와 같이 데이터가 흩어져 있거나 불규칙적인 상태를 아는것이 매우 중요한데, 버스 운행상황을 예를들면 도착시간표보다 2분 늦거나 빨리오는 버스A와 10분늦거나 빨리오는 버스B의 평균 도착시간은 같다. 버스를 이용할지의 여부를 결정하는데는 평균값보다 불규칙한 상태에 대한 통계량을 아는 것이 중요하다.

2. 버스 도착시간으로 분산을 이해

5일동안 버스가 도착한 시간
32분, 27분, 29분, 34분, 33분

7시 30분에 도착하는 버스가 5일 동안 도착한 시간 데이터의 평균은 31이지만 실제로 버스가 도착한 시간의 제각각이다. 각 데이터에서 평균값을 뺀 수치로 제각각이 어느정도인지를 측정할수 있다. 이 수치를 통계학에서 ‘편차(Deviation)’라고 한다 . 다음으로 우리들이 원하는 수치는 이 5개의 편차를 축약하고, 하나의 수로 대표시키는 일이다. 어떤 데이터든지 그 편차들의 산술평균은 0이다. 그래서 안된다. 양수와 음수가 상쇄되지 않게 제곱평균을 사용한다. 제곱평균은 평균을 구하고 싶은 수치들을 각각 제곱하고 모두 합하여 총 개수로 나눈 뒤에 루트를 하는 방법으로, 수치들의 최대값과 최소값 사이에 있는 어떤하나의 수치를 산출할 수 있다. 제곱평균에서 루트를 하기전 값을 ‘분산(Variance)’이라고 데이터가 퍼져 있는 상태를 평가할 수 있는 통계량이다. 분산은 흩어져 있는 상태를 나태는 수치로는 너무크고 단위가 다르다. 원래단위의 제곱이기 때문이다. 루트를씌우면 문제는 해결된다.(분산은 추리통계방법에서 사용된다. ) 루트를 씌운 통계량을 ‘표준편차(S.D Standard Deviation)’라고 한다.

3. 표준편차의 의미

앞의 예를 정리하면, 버스의 평균 도착시간으로는 버스가 언제 올지 알 수 없다. 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 확실하지 않은 상태를 측정하는 것이 표준편차다. 표준편차는 2.6분이다. 이것은 ‘버스는 평균적으로 시간표보다 1분 늦게 도착하지만, 실제 도착 시간은 그 시간보다 전후로 대략 2.6분정도 다를 수 있다고 생각해도 좋다 .’는 말이된다.

4. 도수분포표로 표준편차를 구하는 방법

{(계급값-평균값)제곱 * (상대도수)}의 합계 = 분산

분산의 루트 = 표준편차

4강 표준편차(1) : 데이터의 특수성과 성질 평가

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response