세상에서 가장 쉬운 통계학입문 요약(1)

jaeyoung kang
5 min readJul 16, 2018

--

(0강) ‘통계학’을 효율적으로 한 단계씩 이해하는 것이 목적

“책의 내용 가운데 어느 하나라도 빼놓으면 통계학이 아니다” 라고 할 수 있을 만큼 아슬아슬하게 필요한 부분만을 간추려 쉽게 이해하며 읽을 수 있도록 구성된 ‘아주 쉬운 입문서'

통계학은 크게 나눠 두부분으로 이루어져 있다. 기술(describe)통계, 추리통계

기술통계 : 관측을 통해 얻은 데이터에서 그 데이터의 특징을 뽑아내기 위한 기술(technique)

데이터의 특징을 극단적으로 꺼내는 도구 : 도수분포표, 히스토그램 등 표와 그래프로 표현하는 방법론과 (여러가지) 평균값이나 표준편차 같은 통계량으로 표현하는 방법론

(평균하면 데이터를 모두 더하고, 그 데이터의 갯수로 나누는것만 생각했는데 다른 방식으로 구하는 평균도 있었다. 평균이라는 것이 결국 사람이 데이터의 특징을 표현하기 위해서 만들어진 것이다. 나는 평균이라는것이 하늘에서 내려온 법칙이라도 된것처럼 생각했던 것같다. )

추리통계 : 통계학방법과 확률 이론을 섞은것으로 ‘전체를 파악할 수 없을 정도의 큰 대상'이나 ‘아직 일어나지 않은, 미래에 일어날 일’에 관해 추측하는 것이다. 이것은 20세기에 들어와서 확립된 방법론으로, ‘부분으로 전체를 추측한다’는 의미이며, 지금까지 없었던 아주 새로운 과학이라고 해도 과언이 아니다.

표준편차를 가장 중요하게 다룬다. 이책의 1부 앞부분에서는 기술통계를 다루는데, ‘표준편차'로 좁혀서 철저하게 그 의미를 설명한다. 표준편차는 ‘데이터가 평균값 주변에 어느 정도 넓게 퍼져 있는냐' 는 것을 나타내는 통계량이다. 저자는 ‘통계학에서 가장 중요한 도구는 표준편차'라고 생각한다. 표준편차를 충분하게 이해하고 있지 않으면, 그 뒤에 전개되는 정규 분포와 카이제곱분포 t분포를 이용한 추리통계 방법론을 만났을 때 대체 그것들이 무엇을 하는것인지 잘 이해할 수 없다.

확률은 거의 다루지 않는다. 통계와 확률의 차이가 미묘하기 때문에 배우는데 혼란을 준다. 통계는 관측된 데이터의 집합이기 때문에 ‘과거에 일어난 것에 관한 기술'인 반면, 확률은 ‘미래에 일어날 것에 대한 기술'이다. 이렇게 ‘현재'를 기준으로 보면 두가지는 아주 의미가 다르지만, 시간 축 위를 오고가다보면 그 차이는 줄어든다.

과거와 미래의 구별을 ‘95% 예언적중구간’이라는 저자만의 표현으로 설명한다.

수학 기호나 공식은 거의 사용하지 않는다 통계학 사고 방법의 본질적인 부분은 수학기호나 수학 공식없이도 제대로 전달 할 수 있다고 생각했기때문이다. 통계학 공식을 가능한 한 말로 표현했다.

(1강) 도수분포표( Frequency Table)와 히스토그램

데이터 자체로는 아무것도 알 수 없기 때문에 통계를 사용

우리는 일상적으로 많든 적든 데이터를 다루고 있다. 장사를 한다면 매일 매일의 손님 수와 매출액이 중요한 데이터일 것이다. 그러나 데이터라는 것은 데이터 자체(즉, 단순한 숫자들의 나열)를 뚫어져라 본다고 어떤 정보를 속 시원하게 알 수 있는 것은 아니다. 80명의 여대생 키 데이터에서 어떤 정보를 이끌어 낼 수 있을까? ‘여대생들의 키는 모두 같이 않고 제각각의 수치로 나타난다.’는 점을 확인 할수 있다. 이 ‘다양한 수치로 나타나는 것’을 ‘분포한다’라고 표현한다. 분포가 생기는 이유는 그 수치들이 결정된 이면에 어떤 ‘불확실성’이 움직이고 있기 때문이다. 불확실성의 구조가 제각각인 키의 수치를 발생시킨다고 생각하는 것이다. 그런데 ‘불확실’이라는 말로 표현하기는 해도, 여기에는 고유한 ‘특징’이나 ‘반복되는것’이 있다. 그 고유한 특징이나 반복되는 것을 ‘분포의 특성’이라고 한다 . 데이터 그 자체, 즉 ‘현실 그자체’로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어 내기 위한 방법이 필요해졌다. 이것이 ‘통계’라는 방법이다. 통계에서 축약(Summary)이라는 방법을 사용한다. ‘축약’은 ‘데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리정돈해서 의미있는 정보만을 추출' 하는 것을 의미하는 말로 크게 두가지 방법이 있다.

  1. 그래프로 만들어서 그 특징을 파악할 수 있도록 한다
  2. 숫자 하나로 특징을 대표하도록한다.

이 대표하는 숫자를 ‘통계량’이라고한다.

히스토그램 만들기

그래프중에 ‘히스토그램(막대그래프)’이 가장 많이 쓰인다. (어떤데이터가 자주 관측되는지 데이터 관측 빈도로 특성을 파악한다.)

  • 1단계 데이터에서 최대값, 최소값을 찾는다.
  • 2단계 최대,최소값을 포함하여 5–8개 될 정도의 범위로 구간을 나눈다. 이 구간을 ‘계급’이라한다 (예:최소 1 최대 50이라면 구간을 1–10, 11–20, 21–30, 31–40, 41–50으로 구간을 나눌 수 있다. )
  • 3단계 각 계급을 대표하는 수치 ‘계급값’을 정한다. 일반적으로 가장 가운데값을 선택한다. (예: 위의 예를 이용하면 5, 15, 25, 35, 45 이다)
  • 4단계 각 계급에 들어간 데이터의 총 개수를 센다. 이것을 ‘도수(frequency)’라고 한다.
  • 5단계 각 계급의 도수가 전체에서 차지하는 비율 ‘상대 도수’를 계산한다. 상대도수는 합하면 1이된다.
  • 6단계 도수를 누적시키면 ‘누적도수’ 최종 누적도수는 데이터의 총개수와 같다.

도수분포표를 만들면 잃어버리는 정보가 있다. 바로 ‘데이터에 나타나있던 수치들 자체’ 이다. 해당 계급에 몇개의 데이터가 있다는것은 알 수 있지만 어떤 수치였는지는 알 수 없다. 이것은 도수분포표를 만드는 과정에서 생기는 축약으로 인해 발생한 일이다.

히스토그램은 도수분포표를 그래프로 바꾼것이다

여대생 키 도수분포표 축약으로 발견한 특징 1. 데이터는 균등한게 분포하지 않고 어느 한 곳에 집중되어 있다. 2. 집중되어 있는곳을 기점으로 좌우 대칭성이 잇다.

성인 여성들의 키가 정해지게 된 구조뒤에는 어떠한 ‘불확실성’이 있지만, 여기에는 고유한 특징이 있다는것을 알 수 있다. 1. 어떠한 수치든지 가능한것은 아니다. 2. 어느 한 키주변에 집중되어 있다. 3. 그곳을 기점으로 큰편과 작은 편의 수치가 점점 작아진다는 점에서 비슷하다.

이런 특징들은 데이터 자체를 그냥 보았을 때는 몰랐던 정보이다. 축약은 데이터의 세부적인 수치들을 희생시키지만, 이 희생으로 데이터의 분포와 그 이면에 있는 특징들이 돋보이게 된다. 이야기의 요점을 정리하듯 축약으로 데이터의 요점을 정리하는 작업으로 이해해도 좋다.

2강 평균값의 역할과 평균값을 이해하는 방법

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

No responses yet

Write a response