ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 04-4 정규분포와 표준정규분포
    데이터 분석/스프레드시트로 배우는 데이터 분석을 위한 통계학 2021. 12. 21. 15:55

     앞서 우리는 원점수를 표준화하여 표준점수를 구해봤어. 그리고 표준점수를 활용한다면 다양한 척도의 다양한 값들을 비교하는것이 매우 용이하다는 것을 알게 되었지! 오예~!

     

     세상에는 엄청 많은 수치들이 존재할거야. 바둑판만해도 우주의 별 보다 많은 경우의 수 들이 존재하잖아. 이러한 숫자들에 어떠한 규칙은 없을까?

     

     우리의 뇌로 이 세상의 존재하는 모든 숫자들을 다 고려할 수 없기 때문에 한 가지 상상을 해 볼거야.

     여러분이 원하는 한 가지 분야를 골라서 가상의 평균을 구해보는거야. 예를 들어 '모든 한국인들의 키'라고 해 볼까? 전 국민의 신장을 실시간으로 조사하는 방법은 존재하지 않기 때문에 상상을 해 보자는거지. 그리고 상상한 모든 키 들의 평균도 정할 수 있을거야. 어차피 내 상상일 뿐이니 정확하지 않아도 되잖아. 나는 170cm라고 가정했어. 이 평균값이 맞냐 틀리냐는 중요하지 않아. 다만 이 평균값을 통해 무엇을 유추할 수 있겠는가? 라는게 이 상상의 핵심이야.

     평균이 170cm라면 아마 많은 사람들의 키가 170cm 근처에 분포 되어있을거야. 그치? 반대로 170에서 멀어질 수록 빈도는 낮아지겠지. 140cm나 200cm의 키를 가진 사람이 흔한 것은 아니니까. 빈도 도표로 나타내 보면 아래와 같은 그림을 그릴 수 있을거야.

     

     평균 주변에 많은 사람들이 분포 되어 있는 그림 말야. 타당하지? 얼핏 보면 아이슬란드 레이캬비크의 할그림스키르캬 같기도 하네!

     

    할그림스키르캬 (직찍)

     

     그리고 이 분포들을 표준화 하면 표준점수로 만들 수 있을거야. 그치?

     

     다음으로는 '모든 한국인들의 몸무게'를 상상해 볼게. 모든 한국인들의 몸무게 또한 평균을 가정하고 분포를 상상해 볼 수 있겠지? 만약 평균 체중이 70kg라고 한다면 아래와 같은 도표를 그릴 수 있을거야.

     

     당연피 평균인 70kg 근처 보다 40kg이나 100kg의 몸무게를 가진 사람이 더 적을거야. 이 수치들 또한 표준화를 할 수 있을거고.

     위에서 언급한 신장이나 체중 말고도 수 많은 수치들을 이런식으로 생각해 볼 수 있을거야. 그리고 표준화도 할 수 있을거고. 그렇다 보면 한 가지 규칙을 발견하게 돼.

     

     '도표들의 모양이 다 엇비슷 한데?!"

     

     라는 발견을 하면서 말야.

     왜 이런일이 나타는가에 대해서 설명하려면 이 글의 취지를 벗어나는 것이기 때문에 아래의 동영상으로 대체할게.

     

    https://youtu.be/AwEaHCjgeXk

     동영상에 나오는 '갤튼 보드 (galton board)'의 구슬들은 여러 기둥을 만나면서 왼쪽으로도 갈 수 있고 오른쪽으로도 갈 수 있어. 집중경향의 목적지에와 같은 선상에서 구슬들이 뿌려졌기 때문에 기둥들이 있음에도 불구하고 이 구슬들이 집중경향 쪽으로 떨어질 확률이 가장 클 것이고, 양 극단으로 떨어질 확률은 점차 줄어들거야. 동영상에서 보듯이 말야.

     

     갤튼 보드의 구슬들을 뿌리는 것과 우리가 상상으로 수치들을 가정하고 평균을 구했던 것과는 별반 차이가 없어. 하나의 평균으로 부터 멀어질 수록 빈도는 낮아지게 되지.

     중요한 것은, 갤튼 보드의 구슬들 처럼, 구슬을 떨어뜨리는 행위를 계속해서 반복하게 된다면 어떤 하나의 기준에 수렴해 나간다는 것을 알게 된다는거야. 갤튼 보드에 완만한 산 처럼 그려진 선이 바로 그 기준이지.

     

     이 선이 그려진 분포를 정규분포(normal distribution) 혹은 정상분포 라고 해.

     정규분포는 현실적으로 관측할 수 없는 무수한 수치들에 근거하고 있는 이론적인 분포야. 대한민국 전 국민의 키와 체중 처럼 표본집단이 아닌 모집단에 대한 것이지. 모집단의 모수치를 가지고 이야기 하는거야. 그리고 정규분포의 밀도, 즉 점 X에서 곡선의 높이는 아래의 수식 처럼 정의될 수 있어.

     

     

     σ는 분포의 표준편차를(당연히 σ²은 분산이겠지?), π는 원주율을, exp는 자연로그의 밑 e를, x는 x축의 어떤 지점을, μ는 분포의 평균을 의미 해. 우리가 기초통계학을 배우는데 이런 어려운 공식까지 알아야 할 필요는 없을거 같지만 알고는 있어야 될거 같아서 써 놨어.

     

     다만 여러분들은 위의 공식에서 표준편차 σ로 인해 분포의 모양이 달라질 수 있다는 것만 기억하면 돼. 앞서도 많이 다뤘지? 곱하거나 나누면 단위가 달라질 수 있으나 평균은 변하지 않을거라고. 아래의 그림처럼 말야.

     

     이 정규분포가 표준편차에 의해 종 모양에 가깝게 보일 수도 있지만 뾰족한 산 모양이나 완만한 산 모양 처럼 될 수도 있어. 그렇지만 평균이나 중앙값 그리고 최빈값은 변하지 않지!

     또 정규분포는 평균을 기준으로 좌우 대칭을 이루고 있어. 꼬리 쪽은 평균에서 멀어질 수록 X축에 점근하지. X축과 닿는 것은 아냐. 정규분포는 무한의 수치들을 가정하기 때문에 절대 X축과 닿지 않아.

     

     위 정규분포는 모집단을 기준으로 한다고 했지? 하지만 현실적으로 모집단을 다룰 순 없기 때문에 이 정상분포를 표준화 시킬거야. 그게 바로 앞으로 주구장찬 만나게 될 '표준정규분포(standard normal distribution)'지!

     

     정규분포를 표준화 하면 당연히 평균이 0이고 표준편차는 1이 될거야. 그리고 평균과 표준편차가 다 다른 수 많은 정규분포들을 표준정규분포로 그려낼 수 있겠지! 오예!

     다만 어떠한 분포라도 표준화 할 수는 있겠지만 오직 정규분포만을 통해 표준정규분포를 그려낼 수 있어.

     

    직접 손으로 그린 표준정규분포

     

     이제 표준정규분포가 어떤 특성을 갖고 있는지, 표준정규분포를 통해 무엇을 알 수 있는지..는!

     다음 시간에..

Designed by Tistory.