ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 07-5 표집 분포와 정상성 : 중심 극한 정리
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 15. 14:23

     추론 통계에서는 하나의 표본에서 계산된 통계적 수치가 표집 분포의 모수치를 추정하기 위해 사용될 수 있으니까, 실제로는 경험적(empirical) 표집 분포를 구할 필요가 전~혀~ 없어. 대신 표집 분포를 설명하기 위한 수단으로 경험적 표집 분포에 대해 알고 있으라는 것이지! 어차피 표집 분포는 이론적(theoretical) 표집 분포로 계산될 수 있으니 굳이 경험적 표집 분포를 사용할 필요가 없는 것이지. 앞으로 '표집 분포'라고 하면 당연히 '이론적 표집 분포'겠구나! 라고 생각하면 돼!

     

     하지만 이는 어디까지나 인간의 한계에서 경험이 제한 당할 때의 일이고, 컴퓨터의 힘을 빌리면 경험적 표집 분포라고 해도 이론적 표집 분포와 맞먹을 정도가 될 수 있다는 것을 알고있지? 파이썬으로 표본을 엄청나게 늘릴 수 있었잖아. 나는 이 영역을 '경험과 이론 사이'라고 생각하는데.. 마땅한 용어가 없네. 초경험? 초경험 좋은데? 오옷!

     암튼 데이터 분석을 위해 통계학을 배우는 만큼 초경험적 표집 분포와 이론적 표집 분포를 다 알고 있으면 좋겠네!

     

     그리고 우리는 앞으로 다룰 평균의 표집 분포들이 정규 분포(normal distribution)을 따른다고 가정할거야. 사실 정규 분포를 따르지 않는 경우가 거의 없고, 정규 분포를 따르지 않는다고 하면 뭔가 이상한, 우리가 통계적으로 분석하기 어려운 자료일 가능성이 크지? 알 수 없는 다른 요인에 의해 자료가 흐트러진 것이니까, 통계학의 영역을 벗어났을 가능성이 크지! 그러니 정규 분포로 가즈아ㅏㅏ!

     

    -

     

    정규 분포?

     

     그리고 무선 표집을 했을 때 다음의 두 조건 중 하나라도 충족한다면 해당 표집 분포는 정규 분포라고 할 수 있어.

     

    ① 원점수의 모집단 분포가 정규 분포를 따르면 표집 분포 또한 정규 분포를 따른다.

    ② 원점수의 모집단 분포가 정규 분포가 아니라고 해도 표본의 크기가 커지면 정규 분포에 접근한다.

     

     ①은 당연한 말이지? 근데 2번은 무슨 말일까? 아니, 1번이 가능한 말일까?

     우선 1번을 먼저 살펴 볼게. 모집단이 정규 분포를 따른다면 표집 분포 또한 정규 분포를 따른다는 것은 명백한데, 문제는 모집단을 어떻게 알 수 있냐는거야. 전세계 사람들의 몸무게가 모집단이라고 했을때, 알 수 있는 방법이 있을까? 절대 없잖아. 80억에 육박하는, 혹은 등록되지 않은 인구들 까지 포함하여 모두의 몸무게를 한날한시에 조사해야 되는데.. 불가능하지. 따라서 모집단이 정규 분포인지는 모집단에서 표본을 무선 추출한 담에 표본이 정규 분포를 따르는지를 보는 수 밖에 없어. 무선 추출한 표본이 정규 분포를 따른다면 모집단도 정규 분포를 따르겠지 뭐.

     

     나는 그래도 정규 분포가 싫다! 정규 분포를 따르지 않는 점수치들에 대해서도 다룰 것이다! 하는 친구들은 앞으로도 '파이썬으로 배우는 데이터 분석을 위한 통계학' 포스트를 꾸준히 읽어주길 바랄게! 예를들어, 대학생들에게 초등학생 수준의 시험을 주고 풀라고 하면? 거의 대부분 100점 만점에 100점을 맞을텐데, 이러면 100을 넘어가는 점수가 없기 때문에, 즉, 척도가 제한되어 있기 때문에 분포가 한 쪽으로 쏠릴 수 밖에 없어. 정규 분포 모양이 안나오는 것이지. 이런 것들에 대해서는 나중에 다뤄볼게!

     

     이제 에 대해 살펴볼까? 모집단이 정규 분포를 따르지 않는데 평균의 표집 분포가 어떻게 정규 분포를 따르게 된다는 것일까? 생각해 보면, 모집단의 점수치와 모집단에서 무선 추출한 표본들의 점수치는 비슷할 수 있어도, 무선 추출한 표본들의 평균들은 모집단의 점수치와 완전 딴판일거야. 예를 들어 앞선 사례처럼 대학생들이 초등학교 시험을 본다고 했을 때 모집단의 점수치가 80점부터 100점까지 범위에서 100점 근처에 점수치들이 몰려있는 꼴이라고 했을 때, 무선적으로 추출한 표본의 평균은 100점에 가깝겠지? 95, 99, 94.. 이런식일거 아냐. 표본이 엄청 많아진다면 이 표본들의 평균 또한 특정 점수가 평균이 되면서, 평균이 중심이 되는 정규 분포를 따르게 될거야.

     

    -

     

    중심 극한 정리

     

     모집단이 정규 분포와 비슷한 꼴이라면 표본의 크기가 작아도 표본 집단 또한 정규 분포를 따를 수 있겠지만, 모집단의 비정상성이 심하다면 표본의 크기가 엄청 커야만 표본들의 평균이 정규 분포를 따르겠지! 이 개념이 바로!

     

     중심 극한 정리 (central limit theorem)

     

     야. 많이 들어 봤지? 중심 극한 정리. 잊으면 안돼!

     

     모집단이 정규 분포를 따르고, 또 모집단에서 독립적이고 무선적으로 표본이 추출되었다면, 표본 평균과 표본 표준편차는 표본들에 걸쳐 서로 독립적이야. 무슨 말이냐면, 평균이 M이고 표준편차가 S인 모집단에서 크기가 n인 표본들에 의한 m들의 분포는 m들의 표진 분포잖아? 여기서 n이 커지면 근사적으로 표준편차가 S/√n인 정규 분포에 근접하게 돼.

     가장 중요한 것은 m과 s를 포함하는 변인이 서로 관련이 없다면 독립적이라는거야. 하나가 다른 하나를 설명하지 않는다는 것이지. 그러니 모집단이 정규 분포를 따르고, 또 모집단에서 독립적이고 무선적으로 표본이 추출되었다면, 그 표본들의 평균들과 표준편차들도 서로 독립적이지!

     

     즉, 평균이 높거나 낮다는 것은 표준 편차가 높거나 낮은 것과는 아무 관련이 없다는거야. 정규 분포에서 평균과 표준 편차의 독립성을 꼭 알아야 돼! 정리하면,

     

    ① 표본들은 무선적이고 독립적으로 추출된다.

    ② 표집 분포는 통계치의 분포이다. 즉, 표집 분포에서의 표준 편차(표준 오차)는 그 통계치가 표본들 간에 달라질 수 있는 정도(표집 오차)에 관한 지표이다.

    ③ 원점수의 모집단이 정규 분포를 따르거나 표본의 크기가 충분히 크다면, 평균의 표집 분포 또한 정규 분포를 따른다.

    ④ 정규 분포를 이루는 모집단에서 무선적으로 표본을 추출하면 그 표본의 평균과 표준 편차는 독립적이다.

     

     우리는 앞으로 위의 네 가지 원리에 의존해서 통계적 절차를 따를거야! 안뇽~

Designed by Tistory.