-
08-4 가설 검증 입문 : 모집단과 단일 집단 비교 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 22. 14:05
전 시간에 모집단과 단일 사례(한 명)을 비교해 봤으니 이번에는 모집단과 20명의 단일 집단을 비교해 봐야겠지? 대신 초경험적(내가 만든 용어, 인간의 능력으로 경험할수 없는 데이터를 컴퓨터의 힘을 빌려 경험하는 것) 표집 분포와 이론적 표집 분포를 둘 다 보도록 할게!
-
초경험적 표집 분포
먼저 우리가 만든 모집단(M=7, S=2)에서 20명을 무선 추출 한 다음에 평균을 구하고, 또, 20명을 추출한 다음에 평균을 구하고, 또 20명을 추출.. 하는 짓을 몇 번이나 반복해야 '초경험적'이라고 할 수 있을까? 우리가 마지막으로 만든 모집단의 사례수가 10만 개 였으니까.. 표본의 크기가 20인 표본을 1만 번 정도 추출 해 볼까? 1만 번은 인간이 쉽게 계산하기 힘든 수치니까 초경험적이라고 할 수 있을거야!
먼저 n을 20으로 정해주고 means라는 빈 리스트를 만들어 줬어.
그리고 1만 번 반복하는 for문에서 반복되는 내용은
모집단(population)에서 크기가 20인 표본(sample)을 추출하고,
추출한 표본의 평균을 m에 넣고,
means에 m을 추가해 주는거야!
그랬더니 평균들의 평균들의 표집 평균(mm)은 7에 가까웠고, 평균들의 표집 표준 편차, 즉, 표준 오차(SE)는 0.45정도에 가까웠어. 어차피 표집 평균이나 표본 평균이나 모집단 평균이나 그 놈이 그 놈이니까 7에 가까운 것은 당연하지! 그럼 우리가 구한 표준 오차는 어떨까?
-
이론적 표집 분포
다음으로는 무식하게 1만 개 씩 뽑아내는 짓을 하지 말고 우아하고 깔끔하게 한 번에 계산해 보자구! 이론적 표집 분포에서 평균의 표집 표준 편차, 즉, 표준 오차를 구하려면 어떻게 했었지? 꿈에서도 잊으면 안되는 공식!
평균의 표집 표준 편차(Sm) = 표준 오차(SE) = S / √n = 모집단의 표준 편차 / √표본의 크기
였지? 우리는 모집단의 표준 편차(S=2)를 알고 있고, 표본의 크기(n=20)도 알고 있으니 표준 오차(SE)는 쉽게 구할 수 있어! 구해볼까?
평균은 어차피 모집단의 평균이나 표본의 평균이나 평균의 표집 평균이나 다 그놈이 그놈이니까 보나마나 뻔하게 7이 되겠지. 우리가 눈여겨 볼 것은 위에서 구한 초경험적 표집 분포에서 표준 오차(16번째 줄)와 이론적 표집 분포에서 표준 오차(20번째 줄)이 얼마나 비슷한가! 인데.. 코드를 실행시켜 보면 두 값이 엄~청~ 비슷하다는 것을 알 수 있어. 컴퓨터의 힘을 빌린 초경험적 표집 분포의 수치가 거의 이론적 표집 분포의 수치와 가까워 진 것이지! 만약 표본의 총 크기를 늘린다면, 초경험적 표집 분포의 수치들은 이론적 표집 분포의 수치들과 더욱 더 비슷해 질거야.
-
비교를 위한 표준화
이제 이 수치들을 가지고 표준화를 해서 모집단과 비교해야겠지?
20명을 무선 선발해서 파이소스티그민을 투여했더니 20명의 표본 평균이 8.4라고 해 볼게. 이 8.4라는 수치가 과연 P95(극단의 5%에 속하는가, 즉, 95%를 벗어 나는가)인지 P99(극단의 1%에 속하는가, 즉, 99%를 벗어 나는가)인지 알아보면 돼. 단일 사례에서 썼던 조건문을 사용하면 구현할 수 있을거야.
표준화를 하려면 8.4에서 평균(M)을 뺀 다음 그 값이 속한 모집단의 표준 편차로 나눠주면 되는데, 표집 분포에서 비교하는 것이기 때문에 표준 편차가 표준 오차가 되겠지?
코드 구현에서는 어차피 초경험적 표집 분포나 이론적 표집 분포나 그놈이 그놈이게 되었으니 계산이 간단한 이론적 표집 분포로 비교해 볼게.
표준화를 해 보니 3.13에 가까운 수치가 출력되는 것을 볼 수 있어. 이 값은 1.96보다도 크고 2.575보다도 훨씬 큰 값이니 P99라고 할 수 있겠네!
이제 저번 시간에 했던 것 처럼 20명의 평균을 입력받고 표집 분포와 비교해서 P95이면 별 한 개(*), P99이면 별 두 개(**)를 출력해 볼까?
20명의 평균(m)을 입력하면 값에 따라서 별 한 개(*), 별 두 개(**) 혹은 '효과 없음!'이 출력되는 것을 볼 수 있어. 평균값으로 7을 입력하면 표준 점수가 0에 가까울거야. 또, 평균값으로 8을 입력하면 1.96보다는 크지만 2.575보다는 작기 때문에 별이 하나만 출력될 것이고, 마지막으로 9를 입력하면 2.575보다 훨씬 크기 때문에 별이 두 개 출력되는 것을 볼 수 있어!
-
컴퓨터를 활용한 데이터 분석이 가능해 지면서 이론적 표집 분포와 초경험적 표집 분포가 거의 붙어 있게 되었지. 나는 두가지 방법 모두 알아야 한다고 생각해! 물론 시험을 볼 때나 손으로 계산해야 할 때에는 이론적 표집 분포를 생각해야 하겠지만 말야!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
08-6 결정 규칙 (0) 2022.04.26 08-5 통계적 가정과 가설 그리고 유의 수준 (0) 2022.04.25 08-3 가설 검증 입문 : 모집단과 단일 사례 비교 (파이썬) (0) 2022.04.21 08-2 가설 검증 입문 : 모집단 생성과 리스트 컴프리헨션 (파이썬) (0) 2022.04.21 08-1 가설 검증 입문 : 용어와 이론 (0) 2022.04.20