ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 08-1 가설 검증 입문 : 용어와 이론
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 20. 16:26

     코로나에 걸린 관계로 글이 좀 늦어졌네.. 흑흑.. 이제부터의 내용은 본격적으로 재밌어 질텡게 잘 따라오숑~ ^0^

     

    -

     

    가설 검증

     

     리미트리스, 루시란 영화가 있어. 스포일러가 될 수 있어서 영화 내용을 자세하게 말하지는 못하겠지만 두 영화 모두 어떤 약물이 사람을 똑똑하게 만든다는 내용이야. 정말 가능할까?

     

     과학자들은 '파이소스티그민(physostigmine)' 이라는 약을 개발했어. 과학자들은 이 약을 먹으면 똑똑해 진다고 주장했지. 어떻게 이 주장을 증명할 수 있을까?

     

     만약 일반인들에게 15개의 단어를 주고 외우게 시킨 다음 1시간 20분 뒤에 기억해 보라고 했을 때, 보통은 7개의 항목만을 기억한다고 해. 표준 편차는 2개이고 말야. 이 기준을 모집단이라고 했을 때 M=7, S=2가 되겠지?

     

     이제 과학자들이 만든 파이소스티그민이 정말로 똑똑해져서 기억력을 향상시키는지 알아볼거야. 일단 한 사람에게 먼저 실험을 해 보기 위해 가용한 모집단으로부터 한 사람만 무선 추출했어. 이 사람에게 15개의 단어를 외우게 시켰는데, 그냥 1시간 20분을 보내는 것이 아니라 파이소스티그민을 복용하게 한거야. 과연 이 사람은 1시간 20분 뒤에 많은 단어를 기억할 수 있을까?

     

     1시간 20분 뒤에 확인을 해 보니 11개의 단어를 정확히 회상했어. 모집단 평균이 7개였는데! 4개나 많다니! 대단한걸?! 대단할까?! 정말 고작 한 사람이 평균보다 4개 더 많이 외운 것을 두고 파이소스티그민이 기억력 향상에 도움을 준 다고 할 수 있을까?

     

    -

     

    단일 사례

     

     우리는 이제 과학자들이 사용하는 방법을 통해 파이소스티그민이 효과가 있는지, 없는지 알아보도록 할거야.

     

     방법은 간단해. 먼저 '파이소스티그민은 기억력에 영향을 안줘!' 라고 가정하는거야. 이 가정을 증명하는 것은 쉬워. 모집단의 평균이 7이고 표준 편차가 2였기 때문에, 모집단에서 추출한 표본 또한 평균이 7이고 표준 편차가 2이면 증명 되는거야. 간단하지?

     

     그런데 만약 파이소스티그민을 투여받은 사람이 7개보다 아주 많거나 아주 적게 외우는 일이 발생한다면?! 이 약을 만든 과학자들은 흥분하겠지! 파이소스티그민이 어쨌든 기억력에 영향을 준거니까! 바꿔말하면, 파이소스티그민이 기억력에 영향을 주지 않는다는 가설이 틀린거지!

     

     그렇다면 대체 몇 개나 더 많이 외우거나 적게 외우면 되는 걸까? 7개보다 얼마나 많거나 적어야 될까? 보통은 5% 정도로 봐. 정상적인 모집단에서 상위 2.5%나 하위 2.5%, 합쳐서 5%에 속할 정도면 '아 이건 우연이 아닌거 같은데?!'라고 생각할 수 있는거지. 확률로 표기하면 P0.025 이하, P0.975 이상 이라고 할 수 있겠어.

     

     그리고 우린 표준 정규 분포에 대해 배웠기 때문에 상위 2.5%와 하위 2.5%에 대해 알 수 있지!

     

    Xi 들의 분포

     

     ±1.96이 95%이기 때문에 표준 점수 1.96점과 -1.96점을 기준으로 그 이상과 그 이하가 2.5%씩 총 5%가 될거야. 만약 평균이 7이고 표준 편차가 2라면, 10.92개 이상일 때 상위 2.5%에 속할 것이고 3.08개 이하일 때 하위 2.5%에 속할거야.

     

     반대로 표준 점수를 구하려면 원점수에서 평균을 뺀 다음 표준 편차로 나누면 되잖아? 모집단의 경우 표준점수 Zi는

     

    Zi = (Xi - M) / S

     

     로 계산될 수 있으니, 11개를 기억했다면 표준점수는

     

    Zi = (Xi - Mx) / Sx = (11 - 7) / 2 = 4/2 = 2

     

     가 되는 것이지! 2는 1.96보다 크니까 당연히 상위 2.5%에 속하겠지?

     

     파이소스티그민을 먹고 11개나 기억한 피험자는 이 극단적 5%에 포함 되는것이지! 우연이 아닐 수 있다는거야! 오우! 이 약이 효과가 있나봐!

     

    -

     

    단일 집단

     

     이제 과학자들은 용기를 내어 1명이 아닐 20명의 피험자에게 파이소스티그민을 투여하고 관찰해 보기로 했어. 마찬가지로 실험을 하기도 전에 '파이소스티그민은 기억력에 영향을 주지 않는다!'라고 가정하고 시작할거야. 즉, '20명의 피험자로 구성된 표본 집단은 모집단의 평균, 그리고 표준 편차와 비슷할 것이다!' 라고 가정하고 시작하는거지. 마치 '난 아마 안될거야..' 라고 접고 들어가는 것과 비슷해.

     

     모집단에서 20명을 뽑아서 평균을 관찰하고, 또 20명을 뽑아서 평균을 관찰하고, 또 20명을 뽑아서 평균을 관찰하다 보면 표집 분포를 알 수 있겠지? 평균들의 평균 말야. 만약 이 표본 평균들의 평균이 8.4라고 했을 때 극단의 5%에 속하는지 어떻게 알 수 있을까?

     

     당연히 표준화를 해야되겠지! 원점수를 표준화 하려면 원점수(Xi)에서 모집단의 평균(M)을 뺀 다음, 모집단의 표준 편차(S)로 나누면 됐었지?

     

     표준 점수 = (원점수 - 모집단의 평균) / 모집단의 표준 편차

     Zi = (Xi - M) / S

     

     다만 표집 평균 점수를 표준화 하려면 그 값이 속한 모집단의 평균(M)을 뺀 다음, 표집 오차(표집 표준 편차, Sm)로 나눠주면 돼. 여기서 표집 오차는 모집단의 표준 편차(S)를 표본의 크기(n)의 제곱근으로 나눈 것이야! (꿈에도 잊어버리지 말아야 할 것!) 

     

     (어떤 값 - M) / Sm = (어떤 값 - M) / (S / √n)

     

     즉, 

     

     우리는 파이소스티그민을 투여한 표집 평균 8.4가 일반적인 모집단(M=7, S=2)에서 어느 정도의 위치에 있는지 알고 싶은 거잖아? 그러니 8.4라는 표집 평균을 표준화 해야돼! 모집단의 평균과 표준 편차를 알고 있고, 표본의 크기도 알고 있으니 쉽게 표집 오차를 구해서 표준화 할 수 있겠지?

     

    (8.4 - 7) / Sm = (8.4 - 7) / (2 / √20) ≒ 3.13

     

     파이소스티그민을 투여한 실험의 표집 평균 8.4를 표준화 했더니 약 3.13점이 되었어. 이 점수는 1.96점 보다 훨씬 높은 점수네?

     

    표집 분포의 표준화

     

      모집단의 평균(M)이 7이고 모집단의 표준 편차(S)가 2이며, 표집 오차가 2/√20라면 1.96이라는 표준 점수는 1.96*(2/√20)+7로 표집 분포에서의 기준을 잡을 수 있어. 약 7.89가 되겠네. 그리고 -1.96은 약 6.12가 될거야. 즉, 표집 평균이 6.12이하거나 7.89이상이면 극단 5%에 속한다는 뜻이지!

     

     특히 표집 평균 8.4를 표준화 한 3.13점은 정규 분포상에서 0.0009%에 해당됨으로 표집 분포에서 P0.9991에 속한다고 할 수 있어. 엄청난 확률이지. 다시 말해, 파이소스티그민이 기억력 향상에 영향을 미쳤다는거야! 대단한걸?

     

    -

     

     보통은 95%를 벗어난 경우 우연으로 보지 않고(별 하나), 99%를 벗어난 경우 더욱 더 우연으로 보지 않지!(별 둘)

     우리는 일단 '아마 안될거야..'라고 가정한 다음 모집단과 표본 혹은 모집단과 표집 분포를 비교해 보는 것이지!

     만약 표본이나 표집의 수치가 모집단과 비슷다면 '역시 안되네..'라는 것이고, 95%를 벗어나면 '앗?!' 해보자는 이야기야. 여기서 더 벗어나서 99%를 넘어간다면 '헉?!?!?!' 하자는 이야기고 말야. 어렵지 않지? 안뇽~

Designed by Tistory.