-
08-6 결정 규칙데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 26. 12:26
결정 규칙
우리의 목표는? 귀무 가설 타도!
귀무 가설을 기각하기 위해 결정해야 되는 규칙을 결정 규칙(decision rule) 혹은 의사 결정 규칙이라고 해. 결정 규칙을 정할 땐 유의 수준에 따라야 돼. 방법은 간단해. 모집단에서 표본집단을 뽑아서 약물을 처치하고 결과를 살펴봤더니, 표본 집단의 통계치가 모집단으로부터 관측될 확률이 5%를 벗어나면, 즉 5%의 확률로 우연이 안니라면 귀무 가설을 기각할 수 있다고 했잖아? 이 수준을 P95 유의 수준이라고 했었고. 그치? 정리하면,
만약 표준 점수 z가 -1.96보다 크고 1.96보다 작다면 귀무 가설(H0)을 기각하지 않는다.
: 만약 -1.96 < z < 1.96 라면 H0를 기각하지 않는다.
혹은
만약 표준 점수 z가 -1.96보다 작거나 같고, 혹은 1.96보다 크거나 같다면 귀무 가설(H0)을 기각한다.
: 만약 z ≤ -1.96 혹은 1.96 ≤ z 라면 H0를 기각한다.
라는 것이 결정 규칙이 될거야. 이때 ±1.96이라는 값은 이 결정 규칙의 임계값(critical values)이라고 해.유의 수준이 P99라면 1.96을 2.575로 바꾸기만 하면 되겠지?
-
결정 규칙의 계산과 결정
저번에 20명의 피험자들에게 파이소스티그민을 투여하고 평균(m)을 봤더니 8.4였잖아? 그리고 이 값을 표준화 하면 3.13이었어. 표준화 할 땐 평균 표집 분포에서의 표준 편차, 즉, 표준 오차를 사용해야 되는거 기억하지? (S/√n) 꿈에도 잊으면 안돼! 암튼, m을 표준화 한 것을 z관찰값라고 하고, ±1.96을 z임계값이라고 해.
그런데 8.4를 표준화 한 3.13은 1.96보다 훨씬 크니 임계값을 넘어가는 것이지!, 95%의 범위를 훨씬 넘어간다는 뜻이야. 따라서 우리는 귀무 가설을 기각할 수 있으며, '모집단과 표본 집단의 평균의 차이는 통계적으로 유의하다.(statistically significant)' 라고 할 수 있어.
이 논리는 표집 분포에서 표준화를 하는 공식을 보면 이해하기 좋아.
z = (m-M) / (S/√n)
위 공식은 결국 평균의 표집 분포에서 표준 편차(S/√n), 즉 표준 오차에서의 평균과의 차이에 대한 비율을 보자는 거잖아. 표본 집단의 평균(m)과 모집단의 평균(M)의 차이가 크면 클 수록 분자가 커지니까 당연히 z도 커지겠지, 다만 표집에 의한 표준 오차가 크다면 m과 M의 차이가 크더라도 상쇄될 수 있다는거야. 반대로 표준 오차가 줄어든다면 m과 M의 차이가 훨씬 중요할거고. 결국 표준 오차를 줄여야 된다는 것인데, 표준 오차를 줄이려면 표본의 크기(n)를 늘려야만 하겠지! 그치?
중요한 것은, 귀무 가설을 기각한다는 것이 항상 대립 가설을 수용한다는 의미는 아냐. 앞서 귀무 가설을 '약물이 효과가 없다.'로 정했고, 대립 가설은 '약물이 효과가 있다.'가 되는 거였잖아? 결정 규칙에 의해 유의 수준을 지켜 결정을 해서 귀무 가설을 기각한다면 '약물이 효과가 없다.'라는 가설이 기각되는 것이지, '약물이 효과가 있다.'라는 대립 가설이 받아들여지는 것은 아니야.
마치, 검은색 아니라고 해서 흰색이 맞다는게 아니라, 검은색이 아니면 파란색이나 빨간색이 될 수도 있고 아니면 초록색이나 노란색이 될 수도 있다는 것과 같아.
반대의 경우도 마찬가지겠지? 대립 가설이 기각된다고 해서 항상 귀무 가설이 받아들여지는 것은 아니야.
왜냐면, 약물이 효과가 없다는 귀무 가설을 기각하기 위한 관측값이 임계값을 넘지 못했다고 생각해 봐. 약물이 효과가 있기는 있는데, 통계적으로 유의할 만큼의 효과는 없는거야. 그럼 일단은 임계값을 넘지 못했으니 귀무 가설을 기각해야 겠지? 하지만 이 약물은 통계적으로 유의할 만큼의 효과가 없을 뿐이지 효과가 애매하게 있기는 있단 말야. 즉, 귀무 가설을 기각할 만큼의 z값을 뽑아내기에는 무언가 부족했던 것이 있었을테지. 표본의 크기라던가.. 그러니 꼭 흑백논리로 생각하지 말고 항상 수치 그 자체에 대해 생각해 볼 필요가 있어! 대중은 명쾌한 대답을 듣고 싶어 하겠지만 말야. 토론회 보면 자주 들리는 말이 있지. '예'인지 '아니오'인지로만 대답하세요!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
08-8 통계적 검정력 (0) 2022.04.28 08-7 결정의 오류 : 1종 오류와 2종 오류 (0) 2022.04.27 08-5 통계적 가정과 가설 그리고 유의 수준 (0) 2022.04.25 08-4 가설 검증 입문 : 모집단과 단일 집단 비교 (파이썬) (0) 2022.04.22 08-3 가설 검증 입문 : 모집단과 단일 사례 비교 (파이썬) (0) 2022.04.21