ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 08-17 t-검정 3 : 독립 표본 (파이썬)
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 18. 10:59

     우리는 모집단으로부터 무선적이고 독립된 단일 표본을 추출한 다음, 단일 표본이 모집단으로부터 나왔는지 알아보았어. 평균을 통해서 말야. 모집단의 평균이 7(M=7)일 때, 표본의 평균도 7(m=7)이라면 표본이 모집단과 별 차이가 없는 것이고, 이는 처치 효과가 없다는 뜻이 되겠지? 반면 표본의 평균이 7이 아니(m≠7)라면 모집단으로부터 추출한 표본에 무언가 달라진 점이 있다는거잖아? 처치 효과가 있다는 뜻이 될거야. 이런식으로 가설을 검정하였고, 특히 스튜던트의 t-분포를 활용해서 가설을 검정했는데, 이를 t-검정 이라고 했지.

     

     그리고 이왕 t-검정에 대해 배우는 김에 이번에는 전혀 관계가 없는 두 독립 표본에 대해 비교해 볼거야.

     만약 한영고등학교 학생들의 평균 키가 171.4cm이고, 배재고등학교 학생들의 평균 키가 169.7cm라면 한영고 학생들이 배재고 학생들보다 키가 크다고 말할 수 있을까? 물론 수치만으로 보면 커 보이지만 통계적으로 봤을 때 유의미한 차이가 있는지는 잘 들여다봐야 하는것이지.

     

     귀무 가설(H0)은 '한영고와 배재고 학생들의 키가 별 차이 없다.' 정도면 되겠고, 대립 가설(H1)은 '한영고와 배재고 학생들의 키는 차이가 난다.' 정도면 되겠네!

     

    -

     

     우리는 독립된 두 집단의 평균만 알고 있고 표준 편차는 알지 못해. t-검정을 써먹기 딱 좋지. 하지만 우리에겐 한영고와 배재고 학생들의 데이터가 없으니 만들어야겠지? random 모듈의 normalvariate() 함수를 사용할건데, 한영고는 평균이 171.4이고 표준 편차가 5인 100개의 사례수를 만들거야. 배재고는 평균이 169.7이고 표준 편차가 5인 100개의 사례수를 만들거고. 표준 편차를 같게 해 주어야 평균에 대한 비교가 용이한데, 나중에 다시 설명할 기회를 가질게!

     

     

     이제 한영고와 배재고 100명의 학생들이 준비 되었으니, 두 집단을 비교해 볼 수 있겠지? t-검정을 사용하기 위해 scipy 라이브러리의 stats 모듈을 사용할거야. 저번에 단일 표본을 분석했던 것 처럼 이번에는 ttest_ind() 라는 함수를 사용할거야.

     

    ttest_ind(독립표본1, 독립표본2)

     

     ttest_ind() 함수를 사용해서 두 독립 표본의 평균이 유의미한 차이가 있는지 알 수 있어. 코드로 구현해 볼까?

     

     

     한영고 100명의 학생과 배재고 100명의 학생의 t-검정 결과를 ttest에 넣고 출력해 봤더니, 마찬가지로 statistic와 pvalue를 볼 수 있어. statistic은 t값을 뜻하고, pvalue는 t값의 확률을 뜻 해. 여기서 pvalue의 값이 0.5보다 크다면 유의수준 p95에서 귀무 가설을 기각하지 않겠지? 반대로 pvalue의 값이 0.5보다 작거나 같다면 귀무 가설을 기각할 수 있고 말야.

     

    -

     

     마지막으로 H0을 기각해야 되는지 아닌지 유의 수준 p95에서 판별해 볼까?

     

     

     코드를 실행해 보면 t-검정을 통해 얻은 p값으로 임계 값과 비교하여 귀무 가설을 기각할지 말지를 판별하고 있어. 나는 대부분의 상황에서 p값이 0.5 이하로 나오더라구. 그럼 귀무 가설이 기각되겠지? 하지만 p값이 0.5보다 크다면 귀무 가설을 기각되지 않을거야.

     

    -

     

     모집단의 평균이라는 특정 값과 하나의 단일 표본을 비교하기도 해 봤고,

     서로 상관 없는 두 독립 표본을 비교하기도 해 봤네! 다음으로는 뭘 해 볼까? ^0^

Designed by Tistory.