ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 08-8 통계적 검정력
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 28. 17:17

    통계적 검정력

     

     그렇다면 귀무 가설을 기각하는 1종 오류를 범하거나, 귀무 가설을 기각하지 않는 2종 오류를 범한다는 걱정에 시달리고만 있어야 할까? 아니지! 검정력, 혹은 통계적 검정력(statistical power)이라는 확률이 있어. 귀무 가설이 실제로 틀릴 때 귀무 가설을 기각할 확률, 바꿔 말하면 대립 가설이 실제로 맞을 때 대립 가설을 사실이라고 결정할 확률을 뜻해. 말이 복잡해 보일 수 있지만 '옳은 것을 보고 옳다고 말할 확률'이 통계적 검정력이야. 쉽지?

     

     반대의 개념이 2종 오류가 될거야. 2종 오류는 귀무 가설이 틀렸음에도 불구하고 기각하지 않는 것인데, 통계적 검정력은 귀무 가설이 틀렸다면 기각하는 확률이잖아? 즉, 통계적 검정력의 확률이 90%라고 하면 나머지 10%는 2종 오류의 확률이 되는거지. 그리고 2종 오류의 확률은 β(베타)였잖아? 그렇다면 β가 일어나지 않을 확률은 1-β가 되고, 이게 바로 통계적 검정력의 확률이 되는거지.

     

    2종 오류 : 귀무 가설이 틀렸음에도 불구하고 기각하지 않는 오류

    2종 오류의 확률 = β

    통계적 검정력 : 귀무 가설이 틀렸을때 기각될 확률 = 1-β

     

     

     다만 전에도 말했듯이 2종 오류의 확률을 정확히 알아내는 것은 매우 어려워. 왜? 위 그림에서 H1의 분포를 알아야만 계산할 수 있잖아. 그럼 우리는 약물을 투여한 집단의 관측치를 얻기 위해 굉장히 많은 피험자에게 처치를 해야되는데.. 현실적으로 쉽지가 않지. 모집단은 이미 수 많은 사례수가 존재하니 어찌 됐든 그 수 많은 사례수를 가지고 뭘 하면 되잖아? 하지만 처치를 한 집단은 그렇지 않아. 우리가 만들어야 하는 집단이고, 우리가 만들어야 한다면 사례수가 충분하지 않을수도 있고, 집단이 객관적이지 않을 수도 있고.. 넘나 어렵지. 암튼! 그럼에도 불구하고 H1의 검정력을 높이기 위한 방법들이 있지!

     

    1. 통계적 검정력은 유의 수준 α와 비례한다.

     영가설이 맞았음에도 기각하는 오류인 1종 오류의 확률을 α(알파)라고 했잖아? 그리고 α의 확률은 유의 수준에 따라 달라질거고. 유의 수준이 관대할수록 귀무 가설은 기각되기 쉽지. p99보다 p95가 더 기각되기 쉽잖아? 하지만 올바른 기각이나 그릇된 기각 둘 모두에 대한 확률 또한 올라가겠지. 암튼 유의 수준이 관대할수록 α는 늘어날거야. α가 늘어나면? β는 줄어들지. β가 줄어들면? 1-β는 늘어나지! 오! 그렇다면 α가 늘어나면 1-β 또한 늘어나는 것이네! 그런데 1-β가 통계적 검정력의 확률이니, α가 늘어나면 통계적 검정력 또한 증가할 수 밖에없어!

     

    2. 통계적 검정력은 표본의 크기와 비례한다.

     너무 당연한 말이지? 표본의 크기가 20일 때와 200일 때를 생각해 보면, 20일 때 보다 200일 때 귀무 가설을 올바르게 기각할 확률이 클거야. 왜? 표본의 크기가 커지면 표준 오차가 줄어드니까! 표준 오차가 줄어들면 모수치에 대한 추정치 또한 정확해 지겠지!

     

     그러니 통계적 검정력을 올리려면 α의 유의 수준을 낮추고, 표본의 크기를 키우면 돼. 참 쉽지?

     

    -

     

    유의 수준 선정

     

     아니 그럼 통계적 검정력을 올리려면 냅다 α의 유의 수준을 관대하게 하면 되는거 아냐? 뭣하러 빡세게 한디야 어차피 α의 유의 수준을 올려버리면 통계적 검정력이 내려갈건디!

     

     일단 α의 유의 수준이 귀무 가설을 잘못 기각하는 확률이라는 것을 알고 있어야 돼. 그리고 통상적으로 유의 수준을 p95나 p99 정도로 정한다고 했잖아. 하지만 p95나 p99로 정하는 과학적인 기준은 없어. 그냥 옛날부터 이 기준을 많이 써 왔기 때문에 이 기준을 쓰자는거야. 그래서 연구자들이 어떤 연구를 하냐에 따라 유의 수준을 잘 정해줄 필요가 있어.

     

     예를 들어 볼까? 여러분이 기분이 좋아지는 약을 발명했다고 해 볼게. 이제 정말 이 약이 효과가 있는지 검증해야 되는데, 유의 수준을 어떻게 잡으면 좋을까? 관대하게? 엄격하게? 이 약은 다른 부작용이 없어서 효과가 없다면 아무 위험이 없고, 효과가 있다면 기분이 좋아질 뿐이야. 엄청 무해한 약이지. 그럼 기준을 관대하게 잡아도 상관 없잖아? 어차피 효과가 없다면 아무 위험이 없는거니까 말야.

     

     하지만 여러분이 어떤 수술을 해야하는 의사라고 해 볼게. 환자에게 수술을 해야되는데 이 수술이 성공하다면 환자의 상태가 매우 좋아질 것이고, 수술이 실패한다면 환자의 상태가 악화되어서 사망에 이를수도 있어. 만약 여러분이 의사라면 성공 확률이 어느정도나 되어야 매스를 잡을거 같아? 성공 확률이 90%를 넘을때? 99%를 넘을때? 99%는 그냥 저냥한 연구에서는 굉장히 큰 확률이지만, 이런 수술에 있어서는 1000명중의 10명이 죽을 수 있는 확률이 돼. 그래서 어쩌면 수술 성공 확륭이 99.9%는 되어야 이 수술이 가능할 수도 있고, 더 신중한 상황이라면 99.99%는 되어야 할수도 있지.

     

     이렇듯, 유의 수준을 무작정 올리거나 낮출것이 아니라상황에 따라 정해야돼. 그리고 유의 수준을 정하는 몫은? 여러분들의 몫이지! 무작정 통계적 검정력을 올리고 싶다고 유의 수준을 낮추지 말고 말야!

Designed by Tistory.