데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학
-
08-10 스튜던드의 t-분포 (feat. 윌리엄 실리 고셋)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 2. 15:31
sm으로 Sm(SE)을 추정하기 평균들의 표집 분포에서 표본 들을 가지고 구한 표준 편차 sm을 가지고 모집단의 표준 편차 Sm, 즉 표준 오차 SE를 추정 할 수 있을까? 평균들의 표집 분포에서 표준 오차 SE를 구하려면 꿈에도 잊으면 안되는 공식, 모집단의 표준 편차에서 표본 크기의 제곱근을 나눈 것으로 구할 수 있었어. 기억하지? 평균들의 표집 분포에서 표준 오차 표준 오차 = SE = 모집단의 표준 편차 / 표본 크기의 제곱근 = S / √n 그리고 가설 검증을 위한 결정 규칙에서는 평균들의 표집 분포를 표준화 해야 됐는데, 이 때 표준 오차가 쓰였었지? 평균들의 표집 분포에서 표준화 z = (표본 평균-모집단 평균) / 표준 오차 = (m-M) / SE = (m-M) / (S/√n) 결국 우리가..
-
08-9 방향적 검정 : 일방 검정데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 29. 14:41
비방향적 검정 : 양방 검정 여태 우리는 약물이 효과가 있는가? 라는 가설을 세웠었는데, 이 가설은 방향이 없었어. 비방향적 검정(nondirectional test)혹은 양방 검정(two-tailed test)이라고도 하는데, 약물이 좋은쪽으로 효과가 있는지, 아님 나쁜쪽으로 효과가 있는지 상관 없이 그냥 효과만 있으면 되는거였잖아. 모집단에서 평균 7개의 단어를 기억해 냈다면 7개보다 적은지, 많은지는 상관 없이 아무튼 7개에서 멀기만 하면 되는거였어. 그래서 비방향적 검정을 하기만 하면 됐었지. 효과가 있는지 없는지만 보면 되니까. 근데 사실 이런식으로 연구 방향을 잡진 않을거아냐? 만약 여러분들이 어떤 약을 개발하는데, '이 약은 좋은쪽으로 효과가 있을 수도 있고 나쁜 쪽으로 효과가 있을 수도 있..
-
08-8 통계적 검정력데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 28. 17:17
통계적 검정력 그렇다면 귀무 가설을 기각하는 1종 오류를 범하거나, 귀무 가설을 기각하지 않는 2종 오류를 범한다는 걱정에 시달리고만 있어야 할까? 아니지! 검정력, 혹은 통계적 검정력(statistical power)이라는 확률이 있어. 귀무 가설이 실제로 틀릴 때 귀무 가설을 기각할 확률, 바꿔 말하면 대립 가설이 실제로 맞을 때 대립 가설을 사실이라고 결정할 확률을 뜻해. 말이 복잡해 보일 수 있지만 '옳은 것을 보고 옳다고 말할 확률'이 통계적 검정력이야. 쉽지? 반대의 개념이 2종 오류가 될거야. 2종 오류는 귀무 가설이 틀렸음에도 불구하고 기각하지 않는 것인데, 통계적 검정력은 귀무 가설이 틀렸다면 기각하는 확률이잖아? 즉, 통계적 검정력의 확률이 90%라고 하면 나머지 10%는 2종 오류의 ..
-
08-7 결정의 오류 : 1종 오류와 2종 오류데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 27. 13:10
1종 오류와 2종 오류 결정은 어디까지나 통계적 확률에 의한 것이야. 따라서? 결정이 틀릴 확률도 있다는거지. 약물이 효과가 없다는 귀무 가설을 통계적으로 유의한 관측값으로 인해 기각했다고 해서 약물이 정말로 효과가 없는게 아닐 수도 있다는거야. 어디까지나 확률이니까. 만약 p95즉, 유의 수준이 5%라면 약물이 95%는 효과가 있을 확률이 있지만, 나머지 5%에 대해서는 효과가 없을 확률인거잖아? 그렇다면 나머지 5%에 대해서는 결정을 잘 못 한거지. 실제로 효과가 없는 5%가 존재함에도, '효과가 없다.'라는 귀무 가설을 기각해서 소수의 사례를 묵살해 버렸으니까. 이것이 결정의 오류야. 특히 귀무 가설이 실제로는 참인데, 그 귀무 가설을 기각하는 것을 1종 오류(Type 1 error)라고 해. 1종..
-
08-6 결정 규칙데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 26. 12:26
결정 규칙 우리의 목표는? 귀무 가설 타도! 귀무 가설을 기각하기 위해 결정해야 되는 규칙을 결정 규칙(decision rule) 혹은 의사 결정 규칙이라고 해. 결정 규칙을 정할 땐 유의 수준에 따라야 돼. 방법은 간단해. 모집단에서 표본집단을 뽑아서 약물을 처치하고 결과를 살펴봤더니, 표본 집단의 통계치가 모집단으로부터 관측될 확률이 5%를 벗어나면, 즉 5%의 확률로 우연이 안니라면 귀무 가설을 기각할 수 있다고 했잖아? 이 수준을 P95 유의 수준이라고 했었고. 그치? 정리하면, 만약 표준 점수 z가 -1.96보다 크고 1.96보다 작다면 귀무 가설(H0)을 기각하지 않는다. : 만약 -1.96 < z < 1.96 라면 H0를 기각하지 않는다. 혹은 만약 표준 점수 z가 -1.96보다 작거나 같고..
-
08-5 통계적 가정과 가설 그리고 유의 수준데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 25. 13:30
가정 우리는 앞서 파이소스티그민이 효과가 없을거라고 가정을 했었어. 그렇다면 통계학에서 가정이란 뭘까? 가정이 화목해야 나라가 잘 살겠지만.. 통계학에서 가정(assumption)이란, 통계적 절차의 논리가 참일 것을 요구하지만, 참이라고 증명되거나 결정될 수 없는 모집단 내 상황에 관한 진술이라고 할 수 있어. 검증이 아니라는거지. 우리가 배운 '무수히 반복하다보면 정규 분포를 따른다.'라는 것도 가정이야. 무수히 반복한다는 것은 검증할 수 없잖아? 그래서 우리는 1. 표본은 무선적이고 독립적으로 추출된다. 2. 평균의 표집 분포는 정규 분포를 따른다. 이러한 가정들을 기정 사실화 한 이후에 통계적 분석을 할거야. 그래야만 통계적 분석을 하는 의미가 있거든. 만약에 인간에 대해서 연구한다고 생각해 봐...
-
08-4 가설 검증 입문 : 모집단과 단일 집단 비교 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 22. 14:05
전 시간에 모집단과 단일 사례(한 명)을 비교해 봤으니 이번에는 모집단과 20명의 단일 집단을 비교해 봐야겠지? 대신 초경험적(내가 만든 용어, 인간의 능력으로 경험할수 없는 데이터를 컴퓨터의 힘을 빌려 경험하는 것) 표집 분포와 이론적 표집 분포를 둘 다 보도록 할게! - 초경험적 표집 분포 먼저 우리가 만든 모집단(M=7, S=2)에서 20명을 무선 추출 한 다음에 평균을 구하고, 또, 20명을 추출한 다음에 평균을 구하고, 또 20명을 추출.. 하는 짓을 몇 번이나 반복해야 '초경험적'이라고 할 수 있을까? 우리가 마지막으로 만든 모집단의 사례수가 10만 개 였으니까.. 표본의 크기가 20인 표본을 1만 번 정도 추출 해 볼까? 1만 번은 인간이 쉽게 계산하기 힘든 수치니까 초경험적이라고 할 수 있..
-
08-3 가설 검증 입문 : 모집단과 단일 사례 비교 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 21. 16:03
먼저 모집단에서 딱 한 명을 뽑을거야. 이 피험자에게 15개의 단어를 외우게 한 다음 파이소스티그민을 투여하고 1시간 20분 뒤에 몇 개의 단어를 기억했는지 알아보고 모집단과 비교를 해 보자구! 우리에겐 모집단이 있잖아! - 단일 사례의 표준화 먼저 한 명의 피험자가 11개의 단어를 기억했다고 가정해 볼게. 11개를 기억한 것이 95%의 확률을 넘어선 것일까?! 를 알아보려면 표준화를 해야겠지. 표준 점수로 환산했을 때 1.96보다 크거나 -1.96보다 작으면 극단의 5%에 속하는 것이기 때문에 우연이 아니라고 치부할 것이라고 했었잖아? 그리고 단일 점수를 표준화 하려면 평균을 빼 준 다음 표준 편차로 나눠주기만 하면 돼! 11에서 모집단의 평균을 뺀 다음 모집단의 표준 편차로 나눠주면 되는 것이지. 아..