데이터 분석
-
08-11 자유도 : df데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 4. 12:47
우리는 분산(variance)에 대해 배울 때 자유도(degrees of freedom, df)에 대해 잠깐 공부 했었어. https://kimhaksung.tistory.com/entry/simtong03-3 03-3 변산성의 지표 1 : 분산과 자유도 드디어 분산과 표준편차가 등장했구나~!~! 사실 이전까지의 글들은 분산과 표준편차에 대해 설명하기 위한 빌드업이었지. 빌드업치곤 너무 긴거 아니냐고? 그만큼 분산과 표준편차가 중요하 kimhaksung.tistory.com 이번 시간에는 자유도에 대해 좀 더 다뤄볼거야. - 자유도를 처음 만난건 분산에 대해 배울 때 였지. 모집단의 분산은 편차 제곱들의 총합(Total Sum of Squares, TSS 혹은 Sum of Squares, SS : ∑(X..
-
08-10 스튜던드의 t-분포 (feat. 윌리엄 실리 고셋)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 2. 15:31
sm으로 Sm(SE)을 추정하기 평균들의 표집 분포에서 표본 들을 가지고 구한 표준 편차 sm을 가지고 모집단의 표준 편차 Sm, 즉 표준 오차 SE를 추정 할 수 있을까? 평균들의 표집 분포에서 표준 오차 SE를 구하려면 꿈에도 잊으면 안되는 공식, 모집단의 표준 편차에서 표본 크기의 제곱근을 나눈 것으로 구할 수 있었어. 기억하지? 평균들의 표집 분포에서 표준 오차 표준 오차 = SE = 모집단의 표준 편차 / 표본 크기의 제곱근 = S / √n 그리고 가설 검증을 위한 결정 규칙에서는 평균들의 표집 분포를 표준화 해야 됐는데, 이 때 표준 오차가 쓰였었지? 평균들의 표집 분포에서 표준화 z = (표본 평균-모집단 평균) / 표준 오차 = (m-M) / SE = (m-M) / (S/√n) 결국 우리가..
-
08-9 방향적 검정 : 일방 검정데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 29. 14:41
비방향적 검정 : 양방 검정 여태 우리는 약물이 효과가 있는가? 라는 가설을 세웠었는데, 이 가설은 방향이 없었어. 비방향적 검정(nondirectional test)혹은 양방 검정(two-tailed test)이라고도 하는데, 약물이 좋은쪽으로 효과가 있는지, 아님 나쁜쪽으로 효과가 있는지 상관 없이 그냥 효과만 있으면 되는거였잖아. 모집단에서 평균 7개의 단어를 기억해 냈다면 7개보다 적은지, 많은지는 상관 없이 아무튼 7개에서 멀기만 하면 되는거였어. 그래서 비방향적 검정을 하기만 하면 됐었지. 효과가 있는지 없는지만 보면 되니까. 근데 사실 이런식으로 연구 방향을 잡진 않을거아냐? 만약 여러분들이 어떤 약을 개발하는데, '이 약은 좋은쪽으로 효과가 있을 수도 있고 나쁜 쪽으로 효과가 있을 수도 있..
-
08-8 통계적 검정력데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 28. 17:17
통계적 검정력 그렇다면 귀무 가설을 기각하는 1종 오류를 범하거나, 귀무 가설을 기각하지 않는 2종 오류를 범한다는 걱정에 시달리고만 있어야 할까? 아니지! 검정력, 혹은 통계적 검정력(statistical power)이라는 확률이 있어. 귀무 가설이 실제로 틀릴 때 귀무 가설을 기각할 확률, 바꿔 말하면 대립 가설이 실제로 맞을 때 대립 가설을 사실이라고 결정할 확률을 뜻해. 말이 복잡해 보일 수 있지만 '옳은 것을 보고 옳다고 말할 확률'이 통계적 검정력이야. 쉽지? 반대의 개념이 2종 오류가 될거야. 2종 오류는 귀무 가설이 틀렸음에도 불구하고 기각하지 않는 것인데, 통계적 검정력은 귀무 가설이 틀렸다면 기각하는 확률이잖아? 즉, 통계적 검정력의 확률이 90%라고 하면 나머지 10%는 2종 오류의 ..
-
08-7 결정의 오류 : 1종 오류와 2종 오류데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 27. 13:10
1종 오류와 2종 오류 결정은 어디까지나 통계적 확률에 의한 것이야. 따라서? 결정이 틀릴 확률도 있다는거지. 약물이 효과가 없다는 귀무 가설을 통계적으로 유의한 관측값으로 인해 기각했다고 해서 약물이 정말로 효과가 없는게 아닐 수도 있다는거야. 어디까지나 확률이니까. 만약 p95즉, 유의 수준이 5%라면 약물이 95%는 효과가 있을 확률이 있지만, 나머지 5%에 대해서는 효과가 없을 확률인거잖아? 그렇다면 나머지 5%에 대해서는 결정을 잘 못 한거지. 실제로 효과가 없는 5%가 존재함에도, '효과가 없다.'라는 귀무 가설을 기각해서 소수의 사례를 묵살해 버렸으니까. 이것이 결정의 오류야. 특히 귀무 가설이 실제로는 참인데, 그 귀무 가설을 기각하는 것을 1종 오류(Type 1 error)라고 해. 1종..
-
파이썬 강좌 04 - 입력 : input()데이터 분석/데이터 분석을 위한 파이썬 기초 2022. 4. 26. 21:03
출력을 배웠으니 입력도 배워봐야겠죠? 변수에 값을 넣는 것처럼 변수에 입력한 것을 넣어줄 수 있습니다. 입력을 위해서는 input() 내장 함수를 사용합니다. input() input() 함수가 실행되면 키보드로 입력할 수 있게 됩니다. 입력하고 엔터를 눌러서 입력할 수 있습니다. 만약 num이라는 변수에 3을 입력하고 싶다면 num이라는 변수에 입력값을 넣어주면 됩니다. 아래의 코드를 실행한 다음 키보드로 3을 입력하고 엔터키를 눌러볼까요? 코드를 실행한 다음 약간 기다린 후 오른쪽에 커서가 나타나면 3을 입력하면 됩니다. 그럼 3이 출력된 것을 볼 수 있습니다. num이라는 변수에 입력값을 담았는데, 입력값으로 3을 입력했기 때문이죠. 마찬가지 방법으로 a라는 변수에 'apple'이라는 값을 입력해 ..
-
08-6 결정 규칙데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 26. 12:26
결정 규칙 우리의 목표는? 귀무 가설 타도! 귀무 가설을 기각하기 위해 결정해야 되는 규칙을 결정 규칙(decision rule) 혹은 의사 결정 규칙이라고 해. 결정 규칙을 정할 땐 유의 수준에 따라야 돼. 방법은 간단해. 모집단에서 표본집단을 뽑아서 약물을 처치하고 결과를 살펴봤더니, 표본 집단의 통계치가 모집단으로부터 관측될 확률이 5%를 벗어나면, 즉 5%의 확률로 우연이 안니라면 귀무 가설을 기각할 수 있다고 했잖아? 이 수준을 P95 유의 수준이라고 했었고. 그치? 정리하면, 만약 표준 점수 z가 -1.96보다 크고 1.96보다 작다면 귀무 가설(H0)을 기각하지 않는다. : 만약 -1.96 < z < 1.96 라면 H0를 기각하지 않는다. 혹은 만약 표준 점수 z가 -1.96보다 작거나 같고..
-
파이썬 강좌 03 - 변수의 출력데이터 분석/데이터 분석을 위한 파이썬 기초 2022. 4. 25. 13:42
출력도 배웠고, 변수도 알았으니 변수를 출력해 봅시다. 우리의 목표는 ①문자열로 된 값이 들어있는 변수를 출력하는 것과 ②숫자로 된 값이 들어있는 변수를 출력하는 것입니다. 먼저 문자열로 된 값이 들어있는 변수를 출력해 보죠. 앞서 문자열을 출력하기 위해서는 따옴표로 출력하고자 하는 문자열을 묶어주면 된다고 했습니다. print('출력할 문자열') 하지만 출력하기에 앞서 변수를 만들어주고 변수 안에 출력할 문자열을 미리 넣어둘 수도 있습니다. 만약 a라는 변수에 'apple'이라는 단어를 넣고 a라는 변수를 출력하고자 한다면 아래와 같은 코드로 구현할 수 있습니다. 중요한 것은, a는 문자가 아니라 데이터이기 때문에 따옴표로 묶지 않는다는 것입니다. 데이터나 숫자는 따옴표로 묶지 않습니다. 만약 a를 따..