데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학
-
08-2 가설 검증 입문 : 모집단 생성과 리스트 컴프리헨션 (파이썬)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 21. 15:09
이제 가설 검증에 대해 배웠으니 파이썬으로 간단한 가설 검증을 해 볼까? 우선 가설 검증을 하기 위해서는 모집단의 정보를 알아야 돼. 전 시간에 일반인들에게 15개의 단어를 주고 외우게 시킨 다음 1시간 20분 뒤에 검사를 했을 때! 모집단의 평균(M)이 7이고 표준 편차(S)가 2였지? 그러나 우리에겐 평균이 7이고 표준 편차가 2인 모집단이.. 없잖아? 없으니까.. 모집단을.. 만들자! - normalvariate() random 모듈을 사용해서 표본 집단을 추출해 보긴 했는데, 집단을 만들어 본 적은 없지? 집단을 만들 때에도 random 모듈을 사용해 볼거야. random 모듈을 사용하면 난수를 생성할 수 있었지? 특히 random 모듈에서 평균과 표준 편차를 정해놓고 난수를 생성하는 normal..
-
08-1 가설 검증 입문 : 용어와 이론데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 20. 16:26
코로나에 걸린 관계로 글이 좀 늦어졌네.. 흑흑.. 이제부터의 내용은 본격적으로 재밌어 질텡게 잘 따라오숑~ ^0^ - 가설 검증 리미트리스, 루시란 영화가 있어. 스포일러가 될 수 있어서 영화 내용을 자세하게 말하지는 못하겠지만 두 영화 모두 어떤 약물이 사람을 똑똑하게 만든다는 내용이야. 정말 가능할까? 과학자들은 '파이소스티그민(physostigmine)' 이라는 약을 개발했어. 과학자들은 이 약을 먹으면 똑똑해 진다고 주장했지. 어떻게 이 주장을 증명할 수 있을까? 만약 일반인들에게 15개의 단어를 주고 외우게 시킨 다음 1시간 20분 뒤에 기억해 보라고 했을 때, 보통은 7개의 항목만을 기억한다고 해. 표준 편차는 2개이고 말야. 이 기준을 모집단이라고 했을 때 M=7, S=2가 되겠지? 이제 ..
-
07-5 표집 분포와 정상성 : 중심 극한 정리데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 15. 14:23
추론 통계에서는 하나의 표본에서 계산된 통계적 수치가 표집 분포의 모수치를 추정하기 위해 사용될 수 있으니까, 실제로는 경험적(empirical) 표집 분포를 구할 필요가 전~혀~ 없어. 대신 표집 분포를 설명하기 위한 수단으로 경험적 표집 분포에 대해 알고 있으라는 것이지! 어차피 표집 분포는 이론적(theoretical) 표집 분포로 계산될 수 있으니 굳이 경험적 표집 분포를 사용할 필요가 없는 것이지. 앞으로 '표집 분포'라고 하면 당연히 '이론적 표집 분포'겠구나! 라고 생각하면 돼! 하지만 이는 어디까지나 인간의 한계에서 경험이 제한 당할 때의 일이고, 컴퓨터의 힘을 빌리면 경험적 표집 분포라고 해도 이론적 표집 분포와 맞먹을 정도가 될 수 있다는 것을 알고있지? 파이썬으로 표본을 엄청나게 늘릴..
-
07-4 표집 통계치 : 표준 오차데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 14. 13:06
앞서 표집 분포를 살펴 봤잖아? 그 중에서도 표본들의 평균들의 평균들을 봤었지. 표본을 무수히 많이 추출할 수 있다면, 아니 컴퓨터의 힘을 빌려서 크기가 4인 1만 개의 표본정도만 추출할 수 있어도 모집단의 평균과 거의 같게 된다는 것을 볼 수 있었어. 그리고 표준편차에 대해서는 이야기를 하지 않았지. 쏘옥~ 빼먹었어! 하핫! 표본들의 평균들을 가지고 또 다시 평균들을 구할 수 있었거니와, 표본들의 평균들을 가지고 표준편차도 구할 수있을거야. 실제로 파이썬으로 표본들의 평균들의 표준편차도 구해 봤잖아? 이번 시간에는 이 표본들의 평균들의 표준편차에 대한 이야기를 해 볼거야. - 표본 통계치와 표집 통계치 전 시간에 표본 분포(sample distribution)와 표집 분포(sampling distrib..
-
07-3 파이썬으로 표집 분포 구하기데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 18:29
물론 이론적 표집 분포는 이론일 뿐이지. 모집단에서 표본집단을 무수히 추출해서 표집 분포를 구해내는 것이 불가능 하니까. 그럼 무조건 경험적 표집을 해야만 할까? 이전 시대에는 불가능 해 보였던 일들이 기술의 발전으로 가능해 졌어. 무수히 많지는 않지만 옛날 사람들에게는 무수히 많은 것 처럼 보일만큼의 일들을 컴퓨터가 해낼 수 있게 되었거든. 우리가 지금 통계학을 배우는 목적이기도 하지. 데이터 분석을 위한 통계학! 우리는 앞서 김교수의 갑작 시험의 사례를 통해 표본을 10번 추출하는 것만으로도 평균(mean)들의 평균이 모집단의 평균(mu)와 비슷해 지는 것을 보았어. 그렇다면, 10번이 아니라 100번, 1000번, 그 이상의 표본들로 표집 분포를 구해보면 어떨까? 과거에는 불가능 하다고 생각되었던 ..
-
07-2 표본 분포와 표집 분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 13:16
'표'라는 글자를 계속 쳐다보면 게슈탈트 붕괴가 오는거 같아. 오늘은 특히 '표'라는 글자가 많이 들어간 용어들에 대해 다시 정립해 볼거야. 본격적인 이야기에 앞서 오늘의 등장 인물들 부터 살펴 볼까? 모집단 (population) : 원점수들의 집단 표본집단 혹은 표본 (sample) : 원점수들을 다 조사하는 것이 불가능 하거나 귀찮으니까 그 중에서 일부만 뽑은 것. 표본추출 혹은 표집 (sampling) : 모집단에서 표본집단을 추출하는 것. 여기까지는 잘 알고 있던 놈들이지? 모집단 분포 (population) : 모집단에서 얻어진 측정 점수들의 집합 표본 분포 혹은 표본집단 분포 (sample distribution) : 표본집단에서 얻어진 측정 점수들의 집합 여기까지도 우리가 다뤘던 놈들이야...
-
07-1 표본추출 방법데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 8. 14:26
추론 통계 우리는 여태까지 양적 정보를 체계화하고, 요약하고, 기술하는 절차인 기술 통계(descriptive statistics)에 대해 배웠어. 그냥 냅다 자료만 정리한거지. 물론 기술 통계적 수치로 부터 모집단을 어떻게 추론할 수 있겠는가? 라는 이야기가 조금씩 나왔었지만.. 이제부터는 본격적으로 모집단에서 표본집단을 추출하고, 표본집단으로부터 모집단을 추론하는 추론 통계(statistical inference)에 대해 배울거야. 엄청 재밌겠지? - 표본추출 방법 앞서 표본추출이 얼마나 중요한지 배웠지? 표본추출(sampling)이란 모집단(population)에서 표본 집단(sample)을 뽑아 낸거야. 표본 집단에서 계산된 수치들을 양적 통계 수치(statistics)라고 해. 이 통계 수치들을..
-
06-5 상관 계수를 변화시키는 표본 추출데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 7. 16:06
통계학을 공부하면서 잊으면 안되는 것! 우리는 미지의 모집단(population)이 가지고 있는 엄청난 양의 데이터를 분석할 수 없기 때문에 적당히 표본(sample)을 뽑아서(sampling) 조사를 한 다음, '음~ 모집단의 전체 자료를 가지고 분석을 하나, 표본집단을 가지고 분석을 하나 그게 그거구나~' 라는 생각을 갖고 '통계학 땡큐!!'를 외치면 된다고 했잖아. 그리고 우리가 지금 상관 관계를 파악하기 위한 상관 계수, 특히 피어슨 상관 계수, r에 대해 배우고 있는데 이 r 또한 표본집단의 상관 계수라는거 잊지마! 만약 모집단의 상관 계수를 나타낸다면 그리스 알파벳 ρ(rho 라고 읽음)를 써서 나타내야 돼. 즉, 우리는 지금 r이 ρ와 얼마나 닮았느냐! 를 중요하게 생각해야 된다는거야. 기껏..