데이터 분석
-
07-4 표집 통계치 : 표준 오차데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 14. 13:06
앞서 표집 분포를 살펴 봤잖아? 그 중에서도 표본들의 평균들의 평균들을 봤었지. 표본을 무수히 많이 추출할 수 있다면, 아니 컴퓨터의 힘을 빌려서 크기가 4인 1만 개의 표본정도만 추출할 수 있어도 모집단의 평균과 거의 같게 된다는 것을 볼 수 있었어. 그리고 표준편차에 대해서는 이야기를 하지 않았지. 쏘옥~ 빼먹었어! 하핫! 표본들의 평균들을 가지고 또 다시 평균들을 구할 수 있었거니와, 표본들의 평균들을 가지고 표준편차도 구할 수있을거야. 실제로 파이썬으로 표본들의 평균들의 표준편차도 구해 봤잖아? 이번 시간에는 이 표본들의 평균들의 표준편차에 대한 이야기를 해 볼거야. - 표본 통계치와 표집 통계치 전 시간에 표본 분포(sample distribution)와 표집 분포(sampling distrib..
-
07-3 파이썬으로 표집 분포 구하기데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 18:29
물론 이론적 표집 분포는 이론일 뿐이지. 모집단에서 표본집단을 무수히 추출해서 표집 분포를 구해내는 것이 불가능 하니까. 그럼 무조건 경험적 표집을 해야만 할까? 이전 시대에는 불가능 해 보였던 일들이 기술의 발전으로 가능해 졌어. 무수히 많지는 않지만 옛날 사람들에게는 무수히 많은 것 처럼 보일만큼의 일들을 컴퓨터가 해낼 수 있게 되었거든. 우리가 지금 통계학을 배우는 목적이기도 하지. 데이터 분석을 위한 통계학! 우리는 앞서 김교수의 갑작 시험의 사례를 통해 표본을 10번 추출하는 것만으로도 평균(mean)들의 평균이 모집단의 평균(mu)와 비슷해 지는 것을 보았어. 그렇다면, 10번이 아니라 100번, 1000번, 그 이상의 표본들로 표집 분포를 구해보면 어떨까? 과거에는 불가능 하다고 생각되었던 ..
-
07-2 표본 분포와 표집 분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 13:16
'표'라는 글자를 계속 쳐다보면 게슈탈트 붕괴가 오는거 같아. 오늘은 특히 '표'라는 글자가 많이 들어간 용어들에 대해 다시 정립해 볼거야. 본격적인 이야기에 앞서 오늘의 등장 인물들 부터 살펴 볼까? 모집단 (population) : 원점수들의 집단 표본집단 혹은 표본 (sample) : 원점수들을 다 조사하는 것이 불가능 하거나 귀찮으니까 그 중에서 일부만 뽑은 것. 표본추출 혹은 표집 (sampling) : 모집단에서 표본집단을 추출하는 것. 여기까지는 잘 알고 있던 놈들이지? 모집단 분포 (population) : 모집단에서 얻어진 측정 점수들의 집합 표본 분포 혹은 표본집단 분포 (sample distribution) : 표본집단에서 얻어진 측정 점수들의 집합 여기까지도 우리가 다뤘던 놈들이야...
-
07-1 표본추출 방법데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 8. 14:26
추론 통계 우리는 여태까지 양적 정보를 체계화하고, 요약하고, 기술하는 절차인 기술 통계(descriptive statistics)에 대해 배웠어. 그냥 냅다 자료만 정리한거지. 물론 기술 통계적 수치로 부터 모집단을 어떻게 추론할 수 있겠는가? 라는 이야기가 조금씩 나왔었지만.. 이제부터는 본격적으로 모집단에서 표본집단을 추출하고, 표본집단으로부터 모집단을 추론하는 추론 통계(statistical inference)에 대해 배울거야. 엄청 재밌겠지? - 표본추출 방법 앞서 표본추출이 얼마나 중요한지 배웠지? 표본추출(sampling)이란 모집단(population)에서 표본 집단(sample)을 뽑아 낸거야. 표본 집단에서 계산된 수치들을 양적 통계 수치(statistics)라고 해. 이 통계 수치들을..
-
06-5 상관 계수를 변화시키는 표본 추출데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 7. 16:06
통계학을 공부하면서 잊으면 안되는 것! 우리는 미지의 모집단(population)이 가지고 있는 엄청난 양의 데이터를 분석할 수 없기 때문에 적당히 표본(sample)을 뽑아서(sampling) 조사를 한 다음, '음~ 모집단의 전체 자료를 가지고 분석을 하나, 표본집단을 가지고 분석을 하나 그게 그거구나~' 라는 생각을 갖고 '통계학 땡큐!!'를 외치면 된다고 했잖아. 그리고 우리가 지금 상관 관계를 파악하기 위한 상관 계수, 특히 피어슨 상관 계수, r에 대해 배우고 있는데 이 r 또한 표본집단의 상관 계수라는거 잊지마! 만약 모집단의 상관 계수를 나타낸다면 그리스 알파벳 ρ(rho 라고 읽음)를 써서 나타내야 돼. 즉, 우리는 지금 r이 ρ와 얼마나 닮았느냐! 를 중요하게 생각해야 된다는거야. 기껏..
-
06-4 상관 계수의 성질데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 6. 14:17
상관 계수에 대해 배우고 계산 하며서 상관 계수의 성질에 대해 알게 되긴 했지만, 이쁘게 정리한 적은 없는거 같아서 이번에 정리하고 넘어갈게! 우선 상관 계수, 혹은 피어슨 상관 계수, r 이라고 하는 것은 X와 Y간의 어떠한 관계가 있는지, 얼만큼의 관계가 있는지 알아보려는 지수였지? 양의 상관 관계가 있다면 X가 증가할 수록 Y도 증가하는 것이고, 음의 상관 관계가 있다면 X는 증가하지만 Y는 감소하는거야. 상관 정도가 크다면 r은 1이나 -1에 가까워 질 것이고, 상관 정도가 약하다면 0에 가까워 지겠지? 종합하면 -1 ≤ r ≤ 1 가 되는거지. 만약 X와 Y의 관계가 없다면 점수치들은 아주 동그란 고구마 처럼 보일거야. 그럼 Y의 평균선은 X와 평행할 것이고, 회귀선은 평균선 만큼의 높이를 가지..
-
06-3 피어슨 상관 계수, r 계산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 18:05
이전 시간의 피어슨 상관 계수를 구하기 위해 ESS, 예측 해서 줄인 차이의 제곱 합을 TSS, 전체 차이의 제곱 합으로 나눠주면 된다고 했지? r² = ∑(Yh-Ym)² / ∑(Yi-Ym)² r = √{ ∑(Yh-Ym)² / ∑(Yi-Ym)² } : √( ESS / TSS ) 대신 제곱근을 취할 땐 정적 상관 관계에서는 양의 제곱근, 부적 상관 관계에서는 음의 제곱근을 취한다고 했어. X와 Y가 정적 관계 일 때 : 0 ≤ r ≤ 1 X와 Y가 부적 관계 일 때 : -1 ≤ r ≤ 0 ∴ -1 ≤ r ≤ 1 그러나 이 공식은 손으로 계산하기엔 적합하진 않아. 회귀 방정식이 중간에 끼어있잖아. 실제적으로 계산하고자 한다면 r = {N(∑XY)-(∑X)(∑Y)} / √[{N∑X²-(∑X)²}{N∑Y²-(∑..
-
06-2 상관 계수의 유도 : 피어슨 상관 계수, r (feat. 전설의 통계학자들)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 13:57
드디어 나온 그 이름! 피! 어! 슨! 오늘은 칼 피어슨(Karl Pearson)의 상관 계수(또는 적률 상관 계수), r에 대해 다뤄볼 거야. 이 집안은 통계학을 다 해먹는 집안이라 우리가 꼭 알아야 하는 가문이야. 통계학에서 칼 피어슨이 왜 중요하냐면.. 대학의 '통계학과'를 세계 최초로 설립한 인물이기 때문이야. 말 그대로 통계학의 아버지이자 어머니 그야말로 통계학의 마더파더.. 그저 갓.. 찬양.. 칼 피어슨에 대해 살펴보기 전에 우리가 통계학에서 기억해야 하는 인물들을 시대 순으로 정리하고 갈까? 공부 하다보면 이런게 재밌지.. 대신 기원전 인물들 까지 다루면 넘 많이질거 같으니까 기원후로만 다뤄볼게. - 전설의 통계학자들 1. 요한 카를 프리드리히 가우스 (Johann Carl Friedric..