어제 만난 가장 보통의 순간을 믿어요
-
07-2 표본 분포와 표집 분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 13:16
'표'라는 글자를 계속 쳐다보면 게슈탈트 붕괴가 오는거 같아. 오늘은 특히 '표'라는 글자가 많이 들어간 용어들에 대해 다시 정립해 볼거야. 본격적인 이야기에 앞서 오늘의 등장 인물들 부터 살펴 볼까? 모집단 (population) : 원점수들의 집단 표본집단 혹은 표본 (sample) : 원점수들을 다 조사하는 것이 불가능 하거나 귀찮으니까 그 중에서 일부만 뽑은 것. 표본추출 혹은 표집 (sampling) : 모집단에서 표본집단을 추출하는 것. 여기까지는 잘 알고 있던 놈들이지? 모집단 분포 (population) : 모집단에서 얻어진 측정 점수들의 집합 표본 분포 혹은 표본집단 분포 (sample distribution) : 표본집단에서 얻어진 측정 점수들의 집합 여기까지도 우리가 다뤘던 놈들이야...
-
07-1 표본추출 방법데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 8. 14:26
추론 통계 우리는 여태까지 양적 정보를 체계화하고, 요약하고, 기술하는 절차인 기술 통계(descriptive statistics)에 대해 배웠어. 그냥 냅다 자료만 정리한거지. 물론 기술 통계적 수치로 부터 모집단을 어떻게 추론할 수 있겠는가? 라는 이야기가 조금씩 나왔었지만.. 이제부터는 본격적으로 모집단에서 표본집단을 추출하고, 표본집단으로부터 모집단을 추론하는 추론 통계(statistical inference)에 대해 배울거야. 엄청 재밌겠지? - 표본추출 방법 앞서 표본추출이 얼마나 중요한지 배웠지? 표본추출(sampling)이란 모집단(population)에서 표본 집단(sample)을 뽑아 낸거야. 표본 집단에서 계산된 수치들을 양적 통계 수치(statistics)라고 해. 이 통계 수치들을..
-
06-5 상관 계수를 변화시키는 표본 추출데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 7. 16:06
통계학을 공부하면서 잊으면 안되는 것! 우리는 미지의 모집단(population)이 가지고 있는 엄청난 양의 데이터를 분석할 수 없기 때문에 적당히 표본(sample)을 뽑아서(sampling) 조사를 한 다음, '음~ 모집단의 전체 자료를 가지고 분석을 하나, 표본집단을 가지고 분석을 하나 그게 그거구나~' 라는 생각을 갖고 '통계학 땡큐!!'를 외치면 된다고 했잖아. 그리고 우리가 지금 상관 관계를 파악하기 위한 상관 계수, 특히 피어슨 상관 계수, r에 대해 배우고 있는데 이 r 또한 표본집단의 상관 계수라는거 잊지마! 만약 모집단의 상관 계수를 나타낸다면 그리스 알파벳 ρ(rho 라고 읽음)를 써서 나타내야 돼. 즉, 우리는 지금 r이 ρ와 얼마나 닮았느냐! 를 중요하게 생각해야 된다는거야. 기껏..
-
06-4 상관 계수의 성질데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 6. 14:17
상관 계수에 대해 배우고 계산 하며서 상관 계수의 성질에 대해 알게 되긴 했지만, 이쁘게 정리한 적은 없는거 같아서 이번에 정리하고 넘어갈게! 우선 상관 계수, 혹은 피어슨 상관 계수, r 이라고 하는 것은 X와 Y간의 어떠한 관계가 있는지, 얼만큼의 관계가 있는지 알아보려는 지수였지? 양의 상관 관계가 있다면 X가 증가할 수록 Y도 증가하는 것이고, 음의 상관 관계가 있다면 X는 증가하지만 Y는 감소하는거야. 상관 정도가 크다면 r은 1이나 -1에 가까워 질 것이고, 상관 정도가 약하다면 0에 가까워 지겠지? 종합하면 -1 ≤ r ≤ 1 가 되는거지. 만약 X와 Y의 관계가 없다면 점수치들은 아주 동그란 고구마 처럼 보일거야. 그럼 Y의 평균선은 X와 평행할 것이고, 회귀선은 평균선 만큼의 높이를 가지..
-
06-3 피어슨 상관 계수, r 계산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 18:05
이전 시간의 피어슨 상관 계수를 구하기 위해 ESS, 예측 해서 줄인 차이의 제곱 합을 TSS, 전체 차이의 제곱 합으로 나눠주면 된다고 했지? r² = ∑(Yh-Ym)² / ∑(Yi-Ym)² r = √{ ∑(Yh-Ym)² / ∑(Yi-Ym)² } : √( ESS / TSS ) 대신 제곱근을 취할 땐 정적 상관 관계에서는 양의 제곱근, 부적 상관 관계에서는 음의 제곱근을 취한다고 했어. X와 Y가 정적 관계 일 때 : 0 ≤ r ≤ 1 X와 Y가 부적 관계 일 때 : -1 ≤ r ≤ 0 ∴ -1 ≤ r ≤ 1 그러나 이 공식은 손으로 계산하기엔 적합하진 않아. 회귀 방정식이 중간에 끼어있잖아. 실제적으로 계산하고자 한다면 r = {N(∑XY)-(∑X)(∑Y)} / √[{N∑X²-(∑X)²}{N∑Y²-(∑..
-
06-2 상관 계수의 유도 : 피어슨 상관 계수, r (feat. 전설의 통계학자들)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 13:57
드디어 나온 그 이름! 피! 어! 슨! 오늘은 칼 피어슨(Karl Pearson)의 상관 계수(또는 적률 상관 계수), r에 대해 다뤄볼 거야. 이 집안은 통계학을 다 해먹는 집안이라 우리가 꼭 알아야 하는 가문이야. 통계학에서 칼 피어슨이 왜 중요하냐면.. 대학의 '통계학과'를 세계 최초로 설립한 인물이기 때문이야. 말 그대로 통계학의 아버지이자 어머니 그야말로 통계학의 마더파더.. 그저 갓.. 찬양.. 칼 피어슨에 대해 살펴보기 전에 우리가 통계학에서 기억해야 하는 인물들을 시대 순으로 정리하고 갈까? 공부 하다보면 이런게 재밌지.. 대신 기원전 인물들 까지 다루면 넘 많이질거 같으니까 기원후로만 다뤄볼게. - 전설의 통계학자들 1. 요한 카를 프리드리히 가우스 (Johann Carl Friedric..
-
06-1 상관 : RSS와 ESS 혹은 SSE와 SSR 그리고 TSS와 SST 으악! matplotlib을 활용한 데이터 시각화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 4. 14:47
우리는 앞서 회귀 분석을 배우면서 하나의 변인으로 다른 변인을 예측할 수 있다고 배웠어. SAT 점수(대학교에 입학하기 위한 시험, 미국의 수능)로 GPA(대학교 1학년의 학점 평균, 성적)를 예측해 봤지? 하지만 예측은 어디까지나 예측일 뿐! 완벽하진 않아. 말 그대로 예측이니까. 그럼 이런 궁금증이 생길 수 있어. SAT 점수를 통해 GPA를 예측할 수 있도록 회귀 방정식을 구해봤더니 어느정도 상관이 있는 것을 알게 되었잖아? 보통은 SAT 점수가 높은 학생들이 GPA도 좋았으니까. 그렇다면, 대체 SAT 점수와 GPA는 얼마 만큼의 상관이 있는 것일까? 이 질문에 대한 대답은 우리가 회귀를 배우면서 목표로 했던 두 가지 중에 후자가 될거야. ① SAT 점수를 통해 GPA를 예측하기. ② SAT 점수..
-
05-6 추정 표준오차와 신뢰구간의 계산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 1. 13:28
앞서 추정 표준오차에 대한 개념을 배웠어. 계산 방법이 특히나 더러웠지.. 그래도 잘 보면 회귀 방정식을 구하는 것과 비슷하기 때문에 회귀 방정식 계산하는 연습을 충분히 했다면 추정 표준오차를 계산하는 것도 어렵지 않을거야. 이번 시간에는 파이썬으로 추정 표준오차를 계산하는 방법에 대해 같이 실습해 볼게! - 추정 표준오차 Sy.x는 Sy.x = √{ ∑(점수-회귀선)² / 자유도 } =√{ ∑(Yi-Yh)² / (N-2) } 와 같이 구할 수 있었어. 그런데 Yh를 구하는 것이 까다롭기 때문에 (Sy.x)² =1/N(N-2) * [ N∑Y² - (∑Y)² - (N∑XY-∑X∑Y)² / {N∑X²-(∑X)²} ] Sy.x = √{(Sy.x)²} 와 같은 계산식을 사용하는게 실제 계산에서는 더 편리하다고 ..