데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학
-
06-4 상관 계수의 성질데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 6. 14:17
상관 계수에 대해 배우고 계산 하며서 상관 계수의 성질에 대해 알게 되긴 했지만, 이쁘게 정리한 적은 없는거 같아서 이번에 정리하고 넘어갈게! 우선 상관 계수, 혹은 피어슨 상관 계수, r 이라고 하는 것은 X와 Y간의 어떠한 관계가 있는지, 얼만큼의 관계가 있는지 알아보려는 지수였지? 양의 상관 관계가 있다면 X가 증가할 수록 Y도 증가하는 것이고, 음의 상관 관계가 있다면 X는 증가하지만 Y는 감소하는거야. 상관 정도가 크다면 r은 1이나 -1에 가까워 질 것이고, 상관 정도가 약하다면 0에 가까워 지겠지? 종합하면 -1 ≤ r ≤ 1 가 되는거지. 만약 X와 Y의 관계가 없다면 점수치들은 아주 동그란 고구마 처럼 보일거야. 그럼 Y의 평균선은 X와 평행할 것이고, 회귀선은 평균선 만큼의 높이를 가지..
-
06-3 피어슨 상관 계수, r 계산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 18:05
이전 시간의 피어슨 상관 계수를 구하기 위해 ESS, 예측 해서 줄인 차이의 제곱 합을 TSS, 전체 차이의 제곱 합으로 나눠주면 된다고 했지? r² = ∑(Yh-Ym)² / ∑(Yi-Ym)² r = √{ ∑(Yh-Ym)² / ∑(Yi-Ym)² } : √( ESS / TSS ) 대신 제곱근을 취할 땐 정적 상관 관계에서는 양의 제곱근, 부적 상관 관계에서는 음의 제곱근을 취한다고 했어. X와 Y가 정적 관계 일 때 : 0 ≤ r ≤ 1 X와 Y가 부적 관계 일 때 : -1 ≤ r ≤ 0 ∴ -1 ≤ r ≤ 1 그러나 이 공식은 손으로 계산하기엔 적합하진 않아. 회귀 방정식이 중간에 끼어있잖아. 실제적으로 계산하고자 한다면 r = {N(∑XY)-(∑X)(∑Y)} / √[{N∑X²-(∑X)²}{N∑Y²-(∑..
-
06-2 상관 계수의 유도 : 피어슨 상관 계수, r (feat. 전설의 통계학자들)데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 5. 13:57
드디어 나온 그 이름! 피! 어! 슨! 오늘은 칼 피어슨(Karl Pearson)의 상관 계수(또는 적률 상관 계수), r에 대해 다뤄볼 거야. 이 집안은 통계학을 다 해먹는 집안이라 우리가 꼭 알아야 하는 가문이야. 통계학에서 칼 피어슨이 왜 중요하냐면.. 대학의 '통계학과'를 세계 최초로 설립한 인물이기 때문이야. 말 그대로 통계학의 아버지이자 어머니 그야말로 통계학의 마더파더.. 그저 갓.. 찬양.. 칼 피어슨에 대해 살펴보기 전에 우리가 통계학에서 기억해야 하는 인물들을 시대 순으로 정리하고 갈까? 공부 하다보면 이런게 재밌지.. 대신 기원전 인물들 까지 다루면 넘 많이질거 같으니까 기원후로만 다뤄볼게. - 전설의 통계학자들 1. 요한 카를 프리드리히 가우스 (Johann Carl Friedric..
-
06-1 상관 : RSS와 ESS 혹은 SSE와 SSR 그리고 TSS와 SST 으악! matplotlib을 활용한 데이터 시각화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 4. 14:47
우리는 앞서 회귀 분석을 배우면서 하나의 변인으로 다른 변인을 예측할 수 있다고 배웠어. SAT 점수(대학교에 입학하기 위한 시험, 미국의 수능)로 GPA(대학교 1학년의 학점 평균, 성적)를 예측해 봤지? 하지만 예측은 어디까지나 예측일 뿐! 완벽하진 않아. 말 그대로 예측이니까. 그럼 이런 궁금증이 생길 수 있어. SAT 점수를 통해 GPA를 예측할 수 있도록 회귀 방정식을 구해봤더니 어느정도 상관이 있는 것을 알게 되었잖아? 보통은 SAT 점수가 높은 학생들이 GPA도 좋았으니까. 그렇다면, 대체 SAT 점수와 GPA는 얼마 만큼의 상관이 있는 것일까? 이 질문에 대한 대답은 우리가 회귀를 배우면서 목표로 했던 두 가지 중에 후자가 될거야. ① SAT 점수를 통해 GPA를 예측하기. ② SAT 점수..
-
05-6 추정 표준오차와 신뢰구간의 계산데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 1. 13:28
앞서 추정 표준오차에 대한 개념을 배웠어. 계산 방법이 특히나 더러웠지.. 그래도 잘 보면 회귀 방정식을 구하는 것과 비슷하기 때문에 회귀 방정식 계산하는 연습을 충분히 했다면 추정 표준오차를 계산하는 것도 어렵지 않을거야. 이번 시간에는 파이썬으로 추정 표준오차를 계산하는 방법에 대해 같이 실습해 볼게! - 추정 표준오차 Sy.x는 Sy.x = √{ ∑(점수-회귀선)² / 자유도 } =√{ ∑(Yi-Yh)² / (N-2) } 와 같이 구할 수 있었어. 그런데 Yh를 구하는 것이 까다롭기 때문에 (Sy.x)² =1/N(N-2) * [ N∑Y² - (∑Y)² - (N∑XY-∑X∑Y)² / {N∑X²-(∑X)²} ] Sy.x = √{(Sy.x)²} 와 같은 계산식을 사용하는게 실제 계산에서는 더 편리하다고 ..
-
05-5 추정 표준오차 그리고 자유도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 31. 16:30
추정 표준오차 (Standard Error of Estimate, SEE) 우리는 앞서 점수치들을 대표할 수 있는 회귀선을 그려봤어. X에서 Y를 예측하려고 말야. 아마 대부분의 상황에서는 점수치들이 회귀선과 떨어져 있을거야. 행동 과학에서 모든 점수치들이 회귀선 위에 있는 경우는 매우 드물겠지? 암튼 우리가 아무리 모든 점수치들을 잘 대표하는 회귀선을 그린다고 해서 그 회귀선이 완벽한 것은 아니야. 모든 점수치들이 회귀선상에 있지는 않을 거니까. 오차가 존재하는 것이지. 이런 경우를 생각해 봐. A대학교와 B대학교 둘 다 SAT 점수로 GPA를 예측하기 위해 회귀 분석을 했어. 그리고 회귀선을 그려냈는데! 회귀선이 똑같은거야! 오우 이럴수가! 하지만 회귀 분석을 하기 위한 학생들의 점수는 서로 달랐지 ..
-
05-4 회귀선 그리기 : matplotlib를 활용한 데이터 시각화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 30. 14:34
저번 시간에 이어서! 회귀 방정식을 구했다면 실제 회귀선을 그려봐야겠지? 회귀 방정식은 간단한 일차방정식이니 matplotlib을 활용하면 쉽게 그릴 수 있을거야. 데이터가 넘 많으면 보기 어려우니까 저번처럼 다섯명의 SAT 점수와 GPA를 가지고 회귀방정식을 구하고 회귀선을 그려볼게. 다섯명의 SAT 점수와 GPA를 가지고 구한 회귀방정식의 코드는 아래와 같아. 저번 시간에 했던 내용이기 때문에 기억하고 있지? 대신 변수 Yh에 회귀방정식을 문자열로 정리해서 넣어주었어. 이 땐 '+' 연산자를 활용하면 문자들끼리 합칠 수 있는데, a와 b가 숫자이기 때문에 'str()' 함수로 감싸서 문자열로 변환해 주었어. 이제 이 일차방정식을 가지고 회귀선을 그리면 되겠네! - 회귀선 그리기 먼저 다섯명의 점수를 ..
-
05-3 회귀상수와 회귀선데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 29. 20:01
우리가 회귀를 배우려는 목적은 뭘까? 회귀란, 평균으로 돌아간다는 뜻이었잖아. 찰스 다윈의 진화론으로부터 시작해서 프랜시스 골턴으로 이어지는 회귀에 대한 개념은 통계학에서 굉장히 큰 비중을 차지하는 중요한 것이지! 그럼 회귀를 배우려는 목적은? 평균으로 돌아가려고? 다시, 통계학을 배우려는 원론적인 목적에 대해 생각해 보면, 부분에서 전체를, 과거에서 미래를 엿보려는 인간의 수학적 시도가 되겠지. 회귀가 그래. 과거에서 미래를 엿보려는 시도지. 그럼 어떻게 하면 과거로부터 미래를 엿볼 수 있을까? 우리는 아래의 사례를 가지고 한 참 동안 회귀에 대해 배우면서 어떻게 하면 과거로부터 미래를 엿볼 수 있는지 배워볼 거야. - SAT 점수와 GPA의 관계 대학교에 입학하고자 하는 열의는 비단 한국에만 존재하는..