어제 만난 가장 보통의 순간을 믿어요
-
05-5 추정 표준오차 그리고 자유도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 31. 16:30
추정 표준오차 (Standard Error of Estimate, SEE) 우리는 앞서 점수치들을 대표할 수 있는 회귀선을 그려봤어. X에서 Y를 예측하려고 말야. 아마 대부분의 상황에서는 점수치들이 회귀선과 떨어져 있을거야. 행동 과학에서 모든 점수치들이 회귀선 위에 있는 경우는 매우 드물겠지? 암튼 우리가 아무리 모든 점수치들을 잘 대표하는 회귀선을 그린다고 해서 그 회귀선이 완벽한 것은 아니야. 모든 점수치들이 회귀선상에 있지는 않을 거니까. 오차가 존재하는 것이지. 이런 경우를 생각해 봐. A대학교와 B대학교 둘 다 SAT 점수로 GPA를 예측하기 위해 회귀 분석을 했어. 그리고 회귀선을 그려냈는데! 회귀선이 똑같은거야! 오우 이럴수가! 하지만 회귀 분석을 하기 위한 학생들의 점수는 서로 달랐지 ..
-
05-4 회귀선 그리기 : matplotlib를 활용한 데이터 시각화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 30. 14:34
저번 시간에 이어서! 회귀 방정식을 구했다면 실제 회귀선을 그려봐야겠지? 회귀 방정식은 간단한 일차방정식이니 matplotlib을 활용하면 쉽게 그릴 수 있을거야. 데이터가 넘 많으면 보기 어려우니까 저번처럼 다섯명의 SAT 점수와 GPA를 가지고 회귀방정식을 구하고 회귀선을 그려볼게. 다섯명의 SAT 점수와 GPA를 가지고 구한 회귀방정식의 코드는 아래와 같아. 저번 시간에 했던 내용이기 때문에 기억하고 있지? 대신 변수 Yh에 회귀방정식을 문자열로 정리해서 넣어주었어. 이 땐 '+' 연산자를 활용하면 문자들끼리 합칠 수 있는데, a와 b가 숫자이기 때문에 'str()' 함수로 감싸서 문자열로 변환해 주었어. 이제 이 일차방정식을 가지고 회귀선을 그리면 되겠네! - 회귀선 그리기 먼저 다섯명의 점수를 ..
-
05-3 회귀상수와 회귀선데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 29. 20:01
우리가 회귀를 배우려는 목적은 뭘까? 회귀란, 평균으로 돌아간다는 뜻이었잖아. 찰스 다윈의 진화론으로부터 시작해서 프랜시스 골턴으로 이어지는 회귀에 대한 개념은 통계학에서 굉장히 큰 비중을 차지하는 중요한 것이지! 그럼 회귀를 배우려는 목적은? 평균으로 돌아가려고? 다시, 통계학을 배우려는 원론적인 목적에 대해 생각해 보면, 부분에서 전체를, 과거에서 미래를 엿보려는 인간의 수학적 시도가 되겠지. 회귀가 그래. 과거에서 미래를 엿보려는 시도지. 그럼 어떻게 하면 과거로부터 미래를 엿볼 수 있을까? 우리는 아래의 사례를 가지고 한 참 동안 회귀에 대해 배우면서 어떻게 하면 과거로부터 미래를 엿볼 수 있는지 배워볼 거야. - SAT 점수와 GPA의 관계 대학교에 입학하고자 하는 열의는 비단 한국에만 존재하는..
-
05-2 회귀 분석 시각화를 위한 matplotlib데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 28. 17:04
라이브러리의 이름에서도 알 수 있듯이 이번 시간에는 mat(h):수학, plot:그래프, lib(rary):라이브러리! 맷플롯립을 배워볼거야. 데이터 그래프를 그리기에 아주 좋은 라이브러리지! 정규 분포 그래프에 대해 잠깐 배웠었지? https://kimhaksung.tistory.com/entry/pytong04-7 04-7 정규분포 그래프 그리기 : matplotlib를 활용한 데이터 시각화 그리고 확률 밀도 함수 이제 이 단원의 마지막이야! 끝이 멋있어야지? 정규분포 그래프를 그려볼거야! 일단 정규분포 그래프를 그리기 위해선 표준화를 해야 될 거고, 표준화를 하기 위해선 원점수가 필요할거야. kimhaksung.tistory.com 이번 시간에는 회귀 분석에 앞서 본격적으로 맷플롯 라이브러리를 배우..
-
05-1 회귀 : 선형적 관계성데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 23. 15:52
드디어 회귀를 배울 시간이 왔어! 회귀는 진짜 재밌으니까 여러분들도 재미있게 배웠음 좋겠네!! '회귀(regression)'란 말 그대로 돌아가는 것을 뜻 해. 회귀라는 단어만 듣고는 무슨 뜻인지 감이 안와. 어디로 돌아가야 될지를 모르니까. 그럼 어디로 돌아가면 될까? 우리가 통계를 배우는 이유를! 또! 생각해 보면, 전체를 조사하기에는 시간도 너무 오래 걸리고 돈도 많이 들고 귀찮고.. 그치? 그래서 전체를 대표할 수 있는 무언가가 있으면 참 좋겠다~ 라는 이유 땜에 배우고 있잖아. 회귀는 전체를 대표할 수 있는 무언가로 돌아가는 것을 뜻 해. 그럼 무언가는 뭘까? 이제부터 배워야지! 통계학은 참 멋있는 학문이야. 부분으로 부터 전체를 엿볼 수 있잖아. 정말 신기할 일이지. 우리가 조금의 통계학적 지..
-
04-7 정규분포 그래프 그리기 : matplotlib를 활용한 데이터 시각화 그리고 확률 밀도 함수데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 22. 22:58
이제 이 단원의 마지막이야! 끝이 멋있어야지? 정규분포 그래프를 그려볼거야! 일단 정규분포 그래프를 그리기 위해선 표준화를 해야 될 거고, 표준화를 하기 위해선 원점수가 필요할거야. 여태까지 배운 내용들을.. 기억하지? 기억이 잘 나지 않을수도 있으니까 정리해 줄게! 1. 원점수들이 있다면, N(점수들의 총 개수)와 m(산술 평균)을 구할 수 있다. 2. N과 m을 안다면 v(분산)과 s(표준편차)를 구할 수 있다. 3. m과 s를 안다면 원점수를 표준화 할 수 있다. 4. 표준화를 한다면 표준정규분포표를 이용해 백분위를 쉽게 알 수 있다. 그럼 원점수들을 가지고 직접 그래프를 그려보면 뭔가 보이지 않을까..? 대신 이번에는 준비된 데이터가 아니라 동전을 던져 볼거야. 동전을 10번 던졌을 때 앞면이 나..
-
04-6 표준정규분포의 넓이와 백분위 그리고 표준정규분포표데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 18. 17:21
여태까지 표준화를 하기 위해 많은 연습들을 해 왔어. 그리고 어떤 데이터라도 표준화를 한다면 평균이 0, 표준편차가 1이 된다는것도 알았지. 그럼 평균이 0이고 표준편차가 1이라는 것 이외에 무엇을 알수 있을까? 통계에 대해 공부하기 위해서는 '확률'에 대해 알아야 돼. 그래서 고등학교 땐 '확률과 통계'로 배우잖아. 줄여서 확통! 그 만큼 통계와 확률이 밀접한 관계를 가지고 있기 때문이야. 그리고 확률에 대해 떠올려보면 전체는 100%라는 개념이 떠 오를거야. 바꿔 말하면 전체는 1이지. 어? 표준정규분포 또한 표준편차가 1인데? 1이라는 숫자가 자주 등장하는거 보니 또 무언가 연관성이 있지 않을까? 우리는 여러가지 통계적 지표들을 배워오면서 절대적인 수치보다 중요한 것은 상대적인 의미라는 것을 알게 ..
-
04-5 정규분포와 표준정규분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:19
앞서 우리는 원점수를 표준화하여 표준점수를 구해봤어. 그리고 표준점수를 활용한다면 다양한 척도의 다양한 값들을 비교하는것이 매우 용이하다는 것을 알게 되었지! 오예~! 세상에는 엄청 많은 수치들이 존재할거야. 바둑판만해도 우주의 별 보다 많은 경우의 수 들이 존재하잖아. 이러한 숫자들에 어떠한 규칙은 없을까? 우리의 뇌로 이 세상의 존재하는 모든 숫자들을 다 고려할 수 없기 때문에 한 가지 상상을 해 볼거야. 여러분이 원하는 한 가지 분야를 골라서 가상의 평균을 구해보는거야. 예를 들어 '모든 한국인들의 키'라고 해 볼까? 전 국민의 신장을 실시간으로 조사하는 방법은 존재하지 않기 때문에 상상을 해 보자는거지. 그리고 상상한 모든 키 들의 평균도 정할 수 있을거야. 어차피 내 상상일 뿐이니 정확하지 않아..