데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학
-
05-2 회귀 분석 시각화를 위한 matplotlib데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 28. 17:04
라이브러리의 이름에서도 알 수 있듯이 이번 시간에는 mat(h):수학, plot:그래프, lib(rary):라이브러리! 맷플롯립을 배워볼거야. 데이터 그래프를 그리기에 아주 좋은 라이브러리지! 정규 분포 그래프에 대해 잠깐 배웠었지? https://kimhaksung.tistory.com/entry/pytong04-7 04-7 정규분포 그래프 그리기 : matplotlib를 활용한 데이터 시각화 그리고 확률 밀도 함수 이제 이 단원의 마지막이야! 끝이 멋있어야지? 정규분포 그래프를 그려볼거야! 일단 정규분포 그래프를 그리기 위해선 표준화를 해야 될 거고, 표준화를 하기 위해선 원점수가 필요할거야. kimhaksung.tistory.com 이번 시간에는 회귀 분석에 앞서 본격적으로 맷플롯 라이브러리를 배우..
-
05-1 회귀 : 선형적 관계성데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 23. 15:52
드디어 회귀를 배울 시간이 왔어! 회귀는 진짜 재밌으니까 여러분들도 재미있게 배웠음 좋겠네!! '회귀(regression)'란 말 그대로 돌아가는 것을 뜻 해. 회귀라는 단어만 듣고는 무슨 뜻인지 감이 안와. 어디로 돌아가야 될지를 모르니까. 그럼 어디로 돌아가면 될까? 우리가 통계를 배우는 이유를! 또! 생각해 보면, 전체를 조사하기에는 시간도 너무 오래 걸리고 돈도 많이 들고 귀찮고.. 그치? 그래서 전체를 대표할 수 있는 무언가가 있으면 참 좋겠다~ 라는 이유 땜에 배우고 있잖아. 회귀는 전체를 대표할 수 있는 무언가로 돌아가는 것을 뜻 해. 그럼 무언가는 뭘까? 이제부터 배워야지! 통계학은 참 멋있는 학문이야. 부분으로 부터 전체를 엿볼 수 있잖아. 정말 신기할 일이지. 우리가 조금의 통계학적 지..
-
04-7 정규분포 그래프 그리기 : matplotlib를 활용한 데이터 시각화 그리고 확률 밀도 함수데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 22. 22:58
이제 이 단원의 마지막이야! 끝이 멋있어야지? 정규분포 그래프를 그려볼거야! 일단 정규분포 그래프를 그리기 위해선 표준화를 해야 될 거고, 표준화를 하기 위해선 원점수가 필요할거야. 여태까지 배운 내용들을.. 기억하지? 기억이 잘 나지 않을수도 있으니까 정리해 줄게! 1. 원점수들이 있다면, N(점수들의 총 개수)와 m(산술 평균)을 구할 수 있다. 2. N과 m을 안다면 v(분산)과 s(표준편차)를 구할 수 있다. 3. m과 s를 안다면 원점수를 표준화 할 수 있다. 4. 표준화를 한다면 표준정규분포표를 이용해 백분위를 쉽게 알 수 있다. 그럼 원점수들을 가지고 직접 그래프를 그려보면 뭔가 보이지 않을까..? 대신 이번에는 준비된 데이터가 아니라 동전을 던져 볼거야. 동전을 10번 던졌을 때 앞면이 나..
-
04-6 표준정규분포의 넓이와 백분위 그리고 표준정규분포표데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 18. 17:21
여태까지 표준화를 하기 위해 많은 연습들을 해 왔어. 그리고 어떤 데이터라도 표준화를 한다면 평균이 0, 표준편차가 1이 된다는것도 알았지. 그럼 평균이 0이고 표준편차가 1이라는 것 이외에 무엇을 알수 있을까? 통계에 대해 공부하기 위해서는 '확률'에 대해 알아야 돼. 그래서 고등학교 땐 '확률과 통계'로 배우잖아. 줄여서 확통! 그 만큼 통계와 확률이 밀접한 관계를 가지고 있기 때문이야. 그리고 확률에 대해 떠올려보면 전체는 100%라는 개념이 떠 오를거야. 바꿔 말하면 전체는 1이지. 어? 표준정규분포 또한 표준편차가 1인데? 1이라는 숫자가 자주 등장하는거 보니 또 무언가 연관성이 있지 않을까? 우리는 여러가지 통계적 지표들을 배워오면서 절대적인 수치보다 중요한 것은 상대적인 의미라는 것을 알게 ..
-
04-5 정규분포와 표준정규분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:19
앞서 우리는 원점수를 표준화하여 표준점수를 구해봤어. 그리고 표준점수를 활용한다면 다양한 척도의 다양한 값들을 비교하는것이 매우 용이하다는 것을 알게 되었지! 오예~! 세상에는 엄청 많은 수치들이 존재할거야. 바둑판만해도 우주의 별 보다 많은 경우의 수 들이 존재하잖아. 이러한 숫자들에 어떠한 규칙은 없을까? 우리의 뇌로 이 세상의 존재하는 모든 숫자들을 다 고려할 수 없기 때문에 한 가지 상상을 해 볼거야. 여러분이 원하는 한 가지 분야를 골라서 가상의 평균을 구해보는거야. 예를 들어 '모든 한국인들의 키'라고 해 볼까? 전 국민의 신장을 실시간으로 조사하는 방법은 존재하지 않기 때문에 상상을 해 보자는거지. 그리고 상상한 모든 키 들의 평균도 정할 수 있을거야. 어차피 내 상상일 뿐이니 정확하지 않아..
-
04-4 표준점수의 평균과 표준편차데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:18
이전 시간에 표준점수에 대해 배웠어. 표준점수가 필요한 이유는? 점수들의 척도가 다 다르니까 하나의 표준화된 척도로 맞춰주기 위해! 하나의 표준화된 척도로 맞추려면 다 다른 점수를 하나의 표준화된 점수로 맞춰주면 좋잖아? 척도는 상수를 더하거나 곱해서 변화시킬 수 있으니까! 기억나지? 그리고 원점수와 평균점수가 같다면 표준점수는 0이 될 수 밖에 없었지! 이 이야기를 조금 더 해볼게. 먼저 점수들을 볼까? 1학기 2학기 원점수 표준점수 원점수 표준점수 40 -1.15 40 -1.10 50 -0.69 45 -0.88 60 -0.23 65 0.00 85 0.92 85 0.88 90 1.15 90 1.10 우리는 원점수에서 평균을 뺀 다음 표준편차로 나눠서 표준점수를 구할 수 있었지. 그런데 혹시.. 이런 생..
-
04-3 파이썬으로 표준화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:16
표준화를 직접 해보니까 어때? 굉장히 복잡해 보이지만 어렵지 않은 더러운 느낌이 나지.. 변수도 많고 과정도 코드로 구현하니까 길었잖아? 복습 차원에서 코드를 다시 한 번 쳐다볼까? 다시 봐도 참 길군.. 그럼 혹시 모듈이나 라이브러리를 사용하면 좀 더 쉽게 표준화를 할 수 있지 않을까?! - 우선 통계적 수치를 계산할 때 사용되는 파이썬 표준 라이브러리의 'statistics' 모듈을 활용해 볼게. statistics 모듈을 사용하면 표준점수를 엄청 간단하게 구할 수 있었지? 표준점수를 구하기 위해선 평균과 표준편차를 알아야 하는데 평균은 statistics 모듈의 'mean()' 함수로, 표준편차는 'stedv()' 함수로 구할 수 있어. 그리고 'statistics' 모듈은 통계학의 약자인 'sta..
-
04-2 표준화와 표준점수데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:57
이전 시간에 표준척도에 대해 사알짝 배워봤어. 척도는 변환될 수 있다는 것을 배웠으니, '여러 척도를 하나의 표준화 된 척도로 만든다면 비교하기 쉽지 않을까?' 라는 생각을 할 수 있게 되었지! 그치? 그러한 척도를 표준척도라 하고, 이 때 사용되는 점수가 표준점수가 돼. 표준점수에 대해 좀 더 살펴볼까? 나의 1학기 국어 시험 점수가 85점이라고 가정해 볼게. 2학기 국어 시험 점수도 85점이라고 해 볼게. 앞서 배웠듯이 절대적으로 관측되는 수치는 별 의미가 없다고 했지? 이 85점이라는 점수가 정말 높은 점수인지 낮은 점수인지는 바로 알 수 없어. 비교 대상들이 필요하지. 1학기와 2학기의 시험 점수가 아래와 같다고 가정해 볼게. 1학기 우리 조 국어 시험 점수들 : 85(내 점수), 84, 83, ..