어제 만난 가장 보통의 순간을 믿어요
-
04-4 표준점수의 평균과 표준편차데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:18
이전 시간에 표준점수에 대해 배웠어. 표준점수가 필요한 이유는? 점수들의 척도가 다 다르니까 하나의 표준화된 척도로 맞춰주기 위해! 하나의 표준화된 척도로 맞추려면 다 다른 점수를 하나의 표준화된 점수로 맞춰주면 좋잖아? 척도는 상수를 더하거나 곱해서 변화시킬 수 있으니까! 기억나지? 그리고 원점수와 평균점수가 같다면 표준점수는 0이 될 수 밖에 없었지! 이 이야기를 조금 더 해볼게. 먼저 점수들을 볼까? 1학기 2학기 원점수 표준점수 원점수 표준점수 40 -1.15 40 -1.10 50 -0.69 45 -0.88 60 -0.23 65 0.00 85 0.92 85 0.88 90 1.15 90 1.10 우리는 원점수에서 평균을 뺀 다음 표준편차로 나눠서 표준점수를 구할 수 있었지. 그런데 혹시.. 이런 생..
-
04-3 파이썬으로 표준화데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 21:16
표준화를 직접 해보니까 어때? 굉장히 복잡해 보이지만 어렵지 않은 더러운 느낌이 나지.. 변수도 많고 과정도 코드로 구현하니까 길었잖아? 복습 차원에서 코드를 다시 한 번 쳐다볼까? 다시 봐도 참 길군.. 그럼 혹시 모듈이나 라이브러리를 사용하면 좀 더 쉽게 표준화를 할 수 있지 않을까?! - 우선 통계적 수치를 계산할 때 사용되는 파이썬 표준 라이브러리의 'statistics' 모듈을 활용해 볼게. statistics 모듈을 사용하면 표준점수를 엄청 간단하게 구할 수 있었지? 표준점수를 구하기 위해선 평균과 표준편차를 알아야 하는데 평균은 statistics 모듈의 'mean()' 함수로, 표준편차는 'stedv()' 함수로 구할 수 있어. 그리고 'statistics' 모듈은 통계학의 약자인 'sta..
-
04-2 표준화와 표준점수데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:57
이전 시간에 표준척도에 대해 사알짝 배워봤어. 척도는 변환될 수 있다는 것을 배웠으니, '여러 척도를 하나의 표준화 된 척도로 만든다면 비교하기 쉽지 않을까?' 라는 생각을 할 수 있게 되었지! 그치? 그러한 척도를 표준척도라 하고, 이 때 사용되는 점수가 표준점수가 돼. 표준점수에 대해 좀 더 살펴볼까? 나의 1학기 국어 시험 점수가 85점이라고 가정해 볼게. 2학기 국어 시험 점수도 85점이라고 해 볼게. 앞서 배웠듯이 절대적으로 관측되는 수치는 별 의미가 없다고 했지? 이 85점이라는 점수가 정말 높은 점수인지 낮은 점수인지는 바로 알 수 없어. 비교 대상들이 필요하지. 1학기와 2학기의 시험 점수가 아래와 같다고 가정해 볼게. 1학기 우리 조 국어 시험 점수들 : 85(내 점수), 84, 83, ..
-
04-1 척도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:17
'척도(scale)'란 말 그대로 대상을 관측한 속성값을 타나내는 도구야. 그런데 관찰 대상이 같더라도 관측한 속성값은 다를 수 있어. 다양한 국가와 인종이 있는 만큼 척도도 다양 할 수 있지! 그래서 '표준척도(standard scale)'가 필요해. 척도의 표준을 맞춰야만 상대적으로 비교하기 쉽겠지? 그러나 미국 사람들은 표준척도에 대해서 아는 척도 하면 안 돼. 거기는 척도가 개판이거든. 미터법에서 물 1mL의 부피가 1cm³이고, 질량이 1g이며, 온도를 1℃ 올리는 데 에너지 1 cal가 필요해. 여기서 1℃는 물의 어는점과 끓는점 간극의 1%를 말하지. 또한, 수소 1g에 들어있는 수소원자의 양은 정확히 1 mol이야. 반면 미국의 단위계에서 '물 1갤런을 끓이기 위해 얼마나 많은가?'라는 질..
-
03-8 모집단과 표본집단 : 모수치와 통계치데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:15
모집단에서 표본집단을 추출하는 이유가 뭐라고했지? 시간과 돈과 노력과이 많이 드니까, 오래걸리고 돈도 많이 들고 귀찮으니까! 나는 베짱이! 우리는 전에 주의력결핍과잉행동장애(ADHD)를 앓고있는 학생들에게 리탈린이라는 약을 투여해서 학업 향상에 효과가 있는지 알아보기 위한 이야기를 했잖아. https://kimhaksung.tistory.com/entry/pytong01-2 01-2 기술 통계와 추론 통계 : 가설 검증 그럼 이제 본격적으로 통계학에 대해 배워볼까? 통계학이란 자료라고 불리는 양적 정보를 기술하고 해석하기 위한 방법을 연구하는 학문이야. 통계학의 정의만 보아도 4차 산업 시대에 가장 kimhaksung.tistory.com 기억나지? 이 실험에서 모집단은 ADHD를 앓고 있는 전 세계 학..
-
03-7 변산성의 지표 2 : 분산과 표준편차카테고리 없음 2022. 3. 17. 14:54
이제 표준편차(standard deviation)에 대해서 배울건데, 표준편차를 배우기에 앞서 분산과 편차에 대해 다시 생각해 볼 필요가 있어. 편차 제곱의 합이 분산이었고, 편차는 점수가 평균으로부터 떨어진 정도였지? 제곱을 한 이유는 편차들을 다 더하면 0이 되어버리기 때문이었고. 기억하지? 그리고 초등학교 때 배웠던 것을 떠올려보면 제곱을 통해 정사각형의 면적을 구할 수 있잖아? 편차 제곱도 마찬가지야. 편차를 제곱 하면 편차의 면적을 구할 수 있지. 그리고 그것들을 다 더해서 나눠주면 편차 면적들의 평균을 구할 수 있어. 결국 분산은 편차 면적들의 평균이 되는거야. 그럼 편차의 면적을 다시 편차로 되돌려놓으려면 어떻게 하면 될까? 간단해! 루트를 씌우면 되지! 분산, 즉 편차 면적들의 평균에 루트..
-
03-6 변산성의 지표 1 : 분산과 자유도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 14:24
드디어 분산과 표준편차가 등장했구나~!~! 사실 이전까지의 글들은 분산과 표준편차에 대해 설명하기 위한 빌드업이었지. 빌드업치곤 너무 긴거 아니냐고? 그만큼 분산과 표준편차가 중요하니까! 빌드업도 길게 했던거지! 분산과 표준편차에 대해 알아보기 전에 변산성에 대한 정의를 다시 떠올려볼까? 변산성은 '점수들이 흩어진 정도', '점수들이 평균에서 떨어진 정도', '점수들이 서로 다른 정도'와 같은 의미를 갖고 있었어. 기억나지? 예를 들어 A집단의 점수들이 '60, 70, 80'이고 B집단의 점수들이 '50, 70, 90'이라고 가정해 볼게. 두 집단의 평균은 70으로 같겠지만 B집단이 A집단보다 변산성이 더 크지! B집단의 점수들이 평균으로부터 더 많이 떨어져있기 때문이야. 그럼 변산성에 대한 개념을 알았..
-
03-5 중심경향의 지표들과 파이썬 : 라이브러리와 모듈데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 16. 17:10
중심경향의 지표들을 파이썬으로 구하기 위한 방법들을 살펴봤어. 평균, 중앙값 그리고 최빈값이었지. 파이썬, 혹은 프로그래밍을 조금이라도 배워봤던 친구들은 그렇게 어렵지 않았겠지만 파이썬을 처음 배웠다면 쉽지는 않았을지도 몰라. 중심경향을 구하기 위한 알고리즘을 코드로 구현해 놓은 것들을 단 번에 이해하는건 큰 도전이기 때문이지. 여기까지 따라 온 것만 해도 정말 대단한거야. 고마워! 그런데, '데이터 분석을 위해 파이썬을 배우고 있는건데 왜 파이썬만의 특별함이 없는 것 같지?' 라는 의문이 들지 않았어? 여러가지 코드들을 살펴 보면 다른 프로그래밍 언어에서도 동작할 수 있는 로직으로 짜여진 것을 알 수 있어. 꼭 파이썬이 아니라 C언어나 java에서도 동작할 수 있는 코드들이지. 그럼 '뭣 하러 굳이 파..