데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학
-
04-1 척도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:17
'척도(scale)'란 말 그대로 대상을 관측한 속성값을 타나내는 도구야. 그런데 관찰 대상이 같더라도 관측한 속성값은 다를 수 있어. 다양한 국가와 인종이 있는 만큼 척도도 다양 할 수 있지! 그래서 '표준척도(standard scale)'가 필요해. 척도의 표준을 맞춰야만 상대적으로 비교하기 쉽겠지? 그러나 미국 사람들은 표준척도에 대해서 아는 척도 하면 안 돼. 거기는 척도가 개판이거든. 미터법에서 물 1mL의 부피가 1cm³이고, 질량이 1g이며, 온도를 1℃ 올리는 데 에너지 1 cal가 필요해. 여기서 1℃는 물의 어는점과 끓는점 간극의 1%를 말하지. 또한, 수소 1g에 들어있는 수소원자의 양은 정확히 1 mol이야. 반면 미국의 단위계에서 '물 1갤런을 끓이기 위해 얼마나 많은가?'라는 질..
-
03-8 모집단과 표본집단 : 모수치와 통계치데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:15
모집단에서 표본집단을 추출하는 이유가 뭐라고했지? 시간과 돈과 노력과이 많이 드니까, 오래걸리고 돈도 많이 들고 귀찮으니까! 나는 베짱이! 우리는 전에 주의력결핍과잉행동장애(ADHD)를 앓고있는 학생들에게 리탈린이라는 약을 투여해서 학업 향상에 효과가 있는지 알아보기 위한 이야기를 했잖아. https://kimhaksung.tistory.com/entry/pytong01-2 01-2 기술 통계와 추론 통계 : 가설 검증 그럼 이제 본격적으로 통계학에 대해 배워볼까? 통계학이란 자료라고 불리는 양적 정보를 기술하고 해석하기 위한 방법을 연구하는 학문이야. 통계학의 정의만 보아도 4차 산업 시대에 가장 kimhaksung.tistory.com 기억나지? 이 실험에서 모집단은 ADHD를 앓고 있는 전 세계 학..
-
03-6 변산성의 지표 1 : 분산과 자유도데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 14:24
드디어 분산과 표준편차가 등장했구나~!~! 사실 이전까지의 글들은 분산과 표준편차에 대해 설명하기 위한 빌드업이었지. 빌드업치곤 너무 긴거 아니냐고? 그만큼 분산과 표준편차가 중요하니까! 빌드업도 길게 했던거지! 분산과 표준편차에 대해 알아보기 전에 변산성에 대한 정의를 다시 떠올려볼까? 변산성은 '점수들이 흩어진 정도', '점수들이 평균에서 떨어진 정도', '점수들이 서로 다른 정도'와 같은 의미를 갖고 있었어. 기억나지? 예를 들어 A집단의 점수들이 '60, 70, 80'이고 B집단의 점수들이 '50, 70, 90'이라고 가정해 볼게. 두 집단의 평균은 70으로 같겠지만 B집단이 A집단보다 변산성이 더 크지! B집단의 점수들이 평균으로부터 더 많이 떨어져있기 때문이야. 그럼 변산성에 대한 개념을 알았..
-
03-5 중심경향의 지표들과 파이썬 : 라이브러리와 모듈데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 16. 17:10
중심경향의 지표들을 파이썬으로 구하기 위한 방법들을 살펴봤어. 평균, 중앙값 그리고 최빈값이었지. 파이썬, 혹은 프로그래밍을 조금이라도 배워봤던 친구들은 그렇게 어렵지 않았겠지만 파이썬을 처음 배웠다면 쉽지는 않았을지도 몰라. 중심경향을 구하기 위한 알고리즘을 코드로 구현해 놓은 것들을 단 번에 이해하는건 큰 도전이기 때문이지. 여기까지 따라 온 것만 해도 정말 대단한거야. 고마워! 그런데, '데이터 분석을 위해 파이썬을 배우고 있는건데 왜 파이썬만의 특별함이 없는 것 같지?' 라는 의문이 들지 않았어? 여러가지 코드들을 살펴 보면 다른 프로그래밍 언어에서도 동작할 수 있는 로직으로 짜여진 것을 알 수 있어. 꼭 파이썬이 아니라 C언어나 java에서도 동작할 수 있는 코드들이지. 그럼 '뭣 하러 굳이 파..
-
03-4 중심경향의 지표 : 최빈값데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 16. 00:20
다음으로는 최빈값에 대해 살펴볼게. 최빈값(mode)은 점수치들 중에서 가장 빈번하게 나타나는 놈을 뜻 해. 만약 점수치들이 '1, 2, 2, 3, 3, 3, 4, 4, 4, 4'와 같다면? 1이 한 개, 2가 두 개, 3이 세 개, 4가 네 개로 4가 가장 많이 등장하는 것을 알 수 있어. 그럼 4가 이 점수치들의 최빈값이 되는거야. 진짜 쉽지? 어? 그런데 만약 최빈값이 둘 이라면? 만약 점수치들이 '5, 6, 6, 7, 7, 7, 8, 8, 8'과 같다면 7과 8이 각각 세 번씩 등장하기 때문에 동률이 돼. 그럼 이 때 어떤 놈을 최빈값으로 해야 될까? 중앙값을 구했던 때 처럼 둘의 평균을 최빈값으로 할까? 안돼! 멈춰! 동률인 최빈값이 관측되었다면, 따로 무슨 짓을 하지 않아도 돼. 둘 다 최빈값..
-
03-3 중심경향의 지표 : 중앙값과 조건문 2데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 22:06
이제 조건문에 대해 배웠으니 중앙값을 구해볼까? 1, 3, 5, 7, 9와 같이 홀수개의 숫자들의 중앙값과 2, 4, 6, 8과 같이 짝수개의 숫자들의 중앙값을 구해 볼거야. 앞서 배웠듯이 홀수개와 짝수개 일때 중앙값을 구하는 방법이 달라. 숫자들이 홀수개라면 말 그대로 중앙에 있는 값이 중앙값이 되는거고, 짝수개라면 중앙에 있는 두 값의 평균이 중앙값이 되는거지. 그렇다면! 숫자들이 모두 몇 개인지 알아야겠네? 그 다음엔 홀수개인지 짝수개인지 판별하면 될 거고. 1, 3, 5, 7, 9나 2, 4, 6, 8은 숫자가 몇 개 안되기 때문에 눈으로 세기 쉬워. 하지만 숫자가 많으면 눈으로 세는 것이 어려워질 수 밖에 없겠지? 이 땐 우리가 배웠던 'len()'이라는 내장 함수를 이용하면 돼. 'len()'..
-
03-2 중심경향의 지표 : 중앙값과 조건문 1데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 21:25
다음 살펴볼 집중경향의 지표는 중앙값와 최빈값이야. 먼저 중앙값부터 살펴볼까? 중앙값(median) 혹은 중앙치는 말 그대로 점수치들 중에서 제일 중앙에 있는 놈을 뜻 해. 다섯 명의 시험 점수를 정렬했을 때 중앙에 위치한 사람의 점수가 중앙치가 돼. 쉽지? 예를 들면 정렬된 점수치들이 '1, 3, 5, 7, 9'와 같다면 중앙에 있는 5점이 이 점수치들의 중앙값이 되는거야. 중앙값이 위치한 곳은 전체 점수치의 개수에서 1을 더한 다음 2로 나누어주면 쉽게 구할 수 있어. 5개의 점수가 있다면 5에서 1을 더한 6을 구한 후 2로 나눠주면 돼. 3이 나오지? 세 번째 위치한 점수치가 중앙값이는 뜻이야. 전체 점수치의 개수를 N이라고 했을 때 좀 더 간단하게 수식으로 나타내면, (N이 홀수일 때) 중앙값이..
-
03-1 중심경향의 지표 : 평균데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:51
우리는 앞서 변산성에 대해 배우면서 집중경향에 대해서도 살펴봤지. 이제는 집중경향에 대해 자세하게 알아볼거야. 집중경향(central tendency)은 말 그대로 '얼마나 중앙에 집중되어 있는지.'를 뜻 해. 바꿔말하면 분포의 중심을 대표하는 값이야. 그리고 중심경향의 지표로는 평균이나 중앙값 혹은 최빈값이 될 수 있어. 상황에 따라 달라질 수 있기 때문이야. 부모들은 자신의 아이가 첫 걸음마를 언제 떼는지 알고 싶어해. 그토록 기다리던 내 아이의 첫 걸음마를 보고싶기도 하고, 또 내 아이가 다른 아이들보다 걸음마를 빠르게 떼는지, 늦게 떼는지 알고 싶기 때문이지. 그럼 아이들은 언제 걸음마를 뗄까? 답은 대충 12개월이라고 할 수 있어. 왜 '대충'이라고 했게? 사실 이 물음에 대한 대답은 쉽지가 않..