-
03-8 모집단과 표본집단 : 모수치와 통계치데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 17. 15:15
모집단에서 표본집단을 추출하는 이유가 뭐라고했지? 시간과 돈과 노력과이 많이 드니까, 오래걸리고 돈도 많이 들고 귀찮으니까! 나는 베짱이!
우리는 전에 주의력결핍과잉행동장애(ADHD)를 앓고있는 학생들에게 리탈린이라는 약을 투여해서 학업 향상에 효과가 있는지 알아보기 위한 이야기를 했잖아.
https://kimhaksung.tistory.com/entry/pytong01-2
기억나지?
이 실험에서 모집단은 ADHD를 앓고 있는 전 세계 학생들이 될 거고, 표본집단은 실험을 위해 추출된 마흔 명의 학생들이 될 거야. 어렵지 않지?
모집단(population, 전집) : 관심 대상이 되는 사람, 생각 그리고 수치 등의 전체집합.
표본집단(sample, 표본) : 모집단의 부분집합.
모집단과 표본집단의 개념은 어려울 것이 없으니 길게 말하진 않을게. 물론 모집단으로부터 표본집단을 추출하는 '표집(sampling)'에 대해서는 할 말이 많지만.. 아끼도록 하겠어..
모집단과 표본집단에서 중요한 것은 용어야. 같은 의미라도 모집단에서 쓰이는 용어와 표본집단에서 쓰이는 용어가 달라. 예를 들어 '평균'은 앞서 배운 것 처럼 '엑스바' 혹은 '민' 이라고 읽고 아래와 같이 표기한다고 했잖아?
하지만 이러한 명칭은 표본집단일 경우에서만이야. 모집단에서는 달라져! 으악! 표본집단의 수치 로마자(혹은 라틴 문자)로 표현하고 '통계치(statistic)'라고 해. 로마자는 우리가 흔히 쓰는 영어 알파벳을 떠올리면 돼. 모집단의 수치는 그리스 문자로 표현하고 '모수치(parameter, 전집치)'라고 해. 그리스 문자는 알파(α), 베타(β)와 같은 문자야. 코로나 19의 변이 바이러스 이름이 그리스 문자를 따서 지어지고 있지? 이 글을 쓰고 있는 시점에는 열 다섯 번 째 글자인 오미크론(ο)까지 등장했지.. 흑흑.. (참고로 우주세기 건담의 이름도 그리스 문자를 차용하고 있어.)
그럼 통계치와 모수치들이 어떻게 다를까? 귀찮은 여러분들을 위해 아래에 표로 정리를 해 놨어.
표본집단의 통계치 모집단의 모수치 기호 읽기 공식 기호 읽기 공식 평균 m 민 ∑X/N μ 뮤 ∑X/N 분산 s² 에스 제곱 ∑(X-m)²/(N-1) σ² 시그마 제곱 ∑(X-μ)²/N 표준편차 s 에스 √{∑(X-m)²/(N-1)} σ 시그마 √{∑(X-μ)²/N} 티스토리는 표에 그림을 첨부할 수가 없어서 표본집단의 통계치에 평균을 그냥 'm'으로 표기했는데, 여러분들은 'm' 뿐만 아니라 '엑스바'에 대해서도 알고 있어야 돼! 알았지?
표본집단의 통계치는 이미 배웠기 때문에 특별할 것이 없지만, 모집단의 모수치는 다르지!
일단 평균부터 표기 방법과 읽는 방법이 달라. '뮤'라고 읽고 'μ'라고 써. 그래서 m이나 '엑스바'가 아닌 'μ'으로 표기되어 있으면 같은 평균이라 할지라도 '아! 이것은 모집단의 평균이군!'이라고 알아야 돼.
분산과 표준편차도 헷갈릴 수 있어. 우리가 배웠던 합의 기호 'Σ'도 '시그마'라고 읽잖아, 그치? 근데 'σ'도 '시그마'라고 읽고 표준편차의 뜻을 가지고 있다니.. 오우..
합의 기호를 뜻 하는 Σ는 사실 σ의 대문자였어. 그리스 문자도 로마자와 같이 대소문자가 있기 때문이지! (사실 시그마 소문자에는 'ς'라는 놈도 있음.) 그래서 헷갈릴 수 있지만.. 어쩌겠어.. 우리는 개떡같아도 찰떡같이 알아듣는 수 밖에.. 흑흑..
표기 용어도 중요하겠지만, 표본집단의 통계치와 모집단의 모수치에서 가장 중요한 것은 공식이야. 표본집단의 분산을 구할 땐 N-1로 나누어야 되지만 모집단의 분산을 구할 땐 N-1이 아니라 N으로 나눈다는 것이 제일 중요해. 왜 그런지는 저번에 자유도를 다룰 때 배웠었지?
https://kimhaksung.tistory.com/entry/pytong03-6
모집단은 생각할 것 없이 전체 사례수로 나눠주면 되지만 표본집단은 자유가 없으니 말야.
암튼 이런 것들만 주의하면 돼.
그리고 평균 이외에 우리가 집중경향의 지표로 배웠던 범위나 중앙값 또는 최빈값도 통계치와 모수치가 다르게 표기되는데.. 아마 우리가 다룰 일은 없을거야. 궁금한 친구들은 그리스 문자로 찾아봐~
다시 한 번 강조하지만 통계치와 모수치에서 가장 중요한 것은 분산과 표준편차를 구하는 공식이 다르다는거야. N이 아니라 N-1로 나눈다는거! 잊지마!
(근데 나중에는 N-1이 아니라 N-2로 나누는 경우도 생김.. 이 내용도 나중에 배워봅시다..)
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
04-2 표준화와 표준점수 (0) 2022.03.17 04-1 척도 (0) 2022.03.17 03-6 변산성의 지표 1 : 분산과 자유도 (0) 2022.03.17 03-5 중심경향의 지표들과 파이썬 : 라이브러리와 모듈 (0) 2022.03.16 03-4 중심경향의 지표 : 최빈값 (0) 2022.03.16