-
07-2 표본 분포와 표집 분포데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 13. 13:16
'표'라는 글자를 계속 쳐다보면 게슈탈트 붕괴가 오는거 같아.
오늘은 특히 '표'라는 글자가 많이 들어간 용어들에 대해 다시 정립해 볼거야. 본격적인 이야기에 앞서 오늘의 등장 인물들 부터 살펴 볼까?
모집단 (population) : 원점수들의 집단
표본집단 혹은 표본 (sample) : 원점수들을 다 조사하는 것이 불가능 하거나 귀찮으니까 그 중에서 일부만 뽑은 것.
표본추출 혹은 표집 (sampling) : 모집단에서 표본집단을 추출하는 것.
여기까지는 잘 알고 있던 놈들이지?
모집단 분포 (population) : 모집단에서 얻어진 측정 점수들의 집합
표본 분포 혹은 표본집단 분포 (sample distribution) : 표본집단에서 얻어진 측정 점수들의 집합
여기까지도 우리가 다뤘던 놈들이야. 그런데!
표집 분포 혹은 표본추출 분포 (sampling distribution) : 원점수가 아닌 통계치의 분포
이 놈이 새로 등장했어! 이 놈이 새로 등장하면서 우리는 표본과 표집이 헷갈릴 수 있는데, 표본은 여태까지 우리가 다뤘던 것 처럼 모집단에서 뽑아낸(표본추출) 놈들을 표본이라고 하고, 표집(표본추출)은 표본을 추출하는 것이니 용어가 비슷하다고 헷갈리면 안돼~
-
경험적 표집 분포와 이론적 표집 분포
그럼 표집 분포가 무엇인지 본격적으로 살펴볼까?
표본 분포는 표본 집단의 평균치나 분산이나 표준편차 등 표본집단의 통계치들을 말 해. 여태까지 계속 이 표본 분포들을 다뤄왔었지?
하지만 표집 분포는 좀 달라. 예를 들어 볼게.
통계학과 김교수는 강의 도중에 갑자기! 시험을 내고 싶어졌어. 학생들은 엄청 싫어했겠지.. 20명의 학생들에게 총 10문제를 풀게 했는데, 결과는 아래와 같았어. (나쁜 교수..)
20명의 학생들 점수 = [6, 9, 0, 3, 1, 5, 7, 7, 1, 3, 2, 5, 1, 2, 1, 2, 7, 8, 1, 7]
갑자기 날라온 시험이었기 때문에 10문제를 다 맞춘 학생은 없었나봐. 10문제를 다 틀린 학생은 있었는데.. 암튼 학생들의 점수를 원점수라고 할게. 모집단이 되는거지! 모집단의 통계적 수치들은 의미나 용어가 같아도 표본집단과 기호가 다를 수 있다고 했지? 한 번 정리하고 갈까?
수량 모집단 모수치 표본집단 통계치 기호 읽기 공식 기호 읽기 공식 사례수 N 엔 n 엔 평균 μ, mu 뮤 ∑X/N x̅ or m (mean) 엑스 바 혹은 민 ∑X/n 분산 σ², sigma² 시그마 제곱 ∑(X-μ)²/N s² 에스 제곱 ∑(X-m)²/(n-1) 표준편차 σ, sigma 시그마 √(∑(X-μ)²/N) s 에스 √(∑(X-m)²/(n-1)) 모집단의 모수치는 그리스 알파벳을 쓰지만, 표본집단의 통계치는 로마자를 써. 다만 뮤나 시그마를 기호로 적기가 힘들기 때문에 내 블로그에서는 'μ'를 'mu'로, 'σ'를 'sigma'로 표기할게!
암튼 20명의 학생들 점수를 모집단이라고 했을 때 mu는 3.9가 돼. sigma는 2.81이 되고 말야. 그런데 통계학과 김교수가 깜빡 잊고 학생들에게 시험 점수만 알려주고 평균을 알려주지 않았다고 해봐. 그럼 학생들은 본인의 점수는 알고 있지만 평균 점수를 모르기 때문에 내 점수가 잘 본 점수인지 그렇지 않은지 알 수 없겠지?
궁금했던 학생들 중 4명은 자신들의 시험 점수를 공개해서 평균 점수를 추측해 보기로 했어. 이 네 명의 시험 점수는 [1, 5, 9, 0] 점 이었지. 제일 잘 본 9점짜리와 제일 못 본 0점 짜리가 같이 있네! 암튼 이 넷은 표본집단이라고 할 수 있겠지? 표본집단이니 평균 mean은 3.75가 될거야. mu와 비교해 보면 다르다는 것을 알 수 있어. (학생들은 알 수 없었지만.)
그럼 또 다른 친구들을 뽑아서 평균을 볼까?
이번에도 무작위로 4명의 친구가 자신들의 점수를 공개하면서 평균 점수를 추측해 보기로 했어. 이 네명의 시험 점수는 [0, 3, 1, 5] 였어. 앗! 이번에도 시험을 제일 못 본 학생이 끼어있네! 그럴 수 있지? 무작위로 4명을 뽑는 것이기 때문에 모든 학생들은 다 같은 확률을 가지고 있잖아. 그럼 또 뽑힐수도 있는거지 뭐~ 암튼 이번 4명의 평균 점수는 2.25점 이었어. mu와 비교해보면 이전보다 더 큰 차이를 보이고 있어!
오기가 생기네? 다시 한 번 4명의 학생들을 무작위로 뽑았어. 시험 점수는 [5, 8, 3, 0] 이었고 말야. 앗! 이번에도 빵점짜리가 껴있지만 뭐 그럴 수 있지. 암튼 이번 4명의 mean은 4가 돼. mu와 비슷하지만 mu는 아니지.
학생들은 이 과정을 10번 반복 했어. 결과는 아래와 같았고 말야.
첫 번째 4명 = [1, 5, 9, 0] : m=3.75
두 번째 4명 = [0, 3, 1, 5] : m=2.25
세 번째 4명 = [5, 8, 3, 0] : m=4
네 번째 4명 = [1, 5, 0, 7] : m=3.25
다섯 번째 4명 = [7, 6, 1, 3] : m=4.25
여섯 번째 4명 = [3, 2, 1, 7] : m=3.25
일곱 번째 4명 = [2, 0, 3, 5] : m=2.5
여덟 번째 4명 = [1, 2, 1, 1] : m=1.25
아홉 번째 4명 = [2, 7, 1, 7] : m=4.25
열 번째 4명 = [9, 7, 6, 2] : m=6
오기로 10번이나 뽑아서 평균을 구해봤지만 그 어느것도 mu와 같을 수는 없었네. 그래도 이 수치들을 가지고 새로운 개념을 배울 수 있어. 바로 'm들의 경험적 표집 분포'야. 경험적 표집 분포 (empirical sampling distribution) 란, 위의 과정 처럼 직접 관찰해서 경험한 표집 분포를 뜻 해. 반대로 이론적 표집 분포 (theoretical sampling distribution) 란, 10개가 아니라 실질적으로는 불가능하지만 무수히 많을 만큼 이 작업을 반복해서 얻어낸 통계적 수치들의 분포를 뜻 해. 이론적으로만 가능하기 때문에 수학적으로 풀어나가야 하지.
암튼 우리는 위 과정을 통해 10개의 m들을 얻을 수 있었고, m들의 평균과 표준편차도 알 수 있게 되었어. m들의 평균(표본집단의 평균들의 평균)은 약 3.48점이고 m들의 표준편차(표본집단의 평균들의 표준편차)는 1.31점이네!
원점수의 모집단 분포 10개의 관찰된 표본 분포 (n=4) m들의 경험적 표집 분포 [6, 9, 0, 3, 1, 5, 7, 7, 1, 3, 2, 5, 1, 2, 1, 2, 7, 8, 1, 7] [1, 5, 9, 0] 3.75 [0, 3, 1, 5] 2.25 [5, 8, 3, 0] 4 [1, 5, 0, 7] 3.25 [7, 6, 1, 3] 4.25 [3, 2, 1, 7] 3.25 [2, 0, 3, 5] 2.5 [1, 2, 1, 1] 1.25 [2, 7, 1, 7] 4.25 [9, 7, 6, 2] 6 mu = 3.9 m들의 평균 = 3.48 sigma = 2.81 m들의 표준편차 = 1.31 비록 10개의 표본집단 중에서 mu와 같은 것은 하나도 없었지만, 표본집단 10개의 평균의 평균을 구해 보니 mu와 제법 가까워 진 것을 알 수 있어. 자기들끼리의 평균을 잘 쳐다보면 mu의 3.9와 비슷해 보이는 놈이 별로 없지만, 평균의 평균은 그렇지 않네! 가까워 졌어!
그렇다면 이 짓을 10번이 아니라 무수히 많이 반복하다보면.. 설마.. 혹시.. hoxy..?
그래! 결국은 m들의 평균이 mu와 같아지게 될거야!
하지만 무수히 많이 반복하는 것은 위에서 말했듯이 이론적으로만 가능하기 때문에 우리는 수학적으로 풀어나가야 한다는 것이지!
이제 표본 분포 (sample distribution)와 표집 분포(sampling distribution)에 대해 알겠지? 용어가 헷갈려도 용어를 통해 개념을 떠올려 보면 충분히 이해할 수 있는 내용이니까 용어에 집중해서 기억해!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
07-4 표집 통계치 : 표준 오차 (0) 2022.04.14 07-3 파이썬으로 표집 분포 구하기 (0) 2022.04.13 07-1 표본추출 방법 (0) 2022.04.08 06-5 상관 계수를 변화시키는 표본 추출 (0) 2022.04.07 06-4 상관 계수의 성질 (0) 2022.04.06