-
07-4 표집 통계치 : 표준 오차데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 14. 13:06
앞서 표집 분포를 살펴 봤잖아? 그 중에서도 표본들의 평균들의 평균들을 봤었지. 표본을 무수히 많이 추출할 수 있다면, 아니 컴퓨터의 힘을 빌려서 크기가 4인 1만 개의 표본정도만 추출할 수 있어도 모집단의 평균과 거의 같게 된다는 것을 볼 수 있었어. 그리고 표준편차에 대해서는 이야기를 하지 않았지. 쏘옥~ 빼먹었어! 하핫!
표본들의 평균들을 가지고 또 다시 평균들을 구할 수 있었거니와, 표본들의 평균들을 가지고 표준편차도 구할 수있을거야. 실제로 파이썬으로 표본들의 평균들의 표준편차도 구해 봤잖아? 이번 시간에는 이 표본들의 평균들의 표준편차에 대한 이야기를 해 볼거야.
-
표본 통계치와 표집 통계치
전 시간에 표본 분포(sample distribution)와 표집 분포(sampling distribution)에 대해 알아봤지? 이번 시간에는 표본 통계치(sample statistics)와 표집 통계치(sampling statistics)에 대해 알아볼거야. 근데 알아볼 것도 없어. 용어에 뜻이 들어가 있거든. 표본 통계치는 표본의 점수치들을 특징하는 통계적 수치들이고, 표집 통계치는 통계적 수치들에 관해 표집 분포를 특징하는 수치들이야.
키보드로 글을 쓰면서 설명하는 것의 어려움 중에서는 기호를 나타내는 것이 있어. 이번 시간에도 새로운 기호를 배워야 하는데 표본집단의 평균을 나타내는 x̅(엑스바)와 같이 키보드로 바로 입력하기 어려운 것들은 대체해서 설명하기로 했잖아? 이번에도 표집 통계치를 나타내는 기호들에 대해서는 대체해서 나타낼게. 먼저 이미 알고 있는 기호들을 복습하기 위해 아래의 표를 볼까?
원점수의 분포 평균 표준편차 분산 모집단 μ (M) σ (S) σ² (S²) 표본 추정치 x̅ (m) s s² 원래는 그리스 알파벳을 사용해서 나타내야 하는데, 키보드로 바로 입력하기 어려워서 오른쪽 소괄호 안에 있는 형태로 대체하기로 했어. 그래야 파이썬으로 코드를 구현할 때 변수명 짓기도 편하고 말야. 그리고 모집단은 대문자를, 표본집단은 소문자를 써서 구분하도록 할게! 사례수도 마찬가지로 모집단의 사례수는 N, 표본 집단의 사례수(크기)는 n이라고 할게.예를 들어 X집단의 평균은 Xm으로, 표준편차는 Xs로 나타낼 수 있도록 신경을 쓴 것이지!
다음으로는 표집 분포에서 사용되는 기호를 볼게.
포스팅에서는 표 안의 글자 사이즈를 줄일 수가 없어서 그림으로 그렸어!
단, 모집단의 평균(M)과 평균들의 표집분포의 모집단 평균(Mm)이 같다는 것을 알아야 돼! 사실 당연한 말이지? 무수히 많은 표본들을 추출한 다음 그 표본들 모두의 평균을 구하면 모집단의 평균이랑 같을테니 말야.
M = Mm
우리가 표본의 평균(m)을 알아보려는 것도 마찬가지 이유였잖아? 모집단의 평균(M)을 알고 싶기 때문에 표본의 평균(m)을 이용했던 건데, 평균들의 표집 분포의 모집단 평균(Mm) 또한 원점수로 단일화 된 표본을 끌어내기 위한 것이지. 이 평균을 계산해서 추정한게 모집단의 평균(M)이 될 것이고 말야.
-
표준 오차
하지말 말 그대로 추정한 것이기 때문에 완벽한 것은 아니야. 그래서 평균들의 표집 분포의 표준편차도 있는거야. 평균들이 모두 같지 않으니 당연히 표준편차가 생기겠지? 이 표준편차를 표준 오차(standard error)라고 해.
표집 분포의 표준편차 = 표준 오차
평균의 표집 분포에서 발생한 표준편차는 평균의 표준 오차(standard error of the mean)이라고 해. 당연하겠지만..
평균에서의 표집 분포의 표준편차 = 평균의 표준 오차
표집의 표준편차는 표준 오차라는거야. 최근 들어 '표'라는 단어가 너무 많이 등장하지? 흑흑.. 헷갈리기 시작할거야.. 그래도 용어를 잘 보면 용어에 뜻이 들어있으니 어려워 말고 잘 들여다 보면 돼!
-
경험적 표준 오차
앞서 김교수의 갑작 통계학 시험에서 4명씩 10개의 표본을 가지고 표집 분포를 만들었었잖아? 아래의 표 말야.
원점수의 모집단 분포 10개의 관찰된 표본 분포 (n=4) m들의 경험적 표집 분포 [6, 9, 0, 3, 1, 5, 7, 7, 1, 3, 2, 5, 1, 2, 1, 2, 7, 8, 1, 7] [1, 5, 9, 0] 3.75 [0, 3, 1, 5] 2.25 [5, 8, 3, 0] 4 [1, 5, 0, 7] 3.25 [7, 6, 1, 3] 4.25 [3, 2, 1, 7] 3.25 [2, 0, 3, 5] 2.5 [1, 2, 1, 1] 1.25 [2, 7, 1, 7] 4.25 [9, 7, 6, 2] 6 M = 3.9 m들의 평균 = 3.48 S = 2.81 m들의 표준편차 = 1.31 이때 평균에서의 표집 분포의 표준편차, 즉, 경험적 평균의 표준 오차는 1.31이었어. 각각의 평균들 m에서 평균들의 평균을 뺀 다음 제곱해서 다 더한 것을 9로 나눠주고 루트를 씌운것 말야. 하지만 이론적 평균의 표준 오차는 이렇게 계산하지 않아.
만약 동일한 모집단에서 두 개의 표본집단을 무선적으로 추출한다고 가정해 볼게. 한 표본집단의 점수치들과 다른 하나의 표본집단의 점수치들은 다를 것이고, 평균 또한 다르겠지. (물론 같을 수도 있지만.) 표준편차는 이러한 평균들의 분포에서 변산성에 관한 수치이잖아? 그러니 평균의 표집 분포에서 표준편차(Sm)은 표집으로 인해 발생한 표본들 간의 평균이 서로 다른 정도에 관한 수치야.
즉, 평균의 표준 오차는 단일판 표본 평균이 모집단의 평균을 추정하기 위해 사용될 때 생기는 오차라는거야!
만약 어떤 검사에서 남성 20명의 표본들에 대한 평균에서의 표집 분포의 표준편차(Sm)이 5이고, 동일한 검사에서 여성 20명의 평균에서의 표집 분포의 표준편차(Sm)이 10이라면, 남성들이 여성들보다 표집 오차가 작다는 것을 뜻 해. 남성들이 여성들보다 표본들 간에 평균들이 달라지는 정도가 적다는 것이겠지?
앞서 '모집단의 평균(M)과 평균들의 표집분포의 모집단 평균(Mm)이 같다고 했었지? 평균과는 대조적으로 표준편차에서는 모집단의 표준편차(S)와 평균에서의 표집 분포의 표준편차(Sm)는 같지 않아. 실제로 통계학과 김교수의 갑작 시험의 원점수들이 [6, 9, 0, 3, 1, 5, 7, 7, 1, 3, 2, 5, 1, 2, 1, 2, 7, 8, 1, 7] 이었는데, 이 점수치들의 표준편차(S)는 약 2.81이었어. 하지만 크기가 4인 10개의 표본들의 평균에서의 표집 분포의 표준편차(Sm), 즉, 경험적 표준 오차는 약 1.31이었지.
-
이론적 표준 오차
만약 이론적 평균에서의 표진 분포의 표준편차, 즉, 이론적 표준 오차를 구하려면 모집단의 표준편차를 평균이 근거하고 있는 표본의 크기에 제곱근을 취한것으로 나누면 돼.
평균에서의 표집 분포의 표준편차(Sm) = 평균의 표준 오차(SE)
= 모집단의 표준편차(S) / √평균이 근거하고 있는 표본의 크기 = S / √n
이게 얼마나 중요하냐면,
내가 학부 때 실제로 필기해 놓은 것을 보면 알 수 있어. "꿈에도 잊어버리지 말 것." 내가 통계학을 배운 김기중 교수님께서 하신 말씀을 그대로 적어놓은 것이지! 여러분들도 꿈에도 잊어버리면 안돼!
만약 통계학 김교수의 갑작 시험의 사례로 평균의 표준 오차를 구해보려면, 모집단의 표준편차(S)가 약 2.81 이었고, 표본의 크기는 4였어. 한 표본당 4명씩 뽑았었으니까. 즉, 평균의 표준 오차는 2.81에서 루트4를 나눠 주면 돼. 약 1.41이 되겠네!
Sm = S / √n = 2.81 / √4 ≒ 1.41
경험적 표준 오차였던 1.31과는 차이가 있지?
-
표준 오차의 추정
그렇다면 평균의 표준 오차는 어떻게 추정될까? 표본집단의 평균(m)이 모집단의 평균(M)를 추정하기 위해 사용되었던 것 처럼, 표본집단의 표준편차(s)는 평균들의 표준편차(Sm)를 계산하기 위해 사용될 수 있어. 평균들의 표준편차(sm)는 평균에서의 표집 분포의 표준편차(Sm), 즉 표준오차를 추정하기 위해 사용될 수 있어. 정리하면, s로 sm을 계산하고, sm으로 Sm을 추정한다는 것이지. 평균들의 표준편차(Sm)은 표본집단의 표준편차(s)를 표본의 크기에 제곱근을 취한 것으로 나누면 구할 수 있어.
평균들의 표준편차 (Sm) = 평균의 표준 오차(SE)
= 표본집단의 표준편차(s) / √표본의 크기 = s / √n
당연하지만 표본집단의 추정도 모집단의 추정과 비슷하지?
-
표준 오차 줄이기
경험적이든, 이론적이든 표준 오차를 구할 땐 n을 주목해야 돼. n이 커지면 커질 수록 분모가 커지니까 표준 편차가 작아지겠지? 표준편차가 작아진다는 뜻은 표준 오차 또한 작아진다는 뜻이잖아? 즉 표본의 크기가 크면 클 수록 표준 오차가 작아진다는 뜻이야! 그러니 모수치를 추정하고자 할 땐 되도록이면 표본의 크기를 크게 만들어야겠지? 사실 이게 오늘 포스트의 핵심이야! 하핫! 표본의 크기를 키우자! 기억하라구~
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
08-1 가설 검증 입문 : 용어와 이론 (0) 2022.04.20 07-5 표집 분포와 정상성 : 중심 극한 정리 (0) 2022.04.15 07-3 파이썬으로 표집 분포 구하기 (0) 2022.04.13 07-2 표본 분포와 표집 분포 (1) 2022.04.13 07-1 표본추출 방법 (0) 2022.04.08