ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 08-10 스튜던드의 t-분포 (feat. 윌리엄 실리 고셋)
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 2. 15:31

    sm으로 Sm(SE)을 추정하기

     

     평균들의 표집 분포에서 표본 들을 가지고 구한 표준 편차 sm을 가지고 모집단의 표준 편차 Sm, 즉 표준 오차 SE를 추정 할 수 있을까?

     

     

     평균들의 표집 분포에서 표준 오차 SE를 구하려면 꿈에도 잊으면 안되는 공식, 모집단의 표준 편차에서 표본 크기의 제곱근을 나눈 것으로 구할 수 있었어. 기억하지?

     

    평균들의 표집 분포에서 표준 오차

    표준 오차 = SE = 모집단의 표준 편차 / 표본 크기의 제곱근 = S / √n

     

     그리고 가설 검증을 위한 결정 규칙에서는 평균들의 표집 분포를 표준화 해야 됐는데, 이 때 표준 오차가 쓰였었지?

     

    평균들의 표집 분포에서 표준화

    z = (표본 평균-모집단 평균) / 표준 오차 =  (m-M) / SE = (m-M) / (S/√n)

     

     결국 우리가 여태 가설 검증을 위한 결정 규칙을 정하기 위해 표준 오차를 사용해 왔던 것인데, 표준 오차는 사실 이론적으로만 추정되는 수치였어. 기억 나지? 아래의 포스트에서 다뤘었지.

     

    https://kimhaksung.tistory.com/entry/pytong07-4

     

    07-4 표집 통계치 : 표준 오차

     앞서 표집 분포를 살펴 봤잖아? 그 중에서도 표본들의 평균들의 평균들을 봤었지. 표본을 무수히 많이 추출할 수 있다면, 아니 컴퓨터의 힘을 빌려서 크기가 4인 1만 개의 표본정도만 추출할 수

    kimhaksung.tistory.com

     

      그리고 이론적 표준 오차를 추정할 땐 표본의 크기(n)에 따라 정확성이 달라졌지. 대충 표본이 50개 이상이면 상당히 정확하다고 보였어. 우리는 파이썬으로 수십만 개의 표본을 가지고 계산해 봤었지만.. 하지만 실제 여구에서는 표본들이 그렇게 크지 못하니, 적은 수의 표본에서 추정된 표준 오차를 써먹기가 곤란하다면 말야. 그럼 어떡하지?

     

    -

     

    스튜던트의 t-분포?

     

     스튜던트(student)는 말 그대로 학생이야. 잉? 학생의 t-분포라니? 사실 스튜던트는 사람 이름이 아니고 윌리엄 실리 고셋(William Sealy Gosset, 1876.6.13~1937.10.16)의 필명(닉네임)이야. 특이한 것은 윌리엄 실리 고셋이 통계학자이자 양조 기술자라는 것이었어. 맥주 만드는 사람이었던거야!

     

    그 흑맥주 맞습니다. 기네스북의 기네스 맞습니다.

     

     윌리엄 실리 고셋은 더블린의 기네스 양조장에서 일을 했는데, 자신의 통계학적 지식을 맥주 만드는데 활용한 것이지.. 이 일마나 대단한 인물인가.. 기네스는 꼭 캔 이나 병 째로 마시면 안 돼! 꼭 전용 잔이나 사진의 잔 처럼 생긴 잔에다가 따라 마셔야돼! 그래야 거품이 부드럽게 녹아들면서 맛을 극대화 시킬 수 있어. 그래서 기네스 맥주 캔에는 따라 마실 때 거품을 발생 시키기 위한 구슬이 들어있어. 그런데 이 기네스를 캔에 입대고 바로 마시면 진정한 기네스의 맛을 느끼지 못하겠지? 이상 맥주를 좋아하는 학선생의 꿀팁..

     갑자기 맥주 이야기가 나오는 바람에 이야기가 삼천포로 샜는데.. 암튼 윌리엄 실리 고셋은 자신의 지식을 양조하는데 썼고, 그러니까 기네스 맛이 그렇게 대단한거지.. 역사적인 통계학자가 만들었는데! 엉?!

     

     윌리엄 실리 고셋은 피어슨의 상관 계수, r의 칼 피어슨 연구실에서 일했었어. 그러면서 논문도 쓰고 그랬는데 칼 피어슨은 인정해주지 않았지! 윌리엄 실리 고셋은 표본이 적은 상황을 해결하고자 하는 논문을 썼지만, 칼 피어슨의 입장에서는 프랜시스 골턴 경의 연구를 받았던 칼 피어슨의 성향 상 생물학에서는 수치가 정확해야 했거든. 정확하게 관찰하고 측정하고 결과를 내야 되는데 윌리엄 실리 고셋의 연구는 정확하지 않은 상황에 대한 논문 이었으니..

     이후에도 기네스의 직원이었기 때문에 윌리엄 실리 고셋의 연구는 회사의 영업 비밀이라는 문제로 발표되지 못했다고 해. 불쌍한 고셋.. 칼 피어슨에게도 까이고, 회사에서도 막고, 빡이 칠만큼 친 윌리엄 실리 고셋은 '아 그럼 내 이름으로 안하면 되잖아~!' 라는 생각으로 완전 성의 없는 학생(스튜던트)라는 필명으로 논문을 발표 해.

     

     

     이 논문이 우리가 오늘 배울, 추론 통계학이 개척될 수 있었던 스튜던트의 t-분포(Student’s t-distribution)에 관한 것이었어. 이후 이 논문은 칼 피어슨을 통해 발표되기도 했으니 참 아이러니하지.

     

    -

     

    스튜던트의 t-분포!

     

     그럼 이제 윌리엄 실리 고셋, 아니 스튜던트의 t-분포에 대해 알아볼까?

     앞서 기술한대로, 표본의 크기가 크다면 표준 오차를 추정하는 것이 나쁘지 않지만 표본의 크기가 작다면 나빠. 그래서 이럴 땐 스튜던트의 t-분포를 활용하는 것이 더 적절하다고 할 수 있어! 

     

    평균들의 표집 분포에서

    t = (표본 평균 - 모집단 평균) / 표본 평균들의 표준 편차 = (m-M) / sm = (m-M) / (s/√n)

     

    잘 보면 z 대신에 t가, 평균들의 표집 분포에서 모집단 표준 편차 Sm, 즉 표준 오차 SE 대신에 표본 평균들의 표준 편차 sm이 사용된 것 처럼 보여. 표준화 하는 과정이랑 구조가 같지? 다만 표준화 할때는 모수치인 표준 오차를 가지고 하지만 스튜던트의 t-분포에서는 표본 평균들의 표준 편차를 사용하지. 이 표본 평균들의 표준 편차 sm은 표본의 표준 편차 s와 표본의 크기 n으로 추정할수 있고 말야. 여기서 n은 자유도를 뜻 해. 자유도도 기억나지? 사실은 고셋이 n-1을 사용했었는데 피셔가 자신의 자유도 이론에 맞추기 위해 n으로 바꿨다고 해.

     암튼 t-분포는 표준 정규 분포를 나타내고 있어. 자유도가 커질수록 즉, n이 커질수록 점점 표준 정규 분포를 따르게 돼. 이론적으로는 자유도가 무한히 크다면 t분포는 표준 정규 분포와 같아지게 돼.

     

    스튜던트의 -t 분포. 표준 정규 분포를 따르고 있다.

     

     오랜만에 자유도 이야기가 나왔는데. 다음 시간에 다시 한 번 자유도에 대해 이야기 해 볼까?

Designed by Tistory.