-
07-1 표본추출 방법데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 8. 14:26
추론 통계
우리는 여태까지 양적 정보를 체계화하고, 요약하고, 기술하는 절차인 기술 통계(descriptive statistics)에 대해 배웠어. 그냥 냅다 자료만 정리한거지. 물론 기술 통계적 수치로 부터 모집단을 어떻게 추론할 수 있겠는가? 라는 이야기가 조금씩 나왔었지만.. 이제부터는 본격적으로 모집단에서 표본집단을 추출하고, 표본집단으로부터 모집단을 추론하는 추론 통계(statistical inference)에 대해 배울거야. 엄청 재밌겠지?
-
표본추출 방법
앞서 표본추출이 얼마나 중요한지 배웠지? 표본추출(sampling)이란 모집단(population)에서 표본 집단(sample)을 뽑아 낸거야. 표본 집단에서 계산된 수치들을 양적 통계 수치(statistics)라고 해. 이 통계 수치들을 가지고 모집단이 가지고 있는 수치들을 추정하는 것이지.
그렇다면 어떻게 하면 표본을 잘 추출할 수 있을까? 라는 질문을 들었을 때 여러분 머릿속에 떠오른 그 생각!이 맞아. 그냥 무작위(random)로 뽑으면 돼. 그럼 무작위란 뭘까? 라는 질문을 시작으로 표본추출의 방법을 공부해 볼게.
-
단순 무작위 표본추출
우리가 단순하게 생각해 내었던 단순 무작위 표본추출(simple random samplig)에 대해 먼저 배워볼까? 단순 무작위 표본추출에서 '무작위'가 가지고 있는 뜻은, 모집단이 가지고 있는 모든 요소들마다 뽑힐 확률이 같다는거야. 만약 모집단이 100개의 요소들을 가지고 있다면 하나의 요소가 뽑힐 확률은 1/100이 되는 것이지. 간단하지?
컴퓨터가 발달하기 전에는 난수표(random number table)를 쳐다보면서 무작위로 뽑았지만, 지금은 컴퓨터가 알아서 무작위로 뽑아주니 참 편해졌어! 물론 나 또한 난수표를 보면서 무작위 추출을 해 본 경험이 없어서 편해졌는지 아닌지는 잘 모르겠지만.. 연세가 조금 있으신 교수님들은 편해졌다고 생각하시겠지?
무작위 표본추출에서 중요한 것은, 무작위 표본추출은 표본을 추출하는 절차에 대해서만 다룬다는거야. 선택된 표본이 가지고 있는 특성은 무작위 표본추출이랑 상관이 없어. 예를 들어 볼까?
학생들을 두 집단으로 나눌건데, 한 집단에는 특수한 처치를 할거야. 또 다른 나머지 집단에는 아무 처치를 하지 않을건데, 비교를 위한 집단이기 때문에 비교 집단이라고 할게. 이 상황에서 여러분들은 학생들을 어떻게 나눠서 처치 집단과 비교 집단에 할당할거야?
위에 나온대로 단순 무작위 표본추출의 방식으로 학생 마다 1/2의 확률로 처치 집단이나 비교 집단으로 보내면 공평하겠지? 양쪽 집단에 할당될 확률이 같은거야. 하지만 할당될 확률이 같다는 말은 꼭 두 집단이 같다는 이야기는 아니야. 어쩌다 보니 처치 집단의 학생들은 소득 수준이 높아서 양질의 교육을 받아온 학생들로 채워질 수도 있고, 또 어쩌다 보니 비교 집단의 학생들은 나이가 어린 친구들로 채워질 수도 있지. 확률이 그렇잖아?
무수한 요인이 존재하기 때문에 완전히 공평하도록 무작위 표본추출을 할 수 는 없어. 우리가 조사할 수 있는 모든 요인을 고려한다고 해도 아직 알아내지 못한 요인이 남아 있을 수도 있잖아. 그러니 할당될 확률이 같다는 것이 꼭 두 집단을 같게 만들어 준다는 것이 아니라는 점! 명심해!
그럼에도 무작위 표본추출은 통계학에서 굉장히 중요한 속성이야. 이거만큼 공평한게 또 어디있겠어? 특히 표본의 크기가 커질수록 무작위 표본추출은 모집단을 더 잘 대표할 수 있게 돼. 예를 들어 모집단의 100명 중 33명이 가톨릭 신자라고 해 볼게. 그런데 무작위 표본추출로 10명을 뽑았더니 가톨릭 신자가 하나도 없었어! 1/3이 가톨릭 신자인데! 이럴수가! 하지만 표본을 늘려 나갈수록, 즉, 더 뽑아 낼수록 가톨릭 신자가 포함될 확률이 높아지겠지? 당연히 표본이 커지면 커질수록 표본 집단과 모집단은 비슷해져 갈거야.
만약 가톨릭 신자라는 요인 하나만 놓고 표본을 추출한다고 하면, 모집단이 가지고 있는 33%가 될 때 까지 표본추출을 할 수 도 있어.
3명을 뽑았는데 가톨릭 신자가 하나도 없다고?(0%) 3명 더 뽑아! 6명을 뽑았는데 가톨릭 신자가 한 명 밖에 없다고?(17%) 3명 더 뽑아! 9명을 뽑았더니 이제야 가톨릭 신자가 3명이 되었다고? 아주 좋아~
이런 식으로 말야. 물론 반대의 경우로, 가톨릭 신자가 많은 경우에는 줄여 나가는 방향으로 추출량을 늘려나갈 수 있겠지?
이런 표본을 비율층화 무작위 표본(proportional stratified random sample)이라고 하는데.. 여러분이 이런 용어 까지 알 필요 있나 몰라~ 암튼 표본추출 과정의 확률은 독립적(independence)이기 때문에 추출된 표본이 모집단을 대표하지 않을수도 있다는 점 명심해! 또, 그럼에도 불구하고 무작위로 추출된 표본은 통계적으로 대표적 표본(representative sample)임을 기억하구!
-
실제의 표본
무작위 표본추출에 대해 배워야 하는데.. 자꾸 무작위 표본추출을 까는 이야기만 하는거 같네. 암튼 실제로 완전한 무작위 표본을 얻기란 불가능 해. 예를 들어서 한영고등학교 1학년 학생들을 대상으로 30명을 무작위로 선발한다고 해 볼게. 이렇게 뽑힌 30명의 학생들이 정말로 무작위로 선발된 것일까? 아냐. 1학년 학생들 중에서는 코로나로 인해 결석한 학생들이 30명이 넘는단 말야. 이 학생들이 포함되지 못했는데 어떻게 완전한 무작위 표본이라고 할 수 있겠어?
또, 여러분들이 얼마나 외향적 성격이라는 주제로 연구를 하기 위해 참가자를 모집단하고 해 볼게. 학교 게시판에 모집 공고를 붙여 놓으면? 평소 활동도 많이하고 활달한 성격의 학생들이 게시판을 쳐다볼 확률이 더 높겠지? 또, 이런 실험에 참가하려는 경향도 강할것이고 말야. 소극적인 친구들은 이런 실험 자체에 참가하려 하지 않겠지. (내가 그럼)
그러니 실제의 표본을 추출할 때에는 정말 많은 주의를 기울이고 생각하고 어떠한 요인의 간섭이 없겠는지 생각하고 또 생각하고 또 생각하고 고려하고 토의하고 토론하고 조언을 얻고 검증해 보고 할 수 있는건 다 해야 돼. 그래야 연구, 실험, 조사 자체가 망가지지 않아. 재료 자체가 잘못 되었는데 좋은 요리가 나올 수 없잖아? 그치?
만약 여러분들이 표본을 추출 할 일이 생기면 꼭 많이 생각해서 해~ 안뇽~
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
07-3 파이썬으로 표집 분포 구하기 (0) 2022.04.13 07-2 표본 분포와 표집 분포 (1) 2022.04.13 06-5 상관 계수를 변화시키는 표본 추출 (0) 2022.04.07 06-4 상관 계수의 성질 (0) 2022.04.06 06-3 피어슨 상관 계수, r 계산 (0) 2022.04.05