-
01-2 기술 통계와 추론 통계 : 가설 검증데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 1. 12. 14:59
그럼 이제 본격적으로 통계학에 대해 배워볼까?
통계학이란 자료라고 불리는 양적 정보를 기술하고 해석하기 위한 방법을 연구하는 학문이야. 통계학의 정의만 보아도 4차 산업 시대에 가장 걸맞는 학문이라고 할 수 있겠지? 우리는 엄청나게 많은 양적 정보, 즉 빅 데이터(big data)의 시대에 살고 있기 때문이지. 10년 전, 아니 5년 전과 비교해도 우리가 접할 수 있는 정보들을 정말 많아 졌는데.. 빅 데이터에 대한 이야기는 나중에 다시 다뤄보도록 할게.
다시 통계학에 대해 살펴보면, 통계에는 크게 두 가지 범주가 있어. 하나는 기술 통계(descriptive statistics)이고 다른 하나는 추론 통계(inferential statistics)이지. 기술 통계는 이름에서와 같이 기술, 즉 설명하기 위한 통계야. 기술(記述)은 기술(技術, technology, skill)을 뜻이 아니라구! 공부를 못 하면 기술을 배워야 먹고 사는 것은 매한가지지만 말이야.
기술 통계는 우리에게 굉장히 친숙할 수 있어. 왜? 맨날 보거든!
내일 비가 올 확률, 한국 시리즈에서 타자의 타율, 온라인 게임 뽑기 확률, 앞서 이야기 했던 각종 수치들의 평균, 주식이나 코인의 수익률 등.. 입이 아플 정도로 많은 기술 통계적 자료들이 우리와 함께하고 있었지! 그치?
반면 추론 통계는 우리의 일상 생활 보다는 과학적 연구에 많이 쓰이고 있어. 추론 통계란 말 그대로 작은 집단에서 수집된 자료들에 근거하여 큰 집단의 관한 추론을 행하는 방법들이기 때문이지.
기술 통계 추론 통계 자료를 조직화하고 요약하고 기술하는 절차를 칭함. 실제로 더 작은 집단에서 수집된 자료에 근거하여 큰 집단에 관한 추론을 행하는 방법들을 포함. 좀 더 구체적인 예를 살펴볼까?
어떤 제약회사가 코로나 치료제를 만들기 위해 연구한다고 가정해 볼게. 이 회사는 열심히 연구한 끝에 코로나 치료제를 만들었어. 하지만 정말로 이 코로나 치료제가 효과가 있는지는 추론 통계적 방법으로 파악해야 돼.
전세계 모든 코로나 환자들을 대상으로 실험을 하면 좋겠지만 사실상 불가능하지. 그래서 이 제약회사는 일단 코로나 확진자 30명을 모집한 다음 이 환자들에게 코로나 치료제를 투여했어. 결과는?
30명의 환자들 중에서 27명이 완치되었지. 어때? 이 치료제는 90%의 치료 효과가 있다고 말 할 수 있을까?
응 있어!
앞으로 왜 이 치료제가 90%의 치료 효과가 있는지에 대해 배울것이고, 이것이 추론 통계의 개념이야. 작은 집단-30명의 코로나 환자-를 통해 큰 집단-전체 코로나 환자-의 추론을 행하는 것이니까. 너무 간략한 설명이었다고?
자, 어떤 연구자는 옛날에는 별 문제가 없었지만 이제와 큰 문제로 자리 잡힌 '주의력 결핍 과잉행동 장애(Atention Defict Hyperactivity Disorder: ADHD)'를 갖고 있는 학생들에게 리탈린(Ritalin)이라는 약물을 투약함으로써 학업이 향상되는 효과가 있는지 알고 싶었어. 리탈린은 ADHD 학생들을 안정시켜주기 때문에 리탈린을 투약받은 학생들은 그렇지 않은 학생들 보다 학업 능력이 향상될 것이라고 생각했던 것이지. 그래서 학생들에게 리탈린을 투약하여 실험해 보기로 했어. 물론 부모들의 동의를 얻었고 말이야.
일단 ADHD를 진단받은 40명의 3학년 학생들을 모았어. 그리고 이 40명의 학생들을 문작위로 반 나눴어. 20명씩 말야. 왜 반으로 나눴을까? 리탈린이 정말 효과가 있는지 알아보기 위해서는 20명에게는 리탈린을 투약하고, 나머지 20명에게는 리탈린을 투약하지 않아야만 했기 때문이지. 그래야 리탈린을 투약받은 학생들과 그렇지 않은 학생들을 비교할 수 있잖아? 편의상 리탈린을 투약받은 집단을 '실험집단', 그렇지 않은 집단을 '통제집단'이라고 할게.
그리고 통제 집단 학생들에게는 약을 먹는 행위 만으로도 나타날 수 있는 효과를 통제하기 위해 아무 효과가 없는 '가짜약(plcaebo)'를 주었어. 실험 집단의 학생들이나, 통제 집단의 학생들이나 자신이 어떤 약을 먹었는지 알 수 없도록 하기 위해 말야. (플라시보 이펙트라고 불리는 가약 효과에 대해서는 심리학 이야기를 할 기회가 있을 때 다시 해 볼게. 엄청 재밌거든!)
실험 집단 통제 집단 리탈린을 투여 가짜약을 투여 이제 한 달 동안 지켜보기로 했어. 한 달 4주 동안 학생들은 학교에서 문제들을 풀게 되었고, 연구자는 학생들이 얼마나 문제를 잘 풀어내는가 집계했지. 결과는?
리탈린을 투여한 실험 집단의 학생들은 평균 63문제를 풀었지만 그렇지 않은 통제 집단의 학생들은 평균 56문제밖에 풀지 못했어. 어때? 리탈린을 투여함으로써 ADHD 학생들의 학업 능력이 향상된 것으로 보여?
이 연구의 물음은 "리탈린이 수행을 향상시키는가? (Does Ritalin improve performance?)"라는 것을 기억해야 돼. "리탈린이 수행을 향상시켰는가? (Did Ritalin improve performance?)"가 아니라!
추론 통계는 항상 더 큰 집단, 혹은 미래를 향해 있기 때문이야. 우리는 추론 통계를 배움으로써 우리가 알지 못하는 미지의 영역의 닿고자 하는 것이지. 이미 벌어진 일을 확인하고자 하는 것이 아니야. 이 얼마나 진취적인 학문인가!
다시 물어볼게. 정말 리탈린이 수행을 향상킨거 같아?
물론 위의 실험 결과를 토대로 하면 63대 56으로 실험 집단이 수행을 더 잘했던 것을 알 수 있어. 하지만 추론 통계는 과거에 대한 질문에 답하기 위한 것이 아니란말야! 정말 리탈린이 수행을 향상시킨다면 또 다른 집단에서도 위의 실험과 비슷한 결과가 나와야 돼.
이를 위해 또다시 ADHD 학생들을 모집하고 같은 방법으로 실험해야 된다는 것이지. 그렇게 실험들을 반복하고 결과를 쌓아가다보면 결론에 도달하지 않을까?
이때 모집하는 소규모의 ADHD 학생들을 '표집' 혹은 '표본집단(sample)'이라고 해. 그리고 전세계 모든 ADHD 학생들을 '모집', '전집' 혹은 '모집단(popluation)'이라고 해. 앞서 말했듯이 전세계 모든 ADHD 학생들을 대상으로 실험하는 것을 불가능하기 때문에 어쩔 수 없이 모집단에서 표본을 추출하여 실험을 진행한 것이지. 이때 무작위로 표본 선정하는 것을 '표집(sampling)'이라고 해. 한국어로 써 놓으면 표집이라는 용어가 표본집단의 줄임말로 쓰이기도하고 샘플링을 나타내는 용어로 쓰이기도 하기 때문에 헷갈릴 수 있어! 으악!
모집단 표본집단 전세계 모든 ADHD 학생 무작위로 선정된 40명의 ADHD 학생 이제 앞서 "리탈린이 수행을 향상시키는가?"라는 질문을 통계적으로 바꿀수 있게 되었어. "표본집단에서 효과를 보인 리탈린이 모집단에서도 효과가 있는가?"라는 질문으로 말야! 표본집단의 효과가 모집단에서도 존재하는지 추론해야 하는 것이지!
전세계에서 ADHD를 앓고 있는 학생들이 얼마나 될까? https://m.science.ytn.co.kr/view.php?s_mcd=0082&key=201704041105324980에 따르면 많게는 소아의 약 10%가 앓고 있다고 하네.. 정말 많구나.. 그렇다면 못 해도 수천만 명의 학생들을 ADHD를 앓고 있다는 것인데, 앞서 진행했던 40명의 표본집단이 수천만 명의 모집단을 대표한다고 하기에는 좀 무리가 있을 것으로 보여. 그렇지? 그렇다면 앞서 언급한 바와 같이 같은 실험을 계속 반복하면 되지 않을까?
첫 번째 실험을 통해 실험 집단이 63, 통제 집단이 56으로 실험 집단이 통제 집단 보다 7문제를 더 맞췄다는 것을 알 수 있었어. 하지만 두 번째 실험에서도 같은 결과가 나타날까? 궁금하지 않아?
연구자는 두 번째 실험을 진행했어. 마찬가지로 3학년 학생들 40명을 모아서 같은 내용으로 실험을 진행했지. 결과는 실험 집단이 60문제, 통제 집단이 58문제로 첫 번째 실험 보다는 차이가 좁혀졌어. 그리고 세 번째 실험에서는 다시 67대 54로, 네 번째 실험에서는 60대 60으로, 다섯 번째 실험에서는 59대 64로 오히려 실험 집단의 학습 성과가 더 낮았던 경우도 관측되었지. 실험을 계속 할 순 있을거야. 어쩌면 첫 번째 실험보다 더 많은 차이가 나면서 실험 집단의 학습 성과가 더 높게 나올수도 있을 것이고, 아니면 네 번째나 다섯 번째 실험 처럼 그렇지 않을 수도 있겠지.
아이참 실험 결과가 80대 20이나 90대 10처럼 차이가 매우 크다면 이런 고민을 할 필요가 없을텐데 말야! 차이가 매우 크다면 효과가 있다고 여길 수 있을거야. 아니면 51대 49나 49대 51처럼 차이가 매우 적을 때에도 이런 고민을 할 필요가 없을텐데 말야! 차이가 매우 적다면 효과가 없다고 여길 수 있기 때문이니까.
하지만 리탈린의 실험 결과로 측정된 수치는 효과가 없다고 하기에도 애매하고 그렇다고 있다고 하기에도 애매해 보여. 어쩌면 좋지?
문제를 좀 더 단순화 해볼게.
동전을 던져 볼거야. 동전이 반듯하게 생겼다고 가정하면 무수히 동전을 던졌을 때 앞면이 나오는 경우의 수와 뒷면이 나오는 경우의 수가 같겠지? 50대 50으로 말야. 우리는 과학자의 자세로 확인해 볼 필요가 있어. 실제로 던져 본다면 어덯게 될까?
우리가 무수히 동전 던지기를 반복할 수 없기 때문에 딱 백 번만 던져 볼거야. 사실 백 번도 많기는 하지만.. 아무튼 동전을 백 번 던져서 앞면이 나온 경우와 뒷면이 나온 경우를 비교해 보자고. 백 번 동전 던지기를 끝냈더니 앞면이 52번, 뒷면이 48번 나왔다고 가정해 볼게. 어때? 앞면과 뒷면이 비슷하게 나왔기 때문에 동전이 반듯하게 생겼다고 가정했던 것이 옳다고 결론지을 수 있겠어. 그치?
하지만 앞면이 65번, 뒷면이 35번 나왔다면 어떨까? 이 때는 동전이 반듯하게 생겼다고 가정했던 것이 틀렸다고 결론지을 수 있을거야. 쭈그러진 동전이었던거지.
통계적 추론을 위한 방법도 동전 던지기와 별반 다르지 않아.
일단 가정을 먼저 하는거지. '리탈린은 효과가 없다.'라고 가정할거야. 그리고 동전을 백 번 던졌던 것 처럼 표본 집단을 추출해서 실험을 진행해. 그렇면 리탈린을 투여한 실험 집단과 그렇지 않은 통제 집단간의 차이를 관찰할 수 있겠지? 만약 두 집단간의 차이가 적게 나타난다면 리탈린이 효과가 있다고 여길만한 증거가 없는거야. 가정이 옳았던 것이지. 반대로 두 집단간의 차이가 크게 나타나서, 리탈린의 효과 없이는 일어날 수 없을 것 같다면 리탈린은 모집단에서도 마찬가지의 효과를 보일거야. '리탈린은 효과가 없다.'라고 가정했던 것이 틀렸던거야.
정말일까?
혹시 정말 우연의 일치로 연구자가 실험했던 집단들에서만 리탈린의 효과가 나타나는 것 처럼 보인 것은 아니었을까?
정말 우연하게 앞면과 뒷면이 52대 48로 나왔지만 찌그러진 동전은 아니었을까? 혹은 정말 우연하게 앞면과 뒷면이 95대 5로 나왔지만 반듯한 동전이지는 않았을까?
이런 우연에 대해서는 '변산성'이라는 이름으로 나중에 배우게 될거야. 만약 관찰된 결과가 우연히 일어날 수 있을 정도로 높은 확률을 갖고 있다면, 우리는 리탈린이 효과가 있다는 증거를 찾지 못하는거지. 하지만 우연에 의해 일어날 확률이 낮다면, 아마도 리탈린은 효과가 있는 것일거야.
그럼 이제 우연에 의해 일어날 확률에 대해 알아야 하겠지?
통계적 절차에 결정되는 확률은 100%나 0%가 거의 없고 보통 그 사이의 값으로 정해져. 동전을 백 번 던졌을 때 앞면만 100번 나오진 않겠지? 그래서 과학자들은 모집단에서 차이가 존재한다고 결론짓기 위한 작은 확률을 정했어. 5%로 말이야. 즉, 반듯한 동전을 백 번 던졌을 때 정말, 정말 희박한 확률이 되겠지만 95번 정도는 앞면이 나올 수 있다는 거야. 번개도 7번 맞고 매주 로또 당첨자가 나오는 세상에서 5%는 희박한 확률처럼 보이지 않을수도 있겠네.
아무튼 모집단에서 실제로 차이가 존재하지 않는다고 해도 관찰된 결과가 발생할 확률이 5% 이하라면 리탈린이 효과가 있다고 결론짓기로 했어.
생각해 봐. 아무리 돈과 시간이 많다고 해도 전세계 모든 ADHD 환자들을 대상으로 실험을 할 순 없어. 그치? 그럼 우리는 돈과 시간을 아끼기 위해 모집단에서 일부만 추출해서 실험을 하고, 추출된 표본집단의 결과를 토대로 모집단에도 효과가 있을거라고 가정하는것이 더 효율적일거야. 이를통해 과학자는 리탈린이 ADHD를 앓고있는 학생들의 학업 성과를 향상시킬 수 있다는 결론에 도달했어. 야호!
한 때 '공부 잘하는 약'이 화제가 되었던 적이 있어. 뉴스에도 나오고 그랬었지.. 그 약이 바로 이 '리탈린'이야. 뇌의 가소성을 높인다고 하는데 약에 의한 공부 의존도를 높일 수 있는 악영향이 있기 때문에 단면만 보고 공부를 잘하기 위해 약을 먹는 행위는 하면 안돼! 리탈린 멈춰! 물론 ADHD 환자들은 의사의 판단에 의해 처방 받을 수 있겠지만 말야.
추론 통계는 과거를 통해 미래를, 알고 있는 것을 통해 미지의 영역을 탐구하는 것이라고 했지만 이를 위해서는 베짱이와 같은 자세가 필요해. 성실한 사람이라면 최대한 많은 표본을 확보하려고 노력하고 무수히 많은 실험을 진행하면서 효과를 검증하려고 할거야. 하지만 귀차니스트들은 최소한의 표본을 통해 최대한의 성과를 내는 쪽으로 전략을 잡지 않을까? 동전을 백 번 던지나 천 번 던지나 결과는 그게 그거일텐데 뭐하러 천 번을 던지냐는 것이지.
그래서 통계학을 공부할 땐 귀차니스트의 자세로 임했으면 좋겠어. 나는 베짱이!
사실 내가 가르치고 있는 프로그래밍의 영역도 비슷해. 복잡하고 많은 일들을 쉽게 처리하기 위해 프로그램을 만들기 때문이지. 통계나 프로그래밍 뿐만이 아니야. 인간은 어쩌면 귀차니스트로 설정되어있는지도 몰라. 그걸 깨려고 부단히 노력하며 살아가지만 그래도 나는 베짱이!
어때? 추론 통계에 대해 배워보니 추론 통계의 강력함을 알겠어?
추론 통계는 아주 적은 사례수를 통해 전체 현상에 대해 결론을 내도록 이끌어 주는 미래를 밝히는 등대와 같은 학문이야. 코로나 치료제도 이와 마찬가지로 임상실험이 진행됐겠지? 추론 통계 덕에 우리는 무서운 전염병으로부터 벗어나 소중한 일상을 되찾을 수 있게 되었잖아. 추론 통계 찬양!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
02-1 분포의 특징 : 빈도분포와 상대빈도분포 (0) 2022.03.14 01-4 평균 : 평균 그리고 연산 (0) 2022.01.12 01-3 시그마 : 합의 기호 ∑ (0) 2022.01.12 01-1 기술 통계학 : 왜 통계를 공부해야 하는가? (0) 2022.01.12 0. 들어가며 (1) 2022.01.12