-
02-2 도표와 변산성 : 분포들은 어떻게 다른가?데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:48
앞서 빈도분포를 배우면서 빈도가 어떻게 분포되어있는지 알 수 있었어. 빈도, 누적빈도, 상대빈도, 누적상대빈도를 통해서말야. 하지만 누구나 다 그렇듯 수치를 열심히 쳐다보는 사람은 없어 더 쉽게 정보를 받아들이고 싶어하지. 숫자로 된 정보를 사람들에게 더 쉽게 제공하려면 어떻게 해야될까? 그림으로 그리면 되지!
어떤 정보를 전달하는 것이 꼭 글자(텍스트)의 형태일 필요는 없어. 이전 시대에서는 정보 전달의 매체가 다양하지 않았기 때문에 글자에 대한 의존도가 높았지만 지금에 와서는 그렇지 않게 되었지. 벌써 나만해도 무언가에 대해 배우고자 할 때 유튜브 등 시청각 자료를 활용하는 비중이 높으니까 말야. (그런데 왜 나는 글자로 정보를 전달하고 있는가?)
다만 유튜브에서 얻을 수 있는 정보는 영상을 시청해야되기 때문에 너무 오래걸리지. 그래서 난 주로 넘기면서 보거나 필요한 부분만 딱 뽑아서 시청하는 편이야. 근데 그럴거면 글로 된 정보를 보는 것이 더 낫단 생각이 들어. 실제로 간단한 정보는 그림이나 유튜브 검색을 통해 찾아보지만 그렇지 않은 경우에는 글로 된 자료를 찾아보고 있어.
물론 정보의 형태에 따라서 시청각 자료의 의존도가 크게 달라져. 운동이나 요리는 글로 배우는 것 보다 영상으로 배우는 것이 훨씬 더 낫지. 테니스 라켓을 쥐는 법, 기타 코드를 잡는 법, 파를 어슷 써는 법 등과 같은 것들 말야. 또, 숫자로 된 자료들도 시청각 자료들로 배우는게 훨씬 낫다고 봐. 수학의 많은 부분은 도표(그래프)를 통해 나타낼 수 있으니까 말야. 피타고라스 정리를 a²+b²=c²과 같은 수식으로 외우게 하는 것 보다,
이런 영상으로 배운다면 훨씬 쉽게 이해할 수 있겠지. 피타고라스 정리 뿐만 아니라 저차원함수나 삼각함수 등도 아래와 같은 영상을 통해 배운다면 훨~씬~ 쉽게 이해할 수 있어.
하지만 우리는 판서를 위한 칠판이 중심이 되는 교실에서 공부를 하기 때문에 이런것들은 첨단 교육을 도입한 학교가 아니라면 접하는 것이 쉽지 않을거야. 흑흑..
암튼 숫자는 도표로 보면 쉽다는거야. 그리고 우리가 빈도분포를 구해 빈도분포표를 만들거나 차트를 만든 이유는 수치들을 더 쉽게 보기 위해서야. 그래야 분포들을 잘 파악할 수 있거든. 분포에서 가장 중요한 것들은
① 중심경향
② 변산성
③ 편포도
④ 첨도
라고 할 수 있어. 하나씩 살펴볼까?
-
① 중심경향
중심경향(central tendency) (혹은 집중경향)은 집중되어있는 중심에 대한 것이야. 당연히 자료를 대표할 수 있겠지? 중심향치로는 우리가 배웠던 평균이나 중앙값, 최빈값을 사용할 수 있어. 중앙값은 중앙에 있는 값이고 최빈값은 제일 많이 나타나는 값이야. 중심경향치에 대해서는 다음에 다시 다뤄볼게.
만약 모양은 같은데 중심경향만 다르다면
이런식의 도표로 나타나겠지? 내가 손으로 그렸기 때문에 삐뚤삐뚤 한 것은 이해해주면 좋겠어!
위 그림에서 A는 초등학생, B는 고등학생이 되고 점수치는 몸무게가 될 수도 있을거야. 초등학생보다 고등학생들의 몸무게가 더 많이 나갈 것이므로 B가 A보다 더 큰 중심경향을 나타내고 있어.
다음으로는 변산성을 살펴볼까?
② 변산성
변산성(variability)은 '흩어져있는 정도'를 뜻 해. 중심경향으로부터 얼마나 떨어져 있냐는 것이지. 아래의 도표를 볼까?
위 도표는 중심경향은 같은데 변산성이 다른 예시야. A학급과 B학급의 시험점수라고 가정해볼게. 중심경향치가 평균이라고 했을 때 두 학급의 평균 점수가 같은 것을 볼 수 있어. 하지만 B학급에는 A학급보다 공부를 잘 하는 학생들이 많았지! 그런데 공부를 잘 하는 학생들 만큼 열심히 하지 않은 학생들도 많았던거야. 그래서 결국 두 학급의 평균 점수는 같게 된 것이지!
학교 선생님이라면 A반과 B반을 어떻게 생각할까?
언뜻 보기에는 A반이 더 가르치기 수월해 보이지만.. 나는 B반이 더 좋아. 왜? 공부 못하는 놈들이 많잖아! 공부 못하는 친구들을 잘하게 만들어 주는게 선생님의 역할이거든. 공부 잘하는 친구들을 더 잘하게 만드는 것은 본인의 몫이야. 선생이 해 줄 수 있는 게 별로 없어.
암튼 중심경향이 같더라도 변산이 다르면 도표의 형태가 크게 달라질 수 있다는 것을 알아야 돼!
③ 편포도
편포도(skewness)는 포도나 청포도처럼 먹을수 있는게 아냐. 중심경향이 한쪽으로 치우쳐진 분포를 말하는거야. 가운데 있는게 아니라.. 당연히 편포도가 다르면 중심경향은 달라질 수 밖에 없을거고.
A와 B는 중심경향도 다르고 편포도도 다르지. 어?! 이거 어디서 많이 본 모양 아냐?!
B는 중심경향이 오른쪽으로 치우쳐져 있지? 비슷하게는 위와 같은 차트를 편포된 분포를 가지고 있다고 해.
중요한 것은 변산성이 크다고 해서 편포도도 크다는 것은 아니야. 당연하지? 변산성은 중심경향에서 흩어진 정도만을 뜻하지만 편포도는 중심경향에서 흩어져있기도 하지만 대칭을 이루지 않고 어느 한 쪽으로 치우쳐져 있어야 돼. 방향성이 있는 것이지!
그리고 A와 같이 오른쪽으로 꼬리가 늘어진 놈을 '정적 편포(positive skew)', B와 같이 왼쪽으로 꼬리가 늘어진 놈을 '부적 편포(negative skew)'라고 해.
④ 첨도
첨도(kurtosis)는 도표가 평탄하거나 뾰족한 정도(curvedness, peakness)를 뜻 해. 아까 변산성을 설명할 때 봤던 도표를 다시 볼까?
이 도표에서 A와 B중에 어느것이 더 뾰족하다고 생각해? 당연히 A가 되겠지? 더 뾰족한 놈을 '첨용(leptokurtic)'이라고 해. lepto가 희랍어로 얇다는 뜻이라네. 반대로 B같이 더 완만한 놈을 '평용(platykurtic)'이라고 해. platy는 평평하다는 뜻이야.
첨도를 K라 했을 때 뾰족하거나 평평한 정도에 따라 첨도값을 나타낼 수 있어. K값이 커질수록 더 뾰족해지고, 반대로 K값이 작아질수록 완만해지지. K가 0일 땐 '중첨(mesokurtic)'이라고 해. 그리고 K값이 3에 가까울 수록 '정규분포'에 가깝다고 해. 정규분포에 대해서는 나중에 더 자세하게 다뤄볼게.
-
제일 중요한 것은 변산성이야. 중심경향으로부터 점수들이 얼마나 흩어져 있는지를 알 수 있으니까 말야. 변산성이 작으면 중심경향으로 부터 모여있는 것이고, 반대로 변산성이 크면 많이 흩어져 있는 것이지. 꼭 기억해! 안녕!
'데이터 분석 > 파이썬으로 배우는 데이터 분석을 위한 통계학' 카테고리의 다른 글
03-2 중심경향의 지표 : 중앙값과 조건문 1 (0) 2022.03.14 03-1 중심경향의 지표 : 평균 (0) 2022.03.14 02-1 분포의 특징 : 빈도분포와 상대빈도분포 (0) 2022.03.14 01-4 평균 : 평균 그리고 연산 (0) 2022.01.12 01-3 시그마 : 합의 기호 ∑ (0) 2022.01.12