ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 02-1 분포의 특징 : 빈도분포와 상대빈도분포
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 14. 19:46

     과학자들은 어떤 현상을 연구할 때 관찰을 하지. 변인과 측정치들간의 관계를 알아야 하니까. 관찰을 하면 여러가지 수치들을 모을 수 있을꺼야. 그럼 이 수치들을 어떻게 정리할 수 있을까? '빈도분포(frequency destribution)' 혹은 '도수분포'가 답이 될 수 있지!

     

     빈도분포란 말 그대로 측정한 값을 특정 수치나 범위로 구분하고 얼마나 출현하는지를 나타내는거야. 동전 던지기를 예로 들어볼까? 동전을 던졌을 때 앞면이 나올수도 있고 뒷면이 나올수도 있어. 그것들을 관찰하고 측정한 다음 앞면이 얼마나 나왔고, 뒷면이 얼마나 나왔는지 보자는거지. 이를통해 빈도분포를 알 수 있으니까.

     

     어떤 학급에서 역사시험을 치뤘다고 가정해볼게. 10점 만점의 시험이었지. 10명의 학생들이 역사시험을 봤는데 결과는 아래와 같아.

     

    학생 점수
    A 8
    B 10
    C 9
    D 7
    E 9
    F 8
    G 7
    H 6
    I 8
    J 7

     이제 이 관측된 수치들을 가지고 빈도분포를 알아볼거야. 일단 정렬을 해서 보기 좋게 만드는게 낫겠어. 점수가 높은 학생부터 낮은 학생 순으로 정렬해볼게.

     

    학생 점수
    B 10
    C 9
    E 9
    A 8
    F 8
    I 8
    D 7
    G 7
    J 7
    H 6

     

     우리에게 중요한것은 학생의 이름이 아니라 학생이 취득한 점수이기 때문에 점수라는 관찰된 수치로 정렬하는게 빈도분포를 알기에 훨씬 더 유용할거야. 그치? 다음으로는 해당 점수를 취득한 학생이 몇 명이나 있는지 알아볼거야. 표를 보면 10점이 한 명, 9점이 두 명, 8점이 세 명, 7점도 세 명 마지막으로 6점은 한 명인 것을 알 수 있어. 표로 정리해볼까? 대신 학생이 누구인지는 중요하지 않기 때문에 점수만 가지고 표를 만들어 볼게.

     

    점수 점수의 빈도분포
    10  
    9  
    9 10점 : 1명
    8 9점 : 2명
    8 8점 : 3명
    8 7점 : 3명
    7 6점 : 1명
    7 총 10명
    7  
    6  

     어때? 점수의 빈도분포를 보면 해당 점수를 취득한 학생이 몇 명인지 바로 알 수 있겠지? 이를통해 시험의 난이도가 어땠는지도 평가할 수 있을테고 말야.

     

     이번에는 A지역 80명의 미국인들에게 미합중국 대통령이 수행하는 정책에 어떤 생각을 갖고 있는지 알아보기로 했어. 국민들이 정책에 찬성하는지, 반대하는지 알아보기 위해서 말야. 질문에 대한 답변은 아래와 같아.

     

    ① 매우 찬성

    ② 찬성

    ③ 중립

    ④ 반대

    ⑤ 매우 반대

     

     오점척도라고 불리는 놈인데 많은 여론 조사 답변에 쓰이고 있지. 80명에게 물어봤을 때 아래와 같은 답변을 들을 수 있었어.

     

    A지역의 여론조사
    의견 f
    매우 찬성 10
    찬성 28
    중립 12
    반대 24
    매우 반대 6
      N = 80

     위 표에서 f는 수치가 등장한 빈도(frequency의 약자)를 뜻하고 N은 전체 사례수를 뜻 해. 80명에게 물어봤으니 전체 사례수는 80이 되겠지? 그리고 현재 미합중국 대통령의 정책에 매우 찬성하는 사람은 9명, 찬성하는 사람은 30명, 중립적인 사람은 10명, 반대하는 사람은 25명, 마지막으로 매우 반대하는 사람은 6명인 것도 알 수 있어.

     어때? 이 표를 보니 왜 빈도분포가 필요한지 알겠지? 수치를 보는게 매우 편리해진 것을 알수 있으니까! 그럼 이제 B지역의 여론을 살펴볼까?

     

    B지역의 여론조사
    의견 f (빈도)
    매우 찬성 40
    찬성 112
    중립 48
    반대 96
    매우 반대 24
      N = 320

     B지역의 여론조사를 얼핏보면 A지역에 비해 미합중국 대통력 정책에 찬성하는 사람들이 더 많아보여. 100명이 넘잖아! 정말일까?

     아니야. 사실 A지역과 B지역의 여론은 완전히 똑같아. 수치만 달라졌을 뿐이지.

     A지역을 보면 매우 찬성하는 사람이 80명 중에서 10명으로 8명 중 1명은 이 정책에 매우 찬성한다는 것을 알 수 있어. B지역은 320명 중의 40명, 즉 32명 중의 4명이 이 정책에 매우 찬성한다는 것을 알 수 있지. 32명 중의 4명과 8명 중의 1명은 다를까? 아니야! 같아! 둘 다 똑같이 8분의 1이기 때문이니까. 매우 찬성한다는 의견 뿐만 아니라 다른 의견들도 똑같은 비율을 가지고 있어.

     

     이렇듯 사례수가 달라지면 같은 내용을 담고 있다고 해도 자료에 대한 해석이 달라질 수도 있어. 인간은 기계처럼 빠르고 정확하게 계산할 수 없으니까! 그럼 어떡하지? '상대빈도분포(relative frequency distribution)'을 이용하면 돼!

     

     상대빈도분포는 말 그대로 빈도분포를 상대적인 비율로 나타내주는 분포야. 상대빈도분포를 이용하면 전체 사례수의 절댓값에서 오는 주관적인 느낌을 지울 수 있어.

     상대빈도분포의 기준은 100%, 즉 1이 돼. 전체를 1로 놓고 해당 수치의 빈도를 나타내는거야. A지역과 B지역의 여론조사 결과에서 상대빈도를 살펴볼까? 상대빈도는 상대빈도의 약자를 써서 'Rel f'라고 표기할게.

     

    A지역의 여론조사
    의견 f
    (빈도)
    Rel f
    (상대빈도)
    매우 찬성 10 0.125
    찬성 28 0.35
    중립 12 0.15
    반대 24 0.3
    매우 반대 6 0.075
      N = 80 1.000
    B지역의 여론조사
    의견 f
    (빈도)
    Rel f
    (상대빈도)
    매우 찬성 40 0.125
    찬성 112 0.35
    중립 48 0.15
    반대 96 0.3
    매우 반대 24 0.075
      N = 320 1.000

     빈도수(f)만 봤을 땐 달라보였는데 상대빈도(Rel f)와 같이 봤더니 완전히 똑같은 결과라는 것을 알 수 있었지! 상대빈도가 왜 중요한지 알겠지?

     

     사실 당연한 말이기도 했어.

     우리가 신문 기사나 TV 뉴스를 볼 때 어떤 조사를 보면 항상 '몇 명이 찬성한다.' 보다는 '몇 퍼센트가 찬성한다.'라고 표현하는 것을 볼 수 있잖아? 몇 명이 찬성하는지는 중요하지 않기 때문이야. 전체 사례수에 따라 상대빈도가 달라질 수 있으니까.

     

     이렇듯 빈도 분포는 수치를 기술하고 해석하는데 유용하다는 것을 알 수 있었어. 특히 빈도분포는 수치가 많을수록 더 중요하지! 한 번 살펴볼까?

     

     아래의 표는 내가 1부터 45까지 숫자 중에서 무작위로 생성한 100개의 숫자야. 난수라고도 하지.

    17 31 32 7 43 35 44 42 29 11
    13 18 22 14 15 35 35 30 27 30
    38 18 21 31 11 38 29 42 39 37
    28 28 8 30 29 38 30 29 24 17
    18 33 5 19 42 25 23 37 45 23
    38 17 18 13 37 20 12 42 20 8
    1 28 20 28 31 9 6 18 15 25
    25 20 6 30 37 4 19 12 20 1
    28 18 16 16 43 45 4 42 18 30
    40 25 33 21 19 28 35 44 20 40

     

     우리는이 표의 숫자들을 가지고 빈도분포표를 만들어 볼거야. 점수치가 45개로 너무 많기 때문에 '급간(class interval)'을 나눠놓고 빈도분포룰 살펴볼거야. 급간이란 점수치의 범위를 정해놓는 측정 척도의 한 구획이야. 1부터 5, 6부터 10, 11부터 15, 16부터 20, 21부터 25, 26부터 30, 31부터 35, 36부터 40 그리고 41부터 45의 총 9개의 범위로 나누어 놓자는거야. 45개는 너무 많으니까 9개로 줄이면 훨씬 더 보기 편하겠지? 아래의 표를 볼게.

     

    급간 f Rel f
    1~5 5 0.11
    6~10 6 0.13
    11~15 9 0.20
    16~20 21 0.47
    21~25 10 0.22
    26~30 17 0.47
    31~35 10 0.22
    36~40 11 0.24
    41~45 11 0.24
      N = 100 1.00

     어때? 급간으로 나누어 놓으니 보기 편하지? 각 극간의 빈도와 상대빈도도 나타내어 봤어.

     거기에 추가로!

     이번에는 '누적빈도분포(cumulative frequency distribution)'와 '누적상대빈도분포(cumulative relative frequency distribution)'에 대해서도 알아볼거야. '누가빈도분포', '누가상대빈도분포'라고도 해. 누가 이름을 지었는지 참 길다!

     이름은 어려워 보이지만 의미는 어렵지 않아. '누적'이라는 뜻이 더해서 쌓아나간다는 뜻이잖아? 빈도나 상대빈도를 계속 더해나가면 그게 누적빈도나 상대누적빈도가 되는거야. 쉽지? 누적빈도는 'Cum f', 누적상대빈도는 'Cum Rel f'라고 표기해 볼게.

     

    급간 f Cum f Rel f Cum Rel f
    1~5 5 5 0.05 0.05
    6~10 6 11 0.06 0.11
    11~15 9 20 0.09 0.20
    16~20 21 41 0.21 0.41
    21~25 10 51 0.10 0.51
    26~30 17 68 0.17 0.68
    31~35 10 78 0.10 0.78
    36~40 11 89 0.11 0.89
    41~45 11 100 0.11 1.00
      N=100   1.00  

     단순히 더해서 쌓기만 하면 되니 어렵지 않지? 그럼 누적빈도나 누적상대빈도는 왜 필요할까? 빈도나 상대빈도는 딱 그 급간에 대한 정보만 얻을 수 있어. 하지만 누적빈도나 누적상대빈도는 해당 급간과 그 이하 급간에 속한 점수들의 수나 비율을 빠르게 알 수 있지!

     예를 들어11~15의 빈도만 보면 9라는 것 밖에는 알 수 없는데, 누적빈도를 보면 1~15의 빈도가 20이라는 것을 알 수 있지. 그치?

     시험 점수나 체중, 신장과 같이 연속된 수치들에 사용하면 참 편리하겠네!

Designed by Tistory.