ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 08-11 자유도 : df
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 5. 4. 12:47

     우리는 분산(variance)에 대해 배울 때 자유도(degrees of freedom, df)에 대해 잠깐 공부 했었어.

     

    https://kimhaksung.tistory.com/entry/simtong03-3

     

    03-3 변산성의 지표 1 : 분산과 자유도

     드디어 분산과 표준편차가 등장했구나~!~!  사실 이전까지의 글들은 분산과 표준편차에 대해 설명하기 위한 빌드업이었지. 빌드업치곤 너무 긴거 아니냐고? 그만큼 분산과 표준편차가 중요하

    kimhaksung.tistory.com

     

     이번 시간에는 자유도에 대해 좀 더 다뤄볼거야.

     

     -

     

     자유도를 처음 만난건 분산에 대해 배울 때 였지. 모집단의 분산은 편차 제곱들의 총합(Total Sum of Squares, TSS 혹은 Sum of Squares, SS : ∑(Xi-M)²)을 사례수의 총 개수 N으로 나눠서 구할 수 있었어. 하지만 표본 집단의 분산은 N이 아니라 n-1로 나눠서 구할 수 있었지? 모집단의 평균이 M(μ)이고 표본 집단의 평균이 m(mean)이라고 했을 때 분산은,

     

    모집단의 분산 S²(σ²) :

    편차 제곱들의 총합 / 사례수의 총 개수 = ∑(Xi-M)² / N

     

    표본집단의의 분산 s² :

    편차 제곱들의 총합 / (표본의 크기-1) = ∑(xi-m)² / (n-1)

     

     으로 구할 수 있었지? 모집단은 모집단이 가지고 있는 사례수의 총 개수로 나눠주면 되지만, 표본집단은 추출한 표본의 크기(표본집단이 가지고 있는 사례수의 총 개수)에서 1을 빼 준 것으로 나눠줘야 했지. 그리고 이때 n-1을 자유도라고 했어. 기억나지?

     

    -

     

     그럼 대체 표본집단에서는 왜 n이 아니라 n-1로 나누는 것일까! 에 대한 설명도 했었지. 표본집단을 추출한 이유는 모집단을 추정하기 위해서인데, 바꿔말하면 표본집단은 모집단의 축소판이라고 할 수 있잖아? 그러니 표본집단의 평균과 모집단의 평균이 같아야 하고, 같을 수 밖에 없고, 같아야만 통계적 분석이 가능하니 같도록 만들어야 하는데, 그렇다면 표본집단의 평균을 모집단의 평균과 같게 만드려면 시소 마지막에 앉는 놈이 시소의 균형을 이루도록 하기 위해서는 앉고싶은 자리에 앉을 수 없잖아. 균형을 마추기 위한 단 하나의 그 자리!에 딱 앉아야 하는거지. 그치?

     

     즉, 자유도(degrees of freedom, df)는 '계산에서 자유롭게 변할 수 있는 요소의 수'를 뜻 해.

     

     항상 정의는 뭔 말인지 모르겠지. 짧은 문구에 방대한 뜻을 담아야 하니까. 그래도 잘 살펴보면 답이 들어있긴 해. 예를 들어볼까? Xi들의 평균을구할 땐 Xi들을 다 더해서 N으로 나눴지?

     

    M = ∑Xi / N

     

     그렇다면 M의 계산에서는 N 만큼의 자유도를 지니는거야. 무슨말이냐면, 우리가 N개의 평균을 구하기 위해서는 N이라는 값을 꼭 알아야 돼. N은 정해져야만 하지. 바뀌면 안돼. 숫자 5개의 평균을 구한다고 해 봐. 5개를 모르면 평균을 구할 수 없지. 꼭 알아야 돼. 하지만 5개의 숫자들은? 변해도 돼. 바뀌어도 돼. 정해져있을 필요가 없어. 우리는 숫자 5개를 알려는게 아니라 숫자 5개의 평균을 알고싶은거잖아. 그럼 5개의 숫자들은 지 맘대로 변해도 돼. 자유로운 놈들이지. 즉, N개의 평균을 구하려면 N개의 자유로운 숫자들을 가지고 구해야 된다는거야. N개의 자유로운 숫자들은 무엇이든 상관 없지만 N이라는 값은 변할 수 없지. 이게 자유도의 개념이야.

     

     분산 s²은 어떨까? 표본집단에서 분산은 SS를 n-1로 나눠야 했고, n-1은 자유도의 개념이라고 배웠어.

     

    s² = ∑(xi-m)² / (n-1)

     

     분산을 계산할 땐 n도 변하지 않아야 하고, m도 변하지 않아야 돼. 다만 점수치와 평균의 편차(xi-m)에서 점수치(xi)는? 변할 수 있지! 그런데 xi는 총 n개가 있어. 그럼 n개의 xi는 자유로울까? 아니야. 그 중에 한 놈은 자유롭지 않아. 왜? 우리는 알잖아. 점수치에서 평균을 뺀 값들을 모두 다 더하면 0이 된다는 사실을. 0이 되어야만 한다는 사실을. 그것이 평균의 개념이었고 말야. 그러니 편차들의 합을 0으로 맞추기 위해서는 시소의 균형을 맞추듯이 마지막 한 놈에겐 자유가 없어. 꼭 0이 되게끔 하는 자리에 앉아야만 해. 아래의 표를 볼까?

     

    xi m xi-m
    7 5 2
    5 0
    4 -1
    6 1
    ? ??

     

     일부러 xi와 xi-m의 마지막 칸은 '?'와 '??'로 비워 두었어. 여러분들은 xi-m의 총합이 0이 된다는 것을 이미 알고 있지. 그렇다면 '?'와 '??'에 들어갈 숫자도 알 수 있을까? 당연하지! 심지어 '?'를 몰라도 '??'를 알 수 있어. xi-m의 총합이 0이 되니까 2, 0, -1, 1 그리고 '??'를 더해서 0이 나와야 하잖아? 그렇다면 '??'에는 -2가 꼭 들어가야 돼. '?'는 당연히 3이 되겠지. 마지막 놈은 자유가 없어. 정해져 있기 때문에 지금처럼 계산도 할 수 있는거야. 위의 계산 처럼 n-1개의 편차만 알 수 있으면 나머지 1개의 편차는 자동으로 알게 돼. 이게 자유도의 개념이야. 잊으면 안돼! 시소!

Designed by Tistory.