ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 06-4 상관 계수의 성질
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 6. 14:17

     상관 계수에 대해 배우고 계산 하며서 상관 계수의 성질에 대해 알게 되긴 했지만, 이쁘게 정리한 적은 없는거 같아서 이번에 정리하고 넘어갈게!

     

     우선 상관 계수, 혹은 피어슨 상관 계수, r 이라고 하는 것은 X와 Y간의 어떠한 관계가 있는지, 얼만큼의 관계가 있는지 알아보려는 지수였지? 양의 상관 관계가 있다면 X가 증가할 수록 Y도 증가하는 것이고, 음의 상관 관계가 있다면 X는 증가하지만 Y는 감소하는거야.

     상관 정도가 크다면 r은 1이나 -1에 가까워 질 것이고, 상관 정도가 약하다면 0에 가까워 지겠지? 종합하면

     

    -1 ≤ ≤ 1

     

     가 되는거지.

     만약 X와 Y의 관계가 없다면 점수치들은 아주 동그란 고구마 처럼 보일거야.

     

     

     그럼 Y의 평균선은 X와 평행할 것이고, 회귀선은 평균선 만큼의 높이를 가지게 되겠지. r은 TSS에서의 ESS의 비율의 제곱근(√(ESS/TSS))인데 평균선과 회귀선의 차이가 없으니 ESS도 0이 되겠지. 그럼 분자가 0이 되면서 r도 0이 될거야. 위 그림을 보면 쉽게 이해할 수 있을거야.

     

    -

     

    정의될 수 없는 r

     

     그런데 만약 Y가 같다면?

     

     

     X에 관계 없이 Y가 모두 같다면 r은 어떻게 될까? 바꿔 말하면, Yi에 분산이 전~혀~ 없다면 r은 어떻게 될까?

     

     상관 계수 r을 어떻게 구했는지 다시 생각해 보면 TSS에서 ESS의 비율의 가지고 구했잖아? 근데 위의 놈들은 Yi가 모두 같기 때문에 평균과의 차이가 없어. 분산이 없다는 것이지. TSS가 0이라는거야. TSS가 0이면? 분모가 0이라는 뜻인데, 분모는 0이 될 수 없어. 따라서 위와 같은 점수치들의 r은 정의 될 수없어. 0으로 나눌순 없으니까.

     

    -

     

    r과 r²의 관계

     

     TSS에서의 ESS가 상관 관계의 핵심이라고 생각되지? 그럼 다시 기본으로 돌아가 r과 r²를 살펴볼까?

     r²은 TSS에서 ESS의 비율이고, r은 거기에 제곱근을 취한거잖아. 그런데, 1보다 작은 수에 제곱근을 취하게 되면 증가하기 마련이야. 예를 들어서 r²은 0.36인데 여기에 제곱근을 취한 r은 0.6이거든. 거의 두 배가 되었지? 이 뜻은 뭘까?

     

     만약 흡연이 X이고, 폐암이 Y인데 흡연과 폐암의 상관 계수 r이 0.6이라고 해 볼게. 0.6은 뚜렷한 정적 선형 관계가 있다는 것을 뜻 해. 오! 그럼 담배피면 폐암 걸리는거 아냐? 라고 생각할 수도 있어. 하지만 r²을 쳐다보면 0.36 밖에 되질 않지. 흡연과 폐암의 관계는 분산이 36%라는 뜻이야. 약 1/3이지. 나머지 2/3는 유전적 요인, 스트레스, 공기 오염 등 다른 요인이 될거야. 어쩌면 나머지 2/3에 속하는 요인들이 폐암 발병에 더 큰 영향을 끼칠 수 있는 것이지.

     

     이렇게 r과 r²은 숫자가 작아질 수록 정도가 급격하게 달라지니 해석에 있어 잘 생각해 봐야 돼. r²이 0.01이라면 r은 0.1이 되잖아? 10배가 되는거야. 반대로 숫자가 커져서 r²이 0.81이라면 r은 0.9가 될거야. 얼마 차이 나지 않지! r²은 분산의 비로 해석될 수 있고, r은 방향성을 나타내주는 분산의 비의 제곱근이 되는것이지.

     

    -

     

    척도의 변환

     

     특히 척도가 변환된다고 해도 r은 달라지지 않아.

     척도를 변환한다는 것은 점수치들에 0이 아닌 상수를 더하거나, 빼거나, 곱하거나 나누는 것을 말하겠지? 상관 계수 r은 분산의 비율이기 때문에 분모가 달라질 때 분자가 그 만큼 같이 달라지면 비율은 그대로가 되겠지. 생각해 보면 당연한 이야기야. 키와 몸무게의 상관 관계를 조사하기 위해서 키는 cm단위로 놓고, 체중은 kg단위로 놓는다고 가정해 볼게. 그런데 조사자가 미국인이라 마음이 바뀌어서 체중을 kg에서 lb(파운드)단위로 바꾸었다면? 상관 관계도 달라져야 할까? 아니겠지~ 척도만 바뀌었을 뿐 키와 몸무게의 관계는 그대로 있을거야. 영국식 단위 체계 버렸으면 좋겠당..

     

    -

     

    예언의 방향

     

     청개구리들은 'X로 부터 Y를 예측한다!'라는 말을 들었을 때, '흥! 나는 Y로 부터 X를 예언할거야!'라는 생각을 가질 수 있어. 내가 그랬지. 개굴 개굴.

     만약 SAT 점수로 부터 예측한 GPA의 상관 관계 r이 0.88이라고 했을 때, 반대로 GPA로 예측한 SAT의 상관 관계가 달라질까? 잘 생각해 보면 선형적 관계에서는 달라질 수가 없겠지. 그 놈이 그놈이 돼. 청개구리 짓이 실패 한거야! 깨굴.. ㅠ.ㅠ

     

    -

     

    상관 계수와 추정 표준오차의 관계

     

     상관 계수의 제곱 r²와 추정 표준오차 의 제곱 S²y.x 사이의 관계는

     

    r² = 1 - Sy.x² / Sy² = 1 - {∑(Yi-Yh)²/(N-2)} / S²y = 1 - 예측 안된 분산 / Y 전체 분산 = 1 - 고구마의 뚱뚱한 정도 / Y 전체 분산

     

     이라고 할 수 있어. 잘 보면 Sy.x²/Sy²가 작으면 작을 수록 은 당연히 커지겠지! 다시 말해 점수치들의 분산이 전체 분산에 비해 작을수록 상관은 커지게 돼. 즉, 고구마가 날씬할 수록 상관이 커진다는거지. 아래의 그림을 볼까?

     

     

       왼쪽 그림과 오른쪽 그림은 Y의 전체 분산이 같아. 하지만 점수치들이 회귀선에 모여있는 정도, 즉 Sy.x²를 보면 왼쪽 그림이 오른쪽보다 Sy.x²가 작지. 점수치들이 직선에 더 모여있으니까. 따라서 두그림을 보면 Sy.x²/Sy²에서 분모는 같은데 왼쪽 그림은 분자가 더 작으니 Sy.x²/Sy²도 왼쪽 그림이 더 작겠지? 그런데 1-Sy.x²/Sy²니까 상관 관계도 왼쪽이 더 클거야. 혹은

     

     

     위 그림처럼 Sy.x²는 10으로 같은데 왼쪽 그림의 Y 분산이 더 작다면 어떻게 될까? Sy.x²/Sy²에서 분자는 같지만 분모가 다른 경우가 되겠지? 그런데 분모가 왼쪽 그림보다는 오른쪽 그림이 더 클거야. 따라서 오른쪽 그림의  Sy.x²/Sy²가 더 작겠지. 그럼  1-Sy.x²/Sy²니까 상관은 오른쪽 그림이 더 크겠네?!

     

     정리하면,

    ① 점수치들이 회귀선에 몰려있을 수록(고구마가 날씬할 수록)

    ② 회귀선의 기울기가 가파를 수록

     상관은 더 높게 돼.

     

    -

     

     요 정도로 상관 계수의 성질을 알아 봤어. 다음 시간에는 상관 계수와 표본 추출에 대해서 알아볼게! 안녕!

Designed by Tistory.