ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 05-1 회귀 : 선형적 관계성
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 3. 23. 15:52

     드디어 회귀를 배울 시간이 왔어! 회귀는 진짜 재밌으니까 여러분들도 재미있게 배웠음 좋겠네!!

     '회귀(regression)'란 말 그대로 돌아가는 것을 뜻 해. 회귀라는 단어만 듣고는 무슨 뜻인지 감이 안와. 어디로 돌아가야 될지를 모르니까. 그럼 어디로 돌아가면 될까?

     우리가 통계를 배우는 이유를! 또! 생각해 보면, 전체를 조사하기에는 시간도 너무 오래 걸리고 돈도 많이 들고 귀찮고.. 그치? 그래서 전체를 대표할 수 있는 무언가가 있으면 참 좋겠다~ 라는 이유 땜에 배우고 있잖아. 회귀는 전체를 대표할 수 있는 무언가로 돌아가는 것을 뜻 해. 그럼 무언가는 뭘까? 이제부터 배워야지!

     

     통계학은 참 멋있는 학문이야. 부분으로 부터 전체를 엿볼 수 있잖아. 정말 신기할 일이지. 우리가 조금의 통계학적 지식을 갖고 있다면 내가 원하는 범위를 다 조사하지 않고 부분적 데이터만 갖고 있어도 추론해 볼 수 있어. 물론 부분을 통해 전체를 완벽하게 알 수 있는 것은 아냐. 그치만 부분을 통해 전체를 엿보는게 어디야. 눈을 감고 길을 걸어가는 것 보다는 아주 희미하게나마 불빛을 향해 걸어가는 것이 더 낫지. 안그래?

     

     회귀도 비슷해. 과거로부터 미래를 엿볼 수 있어. '예측(prediction)'이라고도 하지. (혹은 예언이라고도 함.) 생각해 볼게. 과연 SAT(미국 대학 시험)를 잘 본 학생이 대학교에 들어가서도 공부를 잘 할까? SAT도 점수가 있고 대학교 성적도 학점(grade point)이 있어서 수치적으로 비교하는 것은 어렵지 않아. 보통은 SAT 점수가 높은 학생이 대학교에 들어가서도 성적이 좋을 것이라고 예상하지. 그 예상이 맞는지 어떻게 알 수 있을까?

     

     바꿔 말하면, SAT라는 변인이 학점이라는 변인을 예측하는 것이 가능할까?

     이 질문에 대해 19세기 Francis Galton 경의 연구에서 답을 찾을 수 있을거야. 어? 골턴?

     

    https://youtube.com/shorts/Vo9Esp1yaC8 

     

     맞아! 정규분포를 공부하면서 '골턴 보드'에 대해 알려준 적이 있지? 이 골턴 보드의 골턴이 '프랜시스 골턴'을 뜻 해. 골턴 보드를 프랜시스 골턴 경이 만들었거든! 당연한가? 프랜시스 골턴 경은 본인 보다 사촌이 더 유명한데, 그 사촌은 바로 '찰스 다윈'이야. 진화론의 그 '다윈' 말야.

     

     다윈의 진화론은 프랜시스 골턴 경에게도 영향을 끼쳤는데, '한 변인이 다른 변인에 영향을 주는가?'에 대한 것이야. 진화론이 그런거니까. 만약 부모의 키가 크다면? 부모의 자식들 또한 키가 크겠지? 부모의 키 라는 변인과 자식의 키 라는 변인 사이의 어떤 관계가 있는거야. 하지만 얼마나, 어떤 관계가 있을까?

     인류학자였던 프랜시스 골턴 경은 키가 큰 아버지의 아들들을 살펴봤어. 아버지의 키가 크니까 아들들도 키가 컸겠지? 하지만 아버지 만큼 큰 경우 보다는 아버지보다 작은 경우가 더 많았던거야. 반대로, 아버지의 키가 작은 경우에는 아들들의 키가 작긴 했지만 아버지 보다는 컸던거지. 즉, 키가 크거나 작은 것은 아버지를 닮긴 했지만 전체적으로 평균적인 키에 근접하려는 경향이 있었던 것이지.

     이것을 '평균으로의 회귀(regression toward the mean)'이라고 해. 회귀란, 평균으로 돌아간다는 것이지!

     물론 예외도 많아. 나 또한 우리 아버지께서는 180이 넘는 장신이신데, 나는 그렇지 못하거든.. 당연히 나와 같은 예외적인 경우도 많을거야. 180이 넘는 극단적인 수치 보다는 평균적인 키에 근접하려는 경향 때문이야. 평균으로의 회귀!

     정리하면, '회귀'라는 것은 변인들과의 관계와 한 변인이 다른 변인을 예측하는 다양한 통계적 기법들을 말해. 그럼 이제 숫자로 미래를 예측하는 놀라운 경험을 같이 해 볼까?!

     

     -

     

     선형적 관계성

     

     회귀에 대해 공부하려면 중학교 때 배웠던 일차함수에 대해 알아야 돼. 우리가 어렸을 때 배운 X와 Y의 관계가 바로 변인들의 관계거든. X 변인에 따른 Y 변인 말야. 대신 우리는 간단하게 선형적(linear) 방정식만 다뤄 볼거야.

     

     여러분이 어떤 아르바이트를 시작했다고 해 볼게. 시급은 1만원이었어. 당연히 1시간 일하면 1만원을 받고, 2시간 일하면 2만원을 받겠지? (세금 등을 생각하지 않음) 여기서 시간을 X라 하고 돈을 Y라 한다면 아래와 같이 정리할 수 있을거야.

     

    시간 (X) 1 2 3 4 5
    돈 (Y) 1 2 3 4 5

     

     1시간에 1만원씩 버니까 시간과 돈이 같을 수 박에 없겠지. 방정식으로 나타내면

     

    X=Y

     

     가 될거야. 당연하지? 그래프로도 나타내 볼까?

     

     

     이 방정식을 통해 내가 10시간 일하면 10만원을 받을 수 있다는 것을 알 수 있어. 내가 얼마 만큼 일하는지에 따라 받을 돈을 예측할 수 있게 된 것이지! 바꿔 말하면, X 변인을 통해 Y 변인을 예측할 수 있게 된거야! 그래프를 살펴보면 X와 Y가 '선형적 관계(linear relationship)'을 가지고 있다는 것을 쉽게 알 수 있겠지? 빨간색 선이 떡! 하고 있으니까.

     

     하지만 모든 것들이 선형적인 것은 아니야. 당연히 '비선형(nonlinear)'적인 것들도 있겠지. 하지만 우리는 기초통계학을 공부하고 있기 때문에 선형적 관계마을 다뤄볼게.

     

     자, 이제 다시 아르바이트로 돌아가보자! 여러분들이 일을 너무 잘해서 사장님이 시급을 화끈하게 올려주기로 했어. 이제 시간당 2만원을 받게 된거야! 굳! 1시간 일하면 2만원을, 2시간 일하면 4만원을 벌 수 있겠지? 위와 마찬가지로 표로 정리해 보면,

     

    시간 (X) 1 2 3 4 5
    돈 (Y) 2 4 6 8 10

     

     이렇게 정리할 수 있어. 그리고 방정식은

     

     Y = 2X

     

     가 되겠지. 그래프로도 나타내볼까?

     

    Y = 2X

     

      어렵지 않지? 자, 이제 우리가 할 일이 생겼어. Y=X 의 그래프와 Y=2X의 그래프의 차이를 살펴 보는거야. 그림으로만 보면 직선의 기울기가 똑같아 보이지만 Y축을 쳐다보면 그렇지 않아. 그럼 Y=X의 그래프와 Y=2X의 그래프의 기울기는 어떻게 다를까?

     

     직선의 기울기 또한 중학생때 배운 내용이지만 복습차원에서 설명해보면, 기울기는 밑변분의 높이라고 배웠었지? 직선상의 두 점을 각각 (X1, Y1), (X2, Y2)라 하면 기울기는

     

    (Y2-Y1) / (X2-X1)

     

     가 될거야. Y=X 방정식에서 기울기를 구해볼까? 아래의 그림처럼 (2, 2)와 (4, 4)를 놓고 높이에서 밑변을 나눠 볼게.

     

     

     당연히 2에서 2를 나누면 1이 되겠지? Y=X의 기울기는 1이라는 뜻이야.

     

     다음으로는 Y=2X의 기울기를 살펴 볼게. 이번에는 (2, 4)와 (4, 8)을 통해 기울기를 살펴 볼까?

     

     

     높이가 4이고 밑변이 2이기 때문에 밑변분의 높이는 2가 돼. 따라서 Y=2X의 기울기가 2라는 뜻이야.

     

     물론 기울기가 항상 양수만 있는 것은 아니야. 기울기가 음수가 되는 경우도 있어. 아래의 Y=-2X와 같이 말야.

     

     

     이런 경우는 일을 할 수록 돈을 까먹는 경우가 되겠지.. 상상만 해도 끔찍하네..

     암튼 위 직선의 기울기를 구해보면 -2가 나올거야. 음수일 경우에는 오른쪽으로 갈수록 내려가는 모양이지. 바꿔 말하면 X값이 증가할수록 Y값 또한 낮아지게 되겠네!

     

     여기까지 왔으면 눈치 챌 수 있겠지? 방정식에서 기울기는 X의 '계수'를 말해. 계수란, X 앞에 붙은 놈이야.

     Y=X는 기울기가 1, Y=2X는 기울기가 2, 그리고 Y=-2X는 기울기가 -2였잖아. 1차 방정식에서는 X 앞에 붙은 놈이 기울기가 되는거야. 참 쉽지?

     

     다시 아르바이트로 돌아가 볼까? 여러분이 일을 너무 잘해서 시급이 2만원이 된 것도 모자라서, 사장님이 보너스로 하루에 5만원씩 더 주기로 했어! 이 5만원을 여러분의 시급과 상관없이 무조건 지급되는거야. 사장님 최고!

     그럼 1시간 일하면 시급 2만원에 5만원을 더한 7만원을 벌게 되는 것이고, 2시간 일하면 시급 4만원에 5만원을 더한 9만원을 벌게 되겠지? 표로 나타내면,

     

    시간 (X) 1 2 3 4 5
    돈 (Y) 7 9 11 13 15

     

     이렇게 나타낼 수 있어. 일한 시간 X와 상관 없이 5만원은 무조건 받는거니까, 위 값들을 Y=2X+5라는 방정식으로 나타낼 수 있을거야. 그래프로도 나타내 볼까?

     

     

     X의 계수가 기울기라고 배웠잖아. 그럼 X뒤에 오는 놈은? 'Y절편(intercept)'라고 해. X가 0일 때 Y가 되는 값이지. 위 방정식에서는 '+5'가 절편이 되는거야.

     

     우리는 이제 일차 방정식에 대해서 어느정도 배웠어. 회귀를 공부하려면 회귀선을 그릴 수 있어야 되는데, 회귀선이 일차 방정식이거든! 중학교 수준의 내용이니까 어렵지 않지?

     

     다음 시간에는 이러한 선형적 방정식을 파이썬에서 어떻게 표현할 수 있는지 살펴볼거야! 안녕!

Designed by Tistory.