ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 05-6 추정 표준오차와 신뢰구간의 계산
    데이터 분석/파이썬으로 배우는 데이터 분석을 위한 통계학 2022. 4. 1. 13:28

     앞서 추정 표준오차에 대한 개념을 배웠어. 계산 방법이 특히나 더러웠지.. 그래도 잘 보면 회귀 방정식을 구하는 것과 비슷하기 때문에 회귀 방정식 계산하는 연습을 충분히 했다면 추정 표준오차를 계산하는 것도 어렵지 않을거야.

     

     이번 시간에는 파이썬으로 추정 표준오차를 계산하는 방법에 대해 같이 실습해 볼게!

     

    -

     

     추정 표준오차 Sy.x는

     

    Sy.x = √{ ∑(점수-회귀선)² / 자유도 } =√{ ∑(Yi-Yh)² / (N-2) }

     

     와 같이 구할 수 있었어. 그런데 Yh를 구하는 것이 까다롭기 때문에

     

    (Sy.x)² =1/N(N-2) * [ N∑Y² - (∑Y)² - (N∑XY-∑X∑Y)² / {N∑X²-(∑X)²} ] 

    Sy.x = √{(Sy.x)²}

     

     와 같은 계산식을 사용하는게 실제 계산에서는 더 편리하다고 했었지! 이 계산식을 잘 쳐다보면 우리가 구해야 될 것들은 ∑X, ∑X², ∑Y, ∑Y², ∑XY 밖에 없어. 회귀 상수를 구할 땐 ∑Y²가 없었는데 추정 표준오차를 구할땐 ∑Y²가 있네! 사실 회귀 방정식과 추정 표준오차를 구하는 재료는 이 차이밖에 없어. 간단하지?

     

     하지만 우린 손으로 직접 계산하는 것이 아니라 파이썬을 활용해서 계산할 것이기 때문에 계산공식을 사용할 필요는 없어. 저번에 구현해 놓은 회귀 방정식을 구하는 코드를 재활용하면 쉽게 추정 표준오차를 계산할 수 있을거야. 먼저 아래의 코드를 볼까? 저번에 구현한 회귀 방정식을 구하는 코드야.

     

     

     SAT 점수만 입력하면 예측된 Y가 출력되도록 코드를 만들었었지? 이 코드를 조금만 건드려서 추정 표준오차를 구하도록 해 볼게. Yi와 Yp의 차이를 제곱해서 다 더한것을 자유도로 나눠주기만 하면 돼!

     대신 ∑(Yi-Yh)²RSS(Residual Sum of Squares)라고 할게. 실제 Yi를 놓고 봤을 때 회귀방정식으로 예측을 하였으나 그럼에도 불구하고 남는 오차를 뜻 해. 이 용어에 대해서는 나중에 다시 한 번 제대로 다뤄볼게!

     

    코드를 실행해 보면 추정 표준오차가 0.76으로 출력되는 것을 볼수 있어. 이 회귀선의 추정 표준오차가 0.76이라는 뜻은 SAT 점수가 1200점인 학성이를 포함해서 모든 학생들의 평균 GPA에 대한 표준편차가 0.76이라는 뜻이야. 오차나 편차나 용어가 다 거기서 거기같네.

     

     이제 학성이의 SAT 점수가 1200점일 때 예측된 GPA가 약 2.46점 일 때 추정 표준오차의 범위를 생각해 볼게. 학점 분포가 정규분포라면 표준정규분포표를 통해 백분위를 구할 수 있잖아? 저번 시간에 다뤘던 내용이지. 이번에는 SAT 점수에 따라 95%의 범위와 99%의 범위에 포함되는 GPA를 구해 볼게. 통상 95%는 ±1.96, 99%는 ±2.58의 표준편차에 해당된다는 것을 안다면 쉽게 구할 수 있지!

     

     

     위 코드를 실행해서 학성이의 SAT 점수 1200점을 입력한다면 95%에서는 0.97부터 3.94까지의 GPA가 포함되고, 99%에서는 0.51부터 4.41까지의 GPA가 포함된다는 것을 알 수 있어. 무슨 뜻일까?

     이 개념은 '신뢰 구간(confidence interval)'이라고 하는데, SAT 점수가 1200점이라면 GPA는 확률적으로 0.97부터 3.94점 사이에 95%가 포함될 것이라는거야. 이때 95%는 신뢰 수준이라고 해. 이 수치가 95% 정도 믿을만 하다는 것이지. 그리고 99%에서는 범위가 더 넓어지는데, 당연하지? 범위가 넓어진 만큼 예측력은 옅어지겠지만 범위 안에 들어올 확률은 커질거 아냐. 과녁이 커지면 내가 노린 곳에 화살이 들어갈지는 모르겠지만 아무튼, 과녁 안에는 더 잘 들어갈거니까.

     

     

     이 신뢰 구간에 대한 개념은 선거 여론조사 등에서 굉장히 많이 등장하는 개념이니까 알고 있음 좋겠지? 우리가 표준화와 정규분포를 괜히 배운게 아니라니까~ 다 써먹을 곳이 있지! 하핫!

     

    -

     

     이제 추정 표준오차도 계산할 줄 알게 되었고, 그에 따른 신뢰 구간도 계산할 수 있게 되었어. 대단한데?

     그럼 다음 시간에는 회귀 방정식에서 X와 Y가 얼마나 관계가 있는지 살펴보도록 할게! 안녕!

Designed by Tistory.