OkBublewrap

모형의 문제와 변수선택 본문

Statistics/회귀분석

모형의 문제와 변수선택

옥뽁뽁 2021. 6. 10. 00:43

모형

$$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\cdots +\beta_{p}x_{p}+\epsilon $$

 

모든 가능한 회귀

설명변수 : x1, x2, x3

=> 가능한 모든 모형

 

1) x1                                   4) x1, x2                          7) x1, x2, x3 

2) x2                                   5) x1, x3                          8) 절편항

3) x3                                   6) x2, x3

=> 총 8가지의 모형 가능

 

변수선택 기준 : 

$$ R_{p}^{2}, \ MSE{p}, \ p : 설명변수 갯수 $$

 

1) R_p^2의 사용

$$ R_{p}^{2} = 1 - \frac{SSE_{p}}{SSTO} = 1- (\frac{n-p-1}{SSTO})MSE{p} $$

-> 각 p에서 R^2을 최대로 하는 모형 선택

-> 이들 중에서 가장 좋은 모형 선택

 

2) MSE_p의 사용

SSTO의 값은 항상 일정 하기 때문에  식은 MSE_p에 영향이 미친다. MSE_p가 작을수록 R_p^2의 값은 커진다.


단계별 회귀방법(변수 선택법)

변수를 하나씩 추가/제거하는 방법으로 최종모형을 결정하는 방법

 

1) 변수추가법(전진 선택법)

2) 변수 제거법(후진 제거법)

3)전진 단계별 회귀

'Statistics > 회귀분석' 카테고리의 다른 글

상관관계  (0) 2025.01.15
중회귀모형(4)  (0) 2021.06.08
중회귀모형(3)  (0) 2021.06.08
중회귀모형(2)  (0) 2021.06.07
중회귀모형(1)  (0) 2021.06.04