일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 티스토리챌린지
- 파이썬 철저입문
- 미세먼지
- 프로젝트
- MySQL
- 스파르타코딩
- 파이썬
- 스파르타 코딩
- hackerrank
- 내일배움카드
- 스파르타
- 회귀분석
- 실전 데이터 분석 프로젝트
- 파이썬 머신러닝 완벽가이드
- 파이썬 머신러닝 완벽 가이드
- 내일배움
- harkerrank
- Cluster
- 오블완
- 웹 스크랩핑
- wil
- TiL
- 텍스트 분석
- SQL
- 중회귀모형
- 파이썬 완벽 가이드
- R
- 파이썬 철저 입문
- 프로그래머스
- 내일배움캠프
- Today
- Total
OkBublewrap
중회귀모형(4) 본문
회귀계수에 관한 추론
1) 추정 회귀계수 b의 평균과 공분산
$$ 모형 : \underline{y} = \chi \underline{\beta}+\epsilon $$
$$ \underline{b} = (\chi {}'\chi)^{-1}\chi {}'\underline{y} $$
$$ E(\underline{b})=E[(\chi {}'\chi)^{-1}\chi {}'\underline{y}) $$
$$ = (\chi {}'\chi)^{-1}\chi {}'E(\underline{y}) $$
$$ = (\chi {}'\chi)^{-1}\chi {}'\chi\underline{\beta} = \underline{\beta} $$
추정된 b의 분산 - 공분산 행렬(vairance - covariance matrix)
cov(b)
Var(b0) | Cov(b0,b1) | Cov(b0,bp) |
Cov(b1,b0) | Var(b1) | Cov(b1,bp) |
Cov(bp,b0) | Cov(bp,b1) | Var(bp) |
Ex) 최대산소흡입량 자료에서
y <- c(1.54,1.74,1.32,1.50,1.46,1.35,1.53,1.71,1.27,1.50)
x1 <- c(132,135.5,127.7,131.1,130.0,127.6,129.9,138.1,126.6,131.8)
x2 <- c(29.1,29.7,28.4,28.8,25.9,27.6,29,33.6,27.7,30.8)
model <- lm(y ~ x1 + x2)
vcov(model) # 공분산 행렬 추정값 출력
(Intercept) x1 x2
(Intercept) 0.457241462 -4.495166e-03 4.541496e-03
x1 -0.004495166 4.931786e-05 -6.768596e-05
x2 0.004541496 -6.768596e-05 1.489124e-04
표로 작성하면
추정된 분산-공분산행렬
0.45724 | -0.00450 | 0.00454 |
-0.00450 | 0.00005 | -0.00007 |
0.00454 | -0.00007 | 0.00015 |
표집분포를 이용한 개별 회귀계수 B_k의 검정과 구정추정
회귀계수는 정규분포를 따르고 독립적이라고 가정
$$ b \sim N(\beta,\sigma ^{2}({X}'X)^{-1}) $$
$$ b_{k} \sim N(\beta_{k},\sigma ^{2}c_{kk})$$
최대산소흡입량 자료에서
y <- c(1.54,1.74,1.32,1.50,1.46,1.35,1.53,1.71,1.27,1.50)
x1 <- c(132,135.5,127.7,131.1,130.0,127.6,129.9,138.1,126.6,131.8)
x2 <- c(29.1,29.7,28.4,28.8,25.9,27.6,29,33.6,27.7,30.8)
X <- cbind(rep(1, times=length(y)), x1,x2) # 행렬
1) 모형
$$ 모형 : y=\beta_{0}+ \beta_{1}x_{1}+\beta_{2}x_{2}+\epsilon $$
2) (X'X)^-1
solve(t(X)%*%X)
x1 x2
211.880980 -2.08301335 2.10448245
x1 -2.083013 0.02285339 -0.03136498
x2 2.104482 -0.03136498 0.06900449
3) MSE
y_h <- -4.40956 + 0.04916*x1 -0.01857*x2 # 추정된 회귀식
SSE=sum((y-y_h)^2)
MSE <- SSE/7
MSE
[1] 0.002158087
4) b1,b2에 대한 95% 신뢰구간
b <- solve(t(X)%*%X)%*%t(X)%*%y
b
[,1]
-4.40956040
x1 0.04915745
x2 -0.01856642
b1 = 0.0492
b2 = -0.0186
구간추정
$$ b_{1}\pm t_{(n-p-1,\alpha /2)}S(b_{1}) $$
$$ b_{1}\pm t_{(7,0.025)}S(b_{1}) $$
S(b_1), S(b_2)
$$ S(b_{1})=\sqrt{MSE*C_{11}}$$
$$ S(b_{2})=\sqrt{MSE*C_{22}}$$
$$ t(7,0.025) = 2.365 $$
b1에 대한 95% 신뢰구간
(0.0326, 0.0658)
b1에 대한 95% 신뢰구간
(-0.0474,0.0103)
b1 검정
$$ 모형 : y=\beta_{0}+ \beta_{1}x_{1}+\beta_{2}x_{2}+\epsilon $$
1) 가설 설정
$$ H_{0}: \beta _{1}=0 , H_{1}: \beta _{1} \neq 0 $$
2) 검정통계량 계산
$$ t_{0}: \frac{b_{1}-\beta _{10}
}{S(b_{1})} = \frac{0.0492-0}{0.00702}=7 $$
3) 기각역 설정
$$ t_{n-p-1, \alpha /2} = t(7,0.025)=2.365 $$
4) 의사결정
7>2.365이므로 귀무가설을 기각. 따라서 모형에 x2가 포함되어있는 상태에서 변수 x1는 통계적으로 의미가 있다.
b2 검정
$$ 모형 : y=\beta_{0}+ \beta_{1}x_{1}+\beta_{2}x_{2}+\epsilon $$
1) 가설 설정
$$ H_{0}: \beta _{2}=0,H_{1}: \beta _{2} \neq 0 $$
2) 검정통계량 계산
$$ t_{0}: \frac{b_{2}-\beta _{10}}{S(b_{1})} = \frac{-0.01857}{0.01220}=-1.52 $$
3) 기각역 설정
$$ t_{n-p-1, \alpha /2} = t(7,0.025)=2.365 $$
4) 의사결정
-1.52<2.365이므로 귀무가설을 기각할수 없다. 따라서 모형에 x1가 포함되어있는 상태에서 변수 x2는 통계적으로 의미가 없다.
'Statistics > 회귀분석' 카테고리의 다른 글
상관관계 (0) | 2025.01.15 |
---|---|
모형의 문제와 변수선택 (0) | 2021.06.10 |
중회귀모형(3) (0) | 2021.06.08 |
중회귀모형(2) (0) | 2021.06.07 |
중회귀모형(1) (0) | 2021.06.04 |