일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 회귀분석
- 웹 스크랩핑
- 파이썬 머신러닝 완벽 가이드
- wil
- 미세먼지
- 내일배움카드
- SQL
- hackerrank
- 중회귀모형
- 파이썬 철저 입문
- MySQL
- 스파르타
- Cluster
- 프로그래머스
- 텍스트 분석
- 파이썬 머신러닝 완벽가이드
- 오블완
- 내일배움캠프
- 티스토리챌린지
- 스파르타코딩
- 실전 데이터 분석 프로젝트
- TiL
- 스파르타 코딩
- harkerrank
- R
- 파이썬 철저입문
- 내일배움
- 프로젝트
- 파이썬
- 파이썬 완벽 가이드
- Today
- Total
목록Statistics/회귀분석 (10)
OkBublewrap
1. 상관계수☑️ 피어슨 상관계수두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미 2. 비모수 상관계수☑️ 비모수 상관계수데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있음가. 스피어만 상관계수두 변수의 순위 간의 일관성을 측정켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감나. 켄달의 타우 상관계수순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산ex) 예를들어 사람의 키와 몸무게에 대해 상관계수를 알고자 할 때 키가 크고 ..

모형 $$ y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\cdots +\beta_{p}x_{p}+\epsilon $$ 모든 가능한 회귀 설명변수 : x1, x2, x3 => 가능한 모든 모형 1) x1 4) x1, x2 7) x1, x2, x3 2) x2 5) x1, x3 8) 절편항 3) x3 6) x2, x3 => 총 8가지의 모형 가능 변수선택 기준 : $$ R_{p}^{2}, \ MSE{p}, \ p : 설명변수 갯수 $$ 1) R_p^2의 사용 $$ R_{p}^{2} = 1 - \frac{SSE_{p}}{SSTO} = 1- (\frac{n-p-1}{SSTO})MSE{p} $$ -> 각 p에서 R^2을 최대로 하는 모형 선택 -> 이들 중에서 가장 좋은 모형 선택 2..

회귀계수에 관한 추론1) 추정 회귀계수 b의 평균과 공분산 $$ 모형 : \underline{y} = \chi \underline{\beta}+\epsilon $$$$ \underline{b} = (\chi {}'\chi)^{-1}\chi {}'\underline{y} $$$$ E(\underline{b})=E[(\chi {}'\chi)^{-1}\chi {}'\underline{y}) $$$$ = (\chi {}'\chi)^{-1}\chi {}'E(\underline{y}) $$$$ = (\chi {}'\chi)^{-1}\chi {}'\chi\underline{\beta} = \underline{\beta} $$ 추정된 b의 분산 - 공분산 행렬(vairance - covariance matrix)c..

전체 F검정 $$ H_{0}:\beta _{1}=\beta _{2}=\cdots=\beta _{p}=0 $$ $$ H_{1}:이들 \beta 중 최소한 한개 이상은 0이 아니다. $$ => 전체 F검정, F검정. 모형의 유의성 검정 $$ SSTO = SSR + SSE $$ $$ \sum (y_{i}-\bar{y}) = \sum(\hat{y}=\bar{y}) + \sum(y_{i}-\hat{y}) $$ 분산분석표 요인 SS df MS F 회귀 SSR p MSR(=SSR/p) MSR/MSE 오차 SSE n-p-1 MSE(=SSE/n-p-1) 합 SSTO n-1 최대산소흡입량 자료에서 y

편회귀계수 와 총회귀계수 1) 편회귀 계수 : 다른 설명변수가 모형에 포함되고 고정되어 있을 때 반응에 대한 특정 설명변수와 부분효과 2) 총회귀 계수 : 다른 설명변수의 영향을 무시한 특정 설명변수 자체의 효과 ※ 편회귀계수를 개별적으로 해석할 때는 주의할 필요가 있음 y

중선형회귀 (multiple linear regression) 두 개 이상의 설명변수와 한 개의 반응변수와의 관계 $$ y = \beta _{0} + \beta _{1}x{_{1}} + \beta _{2}x{_{2}} + \epsilon $$ 행렬표현 최대산소흡입량 자료에서 y

가정 $$1.E(\epsilon_{i})=0, 모든 i에 대해$$ $$2.(1) V(\epsilon_{i})=\sigma ^{2}, 모든 i에 대해(등분산성)$$ $$(2) \epsilon_{i} 들은 서로 독립이다.(독립성)$$ $$(3) \epsilon_{i}는 모든 i에 대해 정규분포를 따른다(정규성)$$ 잔차 $$\epsilon_{i}=y_{i}-\hat{y_{i}}$$ 으로 정의된다. 1. x에 대해 2. y의 예측값 y_h에 대해 3. 시간의 순서에 따라 값을 그려봐야한다. n

최량선형불편추정량 Best Linea Unbiased Estimator : BLUE : 모든 추정량 중에서 관측치들의 선형 결합으로 이루어진 추정량이어야 하고 불편성을 만족하며 최소 분산을 갖는 추정량 모회귀계수 베타0와 베타1의 최소제곱추정량인 b0와 b1은 최량선형불편추정량(BLUE)이다. SSE(error sum of squares) : 오차제곱합 sum (y-y_h)^2 예제) 최대산소흡입량 자료 베타1의 95% 신뢰구간(분산을 모르는 경우) SSE(오차제곱합)은 (y-y_h)^2인 0.0201(반올림)가 되는 것이다. MSE(평균제곱오차)는 0.0201/(10-2) =0.00251(반올림)이 된다. 베타1의 가설검정 1) 가설설정 H0(귀무가설) : 베타1은 0이다 H1(대립가설) : 베타1은 ..

최대우도추정법 (Maximum Likelihood Estimation) 오차항은 정규분포를 따른다고 가정한다. www.youtube.com/watch?v=AXGhnbYqJdM 위에 내용을 들으시면 이해가 더 쉽다.

단순선형회귀모형(simple linear regression model) 이렇게 회귀모형을 설정하고 분석하는 것을 회귀분석이라 한다.회귀분석은 변수들로 예측될 수 있도록 이용하는 통계적방법이다. 모수로 추정식을 구할려고 한다.평균의 추정값을 구하기 위해서 최소제곱의 원리를 이용한다.최소제곱의 원리란 잔차의 제곱의 합이 최소가 되게 하는평균의 추정값을 구하는 방법이다. 최소제곱법(method of least squares): 관측된 y값과 그것의 평균간의 편차의 제곱의 합을 최소화하는 b0와 b1의 추정값을 구하는 방법이다. 편미분된 식은 오차항의 합이므로 0이 되어야한다.먼저 b0에 대해서 편미분한걸 보면 b0 편미분 식에서 b0을b1 편미분 식에 대입한다 b1, b0으로 추론할 수 있다..