일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 웹 스크랩핑
- 파이썬 철저 입문
- 스파르타코딩
- harkerrank
- wil
- SQL
- 텍스트 분석
- 파이썬 완벽 가이드
- MySQL
- 오블완
- 내일배움카드
- 파이썬 머신러닝 완벽가이드
- 중회귀모형
- 내일배움
- TiL
- 파이썬
- hackerrank
- 스파르타
- 미세먼지
- 프로젝트
- R
- Cluster
- 스파르타 코딩
- 실전 데이터 분석 프로젝트
- 티스토리챌린지
- 파이썬 철저입문
- 파이썬 머신러닝 완벽 가이드
- 프로그래머스
- 회귀분석
- 내일배움캠프
- Today
- Total
목록회귀분석 (7)
OkBublewrap

경사하강법 회귀분석(1)에 나온 정규방정식은 한번의 계산으로 되지만 경사하강법은 반복적으로 수행을 해 최적의 답을 찾아나가는 방법이다. 학습률이 너무 작은 값이면 반복계산이 증가하므로 시간이 증가한다. 학습률이 너무 크면 값을 못찾을 수 있다. 경사하강법은 변수들의 scale의 값에 큰 영향을 끼치므로 정규화하는 과정이 중요하다. 배치 경사하강법을 사용한 선형 회귀 - 비용 함수의 그레이디언트 벡터 $$ \frac{\partial }{\partial w}MSE(w) = \frac{2}{N}X^{T}(Xw-y) $$ - 경사 하강법의 스텝 $$ w^{step} = w-\eta \frac{\partial }{\partial w}MSE(w) $$ eta : 학습률 # 데이터 np.random.seed(52) ..

경사하강법(Gradient Descnet) : 점진적인 하강으로 오류 값이 최소가 되는 W파라미터를 구하는 방식 DATA import numpy as np import matplotlib.pyplot as plt %matplotlib inline np.random.seed(0) # y = 4x + 6을 근사(w1=4, w0=6). 임의의 값은 노이즈를 위해 만듦. X = 2 * np.random.rand(100,1) y = 6 + 4 * X + np.random.randn(100, 1) # X, y 데이터 세트 산점도로 시각화 plt.scatter(X,y) plt.show() 정규방정식 $$ (X^{T}X)w = X^{T}y $$ $$ Y_{i}=w_{0}=W_{1}X_{i}+\epsilon _{i}, ..

표준화 중회귀모형(standardized multiple regression) $$ b_{\underline{B}}의\ 크기는\ X_{\underline{B}}의\ 측정단위를\ 반영하기\ 때문에\회귀계수를 \ 직접\ 비교하는\ 것은\ 문제가\ 있다 $$=> 표준화 변수를 사용한 표준화 중회귀모형으로 이러한 문제해결 (표준화 회귀모형)$$ y_{i}^{*}=\beta _{1}^{*}x_{1i}+\beta _{2i}^{*}x_{i}+\cdots +\beta _{p}^{*}x_{pi}+\varepsilon_{i} $$ $$ y_{i}^{*}=\frac{1}{\sqrt{n-1}}(\frac{y_{i}-\bar{y}}{S_{y}}), \bar{y}=\frac{1}{n}\sum y_{i}, S_{y}=\sqrt..

전체 F검정 $$ H_{0}:\beta _{1}=\beta _{2}=\cdots=\beta _{p}=0 $$ $$ H_{1}:이들 \beta 중 최소한 한개 이상은 0이 아니다. $$ => 전체 F검정, F검정. 모형의 유의성 검정 $$ SSTO = SSR + SSE $$ $$ \sum (y_{i}-\bar{y}) = \sum(\hat{y}=\bar{y}) + \sum(y_{i}-\hat{y}) $$ 분산분석표 요인 SS df MS F 회귀 SSR p MSR(=SSR/p) MSR/MSE 오차 SSE n-p-1 MSE(=SSE/n-p-1) 합 SSTO n-1 최대산소흡입량 자료에서 y

중선형회귀 (multiple linear regression) 두 개 이상의 설명변수와 한 개의 반응변수와의 관계 $$ y = \beta _{0} + \beta _{1}x{_{1}} + \beta _{2}x{_{2}} + \epsilon $$ 행렬표현 최대산소흡입량 자료에서 y

최대우도추정법 (Maximum Likelihood Estimation) 오차항은 정규분포를 따른다고 가정한다. www.youtube.com/watch?v=AXGhnbYqJdM 위에 내용을 들으시면 이해가 더 쉽다.

단순선형회귀모형(simple linear regression model) 이렇게 회귀모형을 설정하고 분석하는 것을 회귀분석이라 한다.회귀분석은 변수들로 예측될 수 있도록 이용하는 통계적방법이다. 모수로 추정식을 구할려고 한다.평균의 추정값을 구하기 위해서 최소제곱의 원리를 이용한다.최소제곱의 원리란 잔차의 제곱의 합이 최소가 되게 하는평균의 추정값을 구하는 방법이다. 최소제곱법(method of least squares): 관측된 y값과 그것의 평균간의 편차의 제곱의 합을 최소화하는 b0와 b1의 추정값을 구하는 방법이다. 편미분된 식은 오차항의 합이므로 0이 되어야한다.먼저 b0에 대해서 편미분한걸 보면 b0 편미분 식에서 b0을b1 편미분 식에 대입한다 b1, b0으로 추론할 수 있다..