본문 바로가기
data analysis, R

R공부- 단순 선형 회귀분석

by 데이터 퍼즐 2021. 4. 30.
반응형

1) 선형회귀분석: 종속변수 y와 여러 독립변수 집합 x사이 관계 선형으로 가정, 관계 잘 설명하는 모형 찾는 방법

ㄴy(연속형종속변수)=f(회귀모형)(x)(연속/이산형 독립변수)

ㄴ단순선형 회귀분석

ⓐ모집단 : y=[B0+B1x(회귀계수)]+white noise 

추정할 회귀직선: y^=B0^+B1^x(잔차 오차가 적은 가장 작음)

 

2) 단순선형 회귀계수 추정

ㄴ추정된 회귀직선 예측 값과 실제값의 차이인 잔차(residual)의 제곱합(SSE)를 최소화하는 회귀계수 추정

ex) 잔차: e=y-y^ , SSE=∑잔차제곱=∑(실제값-(예측값))의 제곱

ㄴ잔차 제곱합 최소화하는 B0, B1 추정 위해 각 회귀계수 편미분해 미분값 0이 되는 점을 찾음(기울기 0인지점)

 

3) least Square Method(최소자승법): SSE를 회귀계수 B0와 B1으로 편미분> B0편미분 값0이 될 때 B1의 함수로 표현> B0를 B1의 함수로 변경해 B1에 대해 편미분값 0이 되는 B1값을 찾음

 

4) 회귀계수 B1^ 의미: x가 1단위 증가할 때마다 y는 B1^만큼 증가한다.

 *Coefiicient(회귀계수), t-statistic(검정통계량),p-value

ㄴ귀무가설(변수설명력x), 대립가설(변수설명력ㅇ),

#p-value값이 0.05인가? area의 회귀계수 0인가?

 

5) 회귀모형 적합도 평가

종속변수 전체변동(SST)는 회귀 직선에 의해 설명되는 변동(SSR)과 회귀직선 설명되지 않는 변동(SSE)로 나뉨

ㄴSST=SSR+SSE

ㄴ결정계수(R제곱): 0~1범위, SST중 SSR의 비중(1-SSE/SST), R제곱1=>완전한 설명, R제곱0=>전혀 설명X

ㄴ수정결정계수: 결정계수가 변수개수만큼 무제한 늘어나는 것을 보완하기 위함(회귀직선 추정 시 사용)

 

*선형회귀모델 기본 가정: 정규성(잔차분포 평균0), 독립성(잔차 독립적), 등분산성(잔차 분산 동일)

ㄴ유의성 높음: 잔차플롯(랜덤), Q-Q plot(일직선), residual vs fitted plot 

#로그F로 변수 변환을 통해서 문제 완화

 

 

반응형

댓글