1) 선형회귀분석: 종속변수 y와 여러 독립변수 집합 x사이 관계 선형으로 가정, 관계 잘 설명하는 모형 찾는 방법
ㄴy(연속형종속변수)=f(회귀모형)(x)(연속/이산형 독립변수)
ㄴ단순선형 회귀분석
ⓐ모집단 : y=[B0+B1x(회귀계수)]+white noise
ⓑ추정할 회귀직선: y^=B0^+B1^x(잔차 오차가 적은 가장 작음)
2) 단순선형 회귀계수 추정
ㄴ추정된 회귀직선 예측 값과 실제값의 차이인 잔차(residual)의 제곱합(SSE)를 최소화하는 회귀계수 추정
ex) 잔차: e=y-y^ , SSE=∑잔차제곱=∑(실제값-(예측값))의 제곱
ㄴ잔차 제곱합 최소화하는 B0, B1 추정 위해 각 회귀계수 편미분해 미분값 0이 되는 점을 찾음(기울기 0인지점)
3) least Square Method(최소자승법): SSE를 회귀계수 B0와 B1으로 편미분> B0편미분 값0이 될 때 B1의 함수로 표현> B0를 B1의 함수로 변경해 B1에 대해 편미분값 0이 되는 B1값을 찾음
4) 회귀계수 B1^ 의미: x가 1단위 증가할 때마다 y는 B1^만큼 증가한다.
*Coefiicient(회귀계수), t-statistic(검정통계량),p-value
ㄴ귀무가설(변수설명력x), 대립가설(변수설명력ㅇ),
ㄴ#p-value값이 0.05인가? area의 회귀계수 0인가?
5) 회귀모형 적합도 평가
종속변수 전체변동(SST)는 회귀 직선에 의해 설명되는 변동(SSR)과 회귀직선 설명되지 않는 변동(SSE)로 나뉨
ㄴSST=SSR+SSE
ㄴ결정계수(R제곱): 0~1범위, SST중 SSR의 비중(1-SSE/SST), R제곱1=>완전한 설명, R제곱0=>전혀 설명X
ㄴ수정결정계수: 결정계수가 변수개수만큼 무제한 늘어나는 것을 보완하기 위함(회귀직선 추정 시 사용)
*선형회귀모델 기본 가정: 정규성(잔차분포 평균0), 독립성(잔차 독립적), 등분산성(잔차 분산 동일)
ㄴ유의성 높음: 잔차플롯(랜덤), Q-Q plot(일직선), residual vs fitted plot
#로그F로 변수 변환을 통해서 문제 완화
'data analysis, R' 카테고리의 다른 글
R공부- K-Nearest Neighbor (0) | 2021.05.02 |
---|---|
R공부- 데이터로 분석하는 지도학습 개념 (0) | 2021.05.01 |
R_공부: 머신러닝 & 확률 기초 (0) | 2021.04.29 |
R-공부: 여러가지 가설 검정 방법(카이제곱 검정) (0) | 2021.04.29 |
R-공부: 여러가지 가설 검정 방법(ANOVA검정) (0) | 2021.04.28 |
댓글