본문 바로가기
AI(artificial Intelligence)

Sprint2-2 multiple-regression

by 데이터 퍼즐 2021. 6. 9.
반응형
  • $R^2$ 값이 1에 가깝다는 것은 무엇을 의미하나요?
  • MSE 구하는 방법을 잘 살펴 보세요. #
  • 왜 훈련/테스트 데이터를 나누는 것일까요? #bias가 발생했을 때 전환하여 사용하려고
  • low bias, low variance 모델은 어떤 모델을 말하나요? 훈련/테스트세트를 사용해 설명해 보세요 .#Straight line을 사용해 연속적이고 일정한 라인을 만들어주는 라인? overfitting 줄여줌

cf) Standard Error estimate> MSE를 구하기 위함

 

Standard Error of Estimate (actual<->estimated)

R^2 distance estimated-mean , regression line&mean이 일정(distance actual-mean)

 

**분모에 n-2, n-1 등등 해주는 경우 dgree of freedom**

ㄴ데이터를 얼마나 잘 표현하는 게 아니라 일반화(generalzation)이 잘되었다

ㄴ데이터가 underfitting된 경우가 있을 수 있다.

 

*다중선형: 3차원(+타겟특성까지 추가해야되기 때문)

*데이터에는 의미가 있어야 하는데 

 

MSE(mean squared error)는 제곱을 하면 어떤 오류가 있는지 확인하기가 어려움, 이상치에 민감함

MAE는 단위값이 변하지 않아 오류의 양 직관적관찰

RMSE는 루트를 씌워서 MSE단점을 개선

R-Squared는  0<R<1로 결정계수가 1에 가까울 수록 모델이 데이터 설명력이 높다고 얘기함

ㄴ예측 오류가 없다면 SSR=SST같아지므로 1이 됨

 

과소적합: 선형모델

과적합: 모든 데이터의 흐름을 다 잡아냄

 

다른 데이터셋에서 오차가 비슷한 경향을 보인다면: 분산이 낮다

ㄴ과대적합

 

**시간데이터 순서?(sequence data)

ㄴstcok price, 학생 점수,

ㄴvariance<=vary: It varies a lot!

 

feature importance: 피쳐를 골라낼 때

 

if 과적합으로 : 성능이 너무 좋을 때? regularize한다(coefiicient size를 줄여준다. 0으로 만든다) :: feature가 날아감

correlation(data description)!=explanatory power(regression)
흐름만 보는 것



polynome....feature들을 만들어줘야함

모델의 정확도: R^2,p-value(특성이 유효한지)
기울기: 타겟값에 영향을 끼치는 정도

다중회귀는 직선이 아니에용

반응형

'AI(artificial Intelligence)' 카테고리의 다른 글

224 Model Selection  (0) 2021.06.18
Sprint2-3 Ridge Regression  (0) 2021.06.10
Sprint2-1 Linear Models  (0) 2021.06.08
AI-Section1 Wrap-up  (0) 2021.06.04
AI- High dimensional data  (0) 2021.05.25

댓글