본문 바로가기
AI(artificial Intelligence)

224 Model Selection

by 데이터 퍼즐 2021. 6. 18.
반응형

개념

Bagging : 여러개의 모델을 사용한다.

Boosting : 잘못 예측된 데이터에 weight를 가해서 다음 번에 더 정확하게 예측하도록 한다.


  • 교차검증 사용 이유는 무엇일까요? (두 가지를 찾아 보세요)
  • ㄴ모든 데이터를 사용해 매개 변수 추정하고 훈련할 수 없고 동일한 데이터로 테스팅해야하는 문제점을 75:25 비율로 사용한다면?  몇 개의 변수만 하는 게 아니라 전체를 교차검증하기 위해
  • ㄴ교차검증은 처음 3개의 블록을 사용해 방법 훈련 나중 방법이 테스트 데이터를 얼마나 잘 처리하는 지 추적, 블록 조합 사용해 방법을 훈련해 메서드를 추정(나눠서 테스팅)
  • ㄴ데이터 양의 자체는 그대로인데, 더 많이 학습하게 되어 작업량이 많아지고 결과값이 조금 더 정확해짐 
  • ㄴiteration > converge할 확률이 높아짐 :: 데이터의 값이 너무 작을 때는 데이터의 값이 k가 될 수 있다. 데이터 양이 max 값이 되지 않을까요
  • 어떤 특성을 쓰고 어떤 특성을 빼고 하는 것을 하고 엔지니어링을 함, 모델을 바꾸면서
  •  
  • 자료를 보면서 어떤 모델을 사용할까 피쳐 특성을 알아보고 피쳐 엔지니어링을 해서 모델링을 필터함
  •  
  • target encoder: 정보누수등 조심해서 쓸 것
  • 주요 라이브러리
    • category_encoders
    • matplotlib
    • numpy
    • pandas
    • pandas-profiling
    • scikit-learn
    • scipy.stats
  •  
  • scoring(neg_mean_absolute_error)는 거의 음수로 해주는 경우가 다반사: cost fucntion을 뒤집에서 최소에서 뒤집어서 최대값을 찾아주어 인수로 사용을 한다.
  • python - scikit-learn cross validation, negative values with mean squared error - Stack Overflow
 

scikit-learn cross validation, negative values with mean squared error

When I use the following code with Data matrix X of size (952,144) and output vector y of size (952), mean_squared_error metric returns negative values, which is unexpected. Do you have any idea? ...

stackoverflow.com

 

 

bayeisan inference 정확하게 모른다는 것을 적용(prior distribution) > 데이터를 가지고 이 distribution을 업데이트 하는 것이다.> posterior distribution이다.

ㄴ한정적 데이터를 가지고 distribution을 업데이트를 하게 되는 것임> posterial(데이터를 본 이후)

 

  • sprint 내용은 아니지만 smooting
  • posterior probabilty the prior probabillty
  • bayesian inference: 데이터를 모델에 넣고 얻은 아웃풋을 해석을 하는데

****lamda: 패널티 값 > regularization? 

****모델의 성능을 줄여주는 것이 regularization(과적합을 막아주는 것)

****업데이트를 억제시키는 것

*float : 최대 피쳐로 사용한다

ㄴ다양한 디시젼 트리를 만들어서 그것의 평균을 낸다.

ㄴmax feature에서 subset of data(데이터의 개수를 줄이고, 피쳐의 개수도 줄여요)를 가지고 옴

 

*** 'randomforestregressor__max_features': uniform(0, 1) # max_features

ㄴ0은 row limit, 1은 higt limit

 

 

 

 

반응형

'AI(artificial Intelligence)' 카테고리의 다른 글

python- 반복, 조건 연습  (0) 2022.06.06
323 웹 스크래핑  (0) 2021.07.19
Sprint2-3 Ridge Regression  (0) 2021.06.10
Sprint2-2 multiple-regression  (0) 2021.06.09
Sprint2-1 Linear Models  (0) 2021.06.08

댓글