224 Model Selection

개념

Bagging : 여러개의 모델을 사용한다.

Boosting : 잘못 예측된 데이터에 weight를 가해서 다음 번에 더 정확하게 예측하도록 한다.

교차검증 사용 이유는 무엇일까요? (두 가지를 찾아 보세요)
ㄴ모든 데이터를 사용해 매개 변수 추정하고 훈련할 수 없고 동일한 데이터로 테스팅해야하는 문제점을 75:25 비율로 사용한다면? 몇 개의 변수만 하는 게 아니라 전체를 교차검증하기 위해
ㄴ교차검증은 처음 3개의 블록을 사용해 방법 훈련 나중 방법이 테스트 데이터를 얼마나 잘 처리하는 지 추적, 블록 조합 사용해 방법을 훈련해 메서드를 추정(나눠서 테스팅)
ㄴ데이터 양의 자체는 그대로인데, 더 많이 학습하게 되어 작업량이 많아지고 결과값이 조금 더 정확해짐
ㄴiteration > converge할 확률이 높아짐 :: 데이터의 값이 너무 작을 때는 데이터의 값이 k가 될 수 있다. 데이터 양이 max 값이 되지 않을까요
어떤 특성을 쓰고 어떤 특성을 빼고 하는 것을 하고 엔지니어링을 함, 모델을 바꾸면서
자료를 보면서 어떤 모델을 사용할까 피쳐 특성을 알아보고 피쳐 엔지니어링을 해서 모델링을 필터함
target encoder: 정보누수등 조심해서 쓸 것
주요 라이브러리
- category_encoders
- matplotlib
- numpy
- pandas
- pandas-profiling
- scikit-learn
- scipy.stats
scoring(neg_mean_absolute_error)는 거의 음수로 해주는 경우가 다반사: cost fucntion을 뒤집에서 최소에서 뒤집어서 최대값을 찾아주어 인수로 사용을 한다.
python - scikit-learn cross validation, negative values with mean squared error - Stack Overflow

scikit-learn cross validation, negative values with mean squared error

When I use the following code with Data matrix X of size (952,144) and output vector y of size (952), mean_squared_error metric returns negative values, which is unexpected. Do you have any idea? ...

stackoverflow.com

bayeisan inference 정확하게 모른다는 것을 적용(prior distribution) > 데이터를 가지고 이 distribution을 업데이트 하는 것이다.> posterior distribution이다.

ㄴ한정적 데이터를 가지고 distribution을 업데이트를 하게 되는 것임> posterial(데이터를 본 이후)

sprint 내용은 아니지만 smooting
posterior probabilty the prior probabillty
bayesian inference: 데이터를 모델에 넣고 얻은 아웃풋을 해석을 하는데

****lamda: 패널티 값 > regularization?

****모델의 성능을 줄여주는 것이 regularization(과적합을 막아주는 것)

****업데이트를 억제시키는 것

*float : 최대 피쳐로 사용한다

ㄴ다양한 디시젼 트리를 만들어서 그것의 평균을 낸다.

ㄴmax feature에서 subset of data(데이터의 개수를 줄이고, 피쳐의 개수도 줄여요)를 가지고 옴

*** 'randomforestregressor__max_features': uniform(0, 1) # max_features

ㄴ0은 row limit, 1은 higt limit

'AI(artificial Intelligence)' 카테고리의 다른 글

python- 반복, 조건 연습 (0)	2022.06.06
323 웹 스크래핑 (0)	2021.07.19
Sprint2-3 Ridge Regression (0)	2021.06.10
Sprint2-2 multiple-regression (0)	2021.06.09
Sprint2-1 Linear Models (0)	2021.06.08

데이터 퍼즐의 데이터 세상

224 Model Selection

'AI(artificial Intelligence)' 카테고리의 다른 글

댓글

티스토리툴바

224 Model Selection

'AI(artificial Intelligence)' 카테고리의 다른 글

관련글

댓글

티스토리툴바