개념
Bagging : 여러개의 모델을 사용한다.
Boosting : 잘못 예측된 데이터에 weight를 가해서 다음 번에 더 정확하게 예측하도록 한다.
- 교차검증 사용 이유는 무엇일까요? (두 가지를 찾아 보세요)
- ㄴ모든 데이터를 사용해 매개 변수 추정하고 훈련할 수 없고 동일한 데이터로 테스팅해야하는 문제점을 75:25 비율로 사용한다면? 몇 개의 변수만 하는 게 아니라 전체를 교차검증하기 위해
- ㄴ교차검증은 처음 3개의 블록을 사용해 방법 훈련 나중 방법이 테스트 데이터를 얼마나 잘 처리하는 지 추적, 블록 조합 사용해 방법을 훈련해 메서드를 추정(나눠서 테스팅)
- ㄴ데이터 양의 자체는 그대로인데, 더 많이 학습하게 되어 작업량이 많아지고 결과값이 조금 더 정확해짐
- ㄴiteration > converge할 확률이 높아짐 :: 데이터의 값이 너무 작을 때는 데이터의 값이 k가 될 수 있다. 데이터 양이 max 값이 되지 않을까요
- 어떤 특성을 쓰고 어떤 특성을 빼고 하는 것을 하고 엔지니어링을 함, 모델을 바꾸면서
- 자료를 보면서 어떤 모델을 사용할까 피쳐 특성을 알아보고 피쳐 엔지니어링을 해서 모델링을 필터함
- target encoder: 정보누수등 조심해서 쓸 것
- 주요 라이브러리
- category_encoders
- matplotlib
- numpy
- pandas
- pandas-profiling
- scikit-learn
- scipy.stats
- scoring(neg_mean_absolute_error)는 거의 음수로 해주는 경우가 다반사: cost fucntion을 뒤집에서 최소에서 뒤집어서 최대값을 찾아주어 인수로 사용을 한다.
- python - scikit-learn cross validation, negative values with mean squared error - Stack Overflow
scikit-learn cross validation, negative values with mean squared error
When I use the following code with Data matrix X of size (952,144) and output vector y of size (952), mean_squared_error metric returns negative values, which is unexpected. Do you have any idea? ...
stackoverflow.com
bayeisan inference 정확하게 모른다는 것을 적용(prior distribution) > 데이터를 가지고 이 distribution을 업데이트 하는 것이다.> posterior distribution이다.
ㄴ한정적 데이터를 가지고 distribution을 업데이트를 하게 되는 것임> posterial(데이터를 본 이후)
- sprint 내용은 아니지만 smooting
- posterior probabilty the prior probabillty
- bayesian inference: 데이터를 모델에 넣고 얻은 아웃풋을 해석을 하는데
****lamda: 패널티 값 > regularization?
****모델의 성능을 줄여주는 것이 regularization(과적합을 막아주는 것)
****업데이트를 억제시키는 것
*float : 최대 피쳐로 사용한다
ㄴ다양한 디시젼 트리를 만들어서 그것의 평균을 낸다.
ㄴmax feature에서 subset of data(데이터의 개수를 줄이고, 피쳐의 개수도 줄여요)를 가지고 옴
*** 'randomforestregressor__max_features': uniform(0, 1) # max_features
ㄴ0은 row limit, 1은 higt limit
'AI(artificial Intelligence)' 카테고리의 다른 글
python- 반복, 조건 연습 (0) | 2022.06.06 |
---|---|
323 웹 스크래핑 (0) | 2021.07.19 |
Sprint2-3 Ridge Regression (0) | 2021.06.10 |
Sprint2-2 multiple-regression (0) | 2021.06.09 |
Sprint2-1 Linear Models (0) | 2021.06.08 |
댓글