1.학습: 지도학습(>강화학습), 비지도학습
ㄴ라벨링이 되어 있는지 유무(ㅇ:지도,x:비지도)
ㄴ피쳐는 모두 있으나 라벨이 있는지 없는지의 차이
ⓐ지도학습: 분류(classification)
ⓑ비지도학습:군집화(clustering)
> #알고리즘, 메소드, 머신러닝으로 라벨링하는 것
단계
1) 데이터 전처리
*Sclae의 방법
ⓐ표준화= (원데이터-평균)/표준편차: 평균0, 표준편차1(음수값 가질 수 있음, 정규분포)
ⓑMinMax스케일=원데이터-min(데이터)/max(데이터)-min(데이터) : 0과 1사이로 데이터 위치(0과 1사이에 모두 데이터 위치)
2) 모형평가
ⓐ범주형 종속변수-ROC커브
ⓑ연속형 종속변수-MSE(Mean Squared Error:평균제곱오차)
ⓒTP/TN/FP/TNTrue Positive, True Nagative, Fasle Nagative(Type 2 error), Fasle Positive(Type 1 error)
ⓓ정확도(Accracy), 에러율(Erro rate), 민감도(Sensitivity, Recall), 정밀도(Precision), False Positive Rate
ⓔROC커브(Receiver operating characteristic, 수신자 조작 특성): 곡선 아래의 면적Area Under ROC Curve(AUC)이 넓을 수록 좋은 모델(1에 가까울 수록 좋음)
ⓕMSE(평균제곱오차, Mean Squared Error): 평균*(실제값-예측값)^2
3) 오버피팅(overfitting)**
ㄴ적절한 모형vs오버피팅(과적합) 모형 vs언더피팅(underfitting)
ㄴ모형 추정할 때에는 오버피팅과 언더피팅을 조심할 것
ㄴ적절한 모형을 만들기 위해 노력
4) 교차검증(cross-validation): 전체데이터>트레이닝/테스트 데이터로 나눔>트레이닝 데이터를 트레이닝/검증 데이터로 나눔>트레이닝 데이터에서 모형생성해 검증데이터로 보냄> 검증 데이터에서 파라미터 설정> 최종모형> 테스트 데이터
#모형 생성시에 썼던 데이터는 검증 때 쓰지 말것(당연히 좋은 결과가 나올 수 밖에 없음)
ⓐLeave-One-Out Cross validation: 전체 데이터 n가 중 하나만 validation데이터에 두고 나머지는 연습(Train)데이터에 적재(n번시행)
ⓑk-fold Cross-validation(#가장 많이 쓰임): Train데이터를 5개로 나누어 수행 단계별로 validation데이터를 바꿔가면서 테스트함
ⓒstartified k-fold Cross-validation(클래스 비율 맞춤): 파일 깨지는 상황 방지, 비율을 유지하면서 나눔
5) 현업에서 사용하는 지도학습 사례
지도학습 ⓐ분류 ⓑ예측
ㄴⓐ유저특성
ㄴⓑ이탈예측모형:유저레벨/플레이타임/과금액=>이탈예측모형=>이탈여부
6) K-Nearest Neighbor 개념 이해: K에 최근접한 이웃(가장 가까운 최근접의 데이터를 보고 이해), 2차원 유클리디언 거리를 쓰기 때문에 피쳐는 연속형 변수
ㄴ인풋(피쳐정보)> KNN> 아웃풋(속하는 그룹)
'data analysis, R' 카테고리의 다른 글
R공부- Logistic Regression 개념 이해 (0) | 2021.05.03 |
---|---|
R공부- K-Nearest Neighbor (0) | 2021.05.02 |
R공부- 단순 선형 회귀분석 (0) | 2021.04.30 |
R_공부: 머신러닝 & 확률 기초 (0) | 2021.04.29 |
R-공부: 여러가지 가설 검정 방법(카이제곱 검정) (0) | 2021.04.29 |
댓글