본문 바로가기
data analysis, R

R공부- 데이터로 분석하는 지도학습 개념

by 데이터 퍼즐 2021. 5. 1.
반응형

1.학습: 지도학습(>강화학습), 비지도학습

         ㄴ라벨링이 되어 있는지 유무(ㅇ:지도,x:비지도)

         ㄴ피쳐는 모두 있으나 라벨이 있는지 없는지의 차이

ⓐ지도학습: 분류(classification)

ⓑ비지도학습:군집화(clustering)

> #알고리즘, 메소드, 머신러닝으로 라벨링하는 것

 

단계

1) 데이터 전처리

*Sclae의 방법

ⓐ표준화= (원데이터-평균)/표준편차: 평균0, 표준편차1(음수값 가질 수 있음, 정규분포)

ⓑMinMax스케일=원데이터-min(데이터)/max(데이터)-min(데이터) : 0과 1사이로 데이터 위치(0과 1사이에 모두 데이터 위치)

 

2) 모형평가

ⓐ범주형 종속변수-ROC커브

ⓑ연속형 종속변수-MSE(Mean Squared Error:평균제곱오차)

ⓒTP/TN/FP/TNTrue Positive, True Nagative, Fasle Nagative(Type 2 error), Fasle Positive(Type 1 error)

ⓓ정확도(Accracy), 에러율(Erro rate), 민감도(Sensitivity, Recall), 정밀도(Precision), False Positive Rate

ⓔROC커브(Receiver operating characteristic, 수신자 조작 특성): 곡선 아래의 면적Area Under ROC Curve(AUC)이 넓을 수록 좋은 모델(1에 가까울 수록 좋음)

ⓕMSE(평균제곱오차, Mean Squared Error): 평균*(실제값-예측값)^2

 

3) 오버피팅(overfitting)**

ㄴ적절한 모형vs오버피팅(과적합) 모형 vs언더피팅(underfitting)

ㄴ모형 추정할 때에는 오버피팅과 언더피팅을 조심할 것

ㄴ적절한 모형을 만들기 위해 노력

 

4) 교차검증(cross-validation): 전체데이터>트레이닝/테스트 데이터로 나눔>트레이닝 데이터를 트레이닝/검증 데이터로 나눔>트레이닝 데이터에서 모형생성해 검증데이터로 보냄> 검증 데이터에서 파라미터 설정> 최종모형> 테스트 데이터

 

#모형 생성시에 썼던 데이터는 검증 때 쓰지 말것(당연히 좋은 결과가 나올 수 밖에 없음)

ⓐLeave-One-Out Cross validation: 전체 데이터 n가 중 하나만 validation데이터에 두고 나머지는 연습(Train)데이터에 적재(n번시행)

ⓑk-fold Cross-validation(#가장 많이 쓰임): Train데이터를 5개로 나누어 수행 단계별로 validation데이터를 바꿔가면서 테스트함

ⓒstartified k-fold Cross-validation(클래스 비율 맞춤): 파일 깨지는 상황 방지, 비율을 유지하면서 나눔

 

5) 현업에서 사용하는 지도학습 사례

지도학습 ⓐ분류 ⓑ예측

ㄴⓐ유저특성

ㄴⓑ이탈예측모형:유저레벨/플레이타임/과금액=>이탈예측모형=>이탈여부

 

6) K-Nearest Neighbor 개념 이해: K에 최근접한 이웃(가장 가까운 최근접의 데이터를 보고 이해), 2차원 유클리디언 거리를 쓰기 때문에 피쳐는 연속형 변수

ㄴ인풋(피쳐정보)> KNN> 아웃풋(속하는 그룹)

 

 

 

반응형

댓글