data analysis, R21 R-공부 : 스코어링, Decision Tree & Random Forest Decision Tree에서 각 트리의 스코어링 방법 > 노드별로 무질서 측정 후에 퀄리티 테스트를 함 ㄴ데이터셋(노드)의 무질서 D(disorder(set))=P(positive 데이터갯수)/T(노드 내 전체 데이터 개수)log2P/T-N/Tlog2N/T ㄴ무질서는 낮을 수록 좋음(극단값인 0이나 1에 가까워질 수록 좋음) Q(Test)=∑(sets produced:노드개수)D(sets:각 노드의 무질서)*노드비율(해당노드데이터/테스트 전체 데이터) ex)Q(test) 1*4/8+0*3/8+0*1/8=4/8+0+0=1/2 *범주형 *연속형: 모든 점이 테스트 후보라고 생각하고 볼 것 ㄴ(>=,d개 피쳐(중복x)>Decision Tree 학습> 결과 투표 클래스 할당 ⓐDecision Tree Decis.. 2021. 5. 8. R공부- Logistic Regression 개념 이해 1) Logistic Regression ㄴ선형회귀분석: 선형회귀분석의 y(종속)값은 무제한 값으로 제한 없음, 연속형 숫자(범주x) ㄴvs로지스틱: y(종속)에 제한이 있어 가질 수 없는 값이 있고, 범주형, 연속형 모두 됨(주로 연속형) 2) 로지스틱으로 변형 z=a+bx z값의 제한 y=1/1+자연상수(시그모이드함수)=1/1+e^-(a+bx) log(y/1-y)=a+bx #log는 자연로그 y=파이(x) logit(파이(x)=log(파이(x)/1-파이(x))=a+bx 오즈비(odds ratio)= 양성(1) 확률은 음성(0) 확률의 몇 배? #0.5이상? 1일 확률이 높아짐(기울기가 크다?=> x가 조금만 증가해도 1일 확률 급격히 증가) * 로지스틱 회귀분석 ⓐBoosted Logistic Reg.. 2021. 5. 3. R공부- K-Nearest Neighbor K-Nearest Neighbor 결과 해석 ㄴ정확도(Accuracy) ㄴKappa통계량=관측된 정확도-기대 정확도/1-기대정확도 *Accuracy vs Kappa 통계량 Accuracy 0 2021. 5. 2. R공부- 데이터로 분석하는 지도학습 개념 1.학습: 지도학습(>강화학습), 비지도학습 ㄴ라벨링이 되어 있는지 유무(ㅇ:지도,x:비지도) ㄴ피쳐는 모두 있으나 라벨이 있는지 없는지의 차이 ⓐ지도학습: 분류(classification) ⓑ비지도학습:군집화(clustering) > #알고리즘, 메소드, 머신러닝으로 라벨링하는 것 단계 1) 데이터 전처리 *Sclae의 방법 ⓐ표준화= (원데이터-평균)/표준편차: 평균0, 표준편차1(음수값 가질 수 있음, 정규분포) ⓑMinMax스케일=원데이터-min(데이터)/max(데이터)-min(데이터) : 0과 1사이로 데이터 위치(0과 1사이에 모두 데이터 위치) 2) 모형평가 ⓐ범주형 종속변수-ROC커브 ⓑ연속형 종속변수-MSE(Mean Squared Error:평균제곱오차) ⓒTP/TN/FP/TNTrue P.. 2021. 5. 1. 이전 1 2 3 4 ··· 6 다음