데이터불러오기
데이터설명
타겟변수?
결측치 확인
is.na(rawdata1$GRE.Score) : TRUE or FALSE(is:boolean)
sum(is.na(rawdata1$GRE.Score))
각 변수별 결측치 확인
유니크(nique)함수: 유니크한 값을 구해준다
ㄴex)a=c(1,2,2,2,2,2,3,4,5,5,5,5)
ㄴunique(a) [1] 1 2 3 4 5
ㄴ극단값이 있는가 확인
ㄴ숫자, 연속형이구나!
*변수별 유니크값 확인(University.Rating)
ㄴu_rating_table<-table(rawdata1$University.Rating)
ㄴmax(rawdata1$Chance.of.Admit)
*명목형 문자: 분류(classfication) / 연속형 숫자: 회귀(regression)
*히스토그램ex) hist(rawdata1$GRE.score, main="GRE점수 히스토그램", xlab="GRE점수",col="orange")
#박스 플랏: par(mfrow)=c(2,3), mar=c(2,3,4,2)
ㄴex)boxplot(rawdata1$GRE.Score, main="GRE점수 box-pot",col="orange")
ㄴ아웃라이어 파악이 쉬움
#파이차트
par(mforw=c(1,2),mar=(1,1,1,1))
pie(urating_table,main="학부 대학 레이팅",radius=1)
pie(research_table,main="연구 경험 유무",radius=1)
#변수 산점도
lot(rawdata1)
#트레이닝 테스트 나누기 후 머신러닝 모형 적합
ㄴ로지스틱 회귀분석, 엘라스틱넷, 랜덤 포레스트, 서포트 벡터 머신, 커널 서포트 벡터머신
cf)
1)RMSE
ㄴ
목적함수는 최소화시키는 모수를 추정, 최적화된 모수는 목적합수+패널티
sum(is.na) : 결측치 합
#unknown은 비어있는 값이 아니므로 확인되지 않으므로 면밀한 데이터 확인 필요
ㄴunknown->NA변환 raw[raw == "unknown"] ← NA
댓글