본문 바로가기
카테고리 없음

R공부- 데이터 설명

by 데이터 퍼즐 2021. 5. 17.
반응형

데이터불러오기

데이터설명

타겟변수?

결측치 확인

is.na(rawdata1$GRE.Score) : TRUE or FALSE(is:boolean)

sum(is.na(rawdata1$GRE.Score))

각 변수별 결측치 확인 

유니크(nique)함수: 유니크한 값을 구해준다

ㄴex)a=c(1,2,2,2,2,2,3,4,5,5,5,5) 

ㄴunique(a) [1] 1 2 3 4 5 

ㄴ극단값이 있는가 확인

ㄴ숫자, 연속형이구나!

*변수별 유니크값 확인(University.Rating)

ㄴu_rating_table<-table(rawdata1$University.Rating)

ㄴmax(rawdata1$Chance.of.Admit)

 

*명목형 문자: 분류(classfication) / 연속형 숫자: 회귀(regression)

*히스토그램ex) hist(rawdata1$GRE.score, main="GRE점수 히스토그램", xlab="GRE점수",col="orange")

 

#박스 플랏: par(mfrow)=c(2,3), mar=c(2,3,4,2)

ㄴex)boxplot(rawdata1$GRE.Score, main="GRE점수 box-pot",col="orange")
ㄴ아웃라이어 파악이 쉬움

 

#파이차트

par(mforw=c(1,2),mar=(1,1,1,1))

pie(urating_table,main="학부 대학 레이팅",radius=1)

pie(research_table,main="연구 경험 유무",radius=1)

 

#변수 산점도

lot(rawdata1)

 

#트레이닝 테스트 나누기 후 머신러닝 모형 적합

ㄴ로지스틱 회귀분석, 엘라스틱넷, 랜덤 포레스트, 서포트 벡터 머신, 커널 서포트 벡터머신

 

cf)

1)RMSE

 

목적함수는 최소화시키는 모수를 추정, 최적화된 모수는 목적합수+패널티

 

sum(is.na) : 결측치 합

#unknown은 비어있는 값이 아니므로 확인되지 않으므로 면밀한 데이터 확인 필요

ㄴunknown->NA변환 raw[raw == "unknown"] ← NA

반응형

댓글