본문 바로가기
카테고리 없음

R공부- 데이터 정제(이상치)

by 데이터 퍼즐 2021. 4. 24.
반응형

1. 이상치 정제하기

이상치(Outlier): 정상범주에서 크게 벗어난 값을 제거하여 왜곡 제거

ⓐ table(outlier$sex)

ⓑ outlier$sex<- ifelse(outlier$sex==3, NA, outlier$sex) #결측처리하기

ⓒ outlier%>% filter(!is.na(sex)&is.na(score))%>% group_by(sex) %>% summarise(mean_score=mean(score)) #결측 제외 평균

 

2. 이상치 제거하기 

ㄴ논리적, 통계적(표준편차, 상자그림)

ⓐ bloxplot(mpg$hwy)$stats

ㄴstats입력시 콘솔에 출력되는 값이 최소값~최대값까지를 상자그림으로 표현한 값

3. 결측 처리하기

ⓐmpg$hwy<- ifelse(mpg$hwy<12|mpg$hwy >37, NA,< mpg$)

table(is.na(mpg$hwy)

ⓑmpg%>% group_by(drv)%>% summarise(mean_hwy=mean(hwy,na.rm=T)

 

 

반응형

댓글