본문 바로가기

데이터전처리3

R공부- 프로젝트파일 *성별과 소득 1. 변수명 변경 ㄴwelfare 이상치 확인 및 결측처리>분석 및 평균표, 그래프 생성 3. 이상치 ㄴ결측처리: welfare$sex% summarise(mean_income=mean(income)) sex_income ggplot(data=sex_income,aes(x=sex,y=mean_income))+geom_col() # 여성보다 남성 소득이 많은 이유: 1인가구**전처리 *나이와 소득 1. 태어난 연도 변수> 검토 및 정제: 소득 > 나이별 소득 평균 표 및 그래프 생성 ⓐ class(welfare$birth) summary(welfare$birth) qplot(welfare$birth) welfare$age % summarise(mean_income=mean(income)) a.. 2021. 4. 25.
R공부- 데이터 정제(이상치) 1. 이상치 정제하기 이상치(Outlier): 정상범주에서 크게 벗어난 값을 제거하여 왜곡 제거 ⓐ table(outlier$sex) ⓑ outlier$sex% filter(!is.na(sex)&is.na(score))%>% group_by(sex) %>% summarise(mean_score=mean(score)) #결측 제외 평균 2. 이상치 제거하기 ㄴ논리적, 통계적(표준편차, 상자그림) ⓐ bloxplot(mpg$hwy)$stats ㄴstats입력시 콘솔에 출력되는 값이 최소값~최대값까지를 상자그림으로 표현한 값 3. 결측 처리하기 ⓐmpg$hwy% group_by(drv)%>% summarise(mean_hwy=mean(hwy,na.rm=T) 2021. 4. 24.
R공부- 데이터 전처리(조건에 맞는 데이터 가공하기) 데이터 전처리(Preprocessing): 원하는 데이터를 가공하는 작업 데이터추출: filter(dplyr에 들어있는 함수) *Ctrl+Shift+M으로 %>% 기호 입력(%>% 파이프,체인 연산자) ex) exam%>%filter(class==1) 1반만 exam%>%filter(class!=1) 1반 제외 exam%>%filter(math%filter(class==1&math>=50) 1반 중 수학점수 50이상 2) *Shift+\='|' : exam%>%filter(math>=90 | english>=90) 3) 1,3,5반에 해당하면 추출 ㄴexam%>%filter(class==1|class==3|class==5) ㄴexam%>%filter(class %in% c(1,3,5)) : 매치오퍼레이터.. 2021. 4. 19.