본문 바로가기
카테고리 없음

R공부- 프로젝트파일

by 데이터 퍼즐 2021. 4. 25.
반응형

 

*성별과 소득

 

1. 변수명 변경

ㄴwelfare <- rename(welfare,sex=h0901_4,birth=h0901_5,income=h09_din)

 

2. 절차: 변수 검토 및 정제> 이상치 확인 및 결측처리>분석 및 평균표, 그래프 생성

 

3. 이상치

ㄴ결측처리: welfare$sex<-ifelse(selfare$sex==9,NA,welfare$sex)

ㄴ결측치 확인: table(is.na(welfare$sex)), qplot(welfare$sex)

 

4. 정리

sex_income <- welfare %>% 
  group_by(sex) %>% 
  summarise(mean_income=mean(income))
sex_income
ggplot(data=sex_income,aes(x=sex,y=mean_income))+geom_col()

 

 

# 여성보다 남성 소득이 많은 이유: 1인가구**전처리

 

*나이와 소득

 

1. 태어난 연도 변수> 검토 및 정제: 소득 > 나이별 소득 평균 표 및 그래프 생성

class(welfare$birth)
summary(welfare$birth)
qplot(welfare$birth)

welfare$age <- 2014-welfare$birth+1
summary(welfare$age)
qplot(welfare$age)

 

ⓑage_income <- welfare %>% 
  group_by(age) %>% 
  summarise(mean_income=mean(income))
  age_income

 

#연령 수가 적을 때엔 표본을 대표하지 못하므로 연령을 구간으로 나눠 구한다면 Best 

 

3. 연령대 별 소득

 

ⓐ연령대 변수 생성> 소득 > 소득 평균 분석

ㄴmutate(ageg=ifelse(age<30,"young",ifelse(age<=59, "middle","old")))

ㄴtable(welfare$ageg) / qplot(welfare$ageg)

ㄴwelfare_income <- welfare %>% 
  filter(ageg!="young") %>% 
  group_by(ageg) %>% 
  summarise(mean_income=mean(income))

ㄴggplot(data=welfare_income,aes(x=ageg,y=mean_income))+geom_col()

4. 연령대 및 성별 소득 평균표

ㄴsex_income <- welfare %>% 
  filter(ageg!="young") %>% 
  group_by(ageg,sex) %>% 
  summarise(mean_income = mean(income))
ㄴsex_income
ㄴggplot(data=sex_income,aes(x=ageg,y=mean_income,fill=sex))+geom_col()

 

 

# fill(그래프 색상), position변경(기본값:stack->dodge)

ggplot(data=sex_income,aes(x=ageg,y=mean_income,fill=sex))+
  geom_col(position="dodge")

 

 

 

반응형

댓글