*성별과 소득
1. 변수명 변경
ㄴwelfare <- rename(welfare,sex=h0901_4,birth=h0901_5,income=h09_din)
2. 절차: 변수 검토 및 정제> 이상치 확인 및 결측처리>분석 및 평균표, 그래프 생성
3. 이상치
ㄴ결측처리: welfare$sex<-ifelse(selfare$sex==9,NA,welfare$sex)
ㄴ결측치 확인: table(is.na(welfare$sex)), qplot(welfare$sex)
4. 정리
sex_income <- welfare %>%
group_by(sex) %>%
summarise(mean_income=mean(income))
sex_income
ggplot(data=sex_income,aes(x=sex,y=mean_income))+geom_col()
# 여성보다 남성 소득이 많은 이유: 1인가구**전처리
*나이와 소득
1. 태어난 연도 변수> 검토 및 정제: 소득 > 나이별 소득 평균 표 및 그래프 생성
ⓐ
class(welfare$birth)
summary(welfare$birth)
qplot(welfare$birth)
welfare$age <- 2014-welfare$birth+1
summary(welfare$age)
qplot(welfare$age)
ⓑage_income <- welfare %>%
group_by(age) %>%
summarise(mean_income=mean(income))
age_income
#연령 수가 적을 때엔 표본을 대표하지 못하므로 연령을 구간으로 나눠 구한다면 Best
3. 연령대 별 소득
ⓐ연령대 변수 생성> 소득 > 소득 평균 분석
ㄴmutate(ageg=ifelse(age<30,"young",ifelse(age<=59, "middle","old")))
ㄴtable(welfare$ageg) / qplot(welfare$ageg)
ㄴwelfare_income <- welfare %>%
filter(ageg!="young") %>%
group_by(ageg) %>%
summarise(mean_income=mean(income))
ㄴggplot(data=welfare_income,aes(x=ageg,y=mean_income))+geom_col()
4. 연령대 및 성별 소득 평균표
ㄴsex_income <- welfare %>%
filter(ageg!="young") %>%
group_by(ageg,sex) %>%
summarise(mean_income = mean(income))
ㄴsex_income
ㄴggplot(data=sex_income,aes(x=ageg,y=mean_income,fill=sex))+geom_col()
# fill(그래프 색상), position변경(기본값:stack->dodge)
ggplot(data=sex_income,aes(x=ageg,y=mean_income,fill=sex))+
geom_col(position="dodge")
댓글