본문 바로가기
data analysis, R

R공부- 데이터 가공하기

by 데이터 퍼즐 2021. 4. 20.
반응형

#필요한 변수만 추출

-행(filter)

-열(select)

ex) exam%>%select(math): 수학 추출

     exam%>%select(-math): 수학만 제외하고 추출

#%>%로 함수 연결

ㄴex)exam %>%filter(class==1)%>%select(english)

 

#파이프 기호 뒤에서 Enter치면 가독성을 지키면서 한 줄의 코드로 동작

ex) exam%>%

        filter(class==1)%>%

        select(english)

*파이프를 먼저 입력한 다음 엔터를 쳐서 줄을 바꿔줄 것(%>%+Enter)

 

 

#순서대로 정렬

-arrange : ex) exam%>% arrange(math) : math 오름차순 정렬

                  exam%>% arrange(desc(math)): math 내림차순 정렬

                  exam%>% arrange(class,math): 정렬 기준 변수 여러개 지정

 

#파생변수 추가하기

*내장함수보다 dplyr안에 있는 mutate함수를 쓸 때 이점: 1)코드가 간결해짐, 2)asign하지 않아도 바로 다음 코드에서 추가 활용가능

내장함수:exam%>%exam$total=exam$math+exam$english+exam$science) %>% head

mutate: exam%>% mutate(total=math+english+science) %>% head

#dplyr 안의 함수들은 변수명에 '데이터프레임$'를 붙이지 않음

*mutate()에 ifelase()적용

 

#파생변수 추가하기

집단별로 요약하기> 분리 > 산출

ex) exam %>% 
    group_by(class) %>%   #클래스 별로 분리
    summarise(mean_math=mean(math)) #math 평균 산출

 

*exam %>% 
  group_by(class) %>%  #class별로 분리
  summarise(mean_math=mean(math), #math 평균
            sum_math=sum(math), #math 합계
            median_math=median(math), #math 중앙값
            n=n()) #학생 수

 

자주 사용하는 요약통계량 함수: mean(),sd()#표준편차, sum(),median(),min()<max(),n()빈도

 

# 함수 "%>%"를 찾을 수 없습니다 라는 오류코드 해결방법: library(dplyr)실행하면 패키지부착되면서 dplyr가 로드됨(ㅇ)

#정렬+내림차순 평균 : filter(x) / arrange(desc(mean_())

 

 

#데이터 합치기

1)가로로 합치기(열), 2)세로로 합치기(행)

1) left_join(test1,test2, by="id")

2) bind_rows(group_a,group_b)

#stringsAsFactors: 문자 범주

 

반응형

댓글