R공부- 데이터 가공하기

#필요한 변수만 추출

-행(filter)

-열(select)

ex) exam%>%select(math): 수학 추출

exam%>%select(-math): 수학만 제외하고 추출

#%>%로 함수 연결

ㄴex)exam %>%filter(class==1)%>%select(english)

#파이프 기호 뒤에서 Enter치면 가독성을 지키면서 한 줄의 코드로 동작

ex) exam%>%

filter(class==1)%>%

select(english)

*파이프를 먼저 입력한 다음 엔터를 쳐서 줄을 바꿔줄 것(%>%+Enter)

#순서대로 정렬

-arrange : ex) exam%>% arrange(math) : math 오름차순 정렬

exam%>% arrange(desc(math)): math 내림차순 정렬

exam%>% arrange(class,math): 정렬 기준 변수 여러개 지정

#파생변수 추가하기

*내장함수보다 dplyr안에 있는 mutate함수를 쓸 때 이점: 1)코드가 간결해짐, 2)asign하지 않아도 바로 다음 코드에서 추가 활용가능

내장함수:exam%>%exam$total=exam$math+exam$english+exam$science) %>% head

mutate: exam%>% mutate(total=math+english+science) %>% head

#dplyr 안의 함수들은 변수명에 '데이터프레임$'를 붙이지 않음

*mutate()에 ifelase()적용

#파생변수 추가하기

집단별로 요약하기> 분리 > 산출

ex) exam %>%
group_by(class) %>% #클래스 별로 분리
summarise(mean_math=mean(math)) #math 평균 산출

*exam %>%
  group_by(class) %>% #class별로 분리
  summarise(mean_math=mean(math), #math 평균
            sum_math=sum(math), #math 합계
            median_math=median(math), #math 중앙값
            n=n()) #학생 수

자주 사용하는 요약통계량 함수: mean(),sd()#표준편차, sum(),median(),min()<max(),n()빈도

# 함수 "%>%"를 찾을 수 없습니다 라는 오류코드 해결방법: library(dplyr)실행하면 패키지부착되면서 dplyr가 로드됨(ㅇ)

#정렬+내림차순 평균 : filter(x) / arrange(desc(mean_())

#데이터 합치기

1)가로로 합치기(열), 2)세로로 합치기(행)

1) left_join(test1,test2, by="id")

2) bind_rows(group_a,group_b)

#stringsAsFactors: 문자 범주

'data analysis, R' 카테고리의 다른 글

R공부- 데이터 정제(결측치) (0)	2021.04.24
R공부- 데이터 다듬기(그래프 그리기) (0)	2021.04.23
R공부- 데이터 전처리(조건에 맞는 데이터 가공하기) (0)	2021.04.19
R공부- 데이터 파악, 쉽게 수정하기 (0)	2021.04.18
R공부- 데이터 프레임(변수, 평균값, 저장) (0)	2021.04.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 퍼즐의 데이터 세상

R공부- 데이터 가공하기

'data analysis, R' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

R공부- 데이터 가공하기

'data analysis, R' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역