data analysis, R21 R공부- 데이터 정제(결측치) 1. 결측치 찾기 ㄴ대문자 NA(결측치) data.frame(sex=c("M","F",NA,"M","F"),score=c(5,4,3,4,NA)) ㄴNA 앞 뒤에 겹 따옴표가 없음 ㄴis.na(df) #결측치 확인 ㄴtable(is.na(df)) #결측치 빈도 * filter로 분류 시 : 어떤 변수에 결측치가 있는지 알 수 없음 ㄴ#table(is.na(df$sex) / table(is.na(df$score)로 빈도 출력하여 확인 *결측치 포함상태로 출력 ㄴmean(df$score) / sum(df$score) ㄴ#어떤 함수에서 NA라는 결과값이 나왔다면 결측치를 확인해봐야겠다는 것을 인지 *결측치 반영 : df%>%filter(is.na(score)) 2. 결측치 제외 *#결측치 제외하고 출력 : df.. 2021. 4. 24. R공부- 데이터 다듬기(그래프 그리기) 1.산점도(Scater Plot): 데이터 x,y축에 점으로 표현한 그래프(연속적 두 변수 관계 표현 시 사용) # ggplot 함수 구조: ggplot(data= mpg, aes(x=displ, y=hwy))+ geom_point()+ xlim(3,6)+ ylim(10,30) ㄴ(쓸 데이터, aes=축)+ 그래프 종류 + 세부 설정 ㄴxlim, ylim : x리밋, y리밋(제한) #표를 지정할 때 파이프기호를 썼던 것처럼 ggplot그래프에서는 '+' 기호로 연결 #ggplot()은 본격적으로 (세부지정) vs qplot은 퀵(단순하게) 2.막대 그래프(Bar Chart): 데이트 크기 막대의 길이로 표현한 그래프(성별 등 집단 간 차이 표현) *ⓐ평균막대그래프 #ggplot(data=df_mpg,ae.. 2021. 4. 23. R공부- 데이터 가공하기 #필요한 변수만 추출 -행(filter) -열(select) ex) exam%>%select(math): 수학 추출 exam%>%select(-math): 수학만 제외하고 추출 #%>%로 함수 연결 ㄴex)exam %>%filter(class==1)%>%select(english) #파이프 기호 뒤에서 Enter치면 가독성을 지키면서 한 줄의 코드로 동작 ex) exam%>% filter(class==1)%>% select(english) *파이프를 먼저 입력한 다음 엔터를 쳐서 줄을 바꿔줄 것(%>%+Enter) #순서대로 정렬 -arrange : ex) exam%>% arrange(math) : math 오름차순 정렬 exam%>% arrange(desc(math)): math 내림차순 정렬 exam.. 2021. 4. 20. R공부- 데이터 전처리(조건에 맞는 데이터 가공하기) 데이터 전처리(Preprocessing): 원하는 데이터를 가공하는 작업 데이터추출: filter(dplyr에 들어있는 함수) *Ctrl+Shift+M으로 %>% 기호 입력(%>% 파이프,체인 연산자) ex) exam%>%filter(class==1) 1반만 exam%>%filter(class!=1) 1반 제외 exam%>%filter(math%filter(class==1&math>=50) 1반 중 수학점수 50이상 2) *Shift+\='|' : exam%>%filter(math>=90 | english>=90) 3) 1,3,5반에 해당하면 추출 ㄴexam%>%filter(class==1|class==3|class==5) ㄴexam%>%filter(class %in% c(1,3,5)) : 매치오퍼레이터.. 2021. 4. 19. 이전 1 2 3 4 5 6 다음