데이터 파악하기
*먼저 exam에 파일을 불러들임(저장해둔 csv파일)
head(exam): 머리부분만 보여줌
head(exam,10): 10행까지 보여줌
tail(exam): 데이터 뒷 부분만 보여줌
tail(exam,10): 뒤에서부터 10행까지 출력
view(exam): 전체파일 보기
dim(exam): 행, 열의 크기 (ex: 20,5)
str(exam): structure로 int(정수),소수,문자 등의 속성을 알려줌, 원 자료를 한 화면에 보여줄 수 있는 만큼 확인 가능
summary(exam): 요약 통계량 산출
#1st Qu: 하위 25% , 3st Qu: 상위 25%
# ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기: 기존의 ggplot2를 설치하면 모든 데이터가 불러와지지만 일정 부분만 지정해서 불러오기 위해서는?
# mpg <- as.data.frame(ggplot2::mpg) : ggplot2에 있는 mpg를 불러와서 as.data.frame으로 변환시켜서 mpg안에 집어넣어줘!
변수명 바꾸기
dplyr 패키지 설치 & 로드
install.packages("dplyr") #dplyr 설치
library(dplyr) #dplyr 로드
#data.frame(var1=c(1,2,1),var2=c(2,3,2)) : 코드를 중첩해서 만들면 간결하게 출력됨
*복사본만들기(df_new=df_raw)
*변수명 바꾸기
df_new <- rename(df_new,v2=var2): var2를 v2로 바꾸겠다는 의미(새 변수명=기존 변수명)
오류: muk<- c(ggplot2::mpg)
muk
muk_raw <- muk
muk_raw
muk <- rename(muk,city=cty)
muk <- rename(muk,highway=hwy)
>> 처음 지정할 때 데이터 프레임을 만들어줘야함
# mpg <- as.data.frame(ggplot2::mpg)
mpg_new<-mpg
library(dplyr)
mpg_new <- rename(mpg_new,ctiy=cty)
mpg_new <- rename(mpg_new,highway=hwy)
& 일부 출력시 : head(mpg_new)
파생변수 만들기
1.기존변수지정: df<- data.frame(var1=c(1,2,3),var2=c(2,6,1))2.합: df$var_sum=df$var1+df$var23.나누기(추가): df$var_mean=(df$var1+df$var2)/2
ex) mpg$total<- (mpg$cty+mpg$hwy)/2
mean(mpg$total), summary(mpg$total), hist(mpg$total)
4.조건문 합격 판정 변수: ifelse
ex) mpg$test <=ifelse(mpg$total >=20, "pass", "fail")
4.빈도분석
-합격 빈도표 생성: table(mpg$test) / library*(ggplot2) / qplot(mpg$test)
5. 중첩조건문
ex) mpg$grade <- ifelse(mpg$total>=30,"A",ifelse(mpg$total>=20,"b","c"))
#정리
#데이터, 패키지 준비
mpg<- as.data.frame(ggplot2::mpg) #데이터 불러오기
library(dplyr)
library(ggplot2)
#데이터파악
head(mpg) #raw 데이터 앞 부분
tail(mpg) #raw 데이터 뒷 부분
view(mpg) #raw 데이터 뷰어창에서 확인
dim(mpg) #차원
str(mpg) #속성
summary(mpg) #요약 통계량
#변수명 수정
mpg<- rename(mpg, company=manufacturer)
#파생변수 생성
mpg$total<-(mpg$cty + mpg$hwy)/2
mpg$test<-ifelse(mpg$total>=20,"pass","fail")
#빈도 확인
table(mpg$test) #빈도표 출력
qplot(mpg$test) #막대그래프 생성
## 오류 확인
#library(dplyr)를 먼저 불러오기를 해줘야 제대로 rename할 수 있음(ㅇ)
#midwest$total<-midwest$asian/midwest$total*100, 값 지정시 처음 불러온 자료의 이름을 넣어줄 것
***정리한번 더***
'data analysis, R' 카테고리의 다른 글
R공부- 데이터 가공하기 (0) | 2021.04.20 |
---|---|
R공부- 데이터 전처리(조건에 맞는 데이터 가공하기) (0) | 2021.04.19 |
R공부- 데이터 프레임(변수, 평균값, 저장) (0) | 2021.04.17 |
R공부- R studio의 기초 (3) 함수 (0) | 2021.04.16 |
R공부- R studio의 기초 (2) 변수 (0) | 2021.04.16 |
댓글