본문 바로가기
data analysis, R

R공부- 데이터 파악, 쉽게 수정하기

by 데이터 퍼즐 2021. 4. 18.
반응형

데이터 파악하기

*먼저 exam에 파일을 불러들임(저장해둔 csv파일)

 

 

 

view()

head(exam): 머리부분만 보여줌

head(exam,10): 10행까지 보여줌

tail(exam): 데이터 뒷 부분만 보여줌

tail(exam,10): 뒤에서부터 10행까지 출력

view(exam): 전체파일 보기

dim(exam): 행, 열의 크기 (ex: 20,5)

str(exam): structure로 int(정수),소수,문자 등의 속성을 알려줌, 원 자료를 한 화면에 보여줄 수 있는 만큼 확인 가능

summary(exam): 요약 통계량 산출

#1st Qu: 하위 25% , 3st Qu: 상위 25%

 

# ggplot2의 mpg 데이터를 데이터 프레임 형태로 불러오기: 기존의 ggplot2를 설치하면 모든 데이터가 불러와지지만 일정 부분만 지정해서 불러오기 위해서는?

# mpg <- as.data.frame(ggplot2::mpg) : ggplot2에 있는 mpg를 불러와서 as.data.frame으로 변환시켜서 mpg안에 집어넣어줘!

 

변수명 바꾸기

 

dplyr 패키지 설치 & 로드

install.packages("dplyr") #dplyr 설치

library(dplyr) #dplyr 로드

#data.frame(var1=c(1,2,1),var2=c(2,3,2)) : 코드를 중첩해서 만들면 간결하게 출력됨

 

*복사본만들기(df_new=df_raw)

 

*변수명 바꾸기

df_new <- rename(df_new,v2=var2): var2를 v2로 바꾸겠다는 의미(새 변수명=기존 변수명)

 

오류: muk<- c(ggplot2::mpg)
muk
muk_raw <- muk
muk_raw
muk <- rename(muk,city=cty)
muk <- rename(muk,highway=hwy)

 

>> 처음 지정할 때 데이터 프레임을 만들어줘야함
 # mpg <- as.data.frame(ggplot2::mpg)
    mpg_new<-mpg
    library(dplyr)
    mpg_new <- rename(mpg_new,ctiy=cty)
    mpg_new <- rename(mpg_new,highway=hwy)
& 일부 출력시 : head(mpg_new)      

파생변수 만들기

 

1.기존변수지정: df<- data.frame(var1=c(1,2,3),var2=c(2,6,1))2.합: df$var_sum=df$var1+df$var23.나누기(추가): df$var_mean=(df$var1+df$var2)/2

ex) mpg$total<- (mpg$cty+mpg$hwy)/2

     mean(mpg$total), summary(mpg$total), hist(mpg$total)

4.조건문 합격 판정 변수: ifelse

ex) mpg$test <=ifelse(mpg$total >=20, "pass", "fail")

 

4.빈도분석

-합격 빈도표 생성: table(mpg$test) / library*(ggplot2) / qplot(mpg$test)

 

5. 중첩조건문

ex) mpg$grade <- ifelse(mpg$total>=30,"A",ifelse(mpg$total>=20,"b","c"))

 

#정리

#데이터, 패키지 준비

mpg<- as.data.frame(ggplot2::mpg) #데이터 불러오기

library(dplyr) 

library(ggplot2)

#데이터파악

head(mpg) #raw 데이터 앞 부분

tail(mpg) #raw 데이터 뒷 부분

view(mpg) #raw 데이터 뷰어창에서 확인

dim(mpg) #차원

str(mpg) #속성

summary(mpg) #요약 통계량

#변수명 수정

mpg<- rename(mpg, company=manufacturer)

#파생변수 생성

mpg$total<-(mpg$cty + mpg$hwy)/2

mpg$test<-ifelse(mpg$total>=20,"pass","fail")

#빈도 확인

table(mpg$test) #빈도표 출력

qplot(mpg$test) #막대그래프 생성

 

## 오류 확인 

#library(dplyr)를 먼저 불러오기를 해줘야 제대로 rename할 수 있음(ㅇ)

 

#midwest$total<-midwest$asian/midwest$total*100, 값 지정시 처음 불러온 자료의 이름을 넣어줄 것

 

 

 

***정리한번 더***

반응형

댓글