가설검정-실습(ⓐT검정)

ⓐT검정: 두 집단의 평균이 똑같더라도 분산이 다르면 집단이 다르다

ㄴ평균(/n)

ㄴ분산(편차(데이터값-평균)제곱의 합/n-1)

ㄴ표준편차: 루트분산

ㄴ가설설정→데이터정규성 검정(ㅇ:t-test,X:비모수검정)→분산동질성 검정(=?)→T-test→결론

#정규분포를 따라야만 t-test 사용 가능

ㄴT값=(그룹1평균-그룹2평균/표준편차), 분산같은 경우 합동분산사용, 분산 다를 경우 각자 분산사용

#p-value? 귀무가설 참일 경우 표본데이터 수집될 확률이 낮다, P-value가 낮을 수록 대립가설 채택

통상적으로 P-value<0.05이면 귀무가설 기각 , 대립가설 채택(0.05를 유의수준이라하고, 0.05or0.01중 채택)

#t값이 클수록 P-value값이 작다.

*불러오기: read.csv(file="C:/test/htest01.csv",header=TRUE)

#엑셀파일 상 열 이름 정해져있다면 TRUE / 정해져 있지 않고 열부터 시작 False

groupA <- rawN3[rawN3$group=='A',1:2]
groupB <- rawN3[rawN3$group=='B',1:2]

#데이터프레임$그룹==(조건),'String(문자)',1~2열까지 가져오라!

#$는 데이터 프레임 특정 열에 접근할 때 사용

*가설설정 → 데이터 정규성 검정 → 분산 동질성 검정 → T-test →결론

Ⅰ.데이터 정규성 검정: shapiro.test, qqplot(qqnorm,qqline)

1)shapiro.test(groupA[,2])

ㄴ

#p-value=1 > 0.05보다 크므로 귀무가설 채택 = t검정을 사용할 수 있다.(정규성을 따른다)

2)qqplot(qqnorm,qqline): 거의 그어진 qqline과 비슷하게 점이 그어짐을 확인(정규성을 따른다)

Ⅱ. 분산 동질성 검정

var.test(groupA[,2],groupB[,2]): p-value가 0.05보다 크면 귀무가설 채택(두 집단 분산 동일)=> #합동분산 사용

Ⅲ. t-test

t.test(groupA[,2],groupB[,2], alternative="less",var.equal=TRUE)

#alternative(대립가설), less(A집단 평균이 B집단 평균보다 작음), var.equal(분산동질성검증:동일하면True, 다르면 False)

#평균, 분산, 크기 등등 확인하여 모두 추론했을 때 같은 가 다른 가를 확인해볼것

Ⅳ. 결론

귀무 vs 대립 확인

# 정리: read(파일)>평균>가설설정>정규성검정(shapiro.test, qqplot(qqnorm,qqline)>분산 동질성 검정>t-test>결론

# 데이터수가 달라졌을 때 단순한 평균비교로 가설을 채택하지 않음, 판단이 어렵기 때문

데이터 퍼즐의 데이터 세상