본문 바로가기
AI(artificial Intelligence)

AI-Section 1 : Introduction to Data Science-Hypothesis Test

by 데이터 퍼즐 2021. 5. 14.
반응형
통계학은 수학과 달리 유용성과 적용 가능성에 더 가치를 둔다.
얻어진 측정 방식이 원하는 바를 정확하게 반영하고 있는가?
자료구조의 이해와 함께 결론의 정확성은 높아질 것이라고 얘기함
전산화vs통계학의 개념이 아닌 인간이 인공지능을 탑재해 강화된 판단의 도구로 사용하는 개념으로 봐야할 때

Hypothesis Test

추리통계치: 전수조사의 어려움 대안

improt numpy as np

v=np.random.randint(0,100,20) : 0~100개 숫자중 20개를 뽑아라

ㄴEffective Sampling(Simple random sampling, Systematic sampling,Stratified random sampling,Cluster sampling)

 

#binomial(베르누이 분포): 결과값 두 가지만 나오도록 하는 분포

ㄴ 우연성에 의해서 다른 분포가 나오므로 샘플의 사이즈가 결과에 영향을 미침

?np.random seed?

 

*Student T-test

1개:(one sample t-test) 평균이 특정값과 동일한지를 비교(scaling) ***평균을 빼고 표준편차로 나누는 과정이 정규화

2개:

 

*t값을 P_value(0~1사이 지표로 scale): P_value가 낮다면 귀무가설 틀렸을 확률 높다

*우연히 발생할 가능성이 매우 희박한 사건이 실제로 발생했을 경우, 그것은 우연이 아니라고 생각하는 경향이 있고, p-value 역시 그와 같은 경향을 따른 것이기 때문

*정규분포?

 

ㄴt확률분포? t-분포는 모집단의 분산(혹은 표준편차)이 알려져 있지 않은 경우에 정규분포 대신 이용하는 확률분포

ㄴt확률분포 차이?  t분포의 표본의 수가 많아질수록 '중심극한정리'에 의해 결국 정규분포에 수렴

ㄴ어떨때 z, 어떨때 t: z는 ,t는 예측치를 넓히기 위해 신뢰구간과 가설검증을 사용합니다.

ㄴt-test

 

*정규화란?

*신뢰구간?

 

*T-test

귀무/대안 설정하고 95%신뢰도를 쓴다

ㄴt-test왜 하는가? 특정 대안을 염두에 두고 확신 시키기 위해 정확도를 검사하는 것

 

 


*P-value? 왜 설명력이 있지? 왜 0.05이지???

ㄴ가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이고 반대 주장이 매우 믿을 수없는 경우 주장은 유효한 것으로 간주

p-value는 귀무가설이 맞다는 전제 하에, 관측된 통계값 혹은 그 값보다 큰 값이 나올 확률이다.

귀무가설이 참일 확률은 구할 수 없다.

 p-value가 낮아도 귀무가설이 참일 수 있고, p-value가 높아도 귀무가설은 틀릴 수 있다.

ㄴ100중 95는 귀무가설을 채택, 5번은 기각할 확률이므로 0.05의 경우에는 그 이하는 어려우니까 그렇다고 하자라는 가정이지 '틀린' 것은 아니다

ㄴ0.05나 0.01이라는 알파값은 관례적으로 쓰이는 값일 뿐이다.

ㄴp-value는 귀무가설을 기각하면 안되는데 기각할 확률이다: 귀무가설이 맞다는 전제 하에서 구해지기는 하는데 p-value값이 구해지는 건??

 

*어떠한 객관성을 보장할 수 있길래 이런 수학적인 통계방법을 쓰는 것인가.

ㄴ우연성을 통한 방법이 아니라 객관적인 방법을 통해, 다른 표본에게 적용을 했을 때에도 동일하게 적용하기 위해서

 


기술통계에는 무엇이 있는가? > count. mean, standard dev, min.. 데이터를 설명, 요약, 묘사

추리 통계치에는 무엇이 있는가> population, parameter, statistic.. 수집 데이터를 바탕으로 추론, 예측

ㄴ모르는 데이터를 추론하고 설명하는 것의 중요성

 

표본추출은 왜 하는가?> 연구대상 전체에서 일부를 선택해 대표성을 검증하는 것

표본평균의 표본오차

ㄴ모수를 다 반영하지 못하고, 랜덤하게 추출함으로써 추출할 때마다 표본은 시점마다 값이 바뀌므로 늘 오차를 수반하게 됨

 

 

왜 이런 수식? 이 개념? 내 언어정의? 추측 정확성과 높은 신뢰도 예측


특정 줄은 제외하고 불러오기: skiprows = [x, x]

 

#특정 행 제외

df_1=df.drop(index=[0,26,27],axis=0)

반응형

'AI(artificial Intelligence)' 카테고리의 다른 글

AI-Section1 Wrap-up  (0) 2021.06.04
AI- High dimensional data  (0) 2021.05.25
AI-미분, 경사하강법  (0) 2021.05.12
AI-Data Manipulation  (0) 2021.05.10
AI-Feature Engineering  (0) 2021.05.10

댓글