통계학은 수학과 달리 유용성과 적용 가능성에 더 가치를 둔다.
얻어진 측정 방식이 원하는 바를 정확하게 반영하고 있는가?
자료구조의 이해와 함께 결론의 정확성은 높아질 것이라고 얘기함
전산화vs통계학의 개념이 아닌 인간이 인공지능을 탑재해 강화된 판단의 도구로 사용하는 개념으로 봐야할 때
Hypothesis Test
추리통계치: 전수조사의 어려움 대안
improt numpy as np
v=np.random.randint(0,100,20) : 0~100개 숫자중 20개를 뽑아라
ㄴEffective Sampling(Simple random sampling, Systematic sampling,Stratified random sampling,Cluster sampling)
#binomial(베르누이 분포): 결과값 두 가지만 나오도록 하는 분포
ㄴ 우연성에 의해서 다른 분포가 나오므로 샘플의 사이즈가 결과에 영향을 미침
?np.random seed?
*Student T-test
1개:(one sample t-test) 평균이 특정값과 동일한지를 비교(scaling) ***평균을 빼고 표준편차로 나누는 과정이 정규화
2개:
*t값을 P_value(0~1사이 지표로 scale): P_value가 낮다면 귀무가설 틀렸을 확률 높다
*우연히 발생할 가능성이 매우 희박한 사건이 실제로 발생했을 경우, 그것은 우연이 아니라고 생각하는 경향이 있고, p-value 역시 그와 같은 경향을 따른 것이기 때문
*정규분포?
ㄴt확률분포? t-분포는 모집단의 분산(혹은 표준편차)이 알려져 있지 않은 경우에 정규분포 대신 이용하는 확률분포
ㄴt확률분포 차이? t분포의 표본의 수가 많아질수록 '중심극한정리'에 의해 결국 정규분포에 수렴
ㄴ어떨때 z, 어떨때 t: z는 ,t는 예측치를 넓히기 위해 신뢰구간과 가설검증을 사용합니다.
ㄴt-test
*정규화란?
*신뢰구간?
*T-test
귀무/대안 설정하고 95%신뢰도를 쓴다
ㄴt-test왜 하는가? 특정 대안을 염두에 두고 확신 시키기 위해 정확도를 검사하는 것
*P-value? 왜 설명력이 있지? 왜 0.05이지???
ㄴ가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이고 반대 주장이 매우 믿을 수없는 경우 주장은 유효한 것으로 간주
ㄴp-value는 귀무가설이 맞다는 전제 하에, 관측된 통계값 혹은 그 값보다 큰 값이 나올 확률이다.
ㄴ귀무가설이 참일 확률은 구할 수 없다.
ㄴ p-value가 낮아도 귀무가설이 참일 수 있고, p-value가 높아도 귀무가설은 틀릴 수 있다.
ㄴ100중 95는 귀무가설을 채택, 5번은 기각할 확률이므로 0.05의 경우에는 그 이하는 어려우니까 그렇다고 하자라는 가정이지 '틀린' 것은 아니다
ㄴ0.05나 0.01이라는 알파값은 관례적으로 쓰이는 값일 뿐이다.
ㄴp-value는 귀무가설을 기각하면 안되는데 기각할 확률이다: 귀무가설이 맞다는 전제 하에서 구해지기는 하는데 p-value값이 구해지는 건??
*어떠한 객관성을 보장할 수 있길래 이런 수학적인 통계방법을 쓰는 것인가.
ㄴ우연성을 통한 방법이 아니라 객관적인 방법을 통해, 다른 표본에게 적용을 했을 때에도 동일하게 적용하기 위해서
기술통계에는 무엇이 있는가? > count. mean, standard dev, min.. 데이터를 설명, 요약, 묘사
추리 통계치에는 무엇이 있는가> population, parameter, statistic.. 수집 데이터를 바탕으로 추론, 예측
ㄴ모르는 데이터를 추론하고 설명하는 것의 중요성
표본추출은 왜 하는가?> 연구대상 전체에서 일부를 선택해 대표성을 검증하는 것
표본평균의 표본오차
ㄴ모수를 다 반영하지 못하고, 랜덤하게 추출함으로써 추출할 때마다 표본은 시점마다 값이 바뀌므로 늘 오차를 수반하게 됨
왜 이런 수식? 이 개념? 내 언어정의? 추측 정확성과 높은 신뢰도 예측
특정 줄은 제외하고 불러오기: skiprows = [x, x]
#특정 행 제외
df_1=df.drop(index=[0,26,27],axis=0)
'AI(artificial Intelligence)' 카테고리의 다른 글
AI-Section1 Wrap-up (0) | 2021.06.04 |
---|---|
AI- High dimensional data (0) | 2021.05.25 |
AI-미분, 경사하강법 (0) | 2021.05.12 |
AI-Data Manipulation (0) | 2021.05.10 |
AI-Feature Engineering (0) | 2021.05.10 |
댓글