* 머신러닝이란? 컴퓨터가 명시적으로 프로그램 되지 않고 학습할 수 있도록 알고리즘&개발 연구하는 분야
ㄴData→Model→Result
ㄴresult=f(Data)
Ⅰ. 구분방법
ⓐ 정답 유무: 지도학습(Supervised Learning), 비지도학습(Unsupterviesd Learning)
ⓑ 학습 목적: 분류(명목형 변수), 회귀(연속형 변수), 군집화(유사한 개체 집단 판별), 연관규칙분석(규칙집합)
Ⅱ. 실제사례
ㄴ넷플릭스
ㄴ머신러닝 기반 추천 알고리즘: User기반 추천, Item기반 추천
*확률 기초
확률실험 / 표본공간(결과집합) / 사건(표본공간의 부분집합)
확률(P(E)): 특정사건이 발생할 가능성
확률의 공리: 1)0<_P(E)<_1 , P(S)=1, 각사건이 서로 배반사건일 때
조건부 확률: 특정사건 B가 발생했다는 가정하에 사건 A가 발생할 확률
확률 변수: 표본 공간을 실수 값에 대응시키는 함수(주로X로 표기)=> 이산(셀수있음), 연속(셀수없음)
확률 분포: 확률변수를 확률 값에 대응시키는 함수=> 확률질량함수(이산확률분포), 확률밀도함수(연속확률분포)
통계: 집단현상을 수량적으로 관찰하고 분석(모집단->표본집단으로 표본추출, 표본집단->모집단 추정)
통계적 추정: 모집단의 수치적 특성(모수)를 통계량(표본에 따라 딸라지는 표본집단 수치적 특성)으로 추정해냄
ㄴ점추정, 구간추정
통계적 검정: 귀무가설, 대립가설[단측(좌,우측검정),양측검정]
ㄴ검정통계량(표본집단 통계량 기반 계산), 기각역(유의수준에서 귀무가설 기각하는 영역)
ㄴ#유의수준 a가 작을 수록 기각역이 작아지므로 신뢰도는 더 올라간다.
유의확률: p-value<a(귀무가설 기각), p-value>a(귀무가설 채택)
MlE(Maximum Likelihood Estimation): 표본을 바탕으로 모집단에 대해 통계적 추정이 그럴듯한 정도를 최대화
ㄴ확률분포함수(m=0, 시그마=1, 정규분포, 확률변수 x의 함수) vs 가능도/우도함수(m=0, 시그마=1, 정규분포,x1-x3에 대한 모수 m의 함수). likelihood에 log를 취한 log likelihood를 최대화하여 변환, m를 0으로 만드는 점이 극대점이 되므로 표본평균을 따르게 됨
Matrix 미분: Scalar[x], Vector:x[x=x1~xn], Matrix:X[xmn,xn]
ㄴNumerator layout(당하는), Denumerator(하는): 행, 열 벡터
'data analysis, R' 카테고리의 다른 글
R공부- 데이터로 분석하는 지도학습 개념 (0) | 2021.05.01 |
---|---|
R공부- 단순 선형 회귀분석 (0) | 2021.04.30 |
R-공부: 여러가지 가설 검정 방법(카이제곱 검정) (0) | 2021.04.29 |
R-공부: 여러가지 가설 검정 방법(ANOVA검정) (0) | 2021.04.28 |
R-공부: 여러가지 가설 검정 방법(z검정) (0) | 2021.04.27 |
댓글