본문 바로가기
data analysis, R

R_공부: 머신러닝 & 확률 기초

by 데이터 퍼즐 2021. 4. 29.
반응형

* 머신러닝이란? 컴퓨터가 명시적으로 프로그램 되지 않고 학습할 수 있도록 알고리즘&개발 연구하는 분야

ㄴData→Model→Result

ㄴresult=f(Data)

 

Ⅰ. 구분방법

ⓐ 정답 유무: 지도학습(Supervised Learning), 비지도학습(Unsupterviesd Learning)

ⓑ 학습 목적: 분류(명목형 변수), 회귀(연속형 변수), 군집화(유사한 개체 집단 판별), 연관규칙분석(규칙집합)

 

Ⅱ. 실제사례

ㄴ넷플릭스

ㄴ머신러닝 기반 추천 알고리즘: User기반 추천, Item기반 추천

 

*확률 기초

확률실험 / 표본공간(결과집합) / 사건(표본공간의 부분집합)

확률(P(E)): 특정사건이 발생할 가능성

확률의 공리: 1)0<_P(E)<_1 , P(S)=1, 각사건이 서로 배반사건일 때

조건부 확률: 특정사건 B가 발생했다는 가정하에 사건 A가 발생할 확률

확률 변수: 표본 공간을 실수 값에 대응시키는 함수(주로X로 표기)=> 이산(셀수있음), 연속(셀수없음)

확률 분포: 확률변수를 확률 값에 대응시키는 함수=> 확률질량함수(이산확률분포), 확률밀도함수(연속확률분포)

통계: 집단현상을 수량적으로 관찰하고 분석(모집단->표본집단으로 표본추출, 표본집단->모집단 추정)

통계적 추정: 모집단의 수치적 특성(모수)를 통계량(표본에 따라 딸라지는 표본집단 수치적 특성)으로 추정해냄

ㄴ점추정, 구간추정

통계적 검정: 귀무가설, 대립가설[단측(좌,우측검정),양측검정]

ㄴ검정통계량(표본집단 통계량 기반 계산), 기각역(유의수준에서 귀무가설 기각하는 영역)

#유의수준 a가 작을 수록 기각역이 작아지므로 신뢰도는 더 올라간다.

유의확률: p-value<a(귀무가설 기각), p-value>a(귀무가설 채택)

MlE(Maximum Likelihood Estimation): 표본을 바탕으로 모집단에 대해 통계적 추정이 그럴듯한 정도를 최대화

ㄴ확률분포함수(m=0, 시그마=1, 정규분포, 확률변수 x의 함수) vs 가능도/우도함수(m=0, 시그마=1, 정규분포,x1-x3에 대한 모수 m의 함수). likelihood에 log를 취한 log likelihood를 최대화하여 변환, m를 0으로 만드는 점이 극대점이 되므로 표본평균을 따르게 됨

Matrix 미분: Scalar[x], Vector:x[x=x1~xn], Matrix:X[xmn,xn]

ㄴNumerator layout(당하는), Denumerator(하는): 행, 열 벡터

반응형

댓글