본문 바로가기

data analysis, R21

R공부- 단순 선형 회귀분석 1) 선형회귀분석: 종속변수 y와 여러 독립변수 집합 x사이 관계 선형으로 가정, 관계 잘 설명하는 모형 찾는 방법 ㄴy(연속형종속변수)=f(회귀모형)(x)(연속/이산형 독립변수) ㄴ단순선형 회귀분석 ⓐ모집단 : y=[B0+B1x(회귀계수)]+white noise ⓑ추정할 회귀직선: y^=B0^+B1^x(잔차 오차가 적은 가장 작음) 2) 단순선형 회귀계수 추정 ㄴ추정된 회귀직선 예측 값과 실제값의 차이인 잔차(residual)의 제곱합(SSE)를 최소화하는 회귀계수 추정 ex) 잔차: e=y-y^ , SSE=∑잔차제곱=∑(실제값-(예측값))의 제곱 ㄴ잔차 제곱합 최소화하는 B0, B1 추정 위해 각 회귀계수 편미분해 미분값 0이 되는 점을 찾음(기울기 0인지점) 3) least Square Method.. 2021. 4. 30.
R_공부: 머신러닝 & 확률 기초 * 머신러닝이란? 컴퓨터가 명시적으로 프로그램 되지 않고 학습할 수 있도록 알고리즘&개발 연구하는 분야 ㄴData→Model→Result ㄴresult=f(Data) Ⅰ. 구분방법 ⓐ 정답 유무: 지도학습(Supervised Learning), 비지도학습(Unsupterviesd Learning) ⓑ 학습 목적: 분류(명목형 변수), 회귀(연속형 변수), 군집화(유사한 개체 집단 판별), 연관규칙분석(규칙집합) Ⅱ. 실제사례 ㄴ넷플릭스 ㄴ머신러닝 기반 추천 알고리즘: User기반 추천, Item기반 추천 *확률 기초 확률실험 / 표본공간(결과집합) / 사건(표본공간의 부분집합) 확률(P(E)): 특정사건이 발생할 가능성 확률의 공리: 1)0 확률질량함수(이산확률분포), 확률밀도함수(연속확률분포) 통계: .. 2021. 4. 29.
R-공부: 여러가지 가설 검정 방법(카이제곱 검정) 분할표인가? > 카이제곱검정 ㄴ 연관성 분석 *카이제곱 통계량 = (관측값-기대값) / 기대값 cf) 기대값= 열 합*행 합/총합 *카이제곱분포(0보다 큰 분포)-F값과 유사 *실습 raw_chisq 2021. 4. 29.
R-공부: 여러가지 가설 검정 방법(ANOVA검정) ANOVA검정: 그룹개수>2 * 총오차 = 집단 간 오차 + 집단 내 오차 ㄴ 집단 내 오차: 편차 제곱의 합((각 데이터값-해당집단 평균)제곱의 합) ㄴ 집단 간 오차: (n*(집단평균-전체평균)의 제곱)의 합 ㄴ 집단 간 오차>집단 내 오차 #집단간의 차이가 크다는 것: 대립가설! F통계량=(집단간오차/집단개수-1)/(집단 내 오차/전체데이터수-집단개수) F분포(0보다 크게 시작): p-value정규성검정>분산동질성검정>ANOVA테스트> 결론ㄴ양측검정 사용(집단3개) ⓐ가설검정: 평균값확인 ⓑ정규성검정: shapiro.test(groupC4[,2]) / qqnorm(groupC4[,2]) /qqline(groupC4[,2]) : a,b,c 모두 확인 ⓒ분산동질성검정: levene테스트, bartlet.. 2021. 4. 28.