- Vector Transformation(선형 변환은 임의의 두 벡터를 더하거나 혹은 스칼라 값을 곱하는 것)
- High dimension Data와, 이로 인한 이슈
- ㄴ상당히 많은 양의 불필요한 scatterplot
- ㄴ얼마나 의미있게 더 좋은 결과를 모델링
- Feature Extraction / Selection
#sklearn 적용
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
df=pd.DataFrame(scaler.fit_transform(df),columns=['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g'])
#PCA분석
from sklearn.decomposition import PCA
pca=PCA(n_components=2)
extracted_df=pd.DataFrame(pca.fit_transform(df), columns=['PC1','PC2'])
extracted_df.head()
"뒤에서 나오는 내용이 벡터 변환과 무슨 연관이 있는가"
벡터 변환은 무엇인가
f() -> 방정식 -> 매트릭스 -> 변환,
선형연립방정식 -> 행렬벡터 -> 해
종속/독립
고유벡터, 고유값 정의?
벡터는 벡터인데, 왜 "고유"?
선의 집합.... 벡터공간 ..... 변환, 회전..... -> 고유벡터, 고유값이 어떤 의미를 가지는가
차원?
차원이 높다 -> 문제
"문제" -> 난해하거나, 처리할때 걸림돌이 되거나... 데이터가 고차원일 때의 문제 -> 해결하기 위한 솔루션은?솔루션의 접근방법 -> 굳이 이 많은 차원이 다 필요해?피쳐 선택 / 추출
피쳐의 선택/추출에 대한 장단점 -> 여러 종류 중에 한가지인 pca
PCA란?
왜? -> 데이터의 차원떄문에
낮게 -> 어떻게?
"분산"
주요한, Main
분산 -> 데이터의 OOO한 점을 가지공 ㅣㅆ으니까! > 정보손실이 가장 적은(분산이 제일 큰 것을)고를 것
정규화
공분산 매트릭스
어제 배운 공분산 매트릭스 -> 간단하게 10분만 파악하고 다시 돌아기(고유벡터, 리니어프로젝션, pca값 다시 정리_
어제 배운 리니어 프로젝션 -> 간단하게 10분만 파악하고 다시 돌아오기
PCA: 분산(variance)을 최대한 보존하면서 서로 직교하는 기저(축)을 찾아 고차원 공간 표본들을 선형 연관성이 없는 저차원 공간으로 변환
전후가 어떻게 다른 의미를 가지는가:PC들을 구할 때 분산을 가장 크게 하는 축> 연관(고유값과 고유벡터 연관)
어떻게 사용할 수 있는가
기저, 고유값 / 벡터, 벡터공간
Overfitting (과적합)-데이터 퍼져있는 정도(정보의 셋:분산)
일부 데이터만 임의로 빼서 공간에 표현해 반영
고유값과 고유 벡터 (Eigenvalue, eigenvector)
고유벡터(eigenvector)는 방향은 변화 하지 않는다.
고유값의 크기는 스칼라값으로 변화(=고유값 eigenvalue)
#"Scree Plot" 은 주성분(PCA)을 유지하기 위한 분석에서 요인 또는 주성분 고유값에 대한 선그림
# 기울기가 급격하게 변하는 구간을 기점으로 선택
# Eigenvalue값 1이상 되도록 설정함
ㄴ
#sklearn 정규화
#PCA분석
#PC1,PC2 차원축소
ㄴ시각화 (Visualization), 노이즈 제거 (Reduce Noise), 3. 메모리 절약 (Preserve useful info in low memory), 4. 퍼포먼스 향상 : 모델 성능 향상에 기여
ratio=pca.explained_variance_ratio_
ratio
'AI(artificial Intelligence)' 카테고리의 다른 글
Sprint2-1 Linear Models (0) | 2021.06.08 |
---|---|
AI-Section1 Wrap-up (0) | 2021.06.04 |
AI-Section 1 : Introduction to Data Science-Hypothesis Test (0) | 2021.05.14 |
AI-미분, 경사하강법 (0) | 2021.05.12 |
AI-Data Manipulation (0) | 2021.05.10 |
댓글