본문 바로가기
AI(artificial Intelligence)

AI- High dimensional data

by 데이터 퍼즐 2021. 5. 25.
반응형

 

  • Vector Transformation(선형 변환은 임의의 두 벡터를 더하거나 혹은 스칼라 값을 곱하는 것)
  • High dimension Data와, 이로 인한 이슈
  • 상당히 많은 양의 불필요한 scatterplot
  • 얼마나 의미있게 더 좋은 결과를 모델링
  • Feature Extraction / Selection

#sklearn 적용

from sklearn.preprocessing import StandardScaler

 

scaler=StandardScaler()

df=pd.DataFrame(scaler.fit_transform(df),columns=['bill_length_mm','bill_depth_mm','flipper_length_mm','body_mass_g'])

 

#PCA분석

from sklearn.decomposition import PCA

 

pca=PCA(n_components=2)

extracted_df=pd.DataFrame(pca.fit_transform(df), columns=['PC1','PC2'])

extracted_df.head()


 

"뒤에서 나오는 내용이 벡터 변환과 무슨 연관이 있는가"
벡터 변환은 무엇인가
f() -> 방정식 -> 매트릭스 -> 변환,
선형연립방정식 -> 행렬벡터 -> 해
종속/독립
고유벡터, 고유값 정의?
벡터는 벡터인데, 왜 "고유"?
선의 집합.... 벡터공간 ..... 변환, 회전..... -> 고유벡터, 고유값이 어떤 의미를 가지는가

차원?
차원이 높다 -> 문제

"문제" -> 난해하거나, 처리할때 걸림돌이 되거나... 데이터가 고차원일 때의 문제 -> 해결하기 위한 솔루션은?솔루션의 접근방법 -> 굳이 이 많은 차원이 다 필요해?피쳐 선택 / 추출

피쳐의 선택/추출에 대한 장단점 -> 여러 종류 중에 한가지인 pca
PCA란?
왜? -> 데이터의 차원떄문에
낮게 -> 어떻게?
"분산"
주요한, Main

분산 -> 데이터의 OOO한 점을 가지공 ㅣㅆ으니까! > 정보손실이 가장 적은(분산이 제일 큰 것을)고를 것
정규화
공분산 매트릭스
어제 배운 공분산 매트릭스 -> 간단하게 10분만 파악하고 다시 돌아기(고유벡터, 리니어프로젝션, pca값 다시 정리_


어제 배운 리니어 프로젝션 -> 간단하게 10분만 파악하고 다시 돌아오기

PCA: 분산(variance)을 최대한 보존하면서 서로 직교하는 기저(축)을 찾아 고차원 공간 표본들을 선형 연관성이 없는 저차원 공간으로 변환

 

전후가 어떻게 다른 의미를 가지는가:PC들을 구할 때 분산을 가장 크게 하는 축> 연관(고유값과 고유벡터 연관)

어떻게 사용할 수 있는가

 

기저, 고유값 / 벡터, 벡터공간

Overfitting (과적합)-데이터 퍼져있는 정도(정보의 셋:분산)

일부 데이터만 임의로 빼서 공간에 표현해 반영

 

고유값과 고유 벡터 (Eigenvalue, eigenvector)

고유벡터(eigenvector)는 방향은 변화 하지 않는다.

고유값의 크기는 스칼라값으로 변화(=고유값 eigenvalue)

 


#"Scree Plot" 은 주성분(PCA)을 유지하기 위한 분석에서 요인 또는 주성분 고유값에 대한 선그림

# 기울기가 급격하게 변하는 구간을 기점으로 선택

# Eigenvalue값 1이상 되도록 설정함

 

#sklearn 정규화

#PCA분석

 

#PC1,PC2 차원축소

ㄴ시각화 (Visualization), 노이즈 제거 (Reduce Noise), 3. 메모리 절약 (Preserve useful info in low memory), 4. 퍼포먼스 향상  : 모델 성능 향상에 기여

 

ratio=pca.explained_variance_ratio_

ratio

 

##https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-9-PCA-Principal-Components-Analysis

반응형

'AI(artificial Intelligence)' 카테고리의 다른 글

Sprint2-1 Linear Models  (0) 2021.06.08
AI-Section1 Wrap-up  (0) 2021.06.04
AI-Section 1 : Introduction to Data Science-Hypothesis Test  (0) 2021.05.14
AI-미분, 경사하강법  (0) 2021.05.12
AI-Data Manipulation  (0) 2021.05.10

댓글