Article 2. 차원축소 2122
Section 2. 분석 변수 처리
Paragraph 1. 차원축소(Dimensionality Reduction) 개념
- 차원축소는 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법이다.
- 원래의 데이터를 최대한 효과적으로 축약하기 위해 목표전수(y)는 사용하지 않고 특성 변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법이다.
Paragraph 2. 차원축소 특징
- 차원축소를 수행할 때, 축약되는 변수 세트는 원래의 전체 데이터의 변수들의 정보를 최대한 유지해야 한다.
- 변수들 사이에 내재한 특성이나 관계를 분석하여 이들을 잘 표현할 수 있는 새로운 선형 혹은 비선형 결합을 만들어내서 해당 결합변수만으로도 전체변수를 적절히 설명할 수 있어야 한다.
- 차원축소 기법은 하나의 완결된 분석기법으로 사용되기보다는 다른 분석과정을 위한 전 단계, 분석 수행 후 개선 방법, 또는 효과적인 시각화 등의 목적으로 사용된다.
- 고차원 변수(Feature)보다 변환된 저차원으로 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더 잘 작동된다.
- 새로운 저차원 변수(Feature) 공간에서 가시적으로 시각화하기도 쉽다.
Paragraph 3. 차원축소 기법
차원축소 기법에는 주성분 분석, 특이값 분해, 요인분석, 독립성분분석, 다차원 척도법이 있다.
기법 | 설명 |
---|---|
주성분 분석(PCA; Principal Component Analysis) | • 변수들의 공분산 행렬이나 상관행렬을 이용 • 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위하여 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법 • 행의 수와 열의 수가 같은 정방행렬에서만 사용 |
특이값 분해(SVD; Singular Value Decomposition) | • Μ × Ν 차원의 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법 |
요인분석(Factor Analysis) | • 데이터 안에 과날할 수 없는 잠재적인 변수(Latent Variable)가 존재한다고 가정 • 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법 • 주로 사회과학이나 설문 조사 등에서 많이 활용 |
독립성분분석(ICA; Independent Component Analysis) | • 주성분 분석과는 달리, 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 차원을 축소하는 기법 • 독립 성분의 분포는 비정규 분포를 따르게 되는 차원축소 기법 |
다차원 척도법(MDS; Multi-Dimensional Scaling) | • 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법 |
Paragraph 4. 차원축소 기법 주요 활용 분야
- 차원축소 기법은 탐색적 데이터 분석부터 정보 결과의 시각화까지 다양하게 활용되고 있다.
- 분석하려는 데이터가 많은 차원으로 구성되어 있을 때 좀 더 쉽게 데이터를 학습하고 모델을 생성하고자 할 때 주로 활용된다.
- 대상에 대한 패턴인식이나 추천시스템 구현 결과의 성능 등을 개선할 때도 사용한다.
예)
- 탐색적 데이터 분석
- 변수 집합에서 주요 특징을 추출하여 타 분석기법의 설명변수로 활용
- 덱스트 데이터에서 주제나 개념 추출
- 이미지 및 사운드 등의 비정형 데이터에서 특징 패턴 추출
- 기업의 판매데이터에서 상품 추천시스템 알고리즘 구현
- 다차원 공간의 정보를 저차원으로 시각화
- 공통 요인(Factor)을 추출하여 잠재된 데이터 규칙 발견