Article 1. 분석 모형 선정 3111
Section 1. 분석 절차 수립
- 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다.
- 현상에서 패턴을 발견하는 것은 탐색적 데이터 분석(EDA)이며, 현상에서 인과적인 결론을 도출하는 것은 통계적 추론, 현상을 예측하는 것은 기계학습(머신러닝)이다.
- 통계, 데이터 마이닝, 머신러닝 기반 분석 모델 기법을 고려하여 적합한 빅데이터 분석 모델을 선정한다.
Paragraph 1. 통계기반 분석 모형 선정
- 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라고 한다.
- 어떤 현상을 추정하고 예측을 검정하는 확률⋅통계적 기법으로는 기술 통계, 상관 분석, 회귀 분석, 분산 분석, 주성분 분석, 판별 분석 등이 있다.
-
기술 통계(Descriptive Statistics)
- 데이터 분석의 목적으로 수집된 데이터를 확률⋅통계적으로 정리⋅요약하는 기초적인 통계
- 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
- 막대그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악
- 분석 초기 단계에서 데이터 분포의 특징 파악
-
상관 분석(Correlation Analysis)
- 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
- 변수의 개수 및 데이터 속성에 따라서 세부 모델들로 분류
- 단순상관 분석
- 두 변수 사이의 연관 관계 분석
- 다중상관 분석
- 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
- 변수 간의 상관 분석
- 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터 등을 가지는 변수 간의 분석
-
회귀 분석(Regression Analysis)
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 독립변수와 종속변수의 개수 및 특성에 따라 단순 회귀, 다중 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀로 분류
- 단순 회귀
- 독립변수가 1개이며, 종속변수와의 관계가 직선
- 다중 회귀
- 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수)
- 다항 회귀
- 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, 독립변수가 1개일 경우에는 2차 함수 이상)
- 곡선 회귀
- 독립변수가 1개이며 종속변수와의 관계가 곡선
- 로지스틱 회귀
- 종속변수가 범주형(2진 변수)인 경우 적용
- 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
- 비선형 회귀
- 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
-
분산 분석(ANalysis Of VAriance; ANOVA)
-
두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산(총 평균과 각 집단의 평균 차이에 의해 생긴 분산)의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
-
복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
-
독립변수와 종속변수의 수에 따라서 일원분산 분석, 이원분산 분석, 다변량 분산 분석으로 분류
-
-
주성분 분석(Principal Component Analysis; PCA)
-
많은 변수의 분산 방식(분산⋅공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
-
PCA는 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
-
-
판별 분석(Discriminant Analysis)
- 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
Paragraph 2. 데이터 마이닝 기반 분석 모형 선정
Subparagraph 1. 데이터 마이닝(Data Mining) 개념
- 데이터 마이닝은 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하며 이를 통해 데이터 분석 및 더 나아가 유용한 정보, 지식 등을 추출하는 과정이다.
- 데이터 마이닝 기능 중 하나인 기술(Description)은 사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공할 수 있다.
Subparagraph 2. 데이터 마이닝 기반 분석 모델 분류
데이터 마이닝 기반 분석 모델은 분류(Classification), 예측(Prediction), 군집화(Clustering), 연관규칙(Association Rule) 모델이 있다.
Clause 1. 분류 모델(Classification Model)
- 분류(Classification)는 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주중의 하나로 분류하는 모델이다.
- 분류 모델로는 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 모델이 있다.
-
통계적 기법
- 로지스틱 회귀 분석, 판별 분석 등과 같은 다변량 통계이론에 근거한 기법
- 로지스틱 회귀 분석은 선형 회귀 분석과 달리 종속변수가 서열형, 범주형 혹은 명목형 데이터일 때 사용되는 기법으로, 분석 대상이 두 개 혹은 그 이상의 집단으로 구분되는 경우에 개별 관측치들이 어느 집단에 분류될 수 있는지를 분석하고 이를 예측하는 모델을 개발하는 데 사용되는 통계기법
-
트리 기반 기법
- 의사결정 규칙에 따라 관심 대상이 되는 집단을 몇 개의 소집단으로 분류하면서 분석하는 기법
CART 알고리즘
활용
-
최적화 기법
-
가장 적합한 값을 찾는 기법으로 서포트 벡터 머신 등이 있음
-
서포트 벡터 머신은 데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 확정적 모델 기반의 이진 선형 분류 방법(초평면에 가장 가까운 곳에 위치한 데이터는 서포트 벡터)
-
-
기계학습(Machine Learning)
-
인공지능의 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술
-
환경과의 상호작용에 기반한 경험적인 데이터로부터 스스로 성능을 향상시키는 시스템을 연구하는 기술
-
기대 출력값과 실제 출력값 간의 비교를 통해 계산된 오차를 시냅스 역할을 하는 노드에 가중치를 조정하여 모델에 반영한다. 이 과정을 신경망 구조가 안정화될 때까지 반복하여 예측 혹은 분류 모델을 구축
-
오차를 출력 계층에서 입력 계층으로 역방향을 반영하는 역전파 알고리즘을 통해 모델을 안정화하며 학습 과정을 기계적으로 단축
-
Clause 2. 예측 모델(Prediction Model)
- 예측 모델은 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측하는 기법이다.
- 예측 모델 기법으로는 회귀 분석, 의사결정나무, 인공신경망 모델, 시계열 분석등이 있다.
기법 | 설명 |
---|---|
회귀 분석 (Regression) |
• 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 |
의사결정나무 (Decision Tree) |
• 의사결정 규칙(Rule)을 트리구조로 도표화하여 분류(Classification)와 예측(Prediction)을 수행하는 분석 방법 • 판별 분석, 회귀 분석 등과 같은 변수(Parameter) 모형을 분석하기 위해 사전에 이상값(Outlier)을 검색할 때도 사용 가능 • 의사결정나무 자체를 분류 또는 예측 모형으로 사용 |
시계열 분석 (Time Series Analysis) |
• 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석기법 |
인공신경망 (Artificial Neural Network; ANN) |
• 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델 |
Clause 3. 군집화 모델(Clustering Model)
- 군집화는 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업이다.
- 군집방법은 크게 계층적 방법과 비 계층적 방법으로 구분한다.
-
계층적 방법
- 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
- 계층적 방법의 기법으로 응집분석법과 분할분석법이 있음
- 응집 분석법
- 각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법
- 분할 분석법
- 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법
-
비 계층적 방법
-
군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
-
비 계층적 방법의 기법으로 K 평균 군집화가 있음
-
K 평균 군집화는 K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식
-
Clause 4. 연관규칙 모델(Association Rule Model)
- 연관규칙이란 데이터에 숨어있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 것이다.
- 연관 분석은 장바구니 분석이라고도 불리며 주로 마케팅에서 활용된다.
- 연관 분석은 고객의 구매데이터를 분석하여 ‘어떠한 상품이 또 다른 어떠한 상품과 함께 판매될 확률이 높은가?’와 같은 연관된 규칙을 도출하는 기법이다.
Paragraph 3. 머신러닝 기반 분석 모형 선정
머신러닝 기반의 데이터 분석기법은 일반적으로 목적변수(혹은 반응변수, 목표변수, 출력 목푯값 등으로 표현) 존재 여부 등에 따라 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning; 자율 학습), 강화 학습(Reinforcement Learning), 준지도 학습(Semi-Supervised Learning)으로 구분한다.
Subparagraph 1. 지도 학습
Clause 1. 지도 학습(Supervised Learning) 개념
- 지도 학습은 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법이다.
- 지도 학습은 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점이 있으며 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합하다.
- 지도 학습은 분석하고자 하는 목적변수(혹은 반응변수, 종속변수)의 형태가 수치형(양적 변수)인가 범주형(질적 변수)인가에 따라 분류와 수치예측 방법으로 다시 나눌 수 있다.
Clause 2. 지도 학습 유형
지도 학습 유형에는 로지스틱 회귀, 인공신경망 분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트, 감성 분석 등이 있다.
유형 | 설명 |
---|---|
로지스틱 회귀 (Logistic Regression) |
반응변수가 범주형인 경우 적용되는 회귀 분석 모형 |
인공신경망 분석 (Artificial Neural Network; ANN) |
인간의 뉴런 구조를 모방하여 만든 기계학습 모델 |
의사결정나무 (Decision Tree) |
데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델 |
서포트 벡터 머신 (Support Vector Machine) |
데이터를 분리하는 초평면(Hyperplane) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진선형 분류 모델 |
랜덤 포레스트 (Random Forest) |
의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 |
감성 분석 (Sentiment Analysis) |
어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석 |
Subparagraph 2. 비지도 학습
Clause 1. 비지도 학습(Unsupervised Learning; 자율학습) 개념
- 비지도 학습은 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법이다.
- 비지도 학습은 목적변수(혹은 반응변수, 종속변수, 목표변수, 출력값)에 대한 정보 없이 학습이 이루어지는 방법이다.
Clause 2. 비지도 학습 특징
- 예측의 문제보다는 주로 현상의 설명(Description)이나 특징 도출, 패턴 도출 등의 문제에 많이 활용된다.
- 일반적으로 명확하고 목적이 있는 지도 학습 기법과 비교하면 비지도 학습 기법은 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강하다.
- 자율학습 혹은 비지도 학습에 속하는 대표적인 기법은 군집화(Clustering), 차원축소 기법, 연관 관계분석(장바구니 분석), 자율학습 인공신경망(
자기 조직화 지도
등)의 기법이 있으며, 최근 관심이 높아지고 있는 딥러닝(Deep Learning)기법에서도 입력 특성들의 차원을 축소하는 단계에서 비지도 학습 기법이 적용된다.
Paragraph 4. 변수에 따른 분석기법 선정
- 변수의 유형 및 개수를 확인하는 단계로 이에 따른 모델을 검토한다.
Subparagraph 1. 변수의 개수에 따른 분석 기법
⬇변수 분석
구분 | 설명 |
---|---|
단일변수 분석 | • 변수 하나에 대해 기술 통계 확인을 하는 단계 • 히스토그램이나 박스 플롯을 사용해서 평균, 최빈값, 중위수 등과 함께 각 변수의 분포를 확인 • 범주형 변수의 경우 박스 플롯(Boxplot)을 사용해서 빈도수 분포 체크 |
이변수 분석 | • 변수 2개 간의 관계를 분석하는 단계 • 변수의 유형에 따라 적절한 시각화 및 분석 방법 선택 |
다변수 분석 | • 세 개 이상의 변수 간의 관계를 시각화, 분석하는 방법 • 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석 • 세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석 |
- 이변수이면 다음과 같이 변수 간 관계를 확인하여 분석 방법을 선정한다.
Subparagraph 2. 독립변수와 종속변수의 데이터 유형에 다른 분석기법
- 독립변수와 종속변수가 주어져 있는 경우에는 이들을 이용하여 주어진 독립변수에 대한 종속변수의 값을 예측, 분류하는 분석 모델을 개발한다.
Paragraph 5. 분석 기법 선정 고려사항
- 분석 모형을 구축하는 목적과 입력되는 데이터, 변수의 해석 가능 여부에 따라 기법을 선택한다.
- 단일 모형을 선택하거나 다수의 모형을 조합한 앙상블 기법을 선택한다.
Paragraph 6. 분석 모형 활용 사례
기법 | 기법 설명 | 활용 사례 |
---|---|---|
연관규칙학습 | 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | • 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? • 치킨을 먹는 사람은 어떤 종류의 음료를 많이 마실까? |
분류 분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | • 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연 선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 | • 응급실에서 응급 처리 프로세스를 어떻게 배치하는 것이 가장 효율적인가? |
기계학습 | 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법 | • 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까? |
회귀 분석 | 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용 | • 구매자의 나이가 구매 차량의 유형에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | • 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜 네트워크 분석 | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 | • 고객들 간 관계망은 어떻게 구성되어 있나? |