Article 1. 데이터 탐색 개요 2211
Section 1. 데이터 탐색 기초
Paragraph 1. 데이터 탐색 개념
- 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법이다.
- 데이터 탐색의 도구로는 도표, 그래프, 요약 통계를 이용한다.
Paragraph 2. 탐색적 데이터 분석(Exploratory Data Analysis; EDA)의 4가지 주제(특징)
저항성의 Resistance, 잔차 해석의 Residual, 자료 재표현의 Re-expression, 현시성의 Representation의 앞 글자 R을 따서 Four R’s로 명명한다.
주제(특징) | 내용 |
---|---|
저항성(Resistance) | • 저항성은 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 • 저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음 • 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용 |
잔차 해석(Residual) | • 잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도 • 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 • 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 |
자료 재표현(Re-expression) | • 자료의 재표현은 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그 변환, 제곱근 변환, 역수 변환 등)로 바꾸는 것 • 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많음 |
현시성(Graphic Representation) | • Display, Visualization, 데이터 시각화로도 불림 • 현시성이란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미 • 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악이 가능 |
Paragraph 3. 개별 변수 탐색 방법
개별 데이터에 대한 탐색은 범주형, 수치형일 경우로 나누어 탐색한다.
데이터 유형 | 설명 |
---|---|
범주형 데이터(질적 데이터) | • 명목 척도와 순위 척도에 대한 데이터 탐색 • 빈도수, 최빈값, 비울, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악 • 시각화는 막대형 그래프(Bar Plot)를 주로 이용 |
수치형 데이터(양적 데이터) | • 등간 척도와 비율 척도에 대한 데이터 탐색 • 평균, 분산, 표준 편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악 • 시각화는 박스 플롯이나 히스토그램 주로 이용 |
Paragraph 4. 다차원 데이터 탐색 방법
주어진 데이터의 조합에 따라 범주형-범주형, 수치형-수치형, 범주형-수치형 데이터를 탐색하는 방법이 있다.
데이터 조합 | 설명 |
---|---|
범주형-범주형 | • 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석 • 시각화는 막대형 그래프(Bar Plot)를 주로 이용 |
수치형-수치형 | • 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석 • 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화 • 공분산을 통하여 방향성 파악 • 피어슨(Pearson) 상관계수를 통하여 방향과 강도 파악 |
범주형-수치형 | • 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교 • 그룹 간 비교를 위하여 주로 박스플롯을 이용하여 시각화 |